認識とは?
|
音声認識(おんせいにんしき, Speech Recognition)は、ヒトの話す音声言語をコンピュータによって解析し、話している内容を文字データとして取り出す処理のこと。キーボードからの入力に代わる文字入力方法として注目を集めている。 音声認識に関連が深い技術として、あらかじめ記録しておいた音声パターンと比較して個人認証等をおこなう、話者認識がある。 パソコンの場合、文章を入力する用途では音声入力またはディクテーション、アプリケーションの操作は音声操作と呼ばれる。 音声認識では、統計的手法が良く用いられている。 つまり、大量の発話を記録した学習用データから音声の特徴を学習し、入力された音声信号をそれらの特徴と照らし合わせながら、 最も尤もらしい言語系列を認識結果として出力する。 一般に、音声の音響的な特徴と言語的な特徴を分離して扱うことが多い。 音響的な特徴とは、認識対象の音素がそれぞれどのような周波数特性を持っているかを表したもので、音響モデルと呼ばれる。 音響モデルの表現としては、混合正規分布を出力確率とした隠れマルコフモデルが広く用いられている。 言語的な特徴とは、音素の並び方に関する制約を表したもので、言語モデルと呼ばれる。 例えば、「あなた (a n a t a)」という発声の直後には、「が (g a)」や「は (w a)」などの発声が続く確率が高い、などの制約である。 言語モデルの表現として、認識対象の言語が大規模な場合(パソコン上での文書作成など)はn-gramが良く用いられ、 認識対象の言語が人手で網羅出来る程度に小さい場合(カーナビの音声操作など)は、文脈自由文法が良く用いられる。 動的時間伸縮法(Dynamic time warping)は初期の音声認識手法であるが、隠れマルコフモデルに基づく手法が一般化したため、使われなくなった。時間または早さの異なる2つの信号シーケンスの間の類似度を測るアルゴリズムである。例えば、人間の歩行のパターンは、素早く歩いても、ゆっくり歩いても、さらには歩行の画像を早送りしてもスロー再生しても一定のパターンが存在する。DTW は音声だけでなく動画などの任意の時系列のデータに適用可能である。音声認識においては、発声速度がどうであっても一定のパターンを検出するために使われていた。従って、比較のための標準パターンが必要であり、認識できる語彙は限定される。 音声信号は、断片的あるいは短時間の定常信号と見ることができ、隠れマルコフモデルが適用可能である。すなわち、10ミリ秒程度の短時間でみた場合、音声信号は近似的に定常過程と見なすことができる。従って、音声を多くの確率過程のマルコフ連鎖と考えることができる。 また、隠れマルコフモデルによる音声認識は自動的にトレーニングされ、単純で計算量もそれほど多くない。音声認識について考えられる最も簡単な設定では、隠れマルコフモデルは10ミリ秒ごとに例えば13次元程度の実数値ベクトルを出力するだろう。このベクトルはケプストラム係数から成る。ケプストラム係数は短時間の信号のフーリエ変換にコサイン変換を使って、その第一(最大)係数を取り出したものである。隠れマルコフモデルは、それぞれの観測されたベクトルの尤度を与える対角共分散のガウス分布の混合ともいうべき確率分布を持つ傾向がある。各単語や各音素はそれぞれ独自の出力分布を持つ。単語列あるいは音素列に関する隠れマルコフモデルは、個々の単語や音素の隠れマルコフモデルを連結したものとなる。 以上は、隠れマルコフモデルをベースとした音声認識に共通する概念である。最近の音声認識システムはそれに加えて、様々な性能向上のための技法を組み合わせている。語彙の多いシステムでは、音素について文脈依存性を考慮する。また、話者間の違いや録音状況の違いを正規化するために、ケプストラムの正規化が行われる。他にも話者正規化の試みとして、男女間の正規化のための声道長正規化 (VTLN) や、より不特定多数の話者に対応するための最尤線形回帰 (MLLR) がある。 個人向けに市販されている音声認識ソフトでは、雑音のない静かな部屋などで、ユーザーがいくつかのコツを知っていれば十分実用的な認識率を示す。ただし屋内であっても複数の人間がいる会社や、屋外などの騒音のある環境では認識が困難である。また、複数の話者による発声や、音声認識向けと意識していない発声(たとえばインタビューや会議など)を認識するのは困難である。企業・組織向けでは、会議などでの議事録として使える、より高度なソフトも販売されている。 話者を限定して、事前にトレーニングを行う方式の音声認識システムでは、98%から99%の認識率が達成できるとされている(理想的な環境の場合)。語彙を限定し、トレーニングを必要としないシステムでは、不特定多数の話者の音声を認識できるが、語彙が少ないため、あらゆる状況に適用できるわけではない。 音声認識技術に関する特許出願技術動向調査報告(PDF) 特許庁総務部技術調査課(2003年5月22日) |
[ 97] 音声認識 - Wikipedia
[引用サイト] http://ja.wikipedia.org/wiki/%E9%9F%B3%E5%A3%B0%E8%AA%8D%E8%AD%98
|
公衆電話やPHS、携帯電話から利用した場合の性能はどの程度でしょうか。 キーボードやマウスの代わりとして、連続的に自由に話した音声を書き取ることは可能ですか。 標準語とは異なるアクセントやイントネーションの方言でも認識できますか。 話者が認識対象外の発声をした場合には、どのような認識結果が得られるのでしょうか。 文法指定ファイル(単語リストおよびBNFネットワーク文法)とは何ですか。 ShakerRec Serverは高精度音声認識機能を提供するソフトウェアです。本ソフトウェアはNTTサイバースペース研究所で開発された日本語音声認識エンジンVoiceRexを搭載しております。本ソフトウェアを用いると、マイクや電話などを通して喋った人の声を認識してコンピュータを操作したり、データを入力するなどの機能を持ったアプリケーションプログラムを作成することができます。 認識したい一連の単語をテキストもしくは実際の音声登録によって指定することで可能となる孤立単語認識機能と、複数の単語や無音が連なって現れる様子をテキストによってBNFネットワーク文法と呼ばれる形で指定することで可能となる連続単語認識機能があります。 ShakerRec Serverでは、認識したい言葉をテキスト(単語リストやBNFネットワーク文法)として用意することで、誰の声でも認識可能となる不特定話者音声認識方式を採用しており、基本的に年齢や男女を問わず誰の声でも認識することが可能です。 しかし発音の明瞭性や喋り方、類似した言葉の多少など、認識対象の性質や音声の入力条件等によって認識率は変動することがあります。 例えば、子供(特に、小学生以下)の声では十分な性能が得られない場合があります。 またShakerRec Serverは、認識したい言葉をあらかじめ特定の人の声で登録しておくことで登録者の音声が特に良く認識可能となる特定話者音声認識方式にも対応しています。 音声認識率は、発音の明瞭性や喋り方、類似した言葉の多少(同時に認識する対象が大きくなると一般に類似語が増加します)など認識対象の性質、雑音の大小やマイクか電話かなどの音声の入力条件等によって認識率は変動することがあります。 性能の概略を表現すると、背景雑音が比較的少なく、また電話を使った成人男女の声による入力の場合で、5000単語程度の孤立単語認識では、平均95%程度の認識率が得られます。 また、認識にかかる時間も、認識対象語彙が多く、誤りが発生しやすい(認識が難しい)ほど時間がかかる傾向にあります。 音声認識エンジンVoiceRexは電話を通じて入力される音声の認識性能を向上させるため、NTT研究所が長年にわたり蓄積した大量の電話音声データを用いて作成した電話音声認識用の音響モデルを複数搭載しています。 また、電話機毎に異なるマイクなどの特性を補正する機能も備えています。したがって、これらの音響モデルと対策機能を組み合わせることによって、十分な性能が確保されます。 5000単語程度の認識では、公衆電話やPHSで約95%、携帯電話で90%以上の性能が得られます。ただし、ユーザの話し方、認識対象とする語彙の中に含まれる音響的に類似した言葉の多さ、使う電話機や回線の特性、雑音の大きさなどにより、性能が変動することがあります。 音声が入力される際に同時に混入する雑音の種類と大きさによって影響が異なります。雑音にあまり大きな変動がなく、また音声の音量が十分大きい場合には、ほとんど影響がなく、また対策も必要ありません。 しかし人間が聞いてはっきりと雑音の存在が意識されるような場合には、通常の認識方法では認識率の低下を招きます。 ShakerRec Serverでは、このような場合に対処する機能として雑音除去・抑圧機能と雑音適応化機能を搭載しています。 これらの対策機能を組み合わせることによって、十分な性能が確保されます。 [01-008]キーボードやマウスの代わりとして、連続的に自由に話した音声を書き取ることは可能ですか。 ShakerRec Serverを用いるとキーボードやマウスによる入力手段に加えて音声によるコンピュータへのコマンド入力やBNFネットワーク文法で指定された範囲での定型的な文章の入力が可能になります。 ただし、指定された文法の範囲外となるような自由な発声内容の音声を一字一句すべてを書き取ることはできません。 ShakerRec Serverによるこのような音声認識機能は、キーボードやマウスの完全な代用ではなく、これらと併用もしくはバランスよく使い分けることによって今まで以上の操作効率をもたらすアプリケーションが構築できます。 ShakerRec Serverでは[01-003]で解説したように誰の声でも認識可能な不特定話者音声認識方式を搭載しているため、一般的な音声認識を使い始めるにあたり音声を登録する必要はありません。 しかし使い始めた結果、性能が思わしくないという場合や使う人が限られている場合に特定の人の声だけを特に良く認識するように音声認識を調整したい時があります。 ShakerRec Serverではこのような場合に対処する機能として、使用者の音声をあらかじめ登録することで音声認識を使用者本人に適応する機能(話者適応化機能)を搭載しています。 [01-010]標準語とは異なるアクセントやイントネーションの方言でも認識できますか。 また、地方によって異なるアクセントの位置や、異なるイントネーションで読み上げられる単語や文章であっても、基本的に読み方の綴りが同じで標準的な日本語で発声されたものであれば、問題なく認識できます。 ただし、方言によっては綴りが同じであっても標準的な日本語の発音で発声しない言葉(例えば、「あいうえお」のどれにも該当しない曖昧な母音を使う、「い」と「え」を区別しない、「ざじずぜぞ」の表記を「だぢづでど」と発声するなどが実際に存在します)があるような場合には、単語リストやBNFネットワーク文法の調整、[01-009]で紹介した話者適応化機能による調整が必要となります。 したがって読みが全く同一であれば、単語リストやBNFネットワーク文法に登録はできますが、基本的には区別して認識することはできません。 また、複数の単語連鎖中に同音異義語がある場合であっても、BNFネットワーク文法などを用いると、その文脈によっては、区別が可能な時もあります。 [01-013]話者が認識対象外の発声をした場合には、どのような認識結果が得られるのでしょうか。 認識対象の中で、発声した音声に最も似ていると判断した候補を認識結果として出力する場合と、全く結果が得られない場合の2通りがあります。 また、話者が認識対象外の発声を行ったかどうかを判定するには、候補のスコアから認識の確からしさを判断することが必要です。 音響モデルには、音声認識に用いる基本的な音の単位(子音や母音など)の情報が記述されています。 ShakerRec Serverでは、いろいろな人の標準的な日本語の音声がマイクや電話を通して入力される際に十分な性能を発揮できるように、男女や年齢、マイクや電話機のいろいろな組み合わせからの音声データを用いて作成した音響モデルを複数搭載しています。 アプリケーションに応じて適切なものを選択することで高い性能を得ることが可能です。 ShakerRec Serverでは、認識したい言葉をテキストとして用意することで、誰の声でも認識可能となる不特定話者音声認識方式を採用しています。 この認識したい言葉を指定するのが、文法指定ファイル「単語リスト」および「BNFネットワーク文法」で、テキストエディタを使って簡単に作成が可能です。 単語リストでは、孤立単語認識を行う場合に用いる一連の単語を「表記と読み」を対にして与えます。 BNFネットワーク文法は連続単語認識を行う場合に用いるもので、単語リストと同様に用いる単語の「表記と読み」を対にして与えると同時に、それらの単語の接続規則を記述します。 音声認識には、音声を登録した話者の声だけを認識する「特定話者音声認識」と、音声を登録しなくても誰の声でも認識する「不特定話者音声認識」があります。 入力された音声(ディジタル化された信号)を分析し、音響的な特徴量を抽出します。 認識対象の語彙(文法)の範囲で、入力音声の特徴量と音響モデル(多数の話者の音声から求めた音素の統計的な音響特徴情報)を照合し(候補探索)、認識対象の語彙の中で入力音声に最も近い候補を認識結果として出力します。 音声認識の原理については 音声認識とは のページでもご紹介しています。 情報通信・音声応答分野(電話サービスや、PC系の電話音声応答システムでの利用) 自動車・ハンズフリー分野(カーナビや携帯電話での音声認識利用) で盛んに利用されています。従来から利用されている分野としては、 特に電話音声の認識は最高レベルであると申し上げても良いと思います。 さらに、各種雑音耐性機能、話者適応機能、回線適応機能などが準備されており、さまざまな利用環境で商用の実績も豊富にございます。 |
[ 98] NTT-IT +++ 音声認識 FAQ +++
[引用サイト] http://www.ntt-it.co.jp/goods/vcj/voice/sr_faq01.html
