音声認識技術はどういう仕組み?ipadのSiriで実験

スポンサードリンク




音声認識とは喋った言葉を文字に変換する機能で、

技術自体は以前からありましたが、

実用域に達してない物がほとんどでした。

 

しかしiphone、ipadのSiriを使ってみると、

自分が喋った言葉を間違いなく変換してくれます。

 

これはすごいな~と感じました、

昔のモノは誤変換が多くて使い物にならなかったからです。

 

音声認識の仕組み

2013y11m02d_211721502

音声波形

 

音と言うのは空気を伝わる振動で、

その振動をグラフで表した物を音声波形と呼びます。

 

見た事があると思います。

 

この音声波形を自然と聞き分けるのが我々の耳で、

これを言葉に変換するのが音声ソフトです。

 

ようするに「あ」なら「あ」の音声波形があります、

膨大な数のデータを集め解析、学習させることで音声認識を行います。

 

当然人によって差はありますが基本的に波形は似てます、

なので我々が言った言葉を文字に変換出来るわけです。

 

 単語の流れを読む

ただこれだけですと誤差が生じます、

つまり我々が言った言葉を正しく認識してくれないわけです。

 

試しに音声認識ソフトに「ボールを打ちました」、

と言うと「ボール落ちました」と変換されました。

 

アナウンサーが喋るようにハキハキ言えば変換されましたが、

従来のモノはゆっくり、ハッキリ言ってもダメでした。

 

現在のモノは単語の流れを読み、次の言葉を判断します。

 

例えば「ボールを」の、次に続く言葉は「投げる」「打つ」、

これらの単語が続く可能性が高いです。

 

「ボールが料理をする」このような事はありえませんし、

このような言葉を日常生活で使う事はありません。

 

なので音声波形+単語の流れを読み、

確率が高い物を表示するようになっています。

 

音声認識の目覚ましい進歩

アップル社のiPadを持っているので試しに、

「ぶおぉおぅうるを打ちました」と言いました。

するとSiriは「ボールを打ちました」と変換してくれました。

 

「ぶおぉおぅうる」と言う単語はない、

ぶおぉおぅうる→ぶおうる→ぼーる ボールと判断、

このような流れで処理したんだと思います。

 

すでにスマートフォンでメールを打つ時に、

音声認識ソフトを使用してる方もいます。

 

将来的に変換の精度が高まればパソコンで文章を打つ時、

全て言葉で喋って入力出来る日が来るかもしれません。

 

文字を打つよりも喋った方が圧倒的に早いですから、

上手く行けばかなりの技術革新ですよね、将来が楽しみです。


スポンサードリンク


コメントは受け付けていません。

サブコンテンツ

このページの先頭へ