音声認識技術はどういう仕組み?ipadのSiriで実験
音声認識とは喋った言葉を文字に変換する機能で、
技術自体は以前からありましたが、
実用域に達してない物がほとんどでした。
しかしiphone、ipadのSiriを使ってみると、
自分が喋った言葉を間違いなく変換してくれます。
これはすごいな~と感じました、
昔のモノは誤変換が多くて使い物にならなかったからです。
音声認識の仕組み
音声波形
音と言うのは空気を伝わる振動で、
その振動をグラフで表した物を音声波形と呼びます。
見た事があると思います。
この音声波形を自然と聞き分けるのが我々の耳で、
これを言葉に変換するのが音声ソフトです。
ようするに「あ」なら「あ」の音声波形があります、
膨大な数のデータを集め解析、学習させることで音声認識を行います。
当然人によって差はありますが基本的に波形は似てます、
なので我々が言った言葉を文字に変換出来るわけです。
単語の流れを読む
ただこれだけですと誤差が生じます、
つまり我々が言った言葉を正しく認識してくれないわけです。
試しに音声認識ソフトに「ボールを打ちました」、
と言うと「ボール落ちました」と変換されました。
アナウンサーが喋るようにハキハキ言えば変換されましたが、
従来のモノはゆっくり、ハッキリ言ってもダメでした。
現在のモノは単語の流れを読み、次の言葉を判断します。
例えば「ボールを」の、次に続く言葉は「投げる」「打つ」、
これらの単語が続く可能性が高いです。
「ボールが料理をする」このような事はありえませんし、
このような言葉を日常生活で使う事はありません。
なので音声波形+単語の流れを読み、
確率が高い物を表示するようになっています。
音声認識の目覚ましい進歩
アップル社のiPadを持っているので試しに、
「ぶおぉおぅうるを打ちました」と言いました。
するとSiriは「ボールを打ちました」と変換してくれました。
「ぶおぉおぅうる」と言う単語はない、
ぶおぉおぅうる→ぶおうる→ぼーる ボールと判断、
このような流れで処理したんだと思います。
すでにスマートフォンでメールを打つ時に、
音声認識ソフトを使用してる方もいます。
将来的に変換の精度が高まればパソコンで文章を打つ時、
全て言葉で喋って入力出来る日が来るかもしれません。
文字を打つよりも喋った方が圧倒的に早いですから、
上手く行けばかなりの技術革新ですよね、将来が楽しみです。
スポンサードリンク