音声認識技術はどういう仕組み？ipadのSiriで実験

面白いコラムサイト　おもコラ TOP
コンピューター
音声認識技術はどういう仕組み？ipadのSiriで実験

2013年11月02日 [コンピューター]

スポンサードリンク

音声認識とは喋った言葉を文字に変換する機能で、

技術自体は以前からありましたが、

実用域に達してない物がほとんどでした。

しかしiphone、ipadのSiriを使ってみると、

自分が喋った言葉を間違いなく変換してくれます。

これはすごいな～と感じました、

昔のモノは誤変換が多くて使い物にならなかったからです。

音声認識の仕組み

音声波形

音と言うのは空気を伝わる振動で、

その振動をグラフで表した物を音声波形と呼びます。

見た事があると思います。

この音声波形を自然と聞き分けるのが我々の耳で、

これを言葉に変換するのが音声ソフトです。

ようするに「あ」なら「あ」の音声波形があります、

膨大な数のデータを集め解析、学習させることで音声認識を行います。

当然人によって差はありますが基本的に波形は似てます、

なので我々が言った言葉を文字に変換出来るわけです。

単語の流れを読む

ただこれだけですと誤差が生じます、

つまり我々が言った言葉を正しく認識してくれないわけです。

試しに音声認識ソフトに「ボールを打ちました」、

と言うと「ボール落ちました」と変換されました。

アナウンサーが喋るようにハキハキ言えば変換されましたが、

従来のモノはゆっくり、ハッキリ言ってもダメでした。

現在のモノは単語の流れを読み、次の言葉を判断します。

例えば「ボールを」の、次に続く言葉は「投げる」「打つ」、

これらの単語が続く可能性が高いです。

「ボールが料理をする」このような事はありえませんし、

このような言葉を日常生活で使う事はありません。

なので音声波形＋単語の流れを読み、

確率が高い物を表示するようになっています。

音声認識の目覚ましい進歩

アップル社のiPadを持っているので試しに、

「ぶおぉおぅうるを打ちました」と言いました。

するとSiriは「ボールを打ちました」と変換してくれました。

「ぶおぉおぅうる」と言う単語はない、

ぶおぉおぅうる→ぶおうる→ぼーる　ボールと判断、

このような流れで処理したんだと思います。

すでにスマートフォンでメールを打つ時に、

音声認識ソフトを使用してる方もいます。

将来的に変換の精度が高まればパソコンで文章を打つ時、

全て言葉で喋って入力出来る日が来るかもしれません。

文字を打つよりも喋った方が圧倒的に早いですから、

上手く行けばかなりの技術革新ですよね、将来が楽しみです。

スポンサードリンク

コメントは受け付けていません。

サブコンテンツ

音声認識技術はどういう仕組み？ipadのSiriで実験