ディープラーニングは音声認識に分野でも利用されています。音声認識とは人間が話した言葉を機械が認識することを意味し、文章化を行ったり人間に近い発音を可能にします。
近年、AIによる音声認識システムを導入することで、作業工程の自動化と時間短縮を実現し、業務効率化や生産性向上が期待されており注目される分野です。
この記事では、G検定を受験する方のために、音声認識とは何か、どのような手法を用いるのか解説していきます。ぜひ参考にしてください。
- 音声認識のしくみの解説
- 音声合成のしくみの解説
- 代表的な音声認識モデルの紹介
音声認識・音声合成とは
音声認識とは、人の声の波形を機械で処理し、どのような文であるかを推定することで音声からテキストデータに変換する技術です。
音声合成は、音声認識とは反対にテキストデータに対応する音声を自動生成する技術を意味します。
これらの技術は実際は一緒に使うことが多いですが、昔は別々の要素技術に基づいてそれぞれ発展してきましたが、現在では要素として技術進展しています。
音声認識のしくみ
近年では、音声認識・音声合成ともに大量の学習データを用いる「隠れマルコフモデル(Hidden Markov Model)」を採用することで、ルールベースでなく自動で学習できるようになり、この分野の技術が格段に進化しました。
従来の音声認識モデル
1980年に時系列の統計モデルである隠れマルコフモデル(HMM: Hidden Markov Model)という音声認識モデルが発明されて、大規模な音声データベースと伴って、ルールベースではなくそのモデルによる音声認識システムが実用化され、自動で学習ができるようになりました。
その後、HMMの限界が認識されはじめて、ディープラーニングによる技術のブレークスルーに伴い、ディープラーニングを用いた音声認識モデルに移行することになります。
ディープラーニングを用いた音声認識モデル
近年は音声認識にディープラーニングの技術が用いられ、「音響モデル」「言語モデル」それぞれに、ディープラーニングを用いることで膨大な情報を処理できようになり、音声認識の精度が大きく改善しました。
従来の音響モデルは、HMM音響モデルからの特徴量出力確率である多次元混合ガウス分布(GMM)を用いていたが、これをDNNに置き換えることで3割りもの誤認識が改善することになります。
精度向上のためにDNNだけではなく、CNNを利用したもの、LSTM等も使われることもあります。
言語モデルに関しては、従来のN-gram言語モデルに対して、RNNを用いることで再帰構造を利用して、単語予測を実現するアプローチが取られています。
代表的な音声認識モデル
WaveNet
これはDNNの音声認識に合わせて、音声合成をRNN(リカレントニューラルネットワーク)を用いて可能にしたモデルです。
音声合成は与えられた文やデータから、人が話す音声を合成する技術で、既存の手法に比べて人間らしい発話が可能となり、スマートスピーカー等へ応用されています。
音声認識、音声合成の応用例
チャットボット
近年、スマートスピーカに内蔵されているチャットボットが一般化されていますが、このデバイスは音声認識、音声合成の技術を搭載しています。
チャットボットの歴史と詳しい説明は以下の記事で紹介しています。ぜひこちらもご覧ください。
まとめ
この記事は、音声認識と音声合成についてのディープラーニングの利用について解説しました。
音声認識は人間が話した言葉を機械が認識し、文章化したり人間に近い発音を可能にする技術で、音声合成はテキストデータに対応する音声を自動生成する技術を指します。
これらの技術は、スマートスピーカーに内蔵されているチャットボットなど、現代の多くのデバイスやアプリケーションで使用されて身近なものになっており、今後もさらに進化していくでしょう。