自動音声認識（ASR）とは？基本を徹底解説

Hiroyuki Kikuchi

2023.09.29

AI
テック

Technology

Technology部の菊池です。

当記事では「自動音声認識（ASR）」の基礎や認識率をあげる方法、エコシステムのソリューション事例を紹介します。

音声認識について学びたいみなさま、ぜひご覧ください。

※開発をご検討中の方は、音声認識システムの開発に強い会社まとめもご覧ください！

ASRとは
ASRを活用したエコシステム案
- 1.ビデオ会議議事録の自動作成・要約
- 2.1on1による感情分析の変化
まとめ
- 最新情報をメルマガでお届けします！

ASRとは

自動音声認識（ASR:Automatic Speech Recognition）とは、人間の音声をテキストに変換する技術のことです。具体的には、マイクロフォンや録音デバイスを通じて取得された音声データを、テキスト形式に変換するプロセスを指します。逆に、テキストを音声として出力させることも可能です。

ASRを採用しているクラウドサービス

ASRを採用しているクラウドサービスは次のとおりです。

クラウドサービス名	音声から文字	音声から翻訳
AWS	AWS Transcribe	未対応
Azure	Azure Cognitive Services	Azure Cognitive Services
GCP	Speech-to-Text	未対応

「Azure Cognitive Services」とは

「Azure Cognitive Services」は、音声をリアルタイムかつ高精度で変換してくれる便利なサービスです。音声からの直接翻訳もサポートしていて、日本語⇔英語だけでなく、日本語⇔ベトナム語などにも対応しています。

たとえば、「株式会社LIGの菊池です。よろしくお願いします」と発話すれば、リアルタイムに文字起こしをしてくれます。また、「LIG」という社名を事前に語句リストに登録しておくと、より正しい文字起こしが実現します。

また、同時翻訳も可能です。以下のキャプチャは、「こんにちは。今日はとても暑いです。秋が待ち遠しいですね」という発話がリアルタイムで英文に翻訳されている様子です。

ASRを採用しているモデル

ASRを採用している生成AIモデルは以下のとおりです。

提供元	モデル名	特徴
OpenAI	Whisperモデル	1. Whisperモデルを利用可能なAPIが提供されている 2. 言語を英語に翻訳文字起こしが可能 3. 68万時間の多言語音声データを使用して訓練されている 4. 99言語の音声認識 5. オープンソースとして公開されており、PythonやNodeJSを通じてモデルアクセスが可能
Meta	Massively Multilingual Speech（MMS）	1.1100以上の言語でテキストから音声への変換（TTS）と音声からテキストへの変換（ASR）をサポート 2. 1100以上の言語でのテキストと音声データを含む大規模なデータセットで訓練 3. オープンソースとしてモデルが公開されており、PythonやNodeJSを通じてモデルアクセスが可能

クラウドとモデル、どちらを使うべきか

ASRシステムやサービスを構築する際、「クラウドを使う」「モデルを直接使用する」という2つの選択肢があります。

クラウドを使った方がよい場合

フルマネージドなサーバーを構築したい場合、つまりASRサーバーをブラックボックス化したい場合は、クラウドの活用をおすすめします。

業界の独自の用語をテキストベースでファインチューニングさせられるため、MLOps（Machine Learning Operations）のハードルが下がります。また、AWS Transcribeのカスタムモデルのように、自然言語処理モデル（NLPモデル）によるファインチューニングも、テキストを用意するだけで完結します。この特性を活かせば、特定の業界に特化したアウトプットが可能です。