自動音声認識(ASR)とは?基本を徹底解説

自動音声認識(ASR)とは?基本を徹底解説

Hiroyuki Kikuchi

Hiroyuki Kikuchi

Technology部の菊池です。

当記事では「自動音声認識(ASR)」の基礎や認識率をあげる方法、エコシステムのソリューション事例を紹介します。

音声認識について学びたいみなさま、ぜひご覧ください。

※開発をご検討中の方は、音声認識システムの開発に強い会社まとめもご覧ください!

ASRとは

自動音声認識(ASR:Automatic Speech Recognition)とは、人間の音声をテキストに変換する技術のことです。具体的には、マイクロフォンや録音デバイスを通じて取得された音声データを、テキスト形式に変換するプロセスを指します。逆に、テキストを音声として出力させることも可能です。

ASRを採用しているクラウドサービス

ASRを採用しているクラウドサービスは次のとおりです。

クラウドサービス名 音声から文字 音声から翻訳
AWS AWS Transcribe 未対応
Azure Azure Cognitive Services Azure Cognitive Services
GCP Speech-to-Text 未対応

「Azure Cognitive Services」とは

「Azure Cognitive Services」は、音声をリアルタイムかつ高精度で変換してくれる便利なサービスです。音声からの直接翻訳もサポートしていて、日本語⇔英語だけでなく、日本語⇔ベトナム語などにも対応しています。

たとえば、「株式会社LIGの菊池です。よろしくお願いします」と発話すれば、リアルタイムに文字起こしをしてくれます。また、「LIG」という社名を事前に語句リストに登録しておくと、より正しい文字起こしが実現します。

 
また、同時翻訳も可能です。以下のキャプチャは、「こんにちは。今日はとても暑いです。秋が待ち遠しいですね」という発話がリアルタイムで英文に翻訳されている様子です。

ASRを採用しているモデル

ASRを採用している生成AIモデルは以下のとおりです。

提供元 モデル名 特徴
OpenAI Whisperモデル 1. Whisperモデルを利用可能なAPIが提供されている
2. 言語を英語に翻訳文字起こしが可能
3. 68万時間の多言語音声データを使用して訓練されている
4. 99言語の音声認識
5. オープンソースとして公開されており、PythonやNodeJSを通じてモデルアクセスが可能
Meta Massively Multilingual Speech(MMS) 1.1100以上の言語でテキストから音声への変換(TTS)と音声からテキストへの変換(ASR)をサポート
2. 1100以上の言語でのテキストと音声データを含む大規模なデータセットで訓練
3. オープンソースとしてモデルが公開されており、PythonやNodeJSを通じてモデルアクセスが可能

クラウドとモデル、どちらを使うべきか

ASRシステムやサービスを構築する際、「クラウドを使う」「モデルを直接使用する」という2つの選択肢があります。

クラウドを使った方がよい場合

フルマネージドなサーバーを構築したい場合、つまりASRサーバーをブラックボックス化したい場合は、クラウドの活用をおすすめします。

業界の独自の用語をテキストベースでファインチューニングさせられるため、MLOps(Machine Learning Operations)のハードルが下がります。また、AWS Transcribeのカスタムモデルのように、自然言語処理モデル(NLPモデル)によるファインチューニングも、テキストを用意するだけで完結します。この特性を活かせば、特定の業界に特化したアウトプットが可能です。

モデルを使った方がよい場合

サーバーを含めてカスタマイズや拡張性が高いASRシステムを構築したい場合は、モデルの活用をおすすめします。

音声認識結果に応じてNLPモデルの組み合わせを変えることで、さまざまなタスクを実行できます。もちろんファインチューニングも可能です。

 
なお、初期導入やMVP開発においては、まずはクラウドを使って開発コストを抑える → ある程度データが溜まりサービスが大きくなったらモデルを使ったサーバー構築をしてみる、というステップを踏んでみるのもよいでしょう。

ASRを活用したエコシステム案

これらの技術を使ったエコシステム案について考察してみました。

1.ビデオ会議議事録の自動作成・要約

さまざまなビデオチャットアプリケーションにおいて、手動、あるいはAPIなどを使ってビデオチャットの動画や音声を取得することが可能です。これをASRで文字に起こし、ChatGPTで要約させたり、フォーマットに従って議事録を出力させたりすることができます。

以下はAmazon Transcribeを使った場合のシーケンス図です。

2.1on1による感情分析の変化

メンバーとの1on1をオンラインでおこない、その内容をASRで文字に起こします。これを「感情分析が可能なモデル」に解析してもらうことで、メンバーのエンゲージメントや、マインドの変化を可視化できます。組織づくりの一助になることが期待できるでしょう。

まとめ

ASRは発展が著しい領域です。ここ最近のアップデートをみると「音声から翻訳」機能がより発展しており、将来的には「言語のボーダレス化」が進むと予想されます。これはオフショア拠点を抱える弊社にとっても大変心強い技術であり、ブリッジディレクターに依存することなく開発を進めることができるようになります。

また、自然言語処理(NLP)や感情分析モデルなどあらゆるAIモデルを組み合わせれば、近い将来UI/UXに大きな影響を与えることになるでしょう。

ASRの発展は、今後も要チェックと言えます。

 

また、LIGでは生成AIコンサルティング事業をおこなっています。ぜひ気軽にご相談ください。

生成AIコンサルティング事業の詳細へ

最新情報をメルマガでお届けします!

LIGブログではAIやアプリ・システム開発など、テクノロジーに関するお役立ち記事をお届けするメルマガを配信しています。

<お届けするテーマ>
  • 開発プロジェクトを円滑に進めるためのTIPS
  • エンジニアの生産性が上がった取り組み事例
  • 現場メンバーが生成AIを使ってみた
  • 開発ツールの使い方や開発事例の解説
  • AIをテーマにしたセミナーの案内
  • 最新のAI関連ニュースまとめ など

「AIに関する最新情報を集めたい!」「開発ツールの解説や現場の取り組みを知りたい!」とお考えの方は、ぜひお気軽に無料のメルマガをご購読くださいませ。

購読する(無料)

この記事のシェア数

2004年大学卒業後に大手SIerにて組み込み系エンジニアとして10年従事。一度はIT業界から足を洗う形にはなるものの、2016年からSES企業にてサイドエンジニアとしてチャレンジ。2020年からLIGにジョインし、様々な案件のテクニカルディレクター並びにプロジェクトマネージャーとして参加する。

このメンバーの記事をもっと読む