高精度&爆速の文字起こしAIツール「Gladia」がスゴイ

Kakeru Yanagi

2024.06.04

Technology

こんにちは、インハウスマーケティング部のかけるです。

生成AIによってライティング業務の効率化が進むなかで、「文字起こし」は生成AIが得意とする領域の一つです。

今回は数ある文字起こしAIのなかでも、実際に使ってみて良かった文字起こしAI「Gladia」について、その使い方や魅力をご紹介します！

「Gladia」は精度が抜群
「Gladia」を実際に使ってみる
「Gladia」の料金プランは？
番外編：GladiaはオリジナルのWhisperと何が違うのか
- AI導入からシステム実装・保守までワンストップで支援します

「Gladia」は精度が抜群

https://www.gladia.io/

まず前提として、Gladiaの文字起こしの技術には、OpenAIがオープンソースとして公開している文字起こしAI「Whisper」が活用されています。

Gladiaの大きな魅力は、なんといっても音声から文字を起こす（Speech-to-Text）際の精度の高さです。

一般的に、音声認識の精度は「単語誤り率（WER）」という、その音声認識モデルが音声をテキストへ変換する際にどれぐらい間違えてしまったのかという評価尺度があります。

つまり、このWERが低ければ低いほど、音声認識モデルとして性能が高いということです。

GladiaのベースであるWhisperと他の人気サービス「Google Speech-To-Text」「Amazon Transcribe」を比較してみると、以下のような結果が出ています。

【Whisper （Whisper-v2）】
・WER：8.06%
・正解率：91.94%

【Google Speech-To-Text】
・WER：16.51%～20.63%
・正解率：79.37%〜83.49%

【Amazon Transcribe】
・WER：18.42%～22%
・正解率：78%〜81.58%

※参考出典：Hugging Face、Clari、Statista

3つを比較すると、OpenAIのWhisperはもっともWERが低く、GoogleやAmazonよりも高精度なアウトプットを生成することができます。日本語についても問題なく使うことができます！

「Gladia」を実際に使ってみる

まずはGladiaの公式サイトから右上のSign up（もしくは「Try for free」のボタン）をクリックして、登録します。

Sign upは、自身のGoogleアカウントもしくは、直接入力で登録できます。

次に会社の希望や職業、Gladiaを知ったきっかけなどの項目を入力します。企業名と事業内容は任意での回答です。

無事に登録が完了すると、Gladiaの作業画面に移ります。

Gladiaの文字起こしは、メニューバーの「Playgrand」から行います。

Gladiaにデータをアップロードする方法は以下の3つです。

Paste video link
Upload a file
Live Transcription

「1.Paste video link 」は、YouTubeやTiktok、Facebookなど、インターネット上にある動画のURLを入力することで、その動画の会話を文字に起こすことができます。YouTubeコンテンツのブログ化などに活用できますね。

「2.Upload a file」は、手元にある音声や動画データ（MP3、MP4など）を直接アップロードします。

「3.Live Transcription」では、リアルタイムの音源を書き起こしします。会議やインタビュー中などで使えば、その場で会話を文字に起こせます。

今回は、「1.Paste video link」を使って、実際に文字起こしをしてみましょう。

この動画は、LIGが過去開催したウェビナーをYouTubeにアップしたもので、およそ65分と長尺です。今回はこちらをGladiaに読み込ませてみます。

なお、YouTubeの場合、入力するURLは「https://youtu.be/~」から始まる共有用のURLではなく、「https://www.youtube.com/watch?~」のアドレスバーにあるURLを入力します。

URLを入力すると、文字起こしの各種設定画面が表示されます。

「Audio Language (Optional)」では、会話の言語を指定するか、自動で検出するかを選択します。

認識精度を上げるため、自動ではなく、「Manual」→「Japanese」を選択します。

「Diarization」では、 音声内の複数の話者を自動検出し、書き起こされた各テキストを発言した話者に割り当てる設定ができます。今回の動画では、出演者が2名いるので設定をONにしておきました。

「Translate transcription」（現時点ではBETA版）は、音声データの言語に関係なく、起こしたテキストを指定した言語に翻訳する機能です。これを使えば、コンテンツの多言語化も一瞬でできちゃいますね。

すべての設定が完了したら、画面右上の「Transcribe」をクリックして開始します。

文字起こしが始まり、読み込み画面で待つことたった5分……

無事に65分の会話の文字起こしが終わりました！

めっちゃ速い……！

話者も自動検出し、SPEAKER0、SPEAKER1としっかり振り分けてられています。

Gladiaの良い点は、生成された文字をクリックすると、その箇所の音声を読み上げてくれるところです。実際に話している音声を聴きながら、アウトプットの正誤もチェックすることができます。

また、起こした文字を読んでいただくとおわかりになるかと思いますが、「えー・あー」「えーっと」といった無意味なつなぎ言葉が見当たりません。自動でそれらも認識して削除してくれています。

Gladia、スゴすぎません……？

→全文はこちら

「Gladia」の料金プランは？

Pricing

Gladiaは、現時点で「フリー」「プロ」「エンタープライズ」の3つの料金プランがあります。フリープランでも10h/月を無料で使うことが可能なので、使い勝手がめちゃくちゃ良いんです……。

無料でもサクッと使えるので、ぜひ試してみてください！

番外編：GladiaはオリジナルのWhisperと何が違うのか

OpenAIのWhisperをすでに使っている方からすると、「Whisperのモデルを使っているのなら、Whisperでよくない？」と思うかもしれませんね。

GladiaはそのオリジナルのWhisperを特性を生かしつつ、オリジナルの欠点を改良したモデル「Whisper-Zero」を独自に開発して搭載しています。以下はGladiaの公式サイトにオリジナルのWhisperとの性能比較がまとまっていたので、ご紹介します（参考）。

	Gladia（Whisper-Zero）	OpenAI （オリジナルWhisper）
パフォーマンス	実用性に長けていて、高精度かつ生成が速い	動作が遅く、聞き間違いを起こしやすい
主な機能	・スマートフォーマット・ノイズ低減・カスタム語彙・聞き間違いなし	・スマートフォーマット
対応言語	・99の言語（方言は除く）・あらゆる言語間で翻訳が可能	・99の言語・あやゆる言語から英語への翻訳のみ
追加機能	・バッチ文字起こし・単語ごとのタイムスタンプ・話者を自動検出・ライブ文字起こし・コードスイッチング・Webhook ・強化された言語検出	・一括文字起こし・フリーズレベルのタイムスタンプ
使用方法	・あらゆる音声データ、またはビデオ（最大 500 MB、135 分の大容量ファイル）・オンデマンドで拡張可能・URL(YouTube、Vimeo など)	・一般的な音声データのみ（ファイルサイズ25MB、最長30秒）
出力形式	・JSON ・プレーンテキスト・SRT ・VTT（字幕用）	・JSON
データ保護	・厳格なプライバシーポリシーを備えたGDPR準拠のEUホスティング	・GDPRに準拠しておらず、プライバシーポリシーもなし