音声AI「ElevenLabs」が今後のコンテンツ作りに変革をもたらすかもしれない

音声AI「ElevenLabs」が今後のコンテンツ作りに変革をもたらすかもしれない

Kakeru Yanagi

Kakeru Yanagi

こんにちは、LIGの「生成AIコンサルティング」チームのかけるです。

ChatGPTやMidjourneyの登場によって、テキスト生成や画像生成に注目が集まっていましたが、最近では、「音声生成」の領域でも実務レベルで使える生成AIサービスが生まれ始めています。

今回は、数ある音声AIサービスのなかでも、実際に使ってよかった音声AI「ElevenLabs」の機能についてまとめてみました。

「ElevenLabs」とは?
元Googleの機械学習エンジニアと元Palantir(ピーター・ティールが設立したデータ分析企業)のデプロイメントストラテジストの2人が創業。AIを活用した音声合成、音声変換、吹き替えを生成する音声AIプラットフォーム。最大の特徴として、元となるユーザーの声色やトーンの特徴を維持しながら、音声クローンを生成できる。

今後、生成AI時代のコンテンツ作りを模索していく上で、「ElevenLabs」は大きなヒントになる可能性があります! ぜひご覧ください。

「ElevenLabs」 の8つの多種多様な機能

まず「ElevenLabs」は、「音声AIプラットフォーム」として、音声生成に関連したさまざまな機能を提供するサービスです。以下、現在公開されている8つの機能です。

  • クリエイティブ
    • Speech
    • Voices
    • Sound Effect
  • ワークフロー
    • Projects
    • Voiceover Studio(Beta)
    • Dubbing Studio
    • Audio Native
  • ツール
    • Voiceover Isolator

「ElevenLabs」は、音声を生成する「クリエイティブ」、コンテンツ制作のプロセスを効率化する「ワークフロー」、音声データの加工や編集をする「ツール」の大きく3つのカテゴリに分かれています。そして、それぞれのカテゴリに特定の業務に特化した8つの機能がそろっています。

多種多様な機能がそろっている反面、今回「ElevenLabs」を初めて知った方やこれから利用される方は、できることが多くて「そもそも何をどう使ったらいいのか」と迷うかもしれません。

そこで本記事では、それぞれ8つの機能で何ができるのかを解説します。

「ElevenLabs」のほとんどの機能は無料プランから使えますので、この記事を通して、ぜひ気になる機能があれば実際に触ってみてください。

※一部有料プランからでしか利用できない機能もあります。まずは無料から利用する方も多いと思いますので、有料の機能については「ElevenLabs」が公開するデモ動画や生成サンプルを参照してご紹介します。

クリエイティブ

Speech:テキストや音声データから音声合成/多言語化

Speechでは、テキストを音声に変換する「TEXT TO SPEECH」と、音声データを別の音声に変換する「SPEECH TO SPEECH」の2種類の生成が可能です。

▲「TEXT TO SPEECH」もしくは、「SPEECH TO SPEECH」を選択

「TEXT TO SPEECH」の使い方はシンプルで、入力画面にテキストを入力すれば、音声を生成することが可能です。また、あわせて生成の際に、画面下部のプルダウンから、「声」を選択します。声はさまざまなサンプルがあり、男性や女性、年齢や訛り方の違いなど、多くのサンプルが用意されているので好きなのを選べます。

また、「SPEECH TO SPEECH」もシンプルで、手元にある音声データやその場で録音したデータをアップロードすれば、すぐに別人の声に変換が可能です。

では試しに、本記事の以下の冒頭文を音声生成してみました。

▼冒頭文
ChatGPTやMidjourneyの登場によって、テキスト生成や画像生成に注目が集まっていましたが、最近では、「音声生成」の領域でも実務レベルで使える生成AIサービスが生まれ始めています。

「TEXT TO SPEECH」

「SPEECH TO SPEECH」※「TEXT TO SPEECH」で生成したデータを女性の声に変換

どちらもサンプルを入れてから、たった数秒で生成されたものです。機械的なカタコト感はあまりなく、日本語として自然に近いアクセントやトーンで読み上げてくれました。

また、生成にあたって入力欄下部の「Settings」から、以下の詳細設定が可能です。

  • Model:ElevenLabsが提供する音声AIモデルの設定。特徴を持った最新モデルや過去モデルを自由に選択できます。
  • Stability:出力ごとに感情表現をどれぐらい変化させるのか、その幅を調整できます。可変の幅に合わせて話のトーンや感情をランダムに生成します。
  • Similarity:AIが元になる音声データから生成する際に、どれだけ忠実に再現するかを調整します。たとえば、音声データに目立つノイズやクリック音がある場合は、値を低く設定することでそれらの音を拾わないようにできます。
  • Style Exaggeration:元の音声データと比較して、話者のスタイルが誇張されるべき場合は高い値を設定します。
  • Speaker boost:元の音声データの声を模倣するかどうかを設定できます。

今回試してみた音声生成では、正しく音声を読み上げてもらいたかったので、StabilityとSimilarityを85~95%、Style Exaggerationを0%(none)で調整してみました。

また、Settingsをするにあたって考慮しておくべきことは、今回のElevenLabsに限らず、ほとんどの生成AIには「非決定的アルゴリズム」という概念が存在しています。「非決定的アルゴリズム」とは、同じプロンプトを入力しても、実行ごとに異なるアウトプットを示す可能性がある、という意味です。

「非決定的アルゴリズム」の通り、Settingsでは、アウトプットの細かな調整が可能ではありますが、特定の値に設定していても毎回同じ結果が保証されるわけではありません。

設定を調整しながら、求めるアウトプットが生成されるまで、複数回にわたってトライすることをおすすめします。

Voices:音声クローンの生成

Voicesは、「音声クローン」の生成ができる機能です。

音声クローンの生成は以下の4種類から選択できます。

  • Voice Design:「性別」「年齢」「アクセント(人種)」「アクセントの強さ」「テキスト」を指定して、新しい音声クローンを作成できます。
  • Internet Voice Cloning:手元にある1分以上かつノイズの無い音声データからクローンを生成します。Starterプラン以上($5/月~)から利用できます。
  • Voice Library:ElevenLabsが運営するコミュニティからクローンを生成できます。
  • Professional Voice Cloning:もっともリアルな音声クローンを生成します。Creatorプラン以上($11/月~)から利用できます。

Internet Voice CloningとProfessional Voice Cloningは有料プランとなりますが、生成したい声のデータをアップロードするだけで、自分の音声クローンを簡単に作ることができます。

試しに無料プランでも使えるVoice Designで新しい音声クローンを作ってみました。

▲Voice Designの作成画面

作成画面では、性別や年齢(young、middle Aged、oldから選択)、アクセントなどを選択できます。今回は、「インド英語訛りのある若い女性」の音声クローンを生成してみました。

実際に生成したのがこちら。

たった数秒で設定通りの音声クローンが生成されました!

音声データが手元になくても、コミュニティから好みの声を探せたり、ゼロから音声クローンを生成できるのがElevenLabsの魅力です。まさに音声プラットフォームとして幅広くサポートしていますね。

Sound Effects:音響の生成

Sound Effectsは、その名の通り、「音響」を生成する機能です。映画やゲームのバックサウンドのデザインであったり、日常的な生活音も数秒で簡単に生成できます。

試しに生成したものをいくつか紹介します。

①ガラスの破片が散らばる床を靴で歩く
入力したプロンプト:Shoes walk on a floor littered with shards of glass.
②男性が話しています。すると車のクラクションが鳴りました。
プロンプト:A man is talking. Then a car horn sounds.
③冒険をする勇者が魔王の城を発見した時のゲーム音響
プロンプト:Game sound when a brave adventurer discovers the castle of the Demon King.


 
お聞きいただくとお分かりになりますが、①のように事象に変化のないシンプルな生成だけではなく、②のような2つの異なる事象(男性が話す&クラクションが鳴る)も忠実に生成できます。

Sound Effectsは、プロンプトの書き方に基づいて2つの事象が起こる順序を完全に理解していることがわかります。そして、それらの2つの音を組み合わせて、両方の音が首尾一貫して違和感なく聞こえるような調整ができています。

③はゲームの音響を生成しましたが、魔王の城のイメージを理解してそれっぽい音響を生成してくれました。

▲プロンプトを入力すると、4パターンを生成

Sound Effectsはプロンプトを入力するだけで、ほんの数秒で4パターンを生成してくれます。 

今回はどちらかというとシンプルなプロンプトで試してみましたが、より高度な音響を生成したいのであれば、「高品質」「プロが録音した」「〇〇の機材を利用した」など具体的なプロンプトで指示することがコツです。

また、Settingsから音響の長さやプロンプトの再現度もしっかり調整できます。

ワークフロー

Projects:長文の音声合成

Projectsは、長文からハイクオリティな音声コンテンツを作るための音声合成とその編集ができる機能です。Projectsは有料の「Creatorプラン」($11/月~)以上から使えます。

▲Projectsの機能説明

Projectsを活用することで、より柔軟な音声合成の調整や本物の声優を使った音声コンテンツを作ることができます。

以下は「ElevenLabs」が公開しているProjectsを使った生成サンプルです(書き起こしも合わせて載せておきます)。

▼生成サンプル

【生成サンプル(原文)】

His eyes narrowed as he spoke.

“You sure this is the place, Finn?”

Finn smirked and took a swig from his mug.

“Trust me, Jareth. This time I’ve got it on good authority. The old fisherman from the dock spilled the beans.”

He leaned back, excitement gleaming in his eyes.

“It’s like the gold is already ours.”

【生成サンプル(日本語訳)】

彼は目を細めて言った。

「本当にここで間違いないのか、フィン?」

フィンはニヤリと笑い、マグカップを一口飲んだ。

「信じてくれ、ジャレス。今回は確かな筋から聞いたんだ。波止場の年老いた漁師が白状したんだ」

彼は身を乗り出し、目を輝かせて興奮した。

「金はもう俺たちのものも同然だ」

生成サンプルを聞くとおわかりになるかと思いますが、本当に人間が音読しているかのような、自然で流暢な仕上がりになっています。

とくに登場人物のセリフは、フィンとジェレスの状況や感情を理解して、トーンを変化させて見事に読み上げてくれていますね。

ストーリーチックな絵本や小説などを短時間で音声コンテンツ化するのに必要な機能が、Projectsにそろっています。

Voiceover Studio:音声生成と編集

Voiceover Studioは、音声コンテンツの生成と詳細な編集ができる機能です。現時点(※2024年8月)ではまだベータ版であり、Projectsと同様に「Creatorプラン」($11/月~)以上から使えます。

▲Voiceover Studioのデモ動画

デモ動画では、Voiceover Studioを使って実際に音声コンテンツを編集をしています。UIもシンプルで直感的に操作ができそうです。

以下、Voiceover Studioの特徴です。

特徴
  • スピーカーカード:音声変換するテキストの確認とその編集ができます。テキストはチャンク(文章の塊)ごとに作成可能です。
  • トラック:生成した音声ごとのトラックの追加や編集ができます。
  • ボイスオーバートラック:新しい音声を音声できます。生成自体もVoiceover Studio内で完結できます。
  • SFXトラック:SFX(Sound Effects=音響)の追加や編集ができます。

Voiceover Studioを使えば、自由度の高い音声コンテンツの生成・編集が可能になります。まだベータ版ではあるので、今後の機能追加や精度向上に期待です。

Dubbing Studio:動画コンテンツの自動翻訳

Dubbing Studioは、動画コンテンツの音声を別の言語へ自動翻訳する機能です。

Dubbing Studioの大きな特徴は以下の2つ。

  1. 話者の声の特徴を維持しながら、音声を新しい言語に翻訳可能
  2. 動画データはYouTube、TikTok、X(Twitter)、ViemoなどのURLでの共有も可能

試しにLIGが運営するWebデザインスクール「デジタルハリウッドSTUDIO by LIG」のYouTubeアカウントで公開しているこの動画を英訳してみました。それがこちら。

日本語と英語で話すテンポの違うこともあり微調整は必要なものの、ほんの2~3分で、元の話者の声を維持しながらここまで英訳できました。これはすごい……!

Dubbing Studioは「Voiceover Studio」とかなり近い機能ではありますが、Dubbing Studioは、スピーカーカードの振り分け自体をAIが自動で行います(そのため、まだ生成した動画に若干のムラが発生する可能性がある)。

よって、両者の使い分けとしては長編コンテンツは、「Voiceover Studio」で丁寧に制作、YouTubeショートやTikTokなどの短編コンテンツはDubbing Studioで制作する、という役割がよいでしょう。

ちなみに、もともと英語の動画を日本語訳にするとこんな感じです(サンプルはElevenLabsが公開しているこちらのYouTubeショート)。

思ったよりも精度高く日本語に翻訳できていますね……!

Dubbing Studioを使えば、既存コンテンツの海外展開や学習のために海外の動画を翻訳するなど、さまざまな可能性があります。

Audio Native:Webサイト読み上げ

Audio Nativeは、Webページのテキストコンテンツを自動で音声データに変換して、オーディオプレイヤーとして記事に埋め込むことができる機能です。ProjectsやVoiceover Studioと同様に有料の「Creatorプラン」($11/月~)以上から使えます。

なんとAudio Nativeは、すでに「The New Yorker」や「TIME」といった海外の有名メディアの一部記事コンテンツで実用化されています。

The New Yorker『Not All of America’s National-Security Threats Are Overseas』

TIME『How Your ‘Digital Body Language’ Affects Your Dating Life』

近年ウェブアクセシビリティの向上が求められており、誰にでも見やすい(わかりやすい)サイト作りが重要となっています。今後のWebサイトや記事コンテンツの新たなユーザー体験の観点から考えてみると、Audio Nativeは大きな活用メリットがある機能です。

ツール

Voiceover Isolator:動画のノイズ除去

Voiceover Isolatorは、動画のノイズを除去して、クリアな会話だけを抽出することが可能です。

▲Voiceover Isolatorのデモ動画

このデモ動画では、とある有名映画のワンシーンで聞こえるノイズを除去してセリフがクリアに聞こえるように処理をしています。

試しに、男性の声とノイズをミックスしたサンプルを用意したので、ノイズのみを消してみました。

▼サンプル

▼Voiceover Isolatorを使ったノイズ除去

見事にノイズが除去され、しっかり男性の声がクリアに聞こるようになりました。

ちなみにVoiceover Isolatorは登録不要でこちらから試すことができます。ぜひ試してみてください!

さいごに

今回は、音声AIプラットフォーム「ElevenLabs」について解説しました。どの機能も本当にクオリティが高いので、今すぐにでも実用化できるレベルにあると思います。

ちなみに、アカウント登録をせずに機能のお試しやアウトプットの精度を知りたい方は、公式サイトのサンプルから一部の機能を体験することができますので、ぜひお試しください。

生成AIの活用を検討中の方へ
弊社LIGの「生成AIコンサルティングサービス」では、生成AIのトレンドのキャッチアップや業務活用に関する勉強会や、自社サービスへのAI導入を全面的に支援しています。

「生成AIについて社内で理解を深めたいけど、どう進めていいかわかない」「生成AIの業務効率化について具体的な事例やアドバイスが欲しい」などご興味のある企業さまは、下記ページからお気軽にご相談ください。

生成AIコンサルティングの詳細を見る

この記事のシェア数

大学卒業後、IT系上場企業に新卒入社したのち、2021年にLIGにジョイン。メディアディレクターとして、おもしろ企画からCVを狙ったストレートな企画まで幅広く担当。現在はインハウスマーケティング部にて、生成AIの社内推進・生成AIコンサルティング事業を担当。

このメンバーの記事をもっと読む
10年以上の開発実績があるLIGが、最適な開発体制や見積もりをご提案します
相談する サービス概要を見る