音声AI「ElevenLabs」が今後のコンテンツ作りに変革をもたらすかもしれない

Kakeru Yanagi

2024.08.02

AI
テック

Technology

こんにちは、LIGの「生成AIコンサルティング」チームのかけるです。

ChatGPTやMidjourneyの登場によって、テキスト生成や画像生成に注目が集まっていましたが、最近では、「音声生成」の領域でも実務レベルで使える生成AIサービスが生まれ始めています。

今回は、数ある音声AIサービスのなかでも、実際に使ってよかった音声AI「ElevenLabs」の機能についてまとめてみました。

「ElevenLabs」とは？: 元Googleの機械学習エンジニアと元Palantir（ピーター・ティールが設立したデータ分析企業）のデプロイメントストラテジストの2人が創業。AIを活用した音声合成、音声変換、吹き替えを生成する音声AIプラットフォーム。最大の特徴として、元となるユーザーの声色やトーンの特徴を維持しながら、音声クローンを生成できる。

今後、生成AI時代のコンテンツ作りを模索していく上で、「ElevenLabs」は大きなヒントになる可能性があります！ぜひご覧ください。

「ElevenLabs」の8つの多種多様な機能
クリエイティブ
ワークフロー
ツール
- Voiceover Isolator：動画のノイズ除去
- さいごに

「ElevenLabs」の8つの多種多様な機能

まず「ElevenLabs」は、「音声AIプラットフォーム」として、音声生成に関連したさまざまな機能を提供するサービスです。以下、現在公開されている8つの機能です。

クリエイティブ
- Speech
- Voices
- Sound Effect
ワークフロー
- Projects
- Voiceover Studio（Beta）
- Dubbing Studio
- Audio Native
ツール
- Voiceover Isolator

「ElevenLabs」は、音声を生成する「クリエイティブ」、コンテンツ制作のプロセスを効率化する「ワークフロー」、音声データの加工や編集をする「ツール」の大きく3つのカテゴリに分かれています。そして、それぞれのカテゴリに特定の業務に特化した8つの機能がそろっています。

多種多様な機能がそろっている反面、今回「ElevenLabs」を初めて知った方やこれから利用される方は、できることが多くて「そもそも何をどう使ったらいいのか」と迷うかもしれません。

そこで本記事では、それぞれ8つの機能で何ができるのかを解説します。

「ElevenLabs」のほとんどの機能は無料プランから使えますので、この記事を通して、ぜひ気になる機能があれば実際に触ってみてください。

※一部有料プランからでしか利用できない機能もあります。まずは無料から利用する方も多いと思いますので、有料の機能については「ElevenLabs」が公開するデモ動画や生成サンプルを参照してご紹介します。

クリエイティブ

Speech：テキストや音声データから音声合成／多言語化

Speechでは、テキストを音声に変換する「TEXT TO SPEECH」と、音声データを別の音声に変換する「SPEECH TO SPEECH」の2種類の生成が可能です。

▲「TEXT TO SPEECH」もしくは、「SPEECH TO SPEECH」を選択

「TEXT TO SPEECH」の使い方はシンプルで、入力画面にテキストを入力すれば、音声を生成することが可能です。また、あわせて生成の際に、画面下部のプルダウンから、「声」を選択します。声はさまざまなサンプルがあり、男性や女性、年齢や訛り方の違いなど、多くのサンプルが用意されているので好きなのを選べます。

また、「SPEECH TO SPEECH」もシンプルで、手元にある音声データやその場で録音したデータをアップロードすれば、すぐに別人の声に変換が可能です。

では試しに、本記事の以下の冒頭文を音声生成してみました。

▼冒頭文: ChatGPTやMidjourneyの登場によって、テキスト生成や画像生成に注目が集まっていましたが、最近では、「音声生成」の領域でも実務レベルで使える生成AIサービスが生まれ始めています。

「TEXT TO SPEECH」

「SPEECH TO SPEECH」※「TEXT TO SPEECH」で生成したデータを女性の声に変換

どちらもサンプルを入れてから、たった数秒で生成されたものです。機械的なカタコト感はあまりなく、日本語として自然に近いアクセントやトーンで読み上げてくれました。

また、生成にあたって入力欄下部の「Settings」から、以下の詳細設定が可能です。

Model：ElevenLabsが提供する音声AIモデルの設定。特徴を持った最新モデルや過去モデルを自由に選択できます。
Stability：出力ごとに感情表現をどれぐらい変化させるのか、その幅を調整できます。可変の幅に合わせて話のトーンや感情をランダムに生成します。
Similarity：AIが元になる音声データから生成する際に、どれだけ忠実に再現するかを調整します。たとえば、音声データに目立つノイズやクリック音がある場合は、値を低く設定することでそれらの音を拾わないようにできます。
Style Exaggeration：元の音声データと比較して、話者のスタイルが誇張されるべき場合は高い値を設定します。
Speaker boost：元の音声データの声を模倣するかどうかを設定できます。

今回試してみた音声生成では、正しく音声を読み上げてもらいたかったので、StabilityとSimilarityを85~95%、Style Exaggerationを0%（none）で調整してみました。

また、Settingsをするにあたって考慮しておくべきことは、今回のElevenLabsに限らず、ほとんどの生成AIには「非決定的アルゴリズム」という概念が存在しています。「非決定的アルゴリズム」とは、同じプロンプトを入力しても、実行ごとに異なるアウトプットを示す可能性がある、という意味です。

「非決定的アルゴリズム」の通り、Settingsでは、アウトプットの細かな調整が可能ではありますが、特定の値に設定していても毎回同じ結果が保証されるわけではありません。

設定を調整しながら、求めるアウトプットが生成されるまで、複数回にわたってトライすることをおすすめします。

Voices：音声クローンの生成

Voicesは、「音声クローン」の生成ができる機能です。

音声クローンの生成は以下の4種類から選択できます。

Voice Design：「性別」「年齢」「アクセント（人種）」「アクセントの強さ」「テキスト」を指定して、新しい音声クローンを作成できます。
Internet Voice Cloning：手元にある1分以上かつノイズの無い音声データからクローンを生成します。Starterプラン以上（$5/月~）から利用できます。
Voice Library：ElevenLabsが運営するコミュニティからクローンを生成できます。
Professional Voice Cloning：もっともリアルな音声クローンを生成します。Creatorプラン以上（$11/月~）から利用できます。

Internet Voice CloningとProfessional Voice Cloningは有料プランとなりますが、生成したい声のデータをアップロードするだけで、自分の音声クローンを簡単に作ることができます。

試しに無料プランでも使えるVoice Designで新しい音声クローンを作ってみました。

▲Voice Designの作成画面

作成画面では、性別や年齢（young、middle Aged、oldから選択）、アクセントなどを選択できます。今回は、「インド英語訛りのある若い女性」の音声クローンを生成してみました。

実際に生成したのがこちら。

たった数秒で設定通りの音声クローンが生成されました！

音声データが手元になくても、コミュニティから好みの声を探せたり、ゼロから音声クローンを生成できるのがElevenLabsの魅力です。まさに音声プラットフォームとして幅広くサポートしていますね。

Sound Effects：音響の生成

Sound Effectsは、その名の通り、「音響」を生成する機能です。映画やゲームのバックサウンドのデザインであったり、日常的な生活音も数秒で簡単に生成できます。

試しに生成したものをいくつか紹介します。

①ガラスの破片が散らばる床を靴で歩く: 入力したプロンプト：Shoes walk on a floor littered with shards of glass.

②男性が話しています。すると車のクラクションが鳴りました。: プロンプト：A man is talking. Then a car horn sounds.

③冒険をする勇者が魔王の城を発見した時のゲーム音響: プロンプト：Game sound when a brave adventurer discovers the castle of the Demon King.

お聞きいただくとお分かりになりますが、①のように事象に変化のないシンプルな生成だけではなく、②のような2つの異なる事象（男性が話す&クラクションが鳴る）も忠実に生成できます。

Sound Effectsは、プロンプトの書き方に基づいて2つの事象が起こる順序を完全に理解していることがわかります。そして、それらの2つの音を組み合わせて、両方の音が首尾一貫して違和感なく聞こえるような調整ができています。

③はゲームの音響を生成しましたが、魔王の城のイメージを理解してそれっぽい音響を生成してくれました。

▲プロンプトを入力すると、4パターンを生成

Sound Effectsはプロンプトを入力するだけで、ほんの数秒で4パターンを生成してくれます。　

今回はどちらかというとシンプルなプロンプトで試してみましたが、より高度な音響を生成したいのであれば、「高品質」「プロが録音した」「〇〇の機材を利用した」など具体的なプロンプトで指示することがコツです。

また、Settingsから音響の長さやプロンプトの再現度もしっかり調整できます。

ワークフロー

Projects：長文の音声合成

Projectsは、長文からハイクオリティな音声コンテンツを作るための音声合成とその編集ができる機能です。Projectsは有料の「Creatorプラン」（$11/月~）以上から使えます。

▲Projectsの機能説明

Projectsを活用することで、より柔軟な音声合成の調整や本物の声優を使った音声コンテンツを作ることができます。

以下は「ElevenLabs」が公開しているProjectsを使った生成サンプルです（書き起こしも合わせて載せておきます）。

▼生成サンプル

【生成サンプル（原文）】: His eyes narrowed as he spoke.

“You sure this is the place, Finn?”

Finn smirked and took a swig from his mug.

“Trust me, Jareth. This time I’ve got it on good authority. The old fisherman from the dock spilled the beans.”

He leaned back, excitement gleaming in his eyes.

“It’s like the gold is already ours.”

【生成サンプル（日本語訳）】: 彼は目を細めて言った。

「本当にここで間違いないのか、フィン？」

フィンはニヤリと笑い、マグカップを一口飲んだ。

「信じてくれ、ジャレス。今回は確かな筋から聞いたんだ。波止場の年老いた漁師が白状したんだ」

彼は身を乗り出し、目を輝かせて興奮した。

「金はもう俺たちのものも同然だ」

生成サンプルを聞くとおわかりになるかと思いますが、本当に人間が音読しているかのような、自然で流暢な仕上がりになっています。

とくに登場人物のセリフは、フィンとジェレスの状況や感情を理解して、トーンを変化させて見事に読み上げてくれていますね。

ストーリーチックな絵本や小説などを短時間で音声コンテンツ化するのに必要な機能が、Projectsにそろっています。