OpenAIの動画生成AI「Sora」は何がすごい?技術的側面を解説

OpenAIの動画生成AI「Sora」は何がすごい?技術的側面を解説

Ranola Joshuel

Ranola Joshuel

こんにちは、Technology部のジョシュです。

今年2月15日、OpenAI社から革命的なtext-to-videoのAIモデル「Sora」が発表され、話題となりました。

そこで今回は他の動画生成AIとSoraがどのように異なっているのか、技術的側面にフォーカスしつつ、このAIが将来もたらす可能性を探っていこうと思います。

動画生成AI Soraとは?

Soraは簡単にいうと、テキストの内容をもとに動画を生成するAIです。OpenAIのウェブサイトには、サンプルとして生成した動画が紹介されています。

動画引用元:Sora tokyo-in-the-snow

プロンプト:
Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.

出典:Sora tokyo-in-the-snow

Soraの特徴

DALL・E 3やStable Diffusion、Midjourneyなどのテキストから画像を生成するAIモデルと同じく、Soraも拡散モデルの一つです。

Soraの場合、動画のそれぞれのフレームが始めは単なる静止したノイズから始まり、機械学習を駆使して徐々にプロンプトの記述に沿った画像へと変化していきます。Soraを使えば、最大60秒間のビデオを生成可能です。

また、これまでの動画生成AIとは異なり、複数のビデオフレームを同時に考慮できることがSoraの革新的なポイントです。従来は物体が画面内で移動したり視界から消えたりすると、一貫性を維持できなくなる問題がありましたが、Soraでは解決されています。

以下のサンプルビデオをご覧ください。カメラアングルが変わっても猫の毛並みや模様が一貫しているのが分かります。

動画引用元:Sora happy-cat

プロンプト:
A white and orange tabby cat is seen happily darting through a dense garden, as if chasing something. Its eyes are wide and happy as it jogs forward, scanning the branches, flowers, and leaves as it walks. The path is narrow as it makes its way between all the plants. the scene is captured from a ground-level angle, following the cat closely, giving a low and intimate perspective. The image is cinematic with warm tones and a grainy texture. The scattered daylight between the leaves and plants above creates a warm contrast, accentuating the cat’s orange fur. The shot is clear and sharp, with a shallow depth of field.

出典:Sora happy-cat

Soraで用いられている技術について

視覚データのパッチ化

引用元:Sora

まず、Soraの開発者たちは、大規模な言語モデル(LLMs)の進歩からヒントを得て、視覚データを 「パッチ」 として処理する方法を導入しました。この手法は、テキストデータを扱う際にLLMsが使う 「トークン」 と似ています。

つまり、Soraは画像や動画を小さな断片に分割し、それぞれを個別に分析し、再構成するのです。このアプローチにより、さまざまな種類のビジュアルデータに対してスケーラブルで効果的なトレーニング手法を提供できるようになりました。

ビデオ生成用のスケーリングトランスフォーマー

引用元:Sora

Soraのコアとなる技術は、トランスフォーマーアーキテクチャ内に組み込まれた拡散モデルです。ノイズの多いパッチが入力されると、元の状態(ノイズの少ない画像・動画)を予測するようにトレーニングされます。

これまで拡散トランスフォーマーは言語モデルや画像生成モデルで用いられていましたが、動画生成においても有効だとSoraの開発により発見されました。これにより、さまざまな種類の視覚データ生成に対応するためのスケーリングを効率的におこなえます。

出力の柔軟性

従来の動画生成モデルでは動画データのサイズが変更されたり、トリミングされたりしていました。一方、Soraはネイティブサイズでデータをトレーニングできるため、様々なサイズやアスペクト比の動画を生成可能です。

これにより、ワイドスクリーン形式からスマホ向けの縦向き形式まで、多岐にわたるデバイスやプラットフォームに適した動画を生成できます。

さらに、最初は低解像度でプロトタイプの動画を作り、最終的には同じフレームワーク内で高解像度の動画生成も可能で、柔軟性が高いのが特徴です。

独自の動画圧縮ネットワーク

Soraのもう一つの特徴は、動画データを時間的および空間的に圧縮するための独自のネットワークを持っていることです。

詳細は明かされていないものの、動画の生データを「潜在的な表現」(a latent representation)に変換し、それをもとに画像や動画を生成するように訓練されています。さらに、これらの潜在的な表現を再び視覚形式に変換するデコーダーモデルも開発されており、これにより細かいディテールを持つ画像や動画の生成が可能です。

スペースタイム潜在パッチの採用

Soraは圧縮された動画データを 「スペースタイム潜在パッチ」(Spacetime Latent Patches)というパッチとして扱います。これはトランスフォーマーがテキストをトークンとして扱うのと同様の方法です。

パッチを用いることで、Soraはさまざまな解像度、持続時間、アスペクト比を持つトレーニングデータを柔軟に扱うことができます。

なお、動画は連続する複数の画像から成り立っていると考えることができるので、この手法は画像データにも応用できます。

Soraのリスク

ここでは、Soraがもたらす可能性のあるリスクについて、3つの観点から考察していきます。

有害コンテンツの生成

適切な規制やルールが設けられていないと、Soraは不快または不適切なコンテンツを生成する可能性があります。これには、暴力、グロテスクな映像、性的な内容、特定の集団に対する軽蔑的な描写、ヘイトイメージ、違法行為の促進や称賛などが含まれます。

何を不適切なコンテンツとするかは、ユーザー(子どもと大人の場合など)や動画生成の文脈(たとえば、花火の危険性についての教育的な動画がグロテスクになる可能性)によって大きく異なるため、慎重に検討する必要があるでしょう。

誤った情報や偽情報の拡散

OpenAIによるサンプル動画を見ると、Soraの強みの一つは、現実には存在しない幻想的なシーンを作り出す能力にあるといえます。

しかし、この強みはディープフェイクビデオの作成にも応用できます。実在の人物や状況を改変した動画が拡散されてしまう可能性があるのです。現実と見分けがつかないようなリアルな動画を簡単に生成できるようになると、フェイクニュースやデマ情報が拡散しやすくなる懸念もあります。

フェイクニュースなど説得力のある偽のAI動画は、「誤った情報を戦略的に広め、正当な情報源を攻撃し、公共機関への信頼を損ない、さまざまな国や人々への敵意を煽る力」を持っており、そのリスクが問題視されています。情報の真偽を見極める力がこれまで以上に求められるようになるでしょう。

バイアスとステレオタイプ

生成AIモデルの出力は、トレーニングに使用されたデータに大きく依存します。つまり、トレーニングデータに含まれる文化的なバイアスやステレオタイプは、生成される動画にも影響する可能性があります。

Soraが社会にもたらす変化は?

動画制作の効率化・簡便化

テキストを入力するだけで動画が生成できるようになれば、動画制作のハードルが下がり、クリエイターの可能性が広がります。

これまで動画制作が難しかった個人や企業も参入しやすくなり、動画コンテンツがより身近になるかもしれませんね。

新しいエンターテインメントの可能性

これまでにない表現方法やストーリー展開が可能になり、エンターテインメントの世界にも大きな変化が訪れるかもしれません。斬新な映像体験が期待される一方で、オリジナリティやコンテンツの質が問われることとなりそうです。

Soraへのアクセス方法は?

2024年3月現在、Soraは 「Red Team」 という、モデルに問題がないかを特定する任務を与えられた専門家たちのみ利用可能です。

OpenAIはまだSoraの一般公開日を明確にしていません。技術の進歩とリスク管理のバランスを考えると、公開日は慎重に決定されることでしょう。一般公開された際には、多くの人々がこの革新的なツールを体験できるようになりますが、それまでは研究者たちの手に委ねられています。

さいごに

Soraはさまざまな技術を駆使して高品質な出力を実現しており、動画生成AIのゲームチェンジャーになると期待されています。さまざまな領域で過去の動画生成AIモデルにはなかった新しい扉を開いていますが、関連するリスクについても考える必要があります。

まだ開発初期段階ですが、今後どのように進化していくのか、そしてどのような影響をもたらすのか、目が離せませんね!

※参考記事
https://openai.com/sora
https://openai.com/research/video-generation-models-as-world-simulators

生成AIをビジネス活用したい方へ

今回紹介したような動画生成AIを含め、生成AIはその汎用性の高さからさまざまな職種・ビジネスへの活用が進んでいます。一方で、生成AIをビジネスに活用するには、導入時に直面する課題・リスクについて考慮する必要があります。

弊社LIGでは生成AIコンサルティングサービスをおこなっています。「生成AIを自社ビジネスにも活用したい」「どのように導入すればいいのかわからない」という方は、ぜひお気軽にご相談ください。
 
生成AIコンサルティングサービスの詳細ページへ

この記事のシェア数

Ranola Joshuel
Ranola Joshuel DX / Application Development / Technical Director / ラノーラ ジョシュエル

ITプロフェッショナル/テクニカルディレクターとしてOpenAIを使用したサービスの実装に関する研究や実験に従事。JS、PHP、Python、Vue、Next、Reactの言語やフレームワークに関して深い知識を所有する。また、海外のエンジニアとのコミュニケーションをブリッジエンジニアとしても、通訳を含む各種を対応しています。プログラミングへの情熱は高校時代からあり、大学でコンピュータサイエンスの学位を取得後、エンジニアとして日本のIT系企業に就職。4年間フルスタックエンジニアに従事し、2023年LIGにジョイン。

このメンバーの記事をもっと読む
10年以上の開発実績があるLIGが、最適な開発体制や見積もりをご提案します
相談する サービス概要を見る