こんにちは、Technology部のジョシュです。
以前LIGブログで、中国発のAI動画生成ツール「Vidu」について紹介しました。
たった数十秒でハイクオリティな動画を生成できる「Vidu AI」がおもしろい!
今回は、もうひとつの中国発の動画生成AI「Kling AI」が、そのクオリティの高さからSNSなどで話題になっていたのでご紹介します!
「Kling AI」とは?
「Kling AI」は、北京に拠点を置く「快手(Kuaishou)」が開発した動画生成AIツールです。
リリース当時の「Kling」は、中国の電話番号を持つユーザーのみが利用できましたが、現在ではメールアドレスで登録すれば、世界中誰でも利用することができるようになっています。
また「Kling」では、1,080pの解像度で最大10秒間の動画を作成でき、1秒あたり30フレーム、アスペクト比にも柔軟に対応しています。開発者によると、このAIモデルは物理法則の理解や複雑な動作の正確なモデリングに優れているそうです。
動画の生成方法
「Kling」は簡単にはじめられます。
まずこちらのWebサイトを開いてアカウントを作成しましょう。ログイン後、「AI Videos」タブをクリックします。
「Kling Creative Space」にリダイレクトされるので、そこで作成したい動画の内容を記述できます。これで準備は完了です。
Text-to-Video生成
「Kling」は、テキストや画像を入力することで動画を生成することができます。
特徴として、物理の理解や複雑な動きの再現に優れており、真に迫るリアルな動画を生成できます。高いリアリズムと細部までこだわった動きを必要とするアプリケーションに最適で、さまざまなクリエイティブなニーズに対応できそうです。
入力するプロンプトに対して、クリエイティビティのレベル、モード、動画の長さ、フレーム比率の調整など、出力設定をカスタマイズできます。これにより、自分のビジョンや好みに合わせた動画を作成することが可能です。
今回は以下のプロンプトで動画を生成してみます。
- プロンプト
- A close-up of a samurai eating sushi at a Japanese restaurant.
※和訳:「日本料理店で寿司を食べるサムライのクローズアップ」
動画生成の速度を計測してみたところ、5秒の動画を作成するのに約13分かかりました。他のAI動画生成ツールと比較すると、やや遅めの速度です。
生成した動画はこちらです!
生成した動画の「時間的一貫性※」がどれほど優れているかがわかりますね! すごい! まるで実際に撮影された映像のようで、侍が寿司を食べるシーンが自然に描かれています。
※AI動画における時間的一貫性(Temporal Coherence)とは、生成された動画の中で、場面や登場人物、物体などが自然に変化し、つながりを保つ性質のことです。簡単に言えば、「前のシーンと次のシーンがちゃんと筋が通っているか」ということです。時間的一貫性が高いAI生成動画は、人間が作った自然な動画のように見え、視聴者に違和感を与えません。
Image-to-Video生成
「Kling」は、静止画を動画に変換する機能も備えています。
この機能を使えば、普通の画像に奥行きと臨場感を加えられ、見る人を引き込むようなアニメーションに仕上げることができます。「Kling」は、こういった効果をなめらかに組み合わせることに力を入れています。その結果、生み出されるアニメーションは細部まで作り込まれ、リアルな見た目を保ちつつ、より没入感のある体験を提供します。
今回は、「Kling」が提供しているテキストから画像を作り出す機能も一緒に試してみましょう。これを使って、まずは動画に変換するための画像を生成してみます。
ではまずテキストから画像を生成するために、以下のプロンプトを入れてみました。
- プロンプト
- Generate a Delorean car in Tokyo, set in year 2070
※和訳:「2070年を舞台に、東京でデロリアンを製作する」
こちらが生成された4パターンの画像の結果です。
次に、動画を生成したい画像を選択します。
いずれかの画像を選び、「Bring to Life」ボタンをクリックしましょう。ちなみに「Bring to Life」は「画像に命を吹き込む」という意味です(ちょっと洒落てる)。
次に、画像から動画を生成する画面に移ります。今回は、デロリアンカーから男性が降りてくるといった以下のプロンプトを入力してみました。
- プロンプト
- A guy stepping out of a DeLorean and checking his watch.
※和訳:「デロリアンから降りて時計を確認する男」
生成した動画はこちらです!
画像が生き生きと動き出すのは驚くべきことですが、生成された動画にはいくつか欠点もあります。とくに低解像度では、出力動画がぼやけたり、粒子が目立ったりすることが多いです。
また、プロンプトの指示が完全に反映されないこともあります。たとえば、「時計を見る」という指示を出したのに、その動作が行われませんでした。これは、現時点で出力が5秒に制限されているため、動きの幅が限られていることが原因かもしれません。
これらの欠点もありますが、モデルの基礎技術や今後の改良の可能性を考えると、動画生成AIの分野での将来的な発展に大きな期待が持てますね。
Viduと性能を比較してみた
こちらのViduの紹介記事で生成した動画と比較してみます。
今回比較するプロンプトはこちら。
- プロンプト
- The samurai walking entering to restaurant
※和訳:「レストランに入る侍」
生成した動画を比較してみると……
Viduで生成した動画
Klingで生成した動画
「Kling」のほうがクオリティが高いですね!
Viduではカメラのズーム効果が少し奇妙だったのに対し、「Kling」のカメラモーションはより自然で、服の動きや流体の物理表現もViduよりリアルで、品質の違いがはっきりと感じられます!
料金プラン
出典:Kling公式サイト
「Kling」は、無料からでも使うことができますが、さまざまな特典のあるサブスクリプションプランあります。
有料プランでは、基本的な能力(指示の再現性、一貫性の強化など)の向上だけではなく、「透かしの削除」「カメラ操作」「動画の長さ延長」および高度なショット構成ツールが提供されています。
まとめ
いかがでしたか。
「Kling」は無料で1日6クレジットの生成枠があるので、ぜひ試してみてください!(今後、世界的な需要の増加が予想されるため、サーバーがまだ快適に動作している今のうちに試してみることをオススメします!)
これらの技術がさらに進化することで、動画コンテンツ制作がさまざまな業界で大きく変わる可能性があります。今後も注目していきましょう。
「生成AIについて社内で理解を深めたいけど、どう進めていいかわかない」「生成AIの業務効率化について具体的な事例やアドバイスが欲しい」などご興味のある企業さまは、下記ページからお気軽にご相談ください。