こんにちは、テクノロジー部の山﨑です。昨今、生成AIという言葉を耳にすることが多くなりました。
聞いたことはあるけど、生成AIとはどんなものなのか、どんな仕組みになっているのかわからないという方は多くいらっしゃるのではないでしょうか。
そんな方に向けて本記事では、生成AIの仕組みについてわかりやすく解説していきます。
目次
生成AIとは?
生成AIとは、AIの中でも画像、文章、音楽、音声などのさまざまなコンテンツを新たに生成することができるAIのことを指します。
Generative AIとも呼ばれ、従来のAIとはその目的や特徴に違いがあります。
従来のAI | 生成AI | |
---|---|---|
目的 | データの整理や分類、それを基に予測するなど決められた作業の自動化 | 創造的なコンテンツ、作業、アイデアの生成 |
特徴 | 既存データから正誤判定や予測などの結果を導き出すことができる | 与えられた指示をもとに新しいコンテンツを生成できる |
応用例 | 顔認証、自動運転、音声アシスタントなど | ChatGPT(テキスト生成)、Sora(動画生成)など |
生成AIの仕組みは「機械学習」がカギ
生成AIはなぜ新しいコンテンツを生み出すことができるのでしょうか?
その仕組みを理解するには、機械学習の概念から説明を始める必要があります。
機械学習とは、コンピュータに大量のデータを入力し、パターンやルールを予測させる技術のことです。生成AIは、この機械学習の発展形である深層学習を基盤としています。
深層学習は、機械学習のなかでも人間の脳の仕組みを模した多層のニューラルネットワークを使用し、とくに複雑なデータパターンを扱える手法です。この技術により、AIは入力されたデータから高度な特徴や抽象的な表現を学習することができます。
生成AIは、この深層学習を基盤としてさまざまな学習アプローチや特殊な技術を組み合わせています。
機械学習の基本パターン
ここではAIがどのように情報を学習し知識を獲得していくのか、基本のパターンをいくつかご紹介します。
教師あり学習
教師あり学習は、入力データとデータの処理結果の正解(教師)を同時に与えて、それをもとに学習していく手法です。AIに正解例を示しながら学習させていきます。
正解を参考に他の入力データについても識別するので、学習段階で質の高い正解データを学習させることで精度が向上します。
教師あり学習は主に二つのタイプに分けられます。
- 分類:入力データを予め定義されたカテゴリーに振り分ける(例:メールのスパム判定)
- 回帰:連続的な数値を予測する(例:住宅価格の予測)
教師なし学習
教師なし学習は、正解ラベルのない入力データのみを用いて、データ内の隠れたパターンや構造を自動的に見つけ出す手法です。AIは与えられたデータの特徴を自律的に学習し、類似したデータをグループ化したり、異常を検出したりします。
代表的な教師なし学習の手法に「クラスタリング」があり、これは似た特徴を持つデータを自動的にグループ化する技術です。応用例としては、顧客セグメンテーションや画像の色彩補正などがあります。
自己教師あり学習
自己教師あり学習とは正解ラベルのない入力データからその特徴などを学習し、予測結果を新たなラベルとして作り出し、それをもとにさらに学習を進める手法です。AIは自分で問題を作り、それを解くことで学習していきます。
正解ラベルのない入力データを扱う点で教師なし学習に近い性質を持ち、ラベルをもとに学習を進める点で教師あり学習とも近い性質を持つので、自己教師あり学習は教師あり学習と教師なし学習の中間の学習モデルといえるでしょう。
自己教師あり学習の主な目的は、大量の未ラベルデータから有用な特徴表現を学習し、それをさまざまなタスクに応用することです。
たとえばGPTのような大規模言語モデルでは、大量のテキストデータから言語の構造や知識を学習します。自動運転技術では、周囲環境から将来の状況の予測をするのに活用されています。
強化学習
強化学習は、どのような行動をすれば得られる報酬が最大化できるか、AIが試行錯誤しながら学習する手法です。
具体的には「環境」と「エージェント」と呼ばれる2つの概念があり、「エージェント」が「環境」の中でもっともよく振る舞うように学習していきます。
- エージェント・・・学習して行動を決める主体
- 環境・・・エージェントが活動する外部世界のこと
「環境」は「エージェント」の行動によって与える報酬(または罰)を変化させます。「エージェント」は「環境」の中でもっとも多くの報酬が得られるような振る舞いを探しながら学習していきます。
強化学習は、ゲームAI(囲碁、チェスなど)やロボット制御、推薦システムなど、幅広い分野で応用されています。
転移学習
転移学習とはすでに学習が完成している既存のモデルを別のタスクに転移させることで、機能が異なる別のAIを生成する手法です。
たとえば、「犬の画像から犬種を識別する学習済みのモデルを利用して、猫の画像から猫の種類を識別するモデルを簡単に作る」というようなことが可能になります。
データセットが少ない場合や、学習時間を短縮したい場合に有効です。しかし、ソースドメイン(犬)とターゲットドメイン(猫)の間に関連性がない場合、転移がうまくいかずパフォーマンスが低下する「負の転移」が起こってしまうことに注意しましょう。
生成AIができること・できないこと
生成AIは、幅広い分野で活躍しています。以下にAIにできることとできないことをまとめました。
生成AIができること | 生成AIができないこと |
---|---|
|
|
画像、テキスト、音声の生成などには非常に強力ですが、データを学習する性質上、データのないものの創造、感情の理解、長期的なコンテキストの保持、データの正確性、倫理的配慮などには限界があります。
これらを認識して適切に生成AIを使用していくことが必要になります。
生成AIの代表的なサービスと仕組み
ChatGPT
ChatGPTは人間のように自然な会話ができるAIチャットサービスです。深層学習をベースとして、教師あり学習、自己教師あり学習、強化学習を組み合わせて作られています。
初期段階では、空のモデルに書籍や記事、Webページのテキストデータを用いて、単語の意味や文脈、文法を学習させます。この過程で、モデルは次の単語や文を予測するタスクを繰り返し行い、自然言語の深い理解を獲得します(自己教師あり学習)。
自然言語処理(NLP)技術を活用し、質問応答や対話など特定のタスクに適したデータセットを用いて、モデルをさらに訓練します。この段階で、入力に対する適切な応答の生成方法を学習します(教師あり学習)。
さらに、人間のフィードバックによる強化学習(RLHF: Reinforcement Learning from Human Feedback)を通じて、より適切で倫理的な応答を生成できるようモデルを調整します。
これらの学習プロセスを経ることで、ChatGPTは単に情報を再現するだけでなく、文脈を理解し、創造的で適切な応答を生成する能力を得ているのです。
基盤技術 | 大規模言語モデル(GPT)をベースとした深層学習 |
---|---|
学習パターン |
|
Midjourney
https://www.midjourney.com/home
Midjourneyは簡単なキーワードを入力するだけでAIが自動的に画像を生成してくれるサービスです。そのクオリティはプロ顔負けであり、1分前後の時間で完成させます。
Midjourneyは具体的にどのような技術を使用しているかは公開されていませんが、深層学習や拡散モデルを使用していると考えられています。拡散モデルとは、ノイズから徐々に画像を形成していく過程で、さまざまな画像を生成できる技術のことです。
Runway-Gen2
https://research.runwayml.com/gen2
Runway-Gen2は、テキストを入力するだけで、その内容にあった動画を生成してくれるサービスです。
動画は少しずつ異なる静止画を連続で表示させているので、基本的には画像生成AIと同じような深層学習に加えて、動画特有の課題に対応する高度な技術を組み合わせて生成されます。
フレームごとの生成に加えて、時間軸に沿った一貫性の維持、自然な動きの表現、長時間の文脈理解など、静止画生成以上に複雑な技術が必要となります。
Runway-Gen2についても、正確な技術詳細は完全には公開されていません。
まとめ
今回は生成AIの仕組みについて簡単に説明しました。
生成AIは近年、ビジネスや私たちの暮らしに大きな変化をもたらしている革新的な技術です。多くの技術が詰め込まれていますので、すべてを解説することはできませんが、正しく使いこなすためにも、この記事を読んで生成AIについて興味を持っていただけると幸いです。