【セミナーレポート】ChatGPTに「目」と「耳」が実装された？新機能「GPT-4V」とは？

Kakeru Yanagi

2024.01.19

こんにちは。インハウスマーケティング部のかけるです。

2023年もあとわずか。今年のテック界隈では「生成AI」が話題の中心となりました。LIGでも、生成AI活用の戦略顧問として梶谷健人氏をお迎えし、生成AIの社内活用と企業様の生成AI活用支援「生成AIコンサルティング事業」を立ち上げました。

→生成AIの勉強会や社内活用支援をおこなう「生成AIコンサルティング」の詳細はこちら！

またLIGでは、生成AIの社内活用で得た知見の情報発信の場として、オンラインセミナーも月2〜3回ほど開催しています。

そこで今回は、『ChatGPTの新機能「GPT-4V」とは？』と題して、LIG CTOのづやが登壇したセミナーのレポートをご紹介します。

2023年の振り返りとして、少しでもみなさまのお役に立てると幸いです。

	パネリスト：株式会社LIG 取締役COO兼CTO 高遠和也1983年生まれ。SIerとしてのキャリアをスタートし、JavaやC#を中心に多岐にわたる開発プロジェクトにエンジニアとして参加。その経験を活かし、LIGを創業。バックエンドおよびフロントエンドエンジニアとしての深い知識と経験をもとに、多様なプロジェクトに従事。2023年7月には社長室室長に就任にし、社内の体制やルールの最適化、AI技術の推進など、経営戦略の一翼を担っています。

パネリスト：株式会社LIG 取締役COO兼CTO 高遠和也1983年生まれ。SIerとしてのキャリアをスタートし、JavaやC#を中心に多岐にわたる開発プロジェクトにエンジニアとして参加。その経験を活かし、LIGを創業。バックエンドおよびフロントエンドエンジニアとしての深い知識と経験をもとに、多様なプロジェクトに従事。2023年7月には社長室室長に就任にし、社内の体制やルールの最適化、AI技術の推進など、経営戦略の一翼を担っています。

ChatGPTが目と耳を手に入れた！「GPT-4V（ヴィジョン）」とは
GPT-4Vの「目」について
GPT-4Vの「耳」について
さいごに：生成AIとの向き合い方
まとめ
- 問い合わせフォーム

ChatGPTが目と耳を手に入れた！「GPT-4V（ヴィジョン）」とは

OpenAIが9月25日にChatGPTの新バージョン「GPT-4V」を発表して話題になりました。

これまでのChatGPTは、ユーザーが打ち込んだテキストを読み取って回答を生成するものでした。「GPT-4V」ではテキストだけではなく、ChatGPTに「画像」や「音声」のデータを渡し、そのデータをもとに会話を実行することができるようになりました。発表された当初、「ついにChatGPTが『目』と『耳』を手に入れた！」と話題になりました。

GPT-4Vの「目」について

GPT-4Vの「画像読み取り」について、機能性を調べてみたのでご紹介します。

1.画像の認識精度は？

まずはシンプルに「画像の認識精度がどれぐらいなのか？」を試すため、ChatGPTに画像を渡して、簡単な指示を出してみました。

ChatGPTに画像データと「この画像はテキストが入っています。テキストの内容を教えてもらえますか」という指示をあたえてみると、

このように含まれているテキストをしっかり読み取ってくれました。

また、テキストの読み取りに加えて、画像から読み取れる情報の説明やその意味についてもChatGPTが考えて教えてくれました。このことから画像の認識精度としては、申し分ない結果となりました。

2.複数枚の画像を認識できるのか？

「GPT-4V」では、一枚だけではなく複数枚の画像も渡すことができるので、その精度も確認してみました。

「タイトルの抽出」と「開催日順にリスト表示」を指示してみると、

このように正しく抽出して、タイトルと開催日をリスト表示してくれました。

この結果からわかる通り、「GPT-4V」は画像を認識すると同時に、そこで取得したデータを扱うことができる（加工することができる）、ということが今後の活用シーンで大きなポイントになってくると思います。

3.コードを画像から生成できるのか？

「GPT-4V」を使って、画像のHTMLとCSSを生成を試してみました。

例として、iOSアプリにある電卓の画像を読み取って、HTMLとCSSの生成を指示してみたところ、

少しだけ「12」の右側が崩れていたり「0」ボタンの形が違ったりしたものの、かなりの高精度で生成できました。

エンジニア視点として、実際の開発でこのまま実用できるかはまだまだ工夫が必要であるものの、サンプルやたたき台としては十分に活用できますし、少なくともゼロからコードを作ることはないので、エンジニアの業務効率化にも期待できそうです。

GPT-4Vの「耳」について

続いてGPT-4Vの「音声入力」について、本記事では利用する流れ簡単に解説します。

現時点（※）では、「音声入力」はブラウザ版は使用できず、スマホアプリ版のみ使用可能となっています。※2023年11月29日時点

まずはChatGPTのモバイルアプリを開きます。

右下のヘッドホンを押すと会話モードが始まります。

また、Settingで言語を選択可能です。あらかじめ日本語を選択しておけば、日本語で話すことができます。

会話を終えると、会話の内容が全てテキストに落とし込まれ、ログとして残ります。書き起こしの精度も高く、活用の幅が広がりそうです。

さいごに：生成AIとの向き合い方

「GPT-4は創造思考の評価テスト「AUT」において平均的な人よりもスコアが高い」「米国の司法試験の上位10%のスコアを叩き出した」など、生成AIは私たちの予想をはるかに上回るスピードで進化しています。そのような状況のなかで、企業としてどう生成AIと向き合っていくのか、を最優先で考える必要がある段階にあります。

まずは生成AI（生成AIサービス）で、何ができる/何ができないをしっかり知ることで、自社の事業での活用や、業務効率化につながると思います。

そして、インターネットやこのようなセミナーなので情報収集をするだけではなく、実際に生成AIを触ってみることがなによりも大切です。今回ご紹介した内容を参考に、まずは一回触ってみることで、今後の可能性がより鮮明に見えてくるはずです。