こんにちは、LIGの「生成AIコンサルティング」チームのかけるです。
最近ますます生成AIの進化がめまぐるしいですが、対話型生成AIのClaudeの新機能「Computer use」が話題になっています。
出典:https://www.anthropic.com/news/3-5-models-and-computer-use
- 「Computer use」とは
- 「Computer use」とは、Claudeが人間の代わりにコンピューターを操作する機能。Anthropicの対話型生成A「Claude 3.5 Sonnet」で新たに導入された(公式ページ)。
この記事が公開された時点では、パブリックベータ版ということもありまだまだ動作も遅く、エラーが発生しやすい段階ではあります。
ただ、将来的には細かい業務の自動化や、現在RPAツールをかませて自動化している業務をすべて「Computer use」で代替できる可能性も十分にあります。
▲公式PV:AIが企業情報を検索して収集し、それらの情報をフォーム入力するデモ
今回はクイックスタートとして、Dockerで「Computer use」のデモを動かしてみたので、その使用感や将来的に何が変わりそうかを紹介します。
今後、生成AIを活用した社内の業務効率化やサービス開発、事業戦略立案を行う方々にとっては、いまもっともキャッチアップすべきトレンドのひとつですので、ぜひ参考になれば幸いです。
目次
「Computer use」を使うための準備
本記事では、仮想環境で「Computer use」を使うための準備から解説します。以下の手順で進めます。
1. Dockerをインストール
まずは、デモを実行するためにDockerをインストールして環境を構築していきます。Dockerは無料プランから利用可能です。今回は、Macを使って解説していきます。
【Mac】
Install Docker Desktop on Mac
【Windows】
Install Docker Desktop on Windows
PCのチップ(プロセッサ)がわからない場合(クリックして開く)
Dockerをインストールする前に、お使いのMacのプロセッサの種類を確認しましょう。機種によってインストーラーが異なるため、間違えると正常に動作しない可能性があります。
画面左上のAppleメニュー>このMacについてを開き、プロセッサ情報を確認してください。
- 「Apple M1」「M2」などと表示 → 「Docker Desktop for Mac with Apple silicon」を選択
- 「Intel」と表示 → 「Docker Desktop for Mac with Intel chip」を選択
2. ClaudeのAPIを取得
ClaudeのAPIを取得します。なお、APIの取得にはクレジットを購入する必要があります。※少額でも「Computer use」 は動かせるので、お試し程度あればたくさん購入する必要はありません。
【APIの取得】
Anthropic Console
クレジットを購入したら、API Keyを発行します。発行したキーはDockerコンテナを起動する際に必要となります。
3. リポジトリをクローン
続いて、Macのターミナル(Windowsをお使いなら、PowerShell)を開き、以下のコマンドを入力して、リポジトリのクローンを行います。簡単にいうと、Githubで公開されているプロジェクトのファイルやコードをPCにダウンロードします。
git clone https://github.com/anthropics/anthropic-quickstarts.git
これを実行すると、リポジトリの内容がPCにダウンロードされ、anthropic-quickstartsというディレクトリが作成されます。
4. Dockerコンテナを起動する
続いて、ターミナルで以下のコマンドを実行します。%your_api_key%に 「2. ClaudeのAPIを取得」で取得したAPIキーを入れます。
【Mac】
export ANTHROPIC_API_KEY=%your_api_key%
docker run \
-e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY \
-v $HOME/.anthropic:/home/computeruse/.anthropic \
-p 5900:5900 \
-p 8501:8501 \
-p 6080:6080 \
-p 8080:8080 \
-it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest
【Windows】
$env:ANTHROPIC_API_KEY = %your_api_key%
docker run `
-e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY \
-v $HOME/.anthropic:/home/computeruse/.anthropic `
-p 5900:5900 `
-p 8501:8501 `
-p 6080:6080 `
-p 8080:8080 `
-it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest
5. ブラウザで「http://localhost:8080」にアクセス
最後に、ブラウザでhttp://localhost:8080にアクセスします。問題なく「Computer use」が立ち上がればすべて完了です!
チャット形式で指示を出す
「Computer use」の画面はこんな感じです。
画面は左右に分かれていて、左画面のメッセージボックスに指示を入力すると、右画面のデモ画面で実際に自動操作が行われます。
「Computer use」を使ってみる
実際に「Computer use」を使ってみます。今回は簡単にインターネット検索やアプリケーションの自走操作を試してみました。
インターネット検索をする
試しにこのLIGブログの検索を自走操作させてみました。流れは以下のような感じです。
- ブラウザを起動させる(Firefox)
- 検索欄でLIGブログを検索させる
- サイト内検索で「AI」と検索させて関連記事を表示させる
流れに沿ってまずは「ブラウザを開いて」と指示を出します。
すると、「Firefoxブラウザを開くために、まずはスクリーンショットを撮ってFirefoxアイコンの位置を確認し、その後クリックします。」と返答が来ました。
この返答の通り、「Computer use」では画像認識を通してタスクを実行します。そのスクリーンショットを確認して、正しい場所をクリックするために、カーソルを垂直または水平に何ピクセル動かす必要があるかを数えている仕組みです。
このブラウザを開く自動操作では、PC画面のスクリーンショットを撮って「ブラウザ(Firefox)っぽいアプリケーション」を探し、クリックを実行しています。
ブラウザをクリックして開くと、「ブラウザを起動できたのか」を確認するため、改めてスクリーンショットを撮ります。無事にタスクが実行できたら、次の指示を求められます。
このように「Computer use」では、ユーザーの指示 → スクリーンショットを撮って確認 → タスク実行 → チェック(スクリーンショット)を繰り返して、自動操作を行います。
こちらが実際に「サイト内検索で『AI』と検索させて関連記事を表示させる」までを実行した動画です。
スクリーンショットを繰り返しながら、最後まで一度もミスなく自動操作をしてくれました。まだパブリックベータ版ということもあり、動作スピード自体はまだまだですが、指示の認識や正確性は問題ありません。
スプレッドシートを開いてセル入力する
ブラウザ以外にも「Computer use」を使えば、スプレッドシートなどのアプリケーションを開いて特定の作業も可能です。
試しに、スプレッドシートに文字を入力させてみました。
同じように、確認 → スプレッドシート(LibreOffice Calc)を起動 → スクリーンショットでチェックという流れを繰り返しています。
動画はこちら。こちらも最後までミスなく作業をやり終えました。
ペイントアプリで「猫」をスケッチ
ペイントアプリを起動して猫をスケッチさせてみます。
「猫っぽい絵をスケッチさせる」という作業は、これまでの指示と比べて難易度が高くなってきます。正直どこまで上手くできるのかわかりませんでしたが、画像認識の精度は十分なので試してみました。
これも同じく、まずはアプリケーションを開く指示を出します。
ペイントツールの「GIMP」を見つけて起動。鉛筆ツールもしっかり認識してスケッチが始まりました。おぉ……!
顔の輪郭から描いてるみたいです(ちょっと四角い)。
・
・
・
完成したようです。信じられないぐらい幾何学的な猫です。
正直まだまだクオリティはあれですが、顔の輪郭を描いたあとにスクリーンショットを撮って足りない部分の確認をしたり、猫っぽさを出すため試行錯誤するプロセスはとても可能性を感じました!
将来的に、PhotoshopやIllustratorを起動して、AIがデザインを作ったり修正したりできる可能性も十分にありえますね。以下は動画です。
「Computer use」に対する将来的な期待
Anthropicの公式ページ「Developing a computer use model」の見出し「The future of computer use」では、Claude(「Computer use」)の未来について以下の記載があります。
- 原文:
-
Computer use is a completely different approach to AI development. Up until now, LLM developers have made tools fit the model, producing custom environments where AIs use specially-designed tools to complete various tasks. Now, we can make the model fit the tools—Claude can fit into the computer environments we all use every day. Our goal is for Claude to take pre-existing pieces of computer software and simply use them as a person would.
- 和訳:
-
これまでのLLM開発では、AIが特定のタスクを実行できるよう、専用の環境やツールを開発する「ツール主導型」のアプローチが主流でした。しかし現在、私たちは「モデル適応型」へと転換を図っています。つまり、Claudeが私たち人間が日常的に使用しているコンピュータ環境に適応し、既存のソフトウェアを人間のように操作できるようにすることを目指しています。
今回の「Computer use」の可能性はまさに人間が日常的に使用しているコンピュータ環境に適応する「モデル適応型」にシフトするその第一歩となりました。
今回試してみた3つの事例のように、自分のPCを完全に自動操作させて、インターネット上の情報集めて情報をまとめさせたり、特定のツールでデザインを作らせたりする未来もすぐそこです。
とはいえ、実際に実装していくにはまだまだ課題があるのも事実です。
処理速度もまだまだ遅く、難易度の高い作業はエラーを起こしたり、作業を忘れたりすることがあります。人間のようにドラッグやズームといった日常的な操作も「Computer use」では難しいです。
他にも、会話の状況を把握するためのスクリーンショットの「見返し」で発生する、インプットトークンの大量消費によってAPIの料金がかかってしまうことや、デザインの精度もまだまだ課題です。
今後これらの改善も期待していきたいと思います!
さいごに
「Computer use」は、生成AIを活用した業務効率化を進める画期的な機能です。まだまだ課題もありますが、今の生成AIの進化を見ると上記で挙げた課題はすぐに解決すると思います。
ご興味あればぜひ一度「Computer use」を実際に使って体験してみてください。
それではまた!
「生成AIについて社内で理解を深めたいけど、どう進めていいかわかない」「生成AIの業務効率化について具体的な事例やアドバイスが欲しい」などご興味のある企業さまは、下記ページからお気軽にご相談ください。