Auto-GPTは、ChatGPTの新たな能力を引き出す革命的な技術であり、仕事を完成させるために自分自身でプロンプトを作成することができます。
最近、Auto-GPTに関する話題がChatGPT自体を上回り、数日間連続でTwitterで1位にトレンド入りしました。
Auto-GPTとは何ですか?
Auto-GPTは、GPT-4およびGPT-3.5への実験的なオープンソースインターフェースであり、自己ガイド(自律型)タスク完了を可能にします。
タスクの完了が必要なリストを提供するだけで、Auto-GPTがそれらを完了します。
ChatGPTとは異なり、Auto-GPTは複数の細かいプロンプトを必要とせず、与えられたゴールを達成するために独自のプロンプトを生成します。
必要な場合、Auto-GPTはウェブサイトや検索エンジンにアクセスしてデータを収集し、タスクを完了します。
外部データを収集する能力が非凡なのは、Auto-GPTが自己評価を行い、収集したデータの正確性を検証し、不正確または劣っているものを破棄し、より良いデータを収集するための新しいサブタスクを生成できることです。
この能力は、自己生成のプロンプトによってタスクを完了するため、それが自律型AIエージェントと呼ばれる理由です。
Auto-GPTの公式GitHubページは次のように説明しています:
「Auto-GPTは、GPT-4言語モデルの可能性を示す実験的なオープンソースアプリケーションです。
GPT-4によって駆動されるこのプログラムは、LLMの「考え」を連鎖させて、設定した目標を自律的に達成します。
GPT-4が完全に自律的に実行される最初の例として、Auto-GPTはAIにおける可能性の限界を押し広げています。」
Auto-GPTを使用するには、まずOpenAIで有料アカウントを作成する必要があります。
有料アカウントが作成された後、次のステップはOpenAI APIを取得することです。これにより、Auto-GPTがOpenAIアクセスアカウントに接続され、使用料金が請求されます。
APIはアプリケーションプログラミングインターフェース(Application Programming Interface)の略です。
それはソフトウェアが安全に他のソフトウェアと通信することを可能にする技術です。
このAPIはAuto-GPTがOpenAIのGPT-4とChatGPTとの通信を可能にします。
OpenAIは、APIの動作方法を説明します:
「OpenAI APIは、自然言語、コード、画像の理解や生成を必要とするほぼすべてのタスクに適用できます。
さまざまなタスクに適したパワーレベルの異なるモデルのスペクトラムを提供しており、さらに独自のカスタムモデルを微調整することも可能です。
これらのモデルは、コンテンツ生成から意味的な検索や分類まで、あらゆる用途に使用することができます。
…APIは、異なる機能と価格帯を持つモデルによって動作しています。
GPT-4は私たちの最新かつ最も強力なモデルです。
GPT-3.5-Turboは、ChatGPTのモデルに力を与えるものであり、会話形式に最適化されています。
OpenAIアカウント保持者は、OpenAIが請求する金額に対して厳しい制限を設定することができます。制限に達すると、サービスは停止します。
ユーザーは、設定された制限に達した場合にアカウント保有者に通知メールを送信する、ソフト制限も設定することができます。
料金は、トークンと呼ばれる計量単位ごとに料金が発生します。
トークンは単語の計測と考えることができます。
OpenAIはトークンを以下のように定義しています:
「英語のテキストの場合、1トークンはおよそ4文字または0.75単語に相当します。」
APIを通じて送信されるプロンプトの単語(トークン)の数と、出力に含まれるトークン(単語)の数で使用料金が計算されます。
100つのトークンはわずかな金額で購入できます、$0.002
Auto-GPTができることの例
誰かがTwitterでジョン・ミラー(@botzero_net)という名前の人がAuto-GPTでできる賢い例を共有しました。
彼はつぶやきました:
「AIの目標:人間に恐怖を与えるような傑作を創り出すためのミッドジャーニー生成アートのプロンプトを書くこと。」
Twitterで共有されたAuto-GPTのもう一つの例は、レビュー記事の作成です。
@SullyOmarr は次に何が起こったかをツイートしました:
最初に、それはGoogleに直接アクセスしてトップ5の防水靴のレビューを検索しました。
リンクを見つけると、以下のような自問自答を行いました。
- 「各靴の利点と欠点は何ですか」
- 「トップ5の防水靴の利点と欠点は何ですか」
- 「男性用のトップ5の防水靴」
次に彼は後続の分析を記録しました:
「様々なサイトを分析し続け、グーグル検索とクエリの更新を組み合わせて、結果に満足するまで調査し続けました。
以下は、「批判的に」考えた時の例です。
一部のレビューが偽物である可能性があることを理解し、評価者を検証しなければなりませんでした。」
Auto-GPTエージェントは、調査目的で使用されるウェブサイトを分析するために創出された副エージェントを生成し、AIエージェントが行き詰まった場合でも外部の助けを借りることなく、前進する方法を見つけ出しました。
ついに、タスクが完了しました。各シューズの利点と欠点をリストアップし、導入と結論を含む、5つのシューズのマルチパラグラフ分析を作成しました。
驚くべきことに、調査、分析、および作成プロセス全体は、たった8分とGPT-4の使用料10セントで完了しました。
Auto-GPTはどのように機能しますか?
AIエージェントがタスクを完了できない場合、その進行方法を見つけるために新しいプロンプトを作成します。
Auto-GPTは、クリエイティブで詳細なプロンプトを必要としない自己プロンプティングAIエージェントです。完了するためのタスクの目標セットさえあれば十分です。
タスクを完了するために必要なプロンプトが生成されます。
Auto-GPTのこの品質は、GPT-4とChatGPTをさらに強力で驚異的に能力を持ったものにしています。
Auto-GPTが機能する秘訣の一つは、それぞれの目標に対してサブタスクを作成し、各タスクを複数のステップに分解することができることです。
メモリ管理は、Auto-GPTに重要なデータを短期的および長期的に保存する能力を提供し、手順を繰り返す必要がなくなり、処理のためのデータを保存し、Auto-GPTが実行中のリストを保持することができます。
Auto-GPTのGitHubページには、Auto-GPTを機能させるための重要な特徴がリストされています:
- 検索や情報収集のためのインターネットアクセス
- 人気のあるウェブサイトやプラットフォームへのアクセス
- 長期および短期記憶管理
- GPT-3.5によるファイルの保存と要約
- テキスト生成のためのGPT-4インスタンス
Auto-GPTを動作させるためには何が必要ですか?
Auto-GPTは、多くの一般向けソフトウェアのようなシンプルなユーザーインターフェースを持っていません。
それに desu ga, sore wa minna ga tsukaeru yōni suru koto no aru hōhō ga arimasu.
Auto-GPTを使用するための2つの要件があります:
- プログラムを実行する環境
- OpenAI APIキー
Auto-GPTのGitHubページでは、選択できる3つの環境がリストされています:
- VSCode + devcontainer: .devcontainerフォルダに設定されており、直接使用できます
- Docker
- Python 3.10以上
GitHubのページには、PythonをWindowsにインストールするためのチュートリアルへのリンクもあります。
その他の自律型AIエージェント
Auto-GPTは唯一の自律型AIエージェントではありません。もう1つのエージェント、BabyAGIというPythonスクリプトも存在します。
ベビーAGI
GitHubページで説明されています:
「このPythonスクリプトは、AIを利用したタスク管理システムの例です。このシステムは、OpenAIとPineconeのAPIを使用して、タスクの作成、優先順位付け、実行を行います。このシステムの主なアイデアは、前のタスクの結果と事前に定義された目的に基づいてタスクを作成することです。」
その後、スクリプトはOpenAIの自然言語処理(NLP)機能を使用して目標に基づいた新しいタスクを作成し、コンテキストのためにPineconeを使用してタスクの結果を保存し、取得します。
これは元のタスク駆動型自律エージェントの簡略版です(2023年3月28日)。
もし上記の内容が複雑に聞こえるなら、非開発者でもAuto-GPTやBabyAGIのようなAIエージェントを使用する方法があります。
AIエージェントを実行するための簡単な方法
AIイノベーションのペースは非常に速く、わずか2週間で開発者たちは使いやすいインターフェースを持つAuto-GPTを実行するための代替手段を作り出しました。
これらのインターフェースは非常に新しく、現在実験的またはベータモードですが、非常によく機能しています。
Cognosys.ai
ブランドニューなWebベースのAIエージェントユーザーインターフェースはCognosys.aiです。Cognosys.aiのWebインターフェースを使用するにはまだOpenAI APIキーが必要です。
OpenAIのAPIキーを取得したら、次のステップはGoogle IDでサインインするか、ログインとパスワードを作成することです。
今、AIエージェントを使用するのは、フォームに記入して機械がタスクを完了するのを見るだけで簡単です。
エージェント.gpt
別の使いやすいインターフェースはAgentGPTと呼ばれ、現在ベータ版です。AgentGPTはCognosys.aiと同様に機能します。
AgentGPTは、次のように自己紹介しています:
「AgentGPTを使用すると、自律型AIエージェントを設定および展開できます。
カスタムAIに名前を付け、想像できるあらゆる目標に取り組ませることができます。AIは、タスクの考えをし、実行し、結果から学習して目標達成を試みます 🚀
このプラットフォームは現在ベータ版です。現在、以下の機能に取り組んでいます:
- 長期記憶
- ウェブブラウジング
- ウェブサイトや人々とのインタラクション」
AgentGPTの開発者からのツイートが詳細をさらに説明しています:
「それはモデルを使用してタスクリストを生成し、繰り返しタスクを実行し、タスクが完了したかどうか、またはさらなるサブアクションが必要かを評価することで機能します。
将来的には、@pineconeを介して長期的なメモリを持ち、モデルにウェブをクエリする能力を与えます...」
神モードAI
最新のAIエージェントインターフェースの1つには、Godmodeという名前があります。
使用するには、まずタスクを作成します。インターフェースは、タスクを定義するのに使用するプロンプトで応答します。
プロンプトのいずれかを選択すると、AIエージェントが起動し、作業を開始します。
GodmodeにはGoogle、GitHub、またはTwitterアカウントでのサインインが必要です。
現在、Godmodeを使用するためには、OpenAI APIキーが必要ではありませんが、使用する場合は、GPT-4のパワーがGodmodeの出力に追加されます。
自律型AIエージェント
一部の人はChatGPTについてパニックになっています。
しかし、Auto-GPTのような自律型AIエージェントは、OpenAIの製品ができることはこれ以上のものがあることを示しています。
自律型のAIエージェントの突破はまったく新しいものであり、最先端のものです。それらは、OpenAIやGoogleのような大企業ではなく、開発者によって作成されています。
これらの技術はまだ実験的でベータ版の段階ですが、その中には人間のようなレベルで驚くべきタスクを達成できるほど成熟しているものもあります。
Auto-GPTのような技術は、従業員がAIエージェントにタスクを指示し、5人分の仕事をすることができる日がくることを容易に想像できます。
雇用主が人間の監督者を省略して、AIエージェントを管理するためにAIエージェントを単に解放できる時代を想像するのは難しくありません。