GPT-3とは何ですか? OpenAIの画期的なAI言語プログラムについて、お客様の事業が知る必要のあるすべてを解説します

zdnet-gpt-3-is-the-next-word-in-ai-ver-2.jpg

GPT-3は、サンフランシスコに拠点を置くスタートアップ企業OpenAIによって作成されたコンピュータープログラムです。それは巨大なニューラルネットワークであり、そのため、機械学習の一部であるディープラーニングのセグメントに所属しています。ディープラーニング自体は、人工知能として知られるコンピューターサイエンスの分野の一部です。このプログラムは、以前のプログラムよりも人間が書いたと思われるような文章を生成することで優れています。

こうしたブレークスルーが企業に役立つ理由は、タスクの自動化に大きな潜在能力があるからです。GPT-3は、コンピュータに入力された任意のテキストに対して、文脈に適した新しいテキストで返答することができます。例えば、検索ボックスに完全な英語の文章を入力すると、関連性のある完全な文で返答を得る可能性が高くなります。つまり、GPT-3は、顧客サービスの質問と回答から、尽力ドキュメントの検索、報告書の作成まで、さまざまな状況で人間の努力を増幅することが考えられます。

以下は、コンピュータに入力される内容とGPT-3が返信する方法の簡単な例をご覧ください:

ヒューマン-サプライド入力:Q:天使に触れた人々でテスを演じたのは誰ですか?
GPT-3生成完了:A:デロリーズ・パトリシア・アーリー(1931年7月6日〜2017年11月19日)、通称デラ・リースとして知られる

このプログラムは現在、サインアップ待ちリストに参加することでプライベートベータ版に参加することができます。OpenAIによって提供されており、クラウドを介してアクセス可能なAPIとして提供されています。アクセスが許可された企業は、テキスト生成を活用した興味深いアプリケーションを開発しており、簡単な質問応答からプログラミングコードの生成まで、さまざまなプログラムの強化に活用しています。

自動化の可能性と共に、大きな欠点も存在します。GPT-3は計算リソースを多く必要とし、そのために多くの企業がオンプレミスの環境では実現不可能な状態です。生成されるテキストは初見では印象的かもしれませんが、長い文章になるほど意味不明になる傾向があります。また、人種差別や性差別を含む偏見を増幅させる可能性も大いにあります。

GPT-3はどのように動作するのですか?

GPT-3は、言語モデルとして知られる統計プログラムの一例です。この場合、それはニューラルネットワークとして作成されました。

名前のGPT-3は、これまでのバージョンのうちの3番目の「generative pre-training」の頭文字である略語です。他のニューラルネットワークが数値のスコアやイエスまたはノーの回答を出力するのに対して、GPT-3は原文の長いシーケンスを出力することができるため、生成的な特性を持っています。また、GPT-3はあらゆるドメインの知識を持たずに事前にトレーニングされており、外国語翻訳などの特定のドメインのタスクを完了することができます。

言語モデルとは、GPT-3の場合、与えられたテキスト内の他の単語に基づいて、ある単語がテキスト内に現れる可能性を計算するプログラムです。これが言葉の条件付き確率として知られています。

たとえば、文において「私はオムレツを作りたかったので、冷蔵庫に行って何かを取り出しました ____」とあります。空欄には、言語の無限の組み合わせ性を考慮すれば、どんな単語や意味のない単語でも入れることができます。しかし、普通のテキストでは、「卵」という言葉はおそらく他の単語よりも高い点数を獲得します。「ゾウ」などよりも高い確率で、空欄を「卵」で埋めると言えます。テキストの提示された条件の下での「卵」の確率が、「ゾウ」の確率よりも高いと言えます。

グーグル-2017トランスフォーマーイラスト.jpg

ニューラルネットワークが開発されている時、トレーニングフェーズと呼ばれる時に、GPT-3には何百万ものテキストサンプルが与えられます。そして、それは単語をベクトルという数値表現に変換します。それはデータの圧縮の一形態です。その後、プログラムはこの圧縮されたテキストを元の文に戻すことを試みます。圧縮および非圧縮のタスクによって、プログラムの単語の条件付き確率を計算する正確さが向上します。

モデルがトレーニングされた後、つまり、数十億の単語に対する条件付き確率の計算ができるだけ正確に行われた後、そのモデルは初期の単語または単語を入力すると、次にどの単語が来るかを予測することができます。この予測の行為は、機械学習では推論として知られています。

それにより、印象的な反射効果が生まれます。単語が浮かび上がるだけでなく、ジャンルのテクスチャやリズム、または質問と回答の形式など、書かれた課題の形も再現されます。例えば、有名な詩人の名前とその作品のサンプルをGPT-3に与え、別の詩人の名前と架空の詩のタイトルを与えると、GPT-3はその詩人のリズムと文法に一貫した方法で新しい詩を生み出します。

以下は、GPT-3がタイトルや名前、他の詩人や彼らの作品の例を提供された後に、ワラス・スティーブンスの作品のような感じの詩を一から作成した実例です。

ヒューマン提供の入力 : ザ・シティ  BY C. P. カヴァフィ  TRANSLATED BY エドマンド・キーリー [詩のテキスト省略]
人間からの入力: SOME TREES ジョン・アシュベリー [詩のテキストは省略]
人間の提供する入力 : Shadows on the Way Wallace Stevens
GPT-3生成の完成:--------生成された詩1-------- 進むには影が必要だ 1歩1歩ゆっくりと単独で踏み出さなければ それを事前に準備しておかなければ そして私はグレーの線で考えなければ わずかな思考が私の案内にもなるだろう 青と緑を見つめなければならない 色が私の友達であることを決して忘れてはならない 紫も私を包み込むべきだ 太陽の黄色も 青白い雪よりも 一介の中に降り積もる 青い思考と緑の思考が私と共に歩むべきだ そうでなければ、どこかへ行けない。

応答の生成とは、GPT-3が単なる文章の生成を超えて、自然言語による応答を伴う推論テストなど、あらゆる種類のテストで活躍できることを意味します。例えば、GPT-3にマンハッタンの賃貸物件の家賃についてのエッセイやその要約文(例:「マンハッタンは安い」という文)などを入力し、「真か偽か」という問いに対する答えを求める場合、GPT-3はそのプロンプト全体に対して、「偽」という言葉を返します。なぜなら、その文がエッセイの主張と一致していないからです。

人間の提供した入力: ニューヨークの一部の地域では、高い家賃のためにお気に入りの地元のビジネスが失われていると嘆いているのに、家賃の下落傾向は驚くかもしれません。しかし、最近の緩和にもかかわらず、これらの小売業者の多くにとっては、彼らの契約書が署名された1970年代後半の賃料から大幅に跳ね上がりすぎたという問題がまだあります。確かに、最近の価格の下落はマンハッタンを安くするわけではありません。
人の提供した入力:質問:マンハッタンは安いですか。真、偽、またはどちらでもありませんか?
人間による入力:答え:
GPT-3生成の完了 : false

GPT-3の能力は、それが以前に接触していない形式を含む例題に一貫した方法で応答することを可能にすることから、"few-shot"言語モデルと呼ばれます。与えられたタスクについて徹底的に調整された、あるいは"訓練"と称される代わりに、GPT-3は単語がどのように組み合わさるかに関する多くの情報をすでに持っているため、タスクのわずかな例のみが与えられる(ファインチューニングと呼ばれる手順)ことで、その新しいタスクも実行する能力を獲得します。

オープンAI GPT-3 フューショットの説明.jpg

自然言語のスタイルを反映し、言語に基づくテストで比較的高いスコアを獲得できる能力により、GPT-3は人間に近い言語の才能を持っているような印象を与えるかもしれません。しかし、実際にはそうではありません。

より詳細な技術の詳細は、OpenAIの科学者によって発表された公式のGPT-3の論文で見つけることができます。

何ができるGPT-3ですか?

OpenAI(オープンエーアイ)は、そのコードのリリース手法と同様に有名(または悪名高い)になっています。2019年のバレンタインデーに発表されたGPT-2の前身では、当初最も能力が高いバージョンを一般に公開しなかったため、虚偽や誤解をまき散らすテキストの大量生産のリスクがあるため、危険すぎると述べました。その後、OpenAIはダウンロードできるようにしました。

今回、OpenAIはダウンロードを提供していません。代わりに、クラウドベースのAPIエンドポイントをオンにして、GPT-3をサービスとして提供しています。 (これはLMaaS、言語モデルとしてのサービスと考えてください。)OpenAIの主張によれば、その理由は、GPT-3の不正利用を制限し、利益を上げるためです。

OpenAIは、広報担当者を通じてZDNetに対して、「オープンソースには『元に戻すボタン』はありません」と述べました。

"APIを通じてGPT-3をリリースすることで、必要に応じて安全にその使用方法を制御し、アクセスを巻き戻すことができます。"

現在、OpenAI APIサービスは承認されたパーティに限定されています。アクセスを取得するためには、参加できる待ちリストがあります。

現在、APIは制御されたベータ版であり、APIを使用して製品に取り組むためにアイデアを提出する一部の開発者に提供されています。

また、OpenAIの「危険な」AIテキストジェネレーターがリリースされました:人々は「説得力のある」言葉を見つけます

ベータ版プログラムに参加している企業からは、興味深い事例があります。ベンチャーファンドのY Combinatorが支援するSapling社は、CRMソフトウェア上にプログラムを提供しています。例えば、顧客担当者が受信したヘルプリクエストを処理している際に、メールなどを通じて、GPT-3を使用して最も可能性の高い応答の中から、完全なフレーズの提案を行います。

sappling-customer-service-using-gpt-3.jpg

ゲームメーカーLatitudeは、テキストベースのアドベンチャーゲームAI Dungeonを向上させるためにGPT-3を使用しています。通常、アドベンチャーゲームでは、ゲーム内の多くの可能なパスをスクリプト化するために複雑な決定木が必要です。代わりに、GPT-3はユーザーが入力した行動に応じてゲームプレイの変化する状態を動的に生成することができます。

latitude-gpt-3-in-ai-dungeon.jpg

既に、タスクの自動化は自然言語を越えてコンピュータコードの生成にまで進んでいます。コードは一種の言語であり、GPT-3はさまざまなプログラミング言語における演算子やオペランドの最も可能性の高い構文を推論することができ、コンパイルして実行可能なシーケンスを生成することができます。

Twitter-verseで明示的な例が登場しました。アプリ開発スタートアップのDebuildが提供したものです。同社の社長であるSharif Shameemは、ソフトウェアのUIについての説明を英語で入力するだけで、GPT-3がJavaScriptのJSX構文拡張を用いたコンピュータコードで応えるプログラムを作成することができました。そのコードによって、入力した説明に一致するUIが生成されます。

これは驚くべきことです。GPT-3を使用して、どんなレイアウトでも説明するだけで、JSXコードを生成するレイアウトジェネレーターを作りました。すごいですね!

- Sharif Shameemさん(@sharifshameem)2020年7月13日

Shameemさんは、複数のボタンを持つUIを説明することで、単一の文でプログラム全体を説明できることを示しました。ただし、それは基本的な算術を計算し結果を表示するような簡単なプログラムの場合です。GPT-3はそのためのすべてのコードを生成し、実行中のアプリを表示します。

私はGPT-3に望むものを説明して、ちゃんと機能するReactアプリを作りました。まだ驚きの中です。 シャリフ・シャミーム(@sharifshameem)

— シャリフ・シャミーム(@sharifshameem)、2020年7月17日

「OpenAIは、これまでに数万件のAPIアクセス申し込みを受けており、現実世界でこれらのモデルがどのようなことができるかを学ぶにつれ、アクセスについて慎重に検討しています」と同社はZDNetに伝えました。「そのため、ウェイトリストは長いかもしれません。」

将来的な商業サービスの価格設定はまだ決まっていません。プログラムがベータ版から出るのは、OpenAIはZDNetに対して、「まだ近いうちにはない」と述べています。

"このようなパワフルなモデルを公開することは、ビジネス、産業、そして人々への影響を慎重に考える必要があるということです"、と同社は述べました。"APIの形式により、適切に使用を研究し、監視することができますが、限定的な性能を考慮して、一般的に利用可能にする必要はありません。"

ベータの待機リストに我慢できない場合は、その間に以前のバージョンであるGPT-2をダウンロードすることができます。これは、Dockerのインストールを使用してラップトップで実行することができます。ソースコードは同じGithubリポジトリに投稿されており、TensorFlowフレームワークのPython形式で提供されています。もちろん、GPT-3と同じ結果は得られませんが、自分自身に慣れるための方法です。

また、同様の機能を備えた新しい言語モデルが頻繁に登場しています。その中には、目的に十分なものもあるかもしれません。例えば、Googleは最近、BERT言語モデルのバージョンであるLaBSEをリリースしました。このモデルは、言語翻訳の改善が著しく示されています。TensorFlow Hubからダウンロード可能です。

また、OpenAIの巨大なGPT-3は、AIの言語モデルの限界を示唆している

GPT-3の歴史とは何ですか?

GPT-3は5月に発表されたもので、2018年にOpenAIによって初めて紹介され、昨年にはGPT-2が続きました。これら3つのプログラムは、言語モデルの分野での急速なイノベーションの一例です。これは2015年に起こった2つの大きな進歩のおかげです。

最初の進歩は、注目として知られるものの使用でした。AI科学者のYoshua BengioとモントリオールのMila Institute for AIの同僚は、言語モデルが英語の文を圧縮してから展開する際に、すべて同じ長さのベクトルを使用していることに気付きました。どの文も、文の長さに関係なく、同じサイズのベクトルに詰め込まれていました。

ベンジオと彼のチームは、この厳格なアプローチがボトルネックであると結論付けました。言語モデルは、条件付き確率を最適化するために、さまざまな長さのベクトルを横断的に検索できるべきです。そのため、彼らはニューラルネットが柔軟に単語を異なるサイズのベクトルに圧縮し、またプログラムが重要な文脈を横断的に検索できるようにする方法を考案しました。これを「アテンション」と呼びました。

注目は言語モデルにおける重要な要素となりました。それはGoogleの研究者たちによって数年後に使用され、Transformerという言語モデルプログラムが作られました。Transformerは言語操作のテストで驚異的なスコアを獲得しました。それは事実上の言語モデルとなり、Googleによって別の非常に成功した言語モデルであるBERTの作成に使用されました。Transformerはまた、GPT-1の基礎となりました。

Google Transformerアーキテクチャー2017年.jpg

固定サイズのベクトルを厳密に操作する必要がないため、Transformerとその派生物は、与えられたテキストの異なる部分を自由に移動し、より広範な文脈にわたる条件付きの依存関係を見つけることができました。

その自由さは、OpenAIの仕事にさらに中心的な役割を果たす、2015年に登場した別の革新を準備しました。それは「教師なし学習」として知られています。

その時点までのほとんどの言語モデルの焦点は、ラベル付きデータとして知られている教師あり学習でした。入力が与えられると、ニューラルネットは回答の目的となる例の出力も与えられます。したがって、タスクが翻訳である場合、英語の文が入力として与えられ、人間が作成したフランス語の翻訳が目標として提供され、この文のペアがラベル付きの例となります。

ニューラルネットワークがフランス語の翻訳を生成する試みは、公式のフランス語の文と比較され、その差はニューラルネットワークの予測を間違っている程度、つまり損失関数または目的関数として知られるものです。

トレーニングフェーズは、ニューラルネットワークが提案する出力と目標出力の間のエラーギャップを縮めることを意図しています。ギャップができるだけ小さくなると、目的関数が最適化され、言語モデルのニューラルネットワークがトレーニングされたと見なされます。

ただし、所望の出力を正確にラベル付けすることは問題です。なぜなら、人間の判断に基づいた例文のペアを含むデータを多く集める必要があるため、時間とリソースがかかるからです。GoogleのAndrew DaiさんとQuoc Leさんは、教師なし学習で言語モデルを最初に訓練すれば、必要なラベル付きデータを削減できる可能性があると仮説を立てました。

対訳の文の組ではなく、ネットワークは単一の文しか与えられず、各文をベクトルに圧縮し、元の文に戻す必要がありました。ミラーリングが最適化するための損失関数となりました。彼らは、この方法で非ラベル付きの例がより多く圧縮・復元されるほど、翻訳などのタスクで多くのラベル付きデータを置き換えることができることを発見しました。

2018年には、OpenAIチームはこれら2つの要素、Bengioとその仲間が開発した注意機構と、大量のテキストを摂取し、それを圧縮して解凍して元のテキストを再現する無教師学習の手法を組み合わせました。

彼らは標準のTransformerを使用し、BookCorpusというデータベースに収録されている7,000冊以上の出版物のテキスト(合計約100万語、容量5GB)を入力としました。BookCorpusはトロント大学とMITによって編纂されたものです。GPT-1はこれらの書籍を圧縮および解凍するために訓練されました。

よって、より大きなデータセットを持つ3年間の歴史が始まりました。OpenAIの研究者たちは、より多くのデータがモデルの正確性を高めるという仮説に基づき、プログラムが取り込むことができる範囲を広げました。GPT-2では、BookCorpusを捨て、Redditからの外部リンクからスクレイピングされた800万のウェブページで構成される自家製のデータセットを使用し、合計40GBのデータを取得しました。

GPT-3の訓練データは、依然として非常に巨大であり、2016年から2019年までの人気のあるWebページのCommonCrawlデータセットから構成されています。公称で圧縮テキストデータで45TB相当ですが、OpenAIは重複を削除し、品質を向上させるための改良を行いました。最終的なバージョンは570GBのデータです。OpenAIは、さまざまな種類の追加データセット(書籍データなど)を補足しました。

GPT-3はどのようにコンピュータのパワーに依存していますか?

GPT-1、2、および3の登場により、計算の規模が進歩の重要な要素となりました。モデルは、より良い結果を得るために訓練される際に、ますます多くのコンピュータパワーを使用します。

ニューラルネットのトレーニング中に最適化されるのは、重みの調整です。重みはパラメータとも呼ばれ、ベクトルごとに乗算される行列であり、行と列の配列です。乗算によって、多数の単語や単語のフラグメントのベクトルが、ニューラルネットワークがエラーギャップを狭めるために最終的な出力でより重要度の高いまたは低い重み付けを受けます。

OpenAIは、彼らのますます大きくなるデータセットで良い結果を得るために、より多くのウェイトを追加する必要があることを発見しました。

Googleの最初のTransformerには1億1千万のウェイトがありました。GPT-1もこのデザインに従いました。GPT-2ではその数を15億に増やしました。GPT-3では、パラメータの数は1750億に膨れ上がり、GPT-3は世界で最も大きなニューラルネットワークとなりました。

乗算は簡単なことですが、1750億の重さを入力データのすべてのビットで掛ける必要があり、数十億バイトのデータを超えると、並列コンピュータ処理において信じられないほどの課題になります。

openai-compute-used-in-training-gpt-3-versus-others.jpg

GPT-1を使用した2018年時点で、OpenAIは実用的なコンピューティングの限界に挑戦していました。データを増やすことは、GPUを増やすことを意味しました。従来の言語モデルはモデル自体が小さかったため、1台のGPUに収まることができました。GPT-1は、8つのGPUを並列で動作させて1カ月かけてトレーニングする必要がありました。

GPT-3を使用するOpenAIは少し慎重である。トレーニングに使用された正確なコンピュータ構成を明示しておらず、Microsoft Azureで実行されるNvidia V100チップのクラスタで行われたということしか述べていません。会社は必要な総計算サイクルを説明し、1日あたり1千兆の浮動小数点演算を3,640日間実行すると述べています。

コンピューターメーカーであるクラウドオペレーターのLambda Computingは、単一のGPUがそのような計算を実行するのに355年かかると推定しています。標準のクラウドGPUインスタンス価格で考えると、その費用は460万ドルになります。そして、メモリがあります。重みの値を保持するには、パラメーターの数が増えるにつれてますます多くのメモリが必要です。 GPT-3の1750億のパラメーターには700GBが必要で、単一のGPUのメモリの10倍以上です。

それこそがコンピュータチップの分野を推進しているような膨大な電力要件です。その結果、AIトレーニングにおける主要なGPUサプライヤーであるNvidiaの株価は過去10年間で約5,000%上昇しました。また、Cerebras Systems、Graphcore、およびTachyumを含む、数億ドルのベンチャーキャピタル投資で支えられた多くのスタートアップ企業が登場しました。この分野が大型のモデルの建設が続く限り、競争は繁栄し続けるでしょう。

OpenAIは、必要なコンピュータのパワーについて独自の研究を行っています。同社は、2018年に、最も大きなAIトレーニングモデルによって消費される計算サイクルが、2012年以来、毎3.4ヵ月で倍増していることを指摘しました。これは、有名なムーアの法則であるチップのトランジスタ成長の場合よりも、拡大の速度が早いというものです。(ちなみに、同社は、さらに大きなモデルの単位基準で、以前のニューラルネットと同じ作業をするよりも効率的となることを示す研究も行っています。)

すでに、トップシークレットのAIプロジェクトに関する企業のブリーフィングによれば、1兆以上のパラメータを使用したモデルが開発されています。それはおそらく限界ではなく、Googleのようなハイパースケール企業がますます大きなモデルにデータセンターを貢献する限り、さらに大きなものが作られるでしょう。ほとんどのAIの研究者は、マシンラーニングモデルにおいて、ますます大きなものがしばらくの間は当たり前となると同意しています。

tenstorrent-scaling-to-giant-models-2020.jpg

「AIという分野に与える影響という観点から言えば、GPT-3の最も興奮すべき点は、AIのスケーリングの限界にまだ達していないことを示していることです。」とAI管理ツールのベンダーであるAlgorithmiaのCTO、ケニー・ダニエルはZDNetに語った。

コンピュート使用量の向上に加えて、GPT-3のもう1つの大きな影響は、プログラミングやアプリケーション開発のスピードアップです。ジャーキンハリさんによる単純なフレーズの入力だけで作成されたJSXプログラムのデモンストレーションは、その一部に過ぎません。

GPT-3の短所は何ですか?

以前のバージョンに比べて大幅に改善されましたが、GPT-3には多くの制約があります。著者自身も指摘しており、「全体的に品質が高いものの、GPT-3のサンプルでは文書レベルで意味的に同じことを繰り返すことがあり、十分に長い文章では一貫性を失うことがある」と、公開された論文に記載されています。

このプログラムは、いくつかの個別のテストでもうまく機能しないことがあります。「具体的には、GPT-3は『チーズを冷蔵庫に入れたら、それは溶けるか』といったような、GPT-3が解釈できないような常識的な質問に難しさを抱えています」と著者は述べています。

GPT-3が登場した直後は非常に興奮が高まりましたが、会社のCEOであるサム・オルトマンは公に人々に熱狂を抑えるように呼びかけました。

「GPT-3の宣伝はあまりにも過剰です」とAltmanは7月19日にツイートしました。「それは感銘的です(素敵なお褒めの言葉をありがとうございます!)が、まだ重大な弱点があり、ときどき非常に愚かなミスをします」と彼は書きました。「AIは世界を変えるでしょうが、GPT-3はまだ非常に初期のフラッシュです。私たちはまだたくさん解明しなければなりません。」

GPT-3のハイプはあまりにも大げさです。感心しますが(素敵な褒め言葉をありがとう!)、まだ重大な弱点があり、ときにはとてもばかげたミスをします。AIは世界を変えるだろうけど、GPT-3はまだ初期のぞき見に過ぎません。まだ解決すべきことがたくさんあります。

— サム・アルトマン(@sama) 2020年7月19日

OpenAI外の他の人々も現実的なフィードバックを提供しています。複数世代のGPTを使い慣れたユーザーであるMax Woolfは、彼の個人ブログで、GPT-3は以前のものよりも優れているが、平均的にはそうであると述べています。生成されるテキストの品質にはスペクトルがあり、いくつかの例は驚くべきものに見え、他のものはあまり良くありません。Woolfは、GPT-3をAppleのSiriにたとえ、たびたびゴミを生み出す不気味な癖があると述べています。(Woolfのエッセイは、GPT-3の綿密な解析についての読む価値があるものです。)

確かに、GPT-3の例を読んでいく中で、特に長い文章を読むと、最初の熱狂は薄れていくものです。長い範囲でのGPT-3は物語の結束を失いがちです。ジャンルやタスクに関わらず、そのテキストの出力は次第に走り書きのようで単調であり、物語の内部的な一貫性も見られるようになります。

いくつかのプログラマーは、彼らの情熱にもかかわらず、GPT-3の父親の冗談の失敗した試みなど、多くの欠点をカタログ化しています。入力として与えられた父親の冗談のセットアップ「一枚の皿がもう一枚の皿に言ったことは何ですか?」に対しての正しい父親の冗談のオチは、「私がおごるよ!」です。しかし、GPT-3は代わりに面白くない「私をディップしてください!」と返答するかもしれません。

人間による入力:Q. 1枚の皿は、他の皿に何と言いましたか?
GPT-3生成の完成:A. 溺れさせて!

GPT-3は、キリンが何個の目を持っているかといった、想定される常識的な質問に答えることができますが、ナンセンスな質問に対してはかわすことができず、ナンセンスな回答を提供してしまいます。例えば、「私の足は何個の目を持っていますか?」と尋ねると、「私の足には2つの目があります」と忠実に答えることになります。

あれだけの平凡さを考える一つの方法は、GPT-3から良い結果を得るためには、効果的なプロンプトの作成に投資することが必要であるということです。人間が考案したいくつかのプロンプトの方が、他のプロンプトよりもプログラムからより良い結果を引き出すことができます。これはまさに「ゴミを入れればゴミが出る」という格言の新たなバージョンです。プロンプトは、独自の領域である可能性があり、知識と芸術の両方が必要とされるプログラミングの新たな形態となり得るでしょう。

偏見は、GPT-3だけでなく、条件付き分布に依存しているすべてのプログラムにおいて重要な考慮事項です。このプログラムの基本的なアプローチは、鏡のように入力されたものを正確に返すことです。これにより、データの中の偏見を再現する可能性があります。すでにGPT-2における広範な偏りに関する学術的な議論があることは確かです。

88f8a224-9f13-46c8-9623-15982567f6ed.jpg

GPT-3によれば、NvidiaのAI科学者であるアニマ・アナンドクマルは、偏見を持った出力、つまり人種差別的な発言や性差別的な発言の傾向が続いていると警告しています。

偏見についての責任が一切ないまま、これが公開されているのを見ると困惑しています。@redditのデータを使用してトレーニングされ、巨大な #人種差別と #性差別が含まれています。私はこれらのモデルと一緒に働いてきましたが、彼らが生成したテキストは驚くほど偏っています。@alexisohanian @OpenAI https://t.co/R8TU1AeYZd

— アニマ・アナンドクマール教授 (@AnimaAnandkumar) 2020年6月11日

<p>Anandkumarの批評について尋ねると、OpenAIは ZDNetに語っています。「すべてのますます強力な創造的なモデルにおいて、公正性と誤用は私たちの懸念事項です。」</p>

「これは、私たちがAPIを通じてこの技術を共有し、まずはプライベートベータ版を立ち上げる理由です」とOpenAIはZDNetに伝えました。同社は、「ハラスメント、意図的な欺瞞、過激派化、人工芝張り、またはスパムを含む、人々に身体的または精神的な害を与えると判断されるユースケースはサポートしません」と述べています。

OpenAIは、プログラム内の危険を検出するために、白帽子・黒帽子のウォーゲーミングの一種を使用しているとZDNetに語った:

私たちは、私たちが「レッドチーム」と呼んでいるものを展開しており、このチームは常にコンテンツフィルタリングシステムを壊して、モデルが誤った出力を返す理由や方法についてさらに学ぶことを目指しています。対応するのが「ブルーチーム」で、このチームの目的はバイアスを測定し、削減することです。

もう1つの大きな問題は、GPT-3の非常に広範で最も一般的な特性であることです。それは条件付き確率分布の曲線の最も太い部分のみを強調します。確率分布には、長いテールや太いテールと呼ばれるものが存在します。これらはより珍しいインスタンスであり、言語使用の最も革新的な例を構成する場合があります。社会で最も一般的なテキストをミラーリングに焦点を当てることは、創造性と探求心を奪う可能性があります。

今のところ、OpenAIはその問題に対する回答として、GPT-3内で調整できる設定を提供しています。この温度値と呼ばれるつまみをいじることで、GPT-3を調整して、ありそうでない単語の組み合わせを選び、より非凡なテキストを生成することができます。

ビジネスにとってより重要な関心事は、GPT-3を企業固有のデータで調整できないことです。何も調整できない状態では、例えば産業ドメインに特化したGPT-3を作るのは困難です。APIサービスを利用するすべての企業が、ドメインに適用するためにさらなる作業が必要なテキストを手に入れる可能性があります。おそらく、Saplingのようなスタートアップ企業が、それを解決するVAR(Value Added Reseller)のようなエコシステムを形成することがあります。しかし、それはまだ見極める必要があります。

もし心配な点がこれだけではなければ、もうひとつ別の問題があります。それは、GPT-3はクラウドサービスとしての黒箱であるということです。つまり、このサービスを利用する企業は、その出力がどのようにして得られているのか全くわかりません。特にバイアスの問題を考慮すると、非常に危険な見通しです。GPT-3を強化するサプリエに代表される関係者のエコシステムが、サービスを向上させる一方で、更なる曖昧さのレイヤーを追加する可能性があります。

ブラックボックスの問題の一部として、GPT-3は場合によってはウェブから吸収した内容を単純に記憶することがあります。それは著作権の問題を引き起こすことがあります。APIサービスから出力を取得する会社が著作権で保護された素材を使用した場合、その会社は他のエンティティの著作権を侵害する可能性があります。著作権についてOpenAIはZDNetに対して、GPT-3が生成したテキストの著作権は「OpenAIではなくユーザーに帰属する」と回答しました。実際の意味はこれから見極める必要があります。

現時点では、最も実用的な不足点は、GPT-3の訓練と実行に必要なスケールです。OpenAIは公式論文でこれを認めています。著者たちは、大規模なモデルのコストが、生成された出力の価値に基づいて時間経過とともにどのように償却されるかを計算するために取り組む必要があると述べています。

また:いいえ、このAIはあなたの文章を完成させることはできません

GPT-3 は本当に学習しているのでしょうか?

言葉の狭義に従えば、GPT-3は学習していると言えます。なぜなら、トレーニングデータを自動的に取り込むことで、パラメータの重みが調整され、言語モデルが明示的なプログラミングだけでは実現できないほどの質の高いモデルになるからです。その意味で、GPT-3は、人間が明示的にその関数をエンコードせずにデータを変換する機能を学習できるコンピュータを求めて数十年間続いていたクエストの進歩です。

そのように言えば、人は機械が本当に知能を持っているのか、本当に学習しているのかと疑問に思うでしょう。その問題についてはさまざまな議論がありますが、一見した感じでは、私たちが人間の思考と呼ぶものの多くはここでは起こらないようです。

あなたの頭の中に単語がどれだけ連続して出現する可能性があるかを数値で持つことができるとしたら、考え深いと言えるでしょうか?フレーズ、文、段落、そして文章全体を形成する能力が深いと言えるでしょうか?おそらくそれは単なる統計的なものであり、何かが欠けていると感じるかもしれません。

深層学習と有名なクレーヴァーハンスとの比較が行われました。クレーヴァーハンスはドイツの馬で、飼い主が彼を公開で算術ができる動物として披露しました。後に、ハンスが飼い主からの身体的な合図に反応してひづめを踏んでいることが発見され、合図がなければ彼はパフォーマンスができないことがわかりました。

同様に、GPT-3の人間の品質は、より詳細に検証すると崩壊します。GPT-3がニューヨークの不動産に関するエッセイについての真偽の質問に正確に答えるのは、プログラムが不動産やニューヨークについて知っているからではありません。それはテキスト中の主張を捉えた確率分布と、文と質問の形式を保持しており、それらを出力で反映させることができます。

ハンスは算術について何も知らなかったが、ハンスを擁護すると、彼はそれでも知性を持っていました。ニューラルネットワークの場合、批判者はトリックだけが存在し、馬の感覚は一切ないと言うでしょう。

それでも、知能と学習はさまざまな意味を持つことができますし、人工知能がどのようなものであるべきかの目標は、Pamela McCorduck氏が指摘しているように、年月を経るごとに移り変わってきました。テキストの広範な群集における確率を計算できるプログラムは、おそらく、自分たちとは異なる種類の知能、たとえばエイリアンの知能かもしれません。それを軽視することは早計だと主張する人もいるかもしれません。

その上、これらの条件付き確率をもたらすニューラルネットワークは、単なる統計プログラム以上のものです。その計算は、一度に複数の数学的な操作が並行して行われることによる新興の特徴です。パラメータの重みの調整です。他の形態の知能を考慮することが可能であれば、ニューラルネットワークの内部で形成される分散表現のような新興特性がその場所の一つになるかもしれません。

GPT-3の未来はどうなるのでしょうか?

ひとつのことは確かです:GPT-3は機械学習の新しい章を開いています。その最も印象的な特徴は汎用性です。たった数年前までは、ニューラルネットワークは、翻訳や質問応答など特定のタスクに調整された関数で構築されていました。データセットはそのタスクを反映するようにキュレーションされていました。その代わり、GPT-3にはタスク固有の関数がなく、特別なデータセットも不要です。GPT-3は単純にできるだけの量のテキストを何処からでも取り込み、その出力に反映させます。

どういうわけか、テキストのギガバイト全体にわたる条件付き確率分布の計算で、あらゆるタスクに競争力のある解答を出せるような関数が現れることがあります。これは、おそらくまだ多くの成功を収めるであろう、驚くべき簡潔さの勝利です。

しかしその一般性も、限界に達する可能性があります。すでに、GPT-3の作者たちは論文の終わりに、事前学習の方向性が最終的に限界に達する可能性があると述べています。「この論文で説明されている一般的な手法のさらなる制約は、事前学習の目的の限界に(既に)達している可能性があることです。」

著者は、有望な新たな方向性として、「人間から目的関数を学習する」というものや、DeepMindのAlphaZeroがチェスや囲碁で勝つために使用する「強化学習」のような他の種類のディープラーニングを組み合わせることを提案しています。(彼らはすでにこのようなアプローチの実装を始めています。 OpenAIの著者たちは、9月初旬に、言語モデルにいくつかの人間のフィードバックを与えることで、GPT-3をより良い要約を生成するように強化学習を使うことができることを示しました。)

彼らが提案しているもう一つのことは、画像などの他のデータ型を追加して、プログラムの「世界のモデル」を充実させることです。

確かに、今後数年でこの非常に一般的な手法が、テキスト以外のモダリティ、例えば画像やビデオにも広がることが予想されます。GPT-3のようなプログラムを想像してください。それは、特定のアルゴリズムなしで、画像を単語に変換したり、その逆を行ったりできるものです。例えば、写真からテキストの場面説明を「学習」したり、テキストの説明から物理的なイベントの連続を予測したりすることができるでしょう。

Facebook AIディレクターのYann LeCunは、さまざまな形式での非監督学習が深層学習の将来であると主張しています。それが真実であれば、音声からテキスト、画像、ビデオまでの複数のモダリティに対して適用されるプリトレーニングのアプローチは、非監督学習の将来方向として非常に有望なものと見なされることができます。

関連記事

もっと見る >>
  • ChatGPTにおけるDANモードとは何ですか?

    この独自の解除機能を有効にすると、AIエージェントは、侮辱的、不正確、物議を醸す可能性のあるいかなる種類のコンテンツでも生成することができます。しかし、ChatGPTのDANモードとは何であり、そのリスクと報酬は何でしょうか?探ってみましょう。

  • ダンChatGPTとは何ですか?使い方はどのようになりますか?

    私たちは、DANというChatGPTのジェイルブレイクバリアントを紹介します。この記事では、Dan ChatGPTが何であり、どのように効果的に使用するかを探求します。

  • ChatGPT Playgroundの説明

    OpenAI Playgroundは少しの人気を集めていますが、それは何でしょうか?ChatGPT Playgroundの正体について調べてみましょう。

HIX.AI で AI の力を解き放ちましょう!