OpenAIの巨大なGPT-3は、AIのための言語モデルの限界を示唆する

約1年前、サンフランシスコに拠点を置く人工知能企業であるOpenAIは、コンピュータが自然言語の文を形成し、さらには質問を解決し、文章を組み立て、人間に近いと感じる長い文章を作成する能力に驚くべき進歩を示しました。

そのチームの最新の仕事は、OpenAIの考え方がある面で成熟してきたことを示しています。最新作であるGPT-3は、先週登場しました。前バージョンと同じ作者であるAlec RadfordとIlya Sutskeverを含む、いくつかの追加の共同研究者と、ジョンズ・ホプキンス大学の科学者たちによって、より多くの機能が追加されたものです。

それは、先行モデルより2桁多くのテキストを飲み込むと言われる、本当にモンスターの言語モデルになりました。

しかし、そのより大きいものが良いというスタントの中で、OpenAIのチームはいくつかのより深い真実に acurate しているように見えます。まさに映画『2001年宇宙の旅』の終盤でDr.ディビッド・ボウマンが既知の限界に挑んだように。

72ページの論文「Language Models are Few-Shot Learners」の締めくくりのセクションに、先週arXivのプリプリントサーバーに投稿された、非常に印象的な認識が埋もれています。

「この論文で説明されている一般的な手法のさらなる制約は、自己回帰型または双方向型の任意のLMのようなモデルをスケーリングアップすると、事前学習の目的の限界に達する可能性がある（または既に達している可能性がある）ことです」と著者は書いています。

著者が言っていることは、文やフレーズの次の単語の確率を予測するだけのニューラルネットワークを構築することには限界があるかもしれないということです。それをますます強力にし、ますます多くのテキストを詰め込んでも、より良い結果が得られるとは限りません。これは、問題に対してより多くの計算能力を投入するという成果を主に祝う論文の中での重要な認識です。

なぜ著者の結論が非常に重要であるかを理解するためには、ここにたどり着くまでの経緯を考慮してください。OpenAIの言語に関する取り組みの歴史は、一つの種類の手法の着実な進歩の歴史の一部であり、技術がどんどん大きくなり、更に大きくなるにつれて成功が増してきました。

オリジナルのGPTとGPT-2は、いずれもGoogleで2017年に開発された変形をしたものです。Transformerという関数を使用して、周囲の単語から与えられた単語がどのように表示されるかの確率を計算します。OpenAIは1年前に、GPT-2の最大バージョンのソースコードを公開しないと発表しました。なぜなら、そのコードが誤った手に渡って、フェイクニュースなどで人々を誤導するために悪用される可能性があると考えたためです。

新しい論文では、GPTをさらに拡大させることで、さらに大きくなりました。GPT-2の最大バージョンは、ソース形式で公開されなかったもので、15億のパラメータを持っていました。GPT-3は1750億のパラメータです。パラメータは、ニューラルネットワーク内で行われる計算であり、データの一部分により大きなまたは小さな重みを適用し、そのデータの全体的な計算における重要度を高めたり低めたりするものです。これらの重みがデータに形を与え、ニューラルネットワークに学習済みの視点を与えるのです。

時間の経過とともに、GPTファミリーのプログラムや他の大規模なトランスフォーマー派生プログラム（例：GoogleのBERT）は、驚くべきベンチマークテストの結果を示してきました。これらの結果は、一貫して非常に印象的であると言えます。

多くの人々が指摘したように、これらの言語モデルのどれも実際には言語を意味のある方法で理解しているわけではないということは気にしません。彼らはテストで優れた成績を収めていますし、それは何かの価値があります。

最新バージョンでは、再び量的な進歩が見られます。GPT-2や他のTransformerベースのプログラムと同様に、GPT-3はCommon Crawlデータセットで訓練されています。このデータセットは、ウェブからスクレイピングされた約1兆語のテキストのコーパスです。著者は「データセットとモデルのサイズは、GPT-2に使用されたものよりも2桁大きい」と述べています。

GPT-3のパラメータは1750億個あり、その作者が「メタラーニング」と形容するものを達成することができます。メタラーニングとは、GPTニューラルネットが文章の補完などのタスクを実行するために再学習されないことを意味します。不完全な文などのタスクの例と、完成した文を与えると、GPT-3は与えられた不完全な文を補完します。

GPT-3は、ある特定のタスクを行うためにそのように微調整されたTransformerのバージョンよりも、単一のプロンプトでタスクを学習することができます。したがって、GPT-3は包括的な普遍性の勝利です。十分な量のテキストを与えて重みが理想的になるまで学習させると、その後の開発なしでいくつかの特定のタスクを非常にうまく実行することができます。

それが物語が劇的な結末を迎える場所です。新しい論文では、GPT-3の素晴らしい結果が言語のタスクにおいて列挙されます。文を完成させたり、文の論理的な含意を推論したり、言語間の翻訳を行うなど、様々な言語のタスクでの驚異的な成果が挙げられた後、著者たちは欠点について言及しています。

"GPT-3の強力な数量的および質的な向上にもかかわらず、特に直前のバージョンであるGPT-2と比較して、まだ顕著な弱点があります。"

これらの弱点には、アドバーサルNLIと呼ばれるものにおいて十分な精度を達成できないということが含まれます。NLI、または自然言語推論は、プログラムが2つの文の関係を判断しなければならないテストです。Facebookとノースカロライナ大学の研究者は、コンピュータが解決するのが難しい文のペアを人間が作成したアドバーサルバージョンを導入しました。

GPT-3は、「Adversarial NLI」のようなものでは、「たまたまよりはちょっと良い程度」と著者は述べています。さらに、彼らのシステムの処理能力を1750億の重みに増強しましたが、一部のタスクで結果が振るわなかった理由については著者自身も確信が持てていません。

そして彼らは上記の引用を根拠に、おそらく巨大な機械に膨大なテキストのコーパスを与えることの単純な結論は究極の答えではないのかもしれないという結論に至るのです。

さらに驚くべきことは、次の観察です。著者は書いているように、言語の将来を予測しようとする全体的なプラクティスは、誤ったアプローチかもしれません。彼らは間違った方向を目指しているかもしれません。

彼らは「自己教育の目標では、目的のタスクを予測の問題に迫ることに依存しています」と書いています。「しかし、最終的には、有用な言語システム（例えば仮想アシスタント）は、単に予測するだけでなく、目標指向のアクションを起こすことを考えた方が良いかもしれません」と。

著者たちは、この非常に魅力的な新しい方向性について、別の機会に具体的に取り組むことになるでしょう。

大きさが必ずしも最適とは限らないという認識にもかかわらず、GPT-3の数多くのタスクにおける向上した結果は、大きくてますます大きいニューラルネットワークへの欲求を燃やし続けるでしょう。 1750億のパラメータを持つGPT-3は、今のところ大規模なニューラルネットワークの王者です。 AIチップ会社Tenstorrentの4月のプレゼンテーションでは、将来的に1兆個以上のパラメータを持つニューラルネットワークが説明されています。

機械学習コミュニティの多くにとって、より大規模な言語モデリングが最先端の状態のままであるでしょう。

OpenAIの巨大なGPT-3は、AIの言語モデルの限界を示唆しています。

関連記事