ChatGPTというチャットボットAIプログラムやその後継技術であるGPT-4に関する熱狂の中にあっても、これらのプログラムは結局のところソフトウェアアプリケーションに過ぎません。そして、すべてのアプリケーションと同様に、技術的な制約があり、パフォーマンスが最適ではないことがあります。
3月に発表された論文では、スタンフォード大学とカナダのMILA AI研究所の人工知能(AI)の科学者たちは、GPT-4やそれに類するものよりもはるかに効率的な技術を提案しました。この技術は、膨大な量のデータを消化し、それを回答に変換することができます。
また: これらの元Appleの従業員は、このガジェットでスマートフォンを置き換えたいと考えています
ハイエナとして知られるこの技術は、ベンチマークテスト(質問応答など)で同等の正確性を実現しながら、わずかな計算パワーで動作することができます。いくつかの場合では、ハイエナコードはGPTスタイルの技術では単にメモリ不足で動作せず、大量のテキストを処理することができます。
「私たちが数十億パラメータスケールでの有望な結果をお届けすることは、注目が全てではない可能性があることを示唆しています」と著者は述べています。この発言は、2017年の画期的なAIレポートのタイトルである『Attention is all you need』を指しています。この論文では、Googleの科学者であるアシッシュ・ヴァスワニと彼の同僚がGoogleのTransformer AIプログラムを世界に紹介しました。Transformerは、最近の大規模な言語モデルの基礎となりました。
ただし、トランスフォーマーには大きな欠点があります。それは「アテンション」と呼ばれるものを使用しており、コンピュータプログラムが、単語などの情報を入力として受け取り、ChatGPTから表示される回答などの新しい情報のグループに移動するという仕組みです。
また:GPT-4とは何ですか? ここに全ての必要な情報があります
その注目の操作は、ChatGPTやGPT-4を含むすべての大規模言語プログラムの基本的なツールであり、「二次」の計算量(Wikiの「時間複雑性」による計算)を持っています。この複雑性は、ChatGPTが入力として与えられるデータの量の二乗に比例して、回答を生成するのにかかる時間の量が増加することを意味します。
ある時点で、データがあまりにも多すぎる場合、つまりプロンプトの単語数が多すぎる場合や、プログラムとの会話が何時間も続く場合には、プログラムが回答するのに時間がかかってしまうか、回答を返すためにより多くのGPUチップが必要になり、計算要件が急増します。
新しい論文「ハイエナの階層化:より大規模な畳み込み言語モデルに向けて」というタイトルの論文がarXivのプレプリントサーバーに投稿され、スタンフォード大学のリード著者であるマイケル・ポリ氏と彼の同僚は、トランスフォーマーの注意機能を何か二次のものであるハイエナに置き換えることを提案しています。
また:Auto-GPTとは何ですか?次の強力なAIツールについて知っておくべきすべて
著者はその名前を説明しませんが、「ハイエナ」というプログラムの理由については、いくつかの理由が想像できます。ハイエナはアフリカに生息する動物で、何マイルも獲物を追って狩りをします。ある意味で、非常に強力な言語モデルはハイエナのように、何マイルも獲物を求めて狩りをすることができます。
しかし、タイトルが示唆しているように、著者たちは実際に「階層」に関心を持っており、ハイエナの家族は厳格な階層を持っています。地元のハイエナ族のメンバーは、優位性を確立するために、異なるランクのレベルを持っています。同様に、ハイエナプログラムでは、非常に単純な操作が繰り返し適用されて、データ処理の階層が形成されます。この組み合わせ要素が、プログラムにハイエナという名前を与える要素です。
また、未来のChatGPTのバージョンは、多くの現在の仕事を人々が代わりにできるかもしれません、とベン・ゲルツェル氏が述べています
この論文の寄稿者には、AIの世界の著名人であるYoshua Bengio氏が含まれています。彼はMILAの科学ディレクターであり、2019年チューリング賞(ノーベル賞に匹敵する計算機科学の賞)を受賞しました。ヴァスワニと彼のチームがTransformerに適用する前に、Bengio氏は注目メカニズムを開発することで広く評価されています。
また、著者の中にはスタンフォード大学のコンピュータサイエンス准教授であるクリストファー・レイも含まれており、彼は近年「AIを"ソフトウェア2.0"として進化させる」という考えを推進してきました。
サブ二次的な代替手法を見つけるため、ポリと彼のチームは注意機構がどのように機能しているのかを研究し、その作業をより効率的に行うことができるかを調べました。
最近のAI科学における一つの実践である機械的な解釈可能性は、ニューラルネットワークの深い内部、注意の計算的な"回路"の中で何が起こっているのかについての洞察をもたらしています。ソフトウェアをまるごと分解し、その部品を見て、それがどのように動作するかを理解するかのように考えることができます。
また:ChatGPTを使用して、12の主要なプログラミング言語で同じ手順を作成しました。 成果はこちら
ポリと彼のチームによって引用されたもう1つの研究は、AIスタートアップAnthropicの研究者ネルソン・エルハージュによる一連の実験です。これらの実験は、アテンションが何をしているのかをTransformerプログラムを分解して調査しています。
基本的に、Elhageと彼のチームが見つけたことは、注意は非常にシンプルなコンピューターの操作で機能し、最近の入力から単語をコピーして出力に貼り付けるなどのことが含まれています。
例えば、ChatGPTのような大規模な言語モデルプログラムに文を入力し始めると、「ハリー・ポッターと賢者の石」からの文、「ダーズリー氏はグランニングスという会社の社長で…」と入力した時、名前の先頭「D-u-r-s」だけ入力するだけで、先ほどの文で名前を見たことがあるため、「ダーズリー」の名前をプログラムに補完してもらえることがあります。システムは、「l-e-y」という文字列をメモリからコピーして文を自動補完することができます。
また: フューチャリストによると、ChatGPTは人間の脳よりもむしろ「異星の知性」に近いという
ただし、単語の数が増えるにつれて、注意操作は二次の複雑さの問題に直面します。さらに多くの単語は、注意操作を実行するために必要な「重み」またはパラメータを増やします。
著者は次のように書いています: "トランスフォーマーブロックは、シーケンスモデリングにおける強力なツールですが、制約もあります。その中でも最も注目すべきは、入力シーケンスの長さが増えるにつれて急速に増加する計算コストです。"
ChatGPTやGPT-4の技術的な詳細についてはOpenAIから公開されていませんが、それらは1兆以上のパラメータを持つ可能性があります。これらのパラメータを実行するには、NVIDIAのより多くのGPUチップが必要であり、その結果、計算コストが上昇します。
その2次の計算コストを削減するために、ポリさんとチームは、注意操作を「畳み込み」と呼ばれるもので代用しました。畳み込みは、AIプログラムの中で最も古い操作の1つで、1980年代に改良されました。畳み込みは、デジタル写真のピクセルや文の中の単語など、データの中のアイテムを選び出すことができるフィルターです。
また:AIの先駆者ベンジオ氏によれば、ChatGPTの成功はAIの秘密主義への悪影響をもたらす可能性がある
ポリと彼のチームは、スタンフォードの研究者であるダニエルY.フーと彼のチームが単語の連続に畳み込みフィルタを適用するために行った仕事を取り入れ、それを、Vrije Universiteit Amsterdamの学者であるデイビッド・ロメロと彼の同僚が提供する技術と組み合わせる、一種のマッシュアップを行っています。このプログラムの適応能力により、フィルタサイズを柔軟に変更することができます。柔軟に適応するこの能力により、プログラムが持つ必要のあるコストのかかるパラメータ(重み)の数を削減することができます。
エッセンスは、マッシュアップの結果、さらに多くのデータをコピーするために、ますます多くのパラメータを必要としないで、無制限の量のテキストに畳み込みを適用することができます。著者たちが言うように、これは「注意不要」なアプローチです。
ハイエナオペレーターは、スケールで注意を払うことで品質の差を大幅に縮めることができる。
ポリ氏とチームは、「より小さな計算予算で、同様のパープレキシティとダウンストリームの性能に到達する」と述べています。パープレキシティは、ChatGPTなどのプログラムによって生成される回答の洗練度を表す技術用語です。
ハイエナの能力を示すために、著者はプログラムをさまざまなAIタスクにおいてどれくらい優れているかを決定するベンチマークに対してテストします。
また:「ソフトウェアの世界では奇妙な新しいことが起こっている」とスタンフォードのAI教授クリス・レーは述べています
1つのテストはThe Pileです。これは2020年に非営利のAI研究団体であるEleuther.aiによって作成された、825ギガバイトのテキストのコレクションです。これらのテキストは、PubMed、arXiv、GitHub、米国特許庁などの「高品質な」情報源から収集されています。そのため、Redditの議論などよりも厳格な形式を持つ情報源です。
このプログラムの主な課題は、新しい文の束を入力として与えられたときに、次の単語を生成することでした。Hyenaプログラムは、OpenAIの元のGPTプログラム(2018年版)と同等のスコアを達成しましたが、計算処理を20%少なくしました。研究者は、「GPTの品質に匹敵する、最初の注意不要な畳み込みアーキテクチャ」と述べています。
次に、著者はニューヨーク大学、Facebook AI Research、GoogleのDeepMind部門、ワシントン大学の研究者が2019年に導入したSuperGLUEと呼ばれる推論タスクでプログラムをテストしました。
たとえば、「私の体は草の上に影を投げました」という文が与えられ、その原因として「太陽が昇っていた」か「草が刈られた」の2つの選択肢が与えられ、それらのうちのどちらかを選ぶように求められた場合、プログラムは「太陽が昇っていた」という適切な出力を生成する必要があります。
複数のタスクにおいて、Hyenaプログラムは、トレーニングデータの半分未満でトレーニングされたにもかかわらず、GPTのバージョンとほぼ同等のスコアを達成しました。
また: 新しいBingの使い方(およびChatGPTとの違い)
さらに興味深いのは、著者たちが入力として使用するフレーズの長さを増やした時のことです:単語数が多ければ多いほど、性能の向上がより良くなります。2,048の「トークン」(単語と考えることができます)で、ハイエナは注意アプローチよりも言語タスクを完了するのに時間が少なくなります。
64,000トークンでは、著者は「ハイエナの速度が100倍に達する」と述べています。つまり、100倍の性能向上です。
Poliと彼のチームは、彼らが単にHyenaで異なるアプローチを試しただけでなく、「2次の壁を破った」と主張しており、プログラムが結果を計算するのがどれだけ難しいかに qualitatively な変化をもたらしたと言います。
彼らは、将来的にも品質の大幅な変化がある可能性もあると示唆しています。「二次方程式の壁を破ることは、ディープラーニングの新たな可能性に向けた重要な一歩です。例えば、教科書全体を文脈として使用すること、長編の音楽を生成すること、ギガピクセルスケールの画像を処理することなどが挙げられます」と彼らは書いています。
ハイエナが数千単語にわたって効率的にストレッチするフィルターを使用できる能力は、著者が記しています。これにより、言語プログラムへのクエリの「文脈」には実質的に制限がほとんどありません。それは、現在の会話の流れからはるかに離れたテキストの要素や以前の会話の要素を実質的に思い出すことができることを意味します - まるでハイエナが何マイルも狩りをするかのように。
また:最高のAIチャットボット:ChatGPTと他の楽しい代替案
"ハイエナ演算子は無制限のコンテキストを持っています"と彼らは書いています。"つまり、例えば局所性などによって人工的に制限されず、[入力]の要素間の長距離の依存関係を学習することができます。"
また、単語だけでなく、このプログラムは画像やおそらくビデオや音声など、異なる形態のデータにも適用できます。
論文に示されたHyenaプログラムは、GPT-4やGPT-3と比較してサイズが小さいことに注意することが重要です。GTP-3は1750億のパラメータ(または重み)を持っていますが、Hyenaの最大バージョンはわずか13億のパラメータしか持ちません。そのため、HyenaがGPT-3や4との直接的な比較でどれだけの成果を出すかはまだ分かりません。
ただし、Hyenaプログラムのより大きなバージョンにも効率が持続する場合、これは過去10年間の注目のように普及する可能性がある新しいパラダイムとなるかもしれません。
ポリとチームの結論によると、次のような「ハイエナ」というより単純なサブ二次設計は、単純な指針に基づき、メカニズムの解釈可能性のベンチマークで評価されることによって、効率的な大規模モデルの基盤となる可能性があります。