![ドリーChatGPTクローン.jpg](https://static-lib.s3.amazonaws.com/cms/dolly_chatgpt_clone_31f1109e7e.jpg)
オープンソースのGPTチャットは、Databricksエンタープライズソフトウェア会社によって作成されたDollyラージ言語モデル(DLL)のリリースにより、さらなる進展を遂げました。
新しいChatGPTのクローンの名前はドリーです。その名前は、最初の哺乳類としてクローンされた有名な羊である「ドリー」にちなんでいます。
オープンソースの大規模言語モデル
ドリーLLMは、成長し続けるオープンソースAI運動の最新の表れであり、技術へのアクセスをより広く提供することを目指し、大手企業による独占と制御を防ぐことを目指しています。
オープンソースAIの運動に関する懸念の一つは、事業者がAI技術を制御する第三者に機密データを提供することに抵抗を感じる可能性があるということです。
オープンソースに基づいて
Dollyは、非営利のEleutherAI研究所とStanford University Alpacaモデルによって作成されたオープンソースモデルから作成されました。また、そのStanford University Alpacaモデル自体は、Metaによって作成された650億パラメータのオープンソースモデルであるLLaMAモデルから作成されました。
LLaMA(大規模言語モデルメタAI)は、一般に利用可能なデータでトレーニングされた言語モデルです。
Weights & Biasesによる記事によると、LLaMAは、OpenAI GPT-3、DeepMindのGopher、およびDeepMindのChinchillaといったトップの言語モデルに比べて小さいにもかかわらず、多くの成果を上げることができるということです。
より良いデータセットの作成
別のインスピレーションは、学術研究論文(SELF-INSTRUCT:自己生成の指示PDFとの言語モデルの整列)からも得られました。この論文では、限られた公開データよりも優れた高品質の自動生成された質問と回答のトレーニングデータの作成方法を詳しく説明しています。
自己学習研究論文は以下を説明しています:
「…私たちは、新しいタスクに対する専門家による指示のセットをキュレーションし、人間の評価によってSELF-INSTRUCTを使用した場合には、既存の一般的な指示データセットを使用するよりも大幅に性能が向上し、InstructGPTには5%の差しかありません…
…私たちの手法をバニラのGPT3に適用することで、SUPERNATURALINSTRUCTIONSにおいて元のモデルと比べて33%の絶対的な改善を実証し、InstructGPTの性能と同等のパフォーマンスを達成することができました。なお、InstructGPTはプライベートなユーザーデータと人間の注釈で訓練されています。」
ドリーの重要性は、小規模ながら高品質なデータセットで有用な大規模言語モデルが作成できることを示している。
Databricksは次のように述べています:
「Dollyは、EleutherAIから提供されたオープンソースの60億パラメータのモデルを使用し、わずかに修正することで、元のモデルにはないブレインストーミングやテキスト生成の機能を引き出すことができます。これには、Alpacaのデータを使用しています。」
…私たちは誰でも日付が入った既製のオープンソースの大規模言語モデル(LLM)を取り上げ、高品質なトレーニングデータを使用して1台のマシンで30分間トレーニングすることで、それに魔法のようなChatGPTのような指示の能力を与えることができることを示しています。
驚くべきことに、指示に従うことは最新である必要はなさそうです。当社のモデルはたったの60億パラメータであり、それに対してGPT-3は1750億パラメータです。
Databricks オープンソース AI
DollyはAIの民主化を推進すると言われています。これは最近、非営利団体MozillaがMozilla.aiの設立という形で参加した成長する動きの一部です。MozillaはFirefoxブラウザや他のオープンソースソフトウェアの発行元です。