オープンエーアイの方針転換:API顧客データを使ってGPT-4をトレーニングしない

オープンAI-プライバシー-変更-6457d3fd3d25f-sej-760x400.png

OpenAIは、従来のやり方から大幅に逸脱して、お客様がAPI経由で送信するデータを使用して、GPT-4などの大規模な言語モデルのトレーニングを行わないと発表しました。

変更は最近CNBCとのインタビューでOpenAIのCEOであるSam Altmanによって確認されました。

OpenAIのユーザーデータへの新しいアプローチ

OpenAIの方針変更は2023年3月1日に実施され、会社は利用者のプライバシー保護に対する新たな取り組みを反映するために利用規約を静かに更新しました。

アルトマン氏は、「お客様は明確に、我々に彼らのデータをトレーニングのために使用しないよう望んでいるため、私たちは計画を変更しました:それを行わないでしょう」と説明しました。

API、またはアプリケーションプログラミングインターフェースは、お客様がOpenAIのソフトウェアに直接接続するための技術フレームワークです。

アルトマン氏は、OpenAIがモデルのトレーニングにAPIデータを「しばらくの間」使用していなかったと述べ、この公式発表が既存の実践を正式化していることを示唆しています。

ビジネス顧客への影響

オープンAIの動きは大きな影響を及ぼし、特にそのビジネスパートナーであるマイクロソフト、セールスフォース、スナップチャットなどの巨大企業にとって重要です。

これらの企業は、OpenAIのAPI機能を活用する可能性がより高いため、プライバシーとデータ保護の変化は特に関連性があります。

ただし、新しいデータ保護対策は、会社のAPIサービスを利用する顧客にのみ適用されます。OpenAIの更新された利用規約には、「API以外のサービスからコンテンツを使用する可能性があります。」と記載されています。

そのため、OpenAIはAPIを介してデータが共有されていない限り、ChatGPTなどの人気のあるチャットボットに入力されたテキストなど、他の形式のデータ入力を利用することができます。

業界への広範な影響

OpenAIのポリシーシフトは、産業が人間が伝統的に作成しているコンテンツに代わってOpenAIのChatGPTなどの大規模な言語モデルの潜在的な影響に取り組んでいるときに行われました。

例えば、アメリカの作家ギルドは最近、ギルドと映画スタジオの交渉が決裂した後、ストライキを開始しました。ギルドは、OpenAIのChatGPTをスクリプトの生成や書き直しに使用する際の制限を提唱していました。

オープンAIが顧客データをトレーニングに使用しないという決定は、データプライバシーとAIに関する議論の重要な転換点です。企業がAI技術の範囲を探求し、広げ続ける中で、ユーザーのプライバシーの確保と信頼の維持がこれらの議論の中心に位置するでしょう。

ChatGPTの進化:GPT-3からGPT-4へ

重要なことは、お客様のデータをトレーニングに使用しないというOpenAIの取り組みは、2023年3月14日にリリースされた最新の言語モデルGPT-4にも適用されるということです。

GPT-4は、前作のGPT-3に比べていくつかの改良が導入されています。改良点には、単語制限サイズの大幅な増加(ChatGPTの3,000単語制限に対して25,000単語)、より大きなコンテキストウィンドウサイズ、および改良された推論と理解能力が含まれます。

もうひとつの注目すべきGPT-4の特徴は、マルチモーダリティです。つまり、テキストに加えて画像から情報を理解し、推論する能力があります。この最新のモデルは、より人間らしいテキストを生成し、より個人的な雰囲気を持つために、絵文字のような特徴も使用します。

しかし、GPT-4の正確なサイズやアーキテクチャは非公開になっており、モデルの詳細についての憶測が広がっています。

これらの噂にもかかわらず、OpenAIのCEOはモデルのサイズに関する具体的な主張を否定しています。

性能に関して、GPT-4はテキスト生成の強みを示していますが、同時にいくつかの制約もあります。例えば、GPT-4は大学院入学試験(GRE)のライティング部門でパーセンタイルで54位を獲得し、AP Calculus BCの試験では43パーセンタイルから59パーセンタイルの成績を収めました。

さらに、EasyなLeetcodeのコーディング課題ではうまく機能しましたが、課題の難易度が上がるとパフォーマンスが低下しました。

GPT-4の具体的なトレーニングプロセスは公式には文書化されていませんが、GPTモデルは一般的に、多様なインターネットテキストを用いた大規模な機械学習を含んでいることが知られています。

楽しみにしています

OpenAIのデータ利用ポリシーの変更により、言語モデルのトレーニングに使用されるデータには、API経由で共有された情報は含まれません。ユーザーが明示的にその情報を寄稿することに同意しない限りです。

技術の進歩と私たちの生活におけるより重要な役割が続く中で、データのプライバシー保護に関する懸念や信頼を得るための取り組みについて、企業が転換し対応する姿勢は興味深いものです。

関連記事

もっと見る >>

HIX.AI で AI の力を解き放ちましょう!