ChatGPT ウォーターマークの仕組みと無効になる理由 |ヒックスAI

OpenAIのChatGPTはコンテンツを自動的に作成する方法を導入したが、検出を容易にする透かし機能の導入を計画しているため、一部の人々を不安にさせている。これが ChatGPT ウォーターマークの仕組みと、それを無効にする方法がある理由です。

ChatGPT は、オンラインパブリッシャー、アフィリエイター、SEO 担当者が愛すると同時に恐れる素晴らしいツールです。

マーケティング担当者の中には、コンテンツの概要、概要、複雑な記事を生成するためにこれを使用する新しい方法を発見しているため、これを気に入っている人もいます。

オンライン出版社は、AIコンテンツが検索結果に氾濫し、人間が書いた専門家の記事に取って代わられるのではないかと懸念している。

したがって、ChatGPT で作成されたコンテンツの検出を解除する透かし機能のニュースも、同様に不安と期待を持って期待されています。

暗号透かし

ウォーターマークは、画像に埋め込まれる半透明のマーク (ロゴまたはテキスト) です。透かしは、その作品のオリジナルの作者が誰であるかを示します。

それは主に写真で見られますが、ビデオで見られることも増えています。

ChatGPT のテキストに透かしを入れるには、単語、文字、句読点のパターンを秘密コードの形式で埋め込む形式の暗号化が必要です。

Scott Aaronson と ChatGPT 透かし

スコット・アーロンソンという名前の影響力のあるコンピューター科学者は、AI の安全性と調整に取り組むために 2022 年 6 月に OpenAI に雇用されました。

AI セーフティは、AI が人間に危害を及ぼす可能性を研究し、そのようなマイナスの混乱を防ぐ方法を作成することに関係する研究分野です。

OpenAI に所属する著者を特集した Distill 科学雑誌は、AI の安全性を次のように定義しています。

「長期的な人工知能 (AI) の安全性の目標は、高度な AI システムが人間の価値観と確実に一致するようにすること、つまり人間が望んでいることを確実に実行できるようにすることです。」

AI アライメントは、AI が意図された目標と確実に一致するようにすることに関係する人工知能の分野です。

ChatGPT のような大規模言語モデル (LLM) は、人類に利益をもたらす AI を作成するという OpenAI によって定義された AI アラインメントの目標に反する方法で使用される可能性があります。

したがって、透かしを入れる理由は、人類に害を及ぼすような AI の悪用を防ぐためです。

Aaronson 氏は、ChatGPT 出力に透かしを入れる理由を次のように説明しました。

「これは学術的な盗作を防ぐのに役立つのはもちろんですが、たとえばプロパガンダの大量生成などにも役立ちます…」

ChatGPT 透かしはどのように機能しますか?

ChatGPT 透かしは、統計パターン、コードを単語や句読点の選択に埋め込むシステムです。

人工知能によって作成されたコンテンツは、かなり予測可能な単語選択パターンで生成されます。

人間やAIによって書かれた単語は統計的なパターンに従います。

生成されたコンテンツで使用される単語のパターンを変更することは、テキストに「透かし」を入れて、それが AI テキストジェネレーターの製品であるかどうかをシステムが簡単に検出できるようにする方法です。

AI コンテンツの透かしを検出できないようにする秘訣は、単語の分布が通常の AI 生成テキストと同様にランダムな外観を維持していることです。

これは、単語の擬似ランダム分布と呼ばれます。

擬似乱数とは、実際にはランダムではない、統計的にランダムな一連の単語または数値です。

ChatGPT 透かしは現在使用されていません。しかし、OpenAI の Scott Aaronson 氏は、それが計画されていると記録に残っています。

現在、ChatGPT はプレビュー段階にあり、OpenAI が実際の使用を通じて「不整合」を検出できるようになります。

おそらく、電子透かしは ChatGPT の最終バージョンかそれより早いバージョンで導入される可能性があります。

Scott Aaronson は、透かしの仕組みについて次のように書いています。

「これまでの私の主なプロジェクトは、GPT のようなテキストモデルの出力に統計的に透かしを入れるためのツールでした。
基本的に、GPT が長いテキストを生成するときは常に、単語の選択に目立たない秘密のシグナルが存在するようにし、それを使用して、はい、これは GPT から来たものであることを後で証明できるようにしたいと考えています。」

Aaronson 氏は、ChatGPT の透かしがどのように機能するかをさらに説明しました。ただし、最初にトークン化の概念を理解することが重要です。

トークン化は、機械が文書内の単語を取得し、単語や文などの意味単位に分解する自然言語処理で行われるステップです。

トークン化により、テキストが機械学習で使用できる構造化された形式に変更されます。

テキスト生成のプロセスでは、マシンが前のトークンに基づいて次にどのトークンが来るかを推測します。

これは、次のトークンが何になるかの確率、いわゆる確率分布を決定する数学関数を使用して行われます。

次にどの単語が来るかは予測されますが、それはランダムです。

透かし入れ自体は、アーロン氏が擬似ランダムと表現するもので、特定の単語や句読点が存在するのには数学的な理由がありますが、それでも統計的にはランダムです。

GPT ウォーターマークの技術的な説明は次のとおりです。

「GPT の場合、すべての入力と出力はトークンの文字列であり、単語だけでなく、句読点や単語の一部なども含まれます。合計で約 100,000 のトークンがあります。
GPT の核心では、前のトークンの文字列を条件として、次に生成するトークンの確率分布を常に生成しています。
ニューラルネットが分布を生成した後、OpenAI サーバーは実際にその分布、または「温度」と呼ばれるパラメータに応じて分布の修正バージョンに従ってトークンをサンプリングします。
ただし、温度がゼロ以外である限り、通常、次のトークンの選択にはある程度のランダム性が存在します。同じプロンプトを何度も実行して、毎回異なる完了 (つまり、出力トークンの文字列) を取得する可能性があります。。
したがって、透かしを入れるには、次のトークンをランダムに選択するのではなく、OpenAI のみがキーを知っている暗号化擬似ランダム関数を使用して、擬似ランダムに選択するという考えになります。」

単語の選択が他のすべての単語のランダム性を模倣しているため、テキストを読む人にとって透かしは完全に自然に見えます。

技術的な説明は次のとおりです。

「説明すると、GPT が同じ確率であると判断した多数のトークンを持っているという特殊なケースでは、g を最大化するトークンを単純に選択できます。キーを知らない人にとっては、その選択は一様にランダムに見えるでしょうが、キーを知っている人は後ですべての n グラムを合計して、それが異常に大きいことが分かるでしょう。」

透かしはプライバシー最優先のソリューションです

ソーシャルメディア上で、OpenAI が生成するすべての出力の記録を保持し、それを検出に使用できるのではないかという議論を見たことがあります。

Scott Aaronson 氏は、OpenAI がそれを行うことは可能だが、そうすることでプライバシーの問題が生じることを認めています。例外となる可能性があるのは法執行機関の状況だが、それについては詳しくは述べなかった。

ChatGPT または GPT 透かしを検出する方法

まだあまり知られていないようですが、興味深いのは、Scott Aaronson がウォーターマークを無効にする方法があると指摘したことです。

彼は透かしを打ち負かすことが可能だとは言っていません、それは打ち破ることができると言いました。

「さて、これは十分な努力ですべて打ち負かすことができます。
たとえば、別の AI を使用して GPT の出力を言い換えたとしても、まあまあ、それを検出することはできません。」

少なくとも上記の発言が行われた11月以降は、透かしを無効にすることができるようです。

透かしが現在使用されている兆候はありません。しかし、実際に使用されるようになった場合、この抜け穴が塞がれたかどうかは不明になる可能性があります。

引用

Scott Aaronson のブログ投稿をここで読んでください。

ChatGPT ウォーターマークの仕組みと無効になる理由

暗号透かし

Scott Aaronson と ChatGPT 透かし

ChatGPT 透かしはどのように機能しますか?

透かしはプライバシー最優先のソリューションです

ChatGPT または GPT 透かしを検出する方法

引用

関連記事