オープンAI GPT-4が2023年3月中旬に登場予定

Microsoft GermanyのCTO、Andreas Braunは、2023年3月9日の1週間以内にGPT-4が登場することを確認し、それがマルチモーダルであることも明らかにしました。マルチモーダルAIとは、ビデオ、画像、音声など、複数の種類の入力で操作できることを意味します。

更新日：GPT-4 は 2023 年 3 月 14 日にリリースされました

OpenAIが2023年3月14日にGPT-4をリリースしました。それは画像やテキストのプロンプトを受け入れるマルチモーダルモデルです。

モーダルは、機械学習でテキストのような形式だけでなく、音声や視覚、嗅覚などの感覚も示すために使用されるフレーズです。

OpenAIの発表によると、GPT-4の進歩の規模が説明されました：

「…多くの現実のシナリオにおいて人間よりも能力が劣る一方で、さまざまなプロフェッショナルおよび学術的なベンチマークにおいて人間並みのパフォーマンスを示します。

たとえば、シミュレートされた司法試験において、テストの受験者の上位10％前後のスコアが出るという結果を得ています。一方で、GPT-3.5のスコアは下位10％前後でした。

当社はGPT-4の開発において、敵対的なテストプログラムおよびChatGPTから得た教訓を繰り返し用い、事実性、手動操作性、およびガードレールを外れない性能など、これまでの最高の結果（完璧ではありませんが）を達成するために6ヶ月かけました。」

マルチモーダルな大規模言語モデル

発表からの重要なポイントは、GPT-4はマルチモーダルです（Search Engine Journalは2023年1月にGPT-4はマルチモーダルであることを予測しました）。

モダリティは、（この場合）大きな言語モデルが扱う入力タイプの参照です。

マルチモーダルは、テキスト、音声、画像、およびビデオを含むことができます。

GPT-3とGPT-3.5は、テキストのモダリティでのみ動作します。

ドイツのニュースレポートによると、GPT-4は少なくとも4つのモード、画像、音声（聴覚）、テキスト、およびビデオで作動できるかもしれません。

ドクター・アンドレアス・ブラウン、マイクロソフトのドイツCTOの引用です：

「来週、私たちはGPT-4を導入します。そこでは、完全に異なる可能性を提供するマルチモーダルモデルがあります - たとえばビデオ...」

GPT-4に関しての報告は具体性に欠けており、マルチモーダリティについて共有された内容がGPT-4に特化しているのか、それとも一般的な話なのかは明確ではありません。

マイクロソフトのディレクターであるHolger Kennは、マルチモーダリティについて説明しましたが、報告は曖昧で、彼がGPT-4のマルチモーダリティを参照しているのか、一般的なマルチモーダリティを指しているのかはっきりしませんでした。

彼のマルチモーダリティに関する言及は、GPT-4に特化していると考えています。

報道によると：

「ケンは、マルチモーダルAIが何を意味するのか説明しました。テキストを画像だけでなく、音楽やビデオにも翻訳できるのです。」

もう一つの興味深い事実は、マイクロソフトが「信頼性メトリクス」に取り組んでおり、AIを事実に基づかせてより信頼性の高いものにしていることです。

マイクロソフト Kosmos-1

アメリカではあまり報道されていないことですが、マイクロソフトは2023年3月初めにKosmos-1という複合モダル言語モデルをリリースしました。

ドイツのニュースサイト、Heise.deによると報道されています：

「...チームは、事前に訓練されたモデルをさまざまなテストにかけ、画像の分類、画像コンテンツに関する質問の回答、画像の自動ラベリング、光学的テキスト認識、音声生成のタスクにおいて良好な結果を得ました。」

...視覚的思考、つまり言語を介さずに画像についての結論を導くことが、ここでの鍵であるようです...

Kosmos-1はテキストと画像のモダリティを統合したマルチモーダルです。

GPT-4は、Kosmos-1よりもさらに進んでいます。なぜなら、第三のモダリティであるビデオを追加し、音声のモダリティも含まれているように見えるからです。

複数の言語で機能します

GPT-4はすべての言語で動作するようです。ドイツ語での質問を受けてイタリア語で回答できるとされています。

それは少し変わった例ですね、なぜドイツ語で質問をする人がイタリア語で回答を求めるのでしょうか？

以下の内容が確認されました：

「…技術は非常に進歩しており、基本的に「すべての言語で動作します」: ドイツ語で質問をすると、イタリア語で回答を得ることができます。」

マイクロソフト（-OpenAI）は、多様性によって「モデルを包括的にする」でしょう。」

私は、このブレイクスルーのポイントは、このモデルが異なる言語間で知識を引き出す能力によって言語を超越していることだと考えています。つまり、もし答えがイタリア語である場合、それを知り、質問がされた言語で答えを提供することができるということです。

それはGoogleのマルチモーダルAIであるMUMの目標に似たものになるでしょう。MUMは、データが日本語などの別の言語でしか存在しない英語の質問に回答できると言われています。

GPT-4の応用

現在、GPT-4がどこに現れるかについての公式発表はありません。ただし、Azure-OpenAIが特に言及されました。

Googleは、Microsoftに追いつくために競合技術を自社の検索エンジンに統合しようと奮闘しています。この動向は、Googleが遅れをとっており、消費者向けAIにおいてリーダーシップを欠いているという認識をさらに悪化させています。

GoogleはすでにGoogle LensやGoogle Mapsなど、消費者がGoogleとやり取りする様々な製品でAIを統合しています。このアプローチは、AIを補助技術として利用し、人々を小さなタスクでサポートすることです。

Microsoftが実装している方法はより目立っており、その結果、Googleは追いつこうと苦闘しているというイメージが強まっています。

公式のOpenAI GPT-4リリースの発表はこちらで読むことができます。

以下のリンクから元のドイツ語の記事を読むことができます：

GPT-4は来週登場します - そして、それはマルチモーダルであるとMicrosoft Germanyは発言しています

オープンAI GPT-4が2023年3月中旬に登場します

更新日：GPT-4 は 2023 年 3 月 14 日にリリースされました

マルチモーダルな大規模言語モデル

マイクロソフト Kosmos-1

複数の言語で機能します

GPT-4の応用

関連記事