OpenAI、「GPT-4o」を発表、ChatGPTで使える最新AIモデル、以前のモデルより高速で回答が生成

米国時間2024年5月13日、OpenAIはオンラインで新製品発表会を開催。そこで最新AIモデル「GPT-4o」を発表した。GPT-4oはAIと音声によるリアルタイムの対話が可能になるほか、画像やテキストに関する回答も高速化している。

1 GPT-4oとは
2 GPT-4oの利用方法
3 GPT-4oの特長
- 3.1 GPT-4oの特長をGPT-4oに尋ねた
4 GPT-4oの能力と評価
5 GPT-4oの今後

GPT-4oとは

GPT-4oは、テキストや音声、画像を処理できるChatGPTの最新モデルのこと。読み方はGPT-4oは「ジーピーティーフォーオー」。GPT-4oの「o」は、ラテン語で「すべて」を意味する「omni（オムニ）」の「o」に由来する。

「GPT-4 Turbo」と比較すると、同じ性能を持ちながら、より速く動き、テキスト、音声、画像の理解力も大幅に向上している。英語やプログラムコードの処理能力はGPT-4 Turboと同等のようだが、他言語のテキストに関しては大幅な改善が見られる。

GPT-4oの利用方法

GPT-4oは、ChatGPTの有料サブスクリプションに加入せずとも無料で利用可能になる予定とのこと。

GPT-4oの特長

GPT-4o以前は、音声モードを使ってChatGPTと話すと、GPT-3.5では平均2.8秒、GPT-4では5.4秒の時間がかかっていた。音声モードは、3つの異なる部分で動いているという。最初の部分は声を文字に変え、次にGPT-3.5かGPT-4がその文字を使って答えを作り、最後の部分はその答えをまた声に戻す。

このやり方では、主に使われるGPT-4が声の高さや背景の音、笑い声などの細かい情報をうまく拾えないため、限界があった。GPT-4oでは、文字や画像、音声をすべて、一つの新しいモデルで学習。これは、すべての情報を一つの大きなネットワークが処理するということだ。

GPT-4oはこれらの異なる種類の情報を一緒に扱える初めてのモデル。まだこのモデルのできることや限界を完全には分かっていない。

GPT-4oの特長をGPT-4oに尋ねた

GPT-4oの特長をGPT-4oに尋ねたところ、以下の回答が生成された。

多機能モデル： GPT-4oは、テキスト、視覚、音声の全てのモダリティを一つの統一モデルで処理します。これにより、複雑なタスクをシームレスにこなすことができます。
高性能：従来のベンチマークで測定された結果によれば、GPT-4oはテキスト、推論、コーディングにおいて、GPT-4 Turboと同等のパフォーマンスを発揮します。
新しい最高水準： GPT-4oは、多言語対応、音声認識、視覚解析の分野で新たな基準を設定します。これにより、より広範な用途での活用が期待されます。
統合された処理： GPT-4oでは、異なる種類の情報を単一のニューラルネットワークで処理することで、効率と正確さが向上しています。
無料利用： ChatGPTの有料サブスクリプションに加入しなくても、GPT-4oを無料で利用できるようになります。これにより、より多くの人々がこの技術を活用できるようになります。
改善された対話速度：音声モードを使用した場合でも、従来のモデルよりも迅速に応答が可能です。これは、音声からテキストへの変換やテキストから音声への変換のプロセスが効率化されているためです。
感情と表現の向上： GPT-4oは、音調や複数の話者、背景雑音をより良く認識し、笑い声や歌、感情の表現も可能になっています。