Googleの高性能AIモデル「Gemini（ジェミニ）」とは？4つの特徴や使い方を紹介

2023年12月6日、Googleが発表した新たなAIモデル「Gemini（ジェミニ）」が話題を集めています。Geminiと他のAIとの違いなどを知りたい、という人は多いのではないでしょうか。

この記事では、トップレベルの性能を誇るとされるGeminiの主な特徴や使い方について解説しています。どのような優れた点があるのか理解して、業務などでGeminiを活用し、ビジネスで役立ててください。

1 Gemini（ジェミニ）とは？
- 1.1 Gemini（ジェミニ）の公式サイト
2 Gemini（ジェミニ）の種類
3 Gemini（ジェミニ）における4つの特徴
4 Gemini（ジェミニ）を使うには？
5 Gemini（ジェミニ）で最新の生成AIモデルの機能を体験
6 商談やミーティングの効率化にはAIツールがオススメ

Gemini（ジェミニ）とは？

Geminiは、Googleが提供する最新のAIモデルです。異なる情報に対応する「マルチモーダルモデル」が特徴で、テキスト、音声、画像、動画など多種類の情報を瞬時に理解し、組み合わせて推論・処理することができます。また、さまざまなプログラミング言語を使って高品質なコーディングを行うことも可能です。

Geminiは、はじめからマルチモーダルモデルとして構築されているため、プラグインや統合など必要ない点が、「GPT-4」など既存のAIチャットボットとの大きな違いといえるでしょう。これまでAIでは対処できなかった、複雑なタスクを難なくこなす能力があると、大きな期待を集めています。

GeminiはWebブラウザ、Android端末「Google Pixel 8 Pro」で使用できますが、今後はGoogleの他のサービスにも組み込まれていく予定ですので、より使い勝手もよくなるでしょう。

Gemini（ジェミニ）の公式サイト

Geminiの公式サイトはこちらです。

公式：Google DeepMind「Gemini」

Gemini（ジェミニ）の種類

Geminiには、異なるデバイスで適切に利用できるように、3種類のバージョンが用意されています。スマートフォンのような省電力を重視したモデルから、大規模なコンピューターリソースまで対応可能です。

Gemini Ultra：非常に複雑なタスクに対応する、高性能かつ最大のモデル
Gemini Pro：幅広いタスクに対応する最良のモデル
Gemini Nano：デバイス上のタスクに最も効率的なモデル

Gemini Ultra

Gemini Ultraは、2024年2月8日（米国時間）にリリースされた最先端モデルです。複雑なタスクに対応できる大規模言語モデルであり、以下の4つの特徴を持ちます。

複数言語をサポート
音声、画像、テキストを理解し、マルチモーダルな推論が可能
数学的推論で高いパフォーマンスを発揮
人間の専門家を上回る性能を初めて達成（MMLU基準）

Gemini Ultraは言語理解、マルチモーダル処理、コーディング、数学的推論など、幅広い分野で卓越したスキルを発揮する大規模AIモデルといえます。

なお、Gemini Ultraは有料サービス「Gemini Advanced」で提供されています。

参考：Google DeepMind「Gemini Ultra」

Gemini Pro

Gemini Proは、広範なタスクに対応するモデルで、無料版Gemini（旧Bard）で使うことができます。強力なパフォーマンスでありながら、コストやレイテンシ（遅延時間）などのバランスをとった、中規模の最良モデルです。

幅広いタスクに対応可能で、パフォーマンスは「GPT-3.5」を上回ります。Gemini Proは、開発者や企業向けのGoogle AI Studioまたは、Vertex AIのGemini APIを介しても利用可能であり、今後のメインストリームとなる予定です。Gemini Pro APIには毎分60クエリまでの無料プランと、従量課金制の2つのプランが用意されています。

ただし、Gemini Proでは、画像と動画を混在させた入力や、テキストデータ以外の出力には対応していません。

参考：Google DeepMind「Gemini Pro」

Gemini Nano

Gemini Nanoは、スマートフォンやタブレットでの利用を想定した、最も効率的なモデルです。GoogleのハイエンドAndroidスマートフォン「Google Pixel 8 Pro」に搭載されており、手軽に利用できます。

Gemini Nanoは、音声を記録してリアルタイムで文字起こしができますし、要約機能も装備しています。テキストと画像・動画からの情報を組み合わせて、ユーザーの求める情報のテキスト化が可能です。

外部サーバーを接続せずに効率的にタスクを実行できるように、設計・構築されているため、スムーズに操作できます。デバイスのメモリに応じて使い分けられるように、Nano-1（18億パラメータ）とNano-2（32.5億パラメータ）の2種類が提供されています。

参考：Google DeepMind「Gemini Nano」

Gemini（ジェミニ）における4つの特徴

Geminiは高性能な生成AIですが、具体的にどのような点に大きな特徴があるのか紹介します。

出典：Google Japan Blog「最大かつ高性能 AI モデル、Gemini を発表 – AI をすべての人にとってより役立つものに」

最先端のパフォーマンスをする

Geminiは、数学的推論や動画の理解など、世界で広く利用されている主要なベンチマークで好成績を出しています。特にGemini Ultraのパフォーマンスは、テキスト、音声、ビジョン、コーディングなどにわたるさまざまなタスクにおいて、主要なベンチマーク32のうち30で現在の最高水準の結果を上回っています。

数学や法律などの各分野の専門家を上回るパフォーマンスと、テキスト以外の情報に対しても高い性能を発揮できることが証明されました。人間の専門家を上回るパフォーマンスを示した初のモデルと言われており、リリースに期待が寄せられています。

出典：Google Japan Blog「最大かつ高性能 AI モデル、Gemini を発表 – AI をすべての人にとってより役立つものに」

テキスト、画像、音声などを同時に理解する

Geminiはマルチモーダルモデルなので、テキスト、画像、音声などを同時に理解できるようにトレーニングされています。多種類の情報をテキスト変換せずにそのまま認識できるため、ニュアンスを含んだ内容を理解したり、複雑な話題に関する質問にも的確に回答します。

Geminiは、ほかのAIのようにプラグインや統合をしなくてマルチモーダルなタスクに対応できる点が画期的といえるでしょう。また、物理学や数字に関した推論の説明などには特に力を発揮します。

複雑なタスクに1つのモデルで対応できるため、AIモデルの実装・管理コストを抑えることも期待できます。

高度な推論性能を持つ

Geminiは、テキストだけでなく、画像や動画など異なる種類のデータから情報を収集・分析し、対応できる高度な推論性能を持っています。

情報を読み取り、フィルタリングしたあと理解することで、数十万もの文書から洞察を抽出することが可能です。また、Googleの公式動画によると、提示したオブジェクトや環境変化を認識して、推論し、適切な返答をすることができると示されています。

Geminiの優れた推論性能は、意図的な推論を必要とする、科学、金融などの多くの分野で力を発揮することが期待されています。

高品質なコードを生成する

Geminiは、Python、Java、C++、Go など世界で最も利用されているプログラミング言語の理解や説明、コードの生成ができます。複数の言語を超越し情報を収集、それら複雑な情報から推論できるため、高品質で先進的なコーディングが可能です。特にGemini Ultraは、複数のコーディングベンチマークで優れた結果を出しています。

また、Geminiは、より高度なコーディングシステムのエンジンとしても使用可能です。Geminiの特別なバージョンを使用したコード生成システム「Alpha Code2」は、競技プログラミングの問題解決に優れたパフォーマンスを発揮するとされており、開発の幅が広がると期待されています。

Gemini（ジェミニ）を使うには？

Geminiを使用するには以下の5つの方法があります。今後はGoogleの主要製品やサービスでも利用できるように拡大される予定です。

Webブラウザから使う

Geminiは、お使いのWebブラウザを使って簡単に始められます。

Geminiにアクセスする
利用規約を読み、同意する
表示されたチャット画面にプロンプトを入力する

Googleアカウントさえあれば、誰でもすぐに利用可能です。なお、無料版ではGemini Proを利用できます。

Google Pixel 8 Proで使う

Geminiのスマートフォン向けバージョンであるGemini Nanoは、GoogleのAndroid端末「Google Pixel 8 Pro」で使用可能で、ネイティブかつオフラインで実行できます。Nanoは非常に効率的なモデルであり、スムーズに操作可能です。

Google Pixel 8 Proで利用できる機能には、レコーダーアプリを使った自動要約機能や、Gboardキーボードのスマートリプライ機能があげられます。2024年にはさらに多くのメッセージングアプリに対応する予定です。ただし、日本語への対応については未定となっています。

Vertex AIで使う

開発者や企業であれば、Google AI Studioまたは、Vertex AIのGemini APIを介してGemini Proにアクセスできます。こちらはGemini Pro(日本語版)が使用可能です。

Gemini APIを使用する際は、Gemini ProとGemini Pro Visionの2つのバージョンから選択できます。Gemini Proでは、自然言語タスクやコードチャット、マルチターンテキスト、コード生成が可能で、Gemini Pro Visionではそれに加えてマルチモーダルプロンプトをサポートします。

AICoreで使う

Android開発者であれば、AICoreを介して、オンデバイスタスク用の最も効率的なモデルであるGemini Nanoを使って開発・使用することもできます。AICoreはGoogle Pixel 8 Pro以降のAndroid 14に新しく追加されたシステム機能です。

Gboard NanoとAICoreを活用すると、正確なスマートリプライ機能を利用することができるようになります。AICoreを使うことにより、Android OSでAI基盤モデルを提供・管理でき、大規模モデルを使用するコストの削減が可能です。

Googleの主要な製品やサービスで使う

Geminiは、今後数か月間をかけて、Google検索、広告、chrome、Duet AIなどのGoogleの主要な製品やサービスで利用できるようになる予定です。具体的な利用方法やサービス内容はまだ発表されていませんが、Geminiの能力を活かした高速・高性能な機能や新しいサービスが提供されることでしょう。

Gemini（ジェミニ）で最新の生成AIモデルの機能を体験

Googleが提供する最新のAIモデルGeminiは、マルチモーダルモデルとしてこれまで以上の活用が期待できる高性能生成AIです。Gemini1つでマルチモーダルタスクに対応できるため、導入のコストも削減できます。今後はGoogleの主要なサービスなどで展開される予定ですので、活用範囲も拡大されることでしょう。

AIを導入する際に気になるのは機能やコスト面ですが、まずはGemini Pro無料版で試してみてから検討してみてください。AIはビジネスや研究などさまざまなシーンにおいて、効率性や生産性の向上に役立つアイテムです。AIやAI搭載ツールの特徴をよく理解して、業務に活用し、仕事の効率化を図りましょう。