Googleが一気に発表した生成AI「Gemini」関連ニュース総まとめ

みなさん、おはようございます！タカハシ(@ntakahashi0505)です。

こちらの記事は、タカハシが音声メディアVoicyの「スキルアップラジオ」にて放送した内容から、ピックアップしてお届けします！

今回のテーマは、Googleが一気に発表した生成AI「Gemini」関連ニュース総まとめです。

#708 OpenAIが発表した新AIモデル「GPT-4o」関連ニュースを徹底解説 | タカハシノリアキ「『働く』の価値を上げるスキルアップラジオ」/ Voicy - 音声プラットフォーム

音声放送チャンネル「タカハシノリアキ」の「#708 OpenAIが発表した新AIモデル「GPT-4o」関連ニュースを徹底解説(2024年5月15日放送）」。Voicy - 音声プラットフォーム

なお、以下で実際にお聴きいただくこともできます！

では、よろしくお願いいたします！

さて、前回は発表された後に大きな反響となっているOpenAIのGPT-4oこちらのニュースを紹介しました。

ただ、その興奮の冷めやらぬ中、今度はGoogleが大きな発表イベントを開催しました。

その内容、そして量、まさにGoogle圧巻という感じでした。

今回は、その内容をお伝えしたいと思っています。

よろしくお願いいたします。

GoogleのAI「Gemini」のおさらい
新しい2つのAIモデル
Gemini Advancedの機能追加
Googleの他サービスへのGeminiの展開
OpenAIの発表とGoogleの発表の比較
まとめ

GoogleのAI「Gemini」のおさらい

Googleは日本時間5月15日2時から、開発者向けの会議Google I/O 2024を開催しました。

開発者会議と言われていますが、Googleが提供するAI「Gemini」を中心に、我々の生活や仕事だけでなく、全ての人たちに大きな影響を与えるであろう、インパクトのあるニュースがたくさん出てきました。

さて、実際にニュースの紹介に入る前に、Googleが提供するAI「Gemini」について、現状とこれまでについて一旦整理しておきます。

というのも、生成AIのエンジンとなるAIモデルですが、ChatGPTで言うとGPT-4やGPT-4o、そういった部分ですが、Googleの場合、このAIモデルの名前もGeminiになっています。

そして、そのモデルにいくつか種類があり、その性能やサイズから、これまではGemini 1.0 Ultra、Gemini 1.0 Pro、Gemini 1.0 Nano、この3つのモデルが提供されていました。

次に、生成AIサービスの部分ですが、これはいわゆるChatGPTのようなチャット型UIでAIとやり取りができるサービスの部分です。

これもGoogleの場合はGeminiという名前がついています。

通常のGeminiは無料で使うことができます。

さらに、フリーコードで便利なツールを提供するのがGemini Advancedと呼ばれる有料のプランです。

こちらは月々20ドルで提供されています。

これまで、無料のGeminiでは、Gemini 1.0 ProこちらのAIを使うことができました。

課金をして、Gemini Advancedに登録すると、Gemini 1.0 Ultraをモデルとして使うことができます。

新しい2つのAIモデル

では、Google I/O 2024の発表内容に入っていきます。

まず、新しいAIモデルが2つ発表されました。

Gemini 1.5 ProとGemini 1.5 Flashになります。

特に注目は、Gemini 1.5 Proになります。

これは、より少ない計算量で、これまでの Gemini 1.0 Ultraと同等のクオリティを担保する。と伝えられています。

その最大の特徴は、トークンと呼ばれますが、1度に入出力できるデータの量が、100万トークンあるという点が挙げられます。

ライバルのAIモデルGPT-4 Turboで12.8万トークン、Claude 3で言うと20万トークンと呼ばれているので、100万トークンというのは圧倒的な量といえます。

具体的には、文章で言うと1500ページ、それからEメールで言うと100通、さらに1時間程度の動画、さらに3万行以上のコード、これらの膨大な量が1度に扱えるようになるということです。

さらに、このGemini 1.5 Proですが、画像の理解が大きく改善されたとも言われています。

レストランで撮影した料理の写真からレシピを尋ねたり、数学の問題を写真に撮影して解き方を説明してもらったり、ということができるということです。

そして、同時に発表されたGemini 1.5 Flash。

こちらはより軽量なモデルということですが、Proと同様に100万トークが利用できると言われています。

Gemini Advancedの機能追加

続きまして、チャットAIサービスの方です。

こちらは有料のGemini Advancedに多くのアップデートがされたこと、そしてこれからされる予定ということが発表されています。

Gemini 1.5 Proが使えるようになる

まず、AIモデルとして、先ほどお話ししたGemini 1.5 Pro、これが使えるようになるということです。

こちらは、既に1.0 Ultraから変更になっているようです。

Googleドライブやデバイスからファイルをアップロードする機能

また、同時にファイルをアップロードする機能も提供になっています。

こちらはGoogleドライブもしくはデバイスから直接ファイルをアップロードすることができます。

たとえば、スプレッドシートファイルとしてアップロードして、その内容を理解、分析してグラフを作る。といったことがGeminiに依頼することができるようになります。

なお、ここでアップロードしたファイルはモデルのトレーニングには使われないということなので、安心して使うことができると思います。

さらに、今後の追加予定ということで、いくつかの機能が発表されています。

Geminiとチャットができる「Gemini Live」

まずはGemini Liveです。

これはGeminiとチャットができたり音声で質問を投げられたりする機能です。

Geminiは自然な音声で応答をしてくれて、さらにGeminiが応答している途中に自分の質問を挟むことができる。

このように伝えられています。

今年の夏から導入されるということで、さらに今年の後半にはカメラがサポートされて、カメラを通して映している内容に関して会話をすることができるようになる予定です。

毎日の生活を助ける「Project Astra」

そして、この延長線にあるものとして紹介されていたのがProject Astraと呼ばれるものです。

これは毎日の生活を助けるユニバーサルAIエージェントということで、スマートフォンのカメラやマイクを通じて現実世界をAIが認識をして、ユーザーと対話型でやり取りをするというものです。

こちら、デモ動画も公開されていましたが、オフィス内の風景をカメラで撮影しながら、Geminiと音声で会話をしていきます。

映像として映しているスピーカーの機能について質問したり、「ペン立て」で文を作ったりすることができます。

例えば、画面に移されている行動がどういったものか解説したり、窓の外を移しながら、今どこにいるか教えたり、眼鏡がどこにあるか聞いたりという質問を自然なやり取りでAIとやり取りをしていました。

さらにその後、入力デバイスをスマホのカメラから眼鏡に切り替えてやり取りをするというデモも行われました。

ホワイトボードのネットワーク構成の改善方法を尋ねたり、犬とぬいぐるみを写してその2人組のバンド名を名付けてとお願いしたり、こういったやり取りがなされていました。

このProject Astraの一部の機能は、2024年後半にGeminiアプリなどGoogleの製品に搭載されていくと言われています。

このデモに関して言うと、OpenAIのデモとかなり近いところで切磋琢磨しているなと感じました。

Geminiをカスタマイズする機能「Gems」

さて、Gemini Advancedの今後の機能追加の話をもう1つ紹介します。

Gemsという機能です。

これはGeminiをカスタマイズする機能になります。

ChatGPTで言うとGPT-Sというサービス名ですが、それと同じように特化型のカスタムAIジェムというものを作れるといった機能になります。

たとえば、ライティングのコーチや、論文の査読者、ヨガのペア等、自分専用のカスタムAIを作って、それとやり取りができるといった機能になります。

Googleの他サービスへのGeminiの展開

では続いて、Googleの他のサービスにどう展開していくかというポイントのニュースを見ていきましょう。

Google検索「AI Overview」

まずはGoogle検索です。

AI Overviewという機能について発表がされています。

これはユーザーが検索したことに対してAIが概要、つまりオーバービューを生成して表示してくれるという機能になります。

検索結果に関してはその下に紹介されているというようなイメージになります。

これはアメリカではもう即日提供されてまして、近日中には他の国でも提供が開始となります。

Google検索では、Search Labsという先行体験できるプログラムがありまして、このAI Overviewに関して、僕はずっと体験していましたので、とても自然に使っている印象です。

はっきり言ってすごく便利です。

また、Google検索で言うと、マルチステップ推論機能と呼ばれるものも発表されています。

これは複雑な質問にも対応するというもので、たとえば旅行のプランニングをしてもらったり、食事メニューを3日分作ってもらったり、といったことができる機能になっています。

質問というよりは、もう依頼という感じです。

さらに、動画再生中にそれに関連した検索ができる機能もGoogle Search Labsで英語向けに提供されるということです。

Googleフォト新機能「Ask Photos」

次にGoogleフォトです。

こちらではAsk Photosという機能が発表されています。

これはチャット形式のアシスタントで、たとえばある写真を探したい。

でもナンバープレートと入れてもいろんな車のナンバープレートが出てきてしまって、探すのが大変な時AIの力を借ります。

自分のナンバープレートはと入れることで、何回も表示されている車のナンバープレートを判別し、表示してくれる、というアシスタント機能になります。

これに関しては、今年の夏に提供開始ということでした。

Google Workspace関連のアップデート

次に、Google Workspace関連です。

Google Workspaceに含まれるGmailやスプレッドシート、ドキュメントといったアプリでGemini 1.5 proを使うことができるようになります。

実際の使い方で言うと、画面右側のサイドパネルと呼ばれるところで実際の画面を閉じることなくGeminiとやり取りをすることができます。

大量のスレッドのメールを要約したりとか、スプレッドシートの分析、これをしたりとか、そういったことが可能ということです。

この機能に関しては、Gemini4、Google Workspace登録ユーザー、そしてGoogle One AIプレミアムプラン、こちらを契約する一般ユーザー向けに来月から利用できるということです。

Workspace Labsから展開される新機能

さらにGmailに関しては、メールのスレッドに対しワンタップで要約する機能や、最適な返信を生成してくれるスマートリプライ機能、こちらは7月からWorkspace Labsで提供されるそうです。

その他、ドライブ内のファイルを整理を提案して、それを実行してくれるような機能や、Sheetを自動で生成して分析を行う機能だったり、そういったものがこの秋以降にWorkspace Labsから展開されるということでした。

OpenAIの発表とGoogleの発表の比較

OpenAIの発表と比べると、いずれも将来的にはマルチモーダル、つまり、音声やカメラを使いながら会話をして、それで我々の生活をアシストしてくれる。

そういった未来を見据えているというところは一緒かと思いました。

一方で、OpenAIの方はスピードを重視で行ってきた印象でした。

さらに、様々な機能を無料ユーザーにも展開をして、一気に面を取っていこうというようなイメージを持ちました。

一方で、Googleに関して言うと、有料ユーザーに対して、よりこれまでにない体験を提供しよう、このようなイメージを持ちます。

会議の動画やGoogleドライブ内の大量のファイル、これを入力して、いかにAIを使ってもらえるかということ、さらにGoogleはGoogle検索を始め、様々な接点をユーザーと思っていますので、そこにGeminiチャットの会話の入り口を作っていくというイメージを持ちました。

両者とも今年中に様々なサービス展開を予定しているということなので、本当に楽しみです。

このスキルアップラジオでも情報をキャッチし次第、みなさんにも情報をお届けしていきたいと思っています。

まとめ

今日は、GoogleのGoogle I/O 2024からの発表、Geminiに関連のものがたくさんありましたが、まとめてお送りさせていただきました。

AIモデルGemini、そしてチャットAIサービスGemini、この2つだけでもかなりビッグなニュースですが、さすがGoogle、検索やGoogle Workspaceやフォト等いろんなサービス展開してるので、連日ニュースが大量生産されてしまうところはあります。

OpenAIから引き続きメディアのみなさんが追いかけていると思いますが、すごく大変だと思います。

また今年、様々なニュースが出てくるかと思いますが、うまくまとめてみなさんにお届けしていきたいと思いますので、引き続きよろしくお願いいたします。

ということで、今日はVoicy「スキルアップラジオ」の放送から『Googleが一気に発表した生成AI「Gemini」関連ニュース総まとめ』をお届けしました。

タカハシのVoicyの放送はこちらからお聴きいただけます。

チャンネルのフォロー、コメント、SNSでのシェアなどなど、楽しみにお待ちしております。

では、また。

Voicy - 音声プラットフォーム

Voicyは、厳選されたコンテンツを"ながら聴き"できる音声の総合プラットフォームです。応募通過率5％の審査を経たパーソナリティの声を中心に、メディアによるニュースや企業の人柄までも伝わるオウンドメディアなど、あらゆる音声放送が楽しめます。