みなさん、おはようございます!タカハシ(@ntakahashi0505)です。
こちらの記事は、タカハシが音声メディアVoicyの「スキルアップラジオ」にて放送した内容から、ピックアップしてお届けします!
今回のテーマは、OpenAIが発表した新AIモデル「GPT-4o」関連ニュースを徹底解説です。
なお、以下で実際にお聴きいただくこともできます!
では、よろしくお願いいたします!
OpenAIが「GPT-4o」など注目ニュースを発表
OpenAIは米国時間の5月13日にオンラインで「Spring Update」というイベントを開催しました。
そこで、新しい大規模言語AIモデル「GPT-4o」など、いくつかの注目すべきニュースがありましたので、今日はそれについて解説をしていきたいと思います。
大きく3つの発表がありました。
新たな大規模言語モデル「GPT-4o」発表
まず1つ目は、1番注目の的となっているOpenAIの新たなフラッグシップとなる大規模言語モデル「GPT-4o」が発表になったという点です。
大規模言語モデルは通称LLMなどとも言われますが、いわゆるChatGPTなどの生成AIサービスのエンジンとなるような部分になります。
これまでChatGPTのFreeプランであればGPT-3.5というLLM、そして課金プランであるChatGPT Plusで提供されていたのはGPT-4になります。
それと今回のGPT-4o、何が違うのかという点を解説していきたいと思います。
トップクラスの性能のLLM
まず性能についてですが、現存するLLMの中でトップクラスの高性能であると言われています。
今年4月下旬に突如登場して話題になっていた謎の生成AI、「gpt2-chatbot」と呼ばれるものがあったんですが、この正体が今回発表されたGPT-4oであったということが明らかになっています。
他のLLMと比べても、全体評価やコーディング評価で大きな差をつけて1位になっていると言われています。
日本語を含む50の言語に対応していて、これまで苦手と言われていた日本語OCRもかなり性能が上がっているようです。
宅急便の伝票だったり、請求書やカオスマップなどの写真画像から日本語テキストを起こしてくれるような試みをみなさんやられていて、Xでかなり投稿もされてました。
速度はGTP-4の2倍
さて、次に速度なんですが、これまで提供されていたGPT-4の2倍と言われています。
さらに今回の特徴として、音声の反応速度が非常に高速であると言われています。
その応答速度は最小で232ミリ秒、平均でも320ミリ秒ということで、自然な会話にちゃんと追いついていけるほどの反応速度を示していると伝えられています。
マルチモーダル
もう1つの特徴として、マルチモーダルが挙げられます。
このGPT-4oの「o」なんですが、これは小文字のoで、オムニという単語の頭文字を取ったものと伝えられています。
このオムニなんですが、「全ての」とか、「全体」とか全方位などを表す言葉です。
たとえば、オムニバスとかオムニチャンネルなどの言葉で使われている「オムニ」と一緒です。
これに関連して、マルチモーダルというのは、複数の種類のデータを入出力として扱えるようなAI技術のことを言います。
具体的には、テキスト、音声、映像などのデータを入力として、さらにAIからの出力として同じようにテキスト、音声、映像を出力することができるということです。
GPT-4もマルチモーダルだったんですが、今回のGPT-4oではさらに、その名称にオムニのoがついている点、それから発表内容からも、このマルチモーダルの部分をかなりプッシュしているように見えます。
デモ動画の自然な会話
それで、今回の発表に関するデモの動画がXやメディアなどでかなり拡散されているので、ご覧になられた方もいらっしゃるかなと思います。
もしまだの方はぜひご覧いただきたいんですが、とにかく、音声の会話によってAIとやり取りするというデモが、ものすごくたくさんの種類、そしてそのクオリティがとても高かったんです。
AIとの会話、その内容がちゃんと成立しているのは当然のことという感じで自然ですし、時にAIが言い淀んだり歌を歌ったりといったことも様子として見せていたんです。
感情もちゃんと表現できるようになってきたのか、と風に思わせるようなデモでした。
メディアやSNSでは、まさに映画「herの世界」だと表現されていることもありました。
この「her/世界でひとつの彼女」という映画は、2014年アカデミー賞脚本賞を獲得した映画で、主人公の男性が人工知能OSサマンサに恋をしてしまう話だったんです。
サマンサの声は俳優のスカーレット・ヨハンソンさんが担当していたんですが、今回のOpenAIのデモでAIが話していた声がそのサマンサの声によく似ている、このような話題になっていました。
さらにデモでは、カメラで映している内容について会話をしたりとか、デスクトップアプリ版のChatGPTで今画面上に映しているコードについてやり取りをしたり。
さらにはイタリア語と英語の同時翻訳をしたり、かなり驚きのデモがいくつも紹介されていました。
今後のGoogleの発表にも注目
このマルチモーダル×音声会話については、以前紹介したGoogleのGeminiのデモを彷彿とするものでした。
このVoicyの収録時点ではまだ開催されていないんですが、この直後に、「Google I/O」という大きな発表イベントがありまして、ここでGoogleがどんな発表をしてくるのか、それもかなり注目だなと思います。
さて、GPT-4oに話を戻しますが、ChatGPT Plusのユーザーはすでに使えている状態になっています。
Freeプランのユーザーはここ数週間ほどで使えるようになると報道されていますが、すでに使えるようになったという情報もありましたので、みなさんぜひ試してみてください。
Freeプランへの多くの機能追加
OpenAIの発表の2つ目の大きなポイントはFreeプランです。
無料で使えるプランに、このGPT-4oを始めとして多くの機能が提供されるようになったというものです。
具体的には、GPT-4oに加えて、Plusプランで使えていた以下の機能が無料で使えるようになるということです。
Webからの情報取得、データの分析とチャートの作成、写真の解析、ファイルのアップロード、GPTストアの利用、メモリ機能、これらの機能が無料で使えるようになったということなんです。
1点、GPT-4oに関しては、メッセージの制限があります。
それを超過すると3.5に自動に切り替えとなりますので、たくさん使いたい方はPlusプランを使うという感じです。
課金プラントを使うメリット
それ以外にChatGPT Plusプランを契約している理由にどんなものがあるかということなんですが、GPTsの作成、それから画像生成です。さらに前半に、思い切った衝撃の音声会話です。
そして、その他の最先端機能への早期アクセス、これらの理由でPlusプランを使い続けるということになります。
音声会話に関しては、すごく注目なんですがまだ機能としては展開されていませんので、来るのを楽しみに待っていましょうという形ですね。
ということで、フリーでこれだけ高性能の生成AIが使えるようになったというのは、ユーザーにとってはとても嬉しいニュースだと思います。
GPT-4を使いたいとか、Webブラウザーから情報取得をしたいといった理由でMicrosoftのCopilotを使っていたという方もいらっしゃったかと思うんですが、OpenAIがそこを塗り替えてきた、とこんなイメージなのかなと思います。
ChatGPTのデスクトップアプリ公開
3つ目のポイントなんですが、ChatGPTのデスクトップアプリが公開になります。これ、Mac版が近日中に公開予定となります。
キーボードショートカットで瞬時に踏み出すことができて、デモにあったように画面上に表示されているものを見ながらAIと会話をすることができる、このような体験がすぐに実現されるということです。
Windows版に関しては、今年後半にリリース予定ということでした。
OpenAIの注目ポイント3つを振り返る
はい、ということで、OpenAIの注目の発表ポイントは3つでした。
1つは大規模言語モデルGPT-4o、そして無料プランで多くの機能が提供されるようになったという点。さらにデスクトップアプリになります。
まずはFreeプランでもGPT-4oがすぐに使えるようになると思いますので、ぜひ体験してみていただければと思います。
今日は、OpenAIの注目の発表、大規模言語モデルGPT-4o、そして無料プランの提供機能の変更、さらにデスクトップアプリ、これらのニュースについて解説をさせていただきました。
音声会話に関しては、OpenAIもGoogleもそまだ出てきていない状況なんですが、いよいよ出てくるかなという雰囲気になってきましたね。
これが一般利用されるようになったら、本当に世の中のあちこちが変わっていくな、そんなわくわく感があるニュースでした。
無料イベント「ノンプログラマーがChatGPTで学ぶExcelVBA」のお知らせ
ChatGPTがらみで1つお知らせをさせてください。オンラインの無料ハンズオンイベントがあります。
「ノンプログラマーがChatGPTで学ぶExcelVBA」と題しましてノンプログラマーの初心者がプログラミングを学ぶときにChatGPTどのように使ったらいいのか、それを実際に触りながら学んでいただけるイベントとなっています。
ChatGPTもプログラミングも初めてという方でも全然参加できる内容となっていますので、ぜひお越しいただければと思います。
5月23日木曜日夜9時からになります。
申し込みはこちらからよろしくお願いいたします。
まとめ
ということで、今日はVoicy「スキルアップラジオ」の放送から『OpenAIが発表した新AIモデル「GPT-4o」関連ニュースを徹底解説』をお届けしました。
非ITの人たちからすると結構遠い存在に見えるんですが、実はあちこちで活用されている、そして身近な技術ということを知っていただければ嬉しく思います。
タカハシのVoicyの放送はこちらからお聴きいただけます。
チャンネルのフォロー、コメント、SNSでのシェアなどなど、楽しみにお待ちしております。
では、また。