【AI】GPT-4の有力対抗馬,Google最新かつ最強のAIサービスGemini Advancedが登場
1.BardからGeminiへ
■2023年12月7日にGoogle最新のAIであるGeminiがリリースされた.Googleの対話型AIであるBardはこれまでPaLM 2モデルを使用してきたが,Geminiの登場により,PaLM 2からGeminiにモデルが置き換わった.PaLM 2はユニモーダルモデルで,テキストデータのみを処理するが,Geminiはテキストのみならず,画像や音声など異なる種類のデータを処理することができるマルチモーダルモデルである.このGeminiは,3つの異なるパラメータ数と処理能力を有するUltra,Pro,Nanoがある.
■パラメータ数,処理能力はUltra>Pro>Nanoとなっており,Nanoは軽量で高速な動作が可能なため,スマートフォンに搭載可能であり,GoogleスマートフォンのGoogle Pixel 8 Proに搭載された.Ultraは最もパラメータ数が大きく処理能力も高いことから,複雑なタスクや大量のデータ処理が可能で,GPT-4の有力な対抗馬とされている.ProはUltraとNanoの中間で,多くのタスクをこなすことができ,コストパフォーマンスにも優れる.2023年12月7日からGoogleで無料提供されている対話型AIはGemini Proであり,2024年2月8日にはついにUltraが使用可能なGemini Advancedが有料会員限定でリリースされた.使用料金は月額2900円のサブスクであるが,最初の2ヵ月間は無料で試用できる.また,このアップデートに伴い,BardはGeminiと名称変更された.
2.Gemini Advancedの特徴
■以下は,公開情報や私個人の使用感を踏まえてGemini Advancedを解説する.
(1)Gemini Advancedの始め方
■Gemini Advancedは,Googleが提供するストレージ(容量)を増やす有料サービスGoogle One(https://one.google.com/about?hl=ja)にアクセスして,AI Premiumプランに登録することで利用可能となる.
(2)Gemini Advancedの特徴
(a)モデルの自動切り替え
■Gemini Advancedは,前述の通り最もハイスペックなGemini Ultraが使用できるが,必ずしもGemini Ultraで回答されるわけではなく,無料のGemini Proとの違いが分からない,GPT-4より見劣りする,といった声が聞かれる.理由は2つあり,1つ目は,Ultraが日本語対応していないため,Googleアカウントの言語設定を英語に設定した上で英語で質問する必要があること(これをやらない限りはGemini Proが回答する),2つ目は,英語で質問したとしても,Gemini Advancedでは,Gemini負荷を軽減するため,質問内容に応じてProとUltraを自動的に切り替えて回答してくるためである.このため,もし英語で使用するのが億劫であったり,高度な回答を要求するような質問を行わないのであれば,Gemini Advancedを使用するメリットは乏しいだろう(無料のGeminiで十分).
Googleアカウントの言語設定を英語にする手順(b)回答速度
1.Googleアカウント(https://myaccount.google.com/)にログインする.
2.左側の[個人情報]をクリックする.
3.[ウェブ向け全般設定]で[言語]編集アイコンをクリックする.
4.使用する言語で英語を選択し,[選択]をクリックする.
■Gemini Advancedの回答速度はGPT-4よりもかなり速い.
(c)回答内容
■簡単な質問であれば日本語で十分であるが,そうでない限りは日本語での質問では回答できなかったり,ハルシネーションを起こすことがしばしばあるため,英語で質問することが前提となる点においては日本人は使いづらい.その上で,英語で質問した場合の回答の質についてはGPT-4と比較してどうなのかはまだなんとも分からないところであるが,ユーザーインターフェースはGPT-4よりも見やすく,ソースもデフォルトでつけてくれる仕組みになっている.
(d)情報検索精度
■ベースの検索エンジンはGoogleであり,やはりGPT-4の検索エンジンであるBingよりは高精度である.検索速度も速い.
(e)他機能との連携
■現在数は限られるもののGoogleが提供している他のサービスとの連携も可能で,今後のアップデートとともにさらに多くのGoogleの機能と連携できるようにする予定だとのことである.なお,プロンプトに「@」マークを入力すると,連携できる機能が選択できるBoxが現れ,その機能を呼び出せる.現在@マークで利用できるのは,Google Flights,Google Hotels,Google Maps,YouTubeの4つであり,Gmail,Google Docs,Google Driveは表示されるものの,2024年2月13日時点では「Disabled」にカテゴライズされており,まだ利用できない.
Med-PaLM 2についてはこちら■GPT-4ではGPTsやPlug-inモードでサードパーティーとの連携が可能であり,連携機能の多様さではGPT-4に軍配があがるが,使い勝手は個人の使用目的次第であろう.
Singhal K, Tu T, Gottweis J, et al. Towards Expert-Level Medical Question Answering with Large Language Models. arXiv 2023 May.16
https://arxiv.org/abs/2305.09617
(f)ファイル読み込み
■画像や動画以外のファイル(PDFやWord,Excelなど)を読み込ませるためには,2024年2月13日時点では別の有料サービスであるGoogle Workspaceに登録するか,Gemini AdvancedのAPIを利用するしかなく,これらのサービスの新たな登録による追加料金は高額となるため,個人使用ではあまり現実的な選択ではないかもしれない.いずれGoogle Driveとの連携が予定されているとのことなので,新たに有料サービスを使用せずとも読み込みが可能になると思われる.
(g)記憶・学習機能
■Gemini Advancedはどうやら過去の会話スレッドを記憶・学習して回答を調節することができるかもしれない(未確定).これはGPT-4にはない機能である.実際,過去に間違えた問題に正解できるようになる,過去の会話を踏まえたユーザーに合わせた会話を行うようになるなどの現象が見られており,使えば使うほどより賢くなり,かつパーソナライズされていくようである.
3.Geminiに関する論文
ジェミニ:高い能力を持つマルチモーダルモデルファミリー■この論文は,GoogleチームがGeminiについて述べたものである.以下,本ブログ記事前半と重複するが,論文の概要.
Gemini Team Google: Rohan Anil, Sebastian Borgeaud, Yonghui Wu, et al. Gemini: A Family of Highly Capable Multimodal Models. arXiv 2023 Dec.19
https://arxiv.org/abs/2312.11805
■Geminiは,テキスト,画像,音声,動画などの異なるモダリティに対して強力な理解力と推論力を持っているのが特徴である.Geminiには,Ultra,Pro,Nanoの3つのサイズがあり,それぞれ複雑な推論タスクから制約のあるオンデバイスへの利用までさまざまな用途に対応している.これらの評価の結果,最も高性能なGemini Ultraは,テキスト,画像,音声,動画などの32のベンチマークのうち30で従来のモデルを上回ることが確認されている.
■Gemini Ultraは知識と推論力を測る包括的な試験のベンチマークであるMMLUにおいて,人間の専門家レベルを上回る90%の正解率を達成し,初めて人間を超える性能を示した.また,画像に関する質問で大学レベルの知識と複雑な推論が必要なMMMUベンチマークでも従来のモデルを5ポイント上回る成績を収めている.
■質的な評価では,Gemini Ultraが画像,音声,テキストを織り交ぜた入力をネイティブに理解し,推論できることが確認されている.このマルチモーダルな能力は,教育,日常の問題解決,多言語コミュニケーションなど,幅広い分野での新たな応用を可能にすると期待されている.
■一方で,Geminiも言語モデル特有のハルシネーションの問題は残っており,出力の信頼性と検証可能性の向上が課題として挙げられている.Geminiの開発チームは責任あるデプロイメントのための評価と改善も繰り返し行っており,有害な影響を最小限に抑えるための取り組みを続けている.
■GeminiはマルチモーダルAI分野における大きな進歩であり,その能力と限界を理解しつつ,研究とイノベーションに新たな時代を切り開く可能性を秘めている,と論文は結論づけている.