人気ブログランキング | 話題のタグを見る
ブログトップ

EARLの医学ノート

drmagician.exblog.jp

敗血症をメインとした集中治療,感染症,呼吸器のノート.医療におけるAIについても

【AI】ChatGPTにo1完成版とo1 proが搭載.pro modeに3万円も払うべき?
【AI】ChatGPTにo1完成版とo1 proが搭載.pro modeに3万円も払うべき?_e0255123_14563272.png
■AI業界で久々に大きな更新があったためここに紹介する.2024年9月12日にChatGPTに推論モデルであるo1-previewとo1-miniが登場し,推論タスクに対して優れた回答を生成するとして話題となっていたが,このモデルはpreviewと名がついている通りo1モデル完成前の初期段階のプレビューとしてのお披露目であった.そしてようやくPlus会員向けに完成版のo1が12月5日にリリースされ,さらには月額$200(約3万円)のサブスクリプションプランであるpro modeも同時にリリースされ,o1よりさらに優れているo1-proも登場した.

■o1は無料会員には開放されていないため,少なくともこのモデルを使用するには月$20(約3000円)のサブスクリプションプランであるPlus会員になる必要がある.以下の内容を読んだ上で,自分のAI使用目的に推論タスクが入ってくるのであればPlus会員になることをおすすめする(あるいは月額3000円で数多くのAIを使用できるPoeでも使用できるようになると思われるため,そちらで使用するのもありである).なお,将来的にo1-miniは無料会員に開放される可能性があるとのことである.

■o1は使用回数制限つき(50回/週まで)で月額$20(約3000円)のサブスクプランであるPlus会員が利用できるが,pro modeに搭載されたo1-proは,使用回数無制限であるもののその10倍の月額$200(約30000円)と高額である.o1 proは特定分野で劇的な変化を起こすであろうモデルではあるが,この値段のせいでpro会員になるかかなり悩む人も多いだろう.

■pro modeを契約するかは自分のAI使用目的とo1-proが得意とするタスク(主に問題解決型推論タスクやコーディングタスクなど)が合致しているか,自分がAIを使用することで月3万円以上の価値を引き出せるか次第であり,それをもとに判断していただきたい.少なくとも,SNS(特にX)にいる「〇〇がすごい!」「今時〇〇を使うなんて脳死」というキャッチコピーを使いまくっているいわゆる「驚き屋」は各モデルが得意とするタスクの分類もあまり分かっていないので参考にしない方がよい.

■筆者はpro modeに課金してo1-proを実際に触ってみた.その感想をまとめると「o1-proはめちゃくちゃ賢くなってるけど,AIや研究を仕事にしていない個人ユーザーでは月3万円払ってまでやるほどではなく,Plus会員のo1でも十分だと思う」というのが結論である.もっとも人によっては新モデルの得意分野に需要があって3万円支払っておつりがくるほどの成果もあげられないわけではないだろう.以下にo1,o1-proについてまとめたので参考にされたし.

1.o1とは?

■o1は,コードネーム「Strawberry」として推論に焦点をあてて開発されていたAIモデルとして,そのプレビュー版が2024年9月12日にリリースされた.複雑な推論を行うために強化学習でトレーニングされており,回答する前に長くかつ深く考える特徴がある.特にchain-of-thought(思考の連鎖)はこれまではプロンプトやcustom instructionsなどで指示しないと施行しなかったが,OpenAI o1はデフォルトでこれを行う.この結果,問題解決型推論タスクを中心として,数学・化学・物理・生物学などの科学分野タスク,コーディングにおいて大幅に精度が向上したとしている.

■科学やコード生成,数学や類似の分野において複雑なタスクに取り組んでいる人にこの強化された推論能力が役立つ.例えば,医療業界の研究者は細胞のシーケンシングに関するデータに注釈を付けるために,物理学者は量子光学に必要となる複雑な数式を生成するために,分野を問わず開発者は複数の工程で構成されるワークフローを構築し実行するためにo1を使用できる.

■o1のベンチマーク評価では,o1-previewと比較して,推論系タスクでの各スコアが1.5~2倍近く高い.

■また,AIは算術が非常に苦手であり,GPT-4oもClaude-3.5-SonnetもGemini-1.5-Proも計算ミスが非常に多かったが,o1はほとんど計算ミスがない(o1-proではさらに計算ミスが起こらなくなっている).推論の性能指標となる数学の問題解決能力は,o1-previewでは,東大・京大の入試の数学で比較的簡単な問題までしか解けなかったが,o1では東大・京大の問題を超えたレベル(数学オリンピック含む)での正答率も高かった.

■コーディングに関しても非常に性能が向上し,Claude-3.5-Sonnetに圧勝しているとの声も多い.人間だと100分以上かかる最高難度のプログラミングスキルチェック問題を3分程度で解決したとのことである.

■なお,o1(あるいはo1 pro)は自分をGPT-4oと認識しており,o1モデルのスペックに関する知識を有していないため,o1にo1のことを質問しても答えてはくれない.

■「先ほどの回答を60点として100点の回答を生成してください」という,通称「パワハラプロンプト」は非常に有効との声が多い.ただし,内容によっては現実からかけ離れた回答がでてくることもある.

■比較的簡単なものに限られるが,アスキーアートが描けるようになっている.

2.o1-proとo1の違いは?

■o1もo1-proもo1-previewに比べると,数学やコーディングに関してははるかに性能が向上している.o1-proは,o1の高性能版という位置づけになっている.実際に両方は使用してみると分かるが,o1は回答までの時間がo1-previewより短い(思考がより簡潔であるため)のに対し,o1-proはむしろ時間が長くなっており,熟考している.この仕様のため,o1-proの回答の生成には時間がかかり,o1 proでは進行状況バーを表示し,別の会話に切り替えるとアプリ内通知を送信するようになっている.

■ベンチマークを見てみると1回の試行での正確性は,o1とo1-proとであまり差はない.
・数学(AIME 2024):78% vs 86%(絶対差8%)
・コーディング(Codeforces):89% vs 90%(絶対差1%)
・科学(GPQA Diamond):76% vs 79%(絶対差3%)
【AI】ChatGPTにo1完成版とo1 proが搭載.pro modeに3万円も払うべき?_e0255123_14175922.png
■一方,AIは回答が確率的な部分もあって,同じ質問でも回答にはばらつきが生じ,一貫性がないことも多い.そこで,4回の試行のうち4回全てで正解した場合にのみ(「4/4 の信頼性」)問題を解決したとみなした場合のo1とo1-proの正確性が以下であり,o1-proの一貫性の高さがうかがえる.
・数学(AIME 2024):67% vs 80%(絶対差13%)
・コーディング(Codeforces):64% vs 75%(絶対差11%)
・科学(GPQA Diamond):67% vs 74%(絶対差7%)
【AI】ChatGPTにo1完成版とo1 proが搭載.pro modeに3万円も払うべき?_e0255123_14241874.png
■なお,使用回数については,Plus会員だとo1は50回/週に制限されているのに対し,Pro会員では無制限となっている.

3.GPT-4o vs o1/o1-pro

■SNSを見ていてよくある勘違いが,「o1はGPT-4oの上位互換である」という考え方で使用しているケースである.先述の通り,o1モデルは推論能力に優れてはいるが,一方で,自然言語処理タスクや実世界の知識など複数分野ではGPT-4oを下回っており,2つのモデルは得意分野が異なっていて,目的・タスクによってGPT-4oとo1の使い分けや併用が必要である.Plus会員ではo1の使用回数は50回/週に制限されており,この回数範囲内で使用するためにも,GPT-4oの方が適しているタスクをo1にさせるような無駄遣いは避けた方がよい.
【AI】ChatGPTにo1完成版とo1 proが搭載.pro modeに3万円も払うべき?_e0255123_14350461.png
■推論と自然言語処理は二項対立的な軸上で捉えるものではないが,以下にその違いを説明しておく.
自然言語処理と推論について

1.自然言語処理と推論の意味範囲の違い
- GPT-4oが得意とする自然言語処理(NLP)は,言語の理解・生成・分析といった,テキストや音声といった言語データを扱う包括的な領域を指す.この中には,文法解析,情報抽出,要約,質問応答など多種多様なタスクが含まれる.
- o1が得意とする推論(reasoning)は,与えられた情報から論理的・因果的関係を見出し,新たな結論を得る認知的プロセスを指す.テキスト生成AIにおいて「推論」と言われる場合,しばしば言語モデルが入力文脈から理に適った結論や一貫した判断を出せるか,あるいは数理的・論理的問題を解決できるかが焦点になる.

2.タスク間の相互依存性
現代の大規模言語モデル(LLM)は,テキストを扱う上で統計的パターンを学習しているだけでなく,トークン間の関係を深くモデル化することで「ある程度の推論的能力」を内包している.たとえば,質問応答タスクでは,質問文(自然言語)を理解するNLP的側面と,それに対して合理的な回答を導く推論的側面が密接に絡み合う.自然言語理解なくしては的確な推論は困難であるし,推論能力がないと高度な自然言語応答を生み出せない.

3.論理・推論タスクとNLPタスクのグラデーション
一部のタスクは「ほぼ言語処理のみ」で完結できる(単純な文法訂正や形態素解析など)一方,別のタスクは高度な推論を要求する(複雑な物語理解,数学的問題解決,因果関係推定など).この間には多くの中間的タスクがある.たとえば,記事の要約はNLP的な言語理解・生成が中心だが,重要情報を抽出する際には推論的な判断も必要となるケースがある.
■以下に,使い分けの例として「論文執筆におけるGPT-4oとo1の使い分け」の考え方を提示しておく.
論文執筆におけるGPT-4oとo1の使い分け

1.テーマ選定,文献検索
作業内容:研究トピック選定,関連文献リストアップ,一般的な分野動向の把握
モデル選択:GPT-4o
理由:この段階は,既存知識や一般的な文献情報の整理が主となる.高度な推論というより,膨大な情報から有用な要約を得ることが重要であり,要約・情報抽出能力が高いGPT-4oの方が得意(Webアクセス機能や各種GPTsへの切り替え機能があるのも強み).

2.文献レビュー・研究ギャップの特定
作業内容:対象領域の先行研究の深い理解,相互関連性の分析,研究ギャップの明確化
モデル選択:o1(必要に応じて)
理由:このフェーズでは多くの文献間の複雑な関係性や理論的フレームワークを構築し,どのようなギャップが存在するかを論理的・批判的に検討する必要がある.o1は複数の要素を統合的に考慮して深い推論を行えるため,有用性が高い.一方,単なる要約であればGPT-4oでも可能だが,既存研究間の高度な関連付けや新規アイデア抽出にはo1が適している.

3.研究仮説・理論的枠組みの構築
作業内容:先行研究を踏まえた新たな理論モデルや仮説の構築,論理的一貫性の検証.
モデル選択:o1
理由:ここは論文全体の「肝」であり,複雑な理論構築や前提条件の吟味,潜在的反論への対応が求められる.o1の高度な推論能力が,欠落した要素の発見や,矛盾の指摘,理論モデルの整合的強化などに役立つ.

4.研究方法・デザインの策定
作業内容:研究手法の選択,実験計画,データ収集方法,倫理的考慮点の洗い出し
モデル選択:o1(場合によりGPT-4o)
理由:複雑な研究デザイン(多変量解析手法の選定や、制約条件下での最適な実験計画など)にはo1が有効.単純な方法論の紹介程度であればGPT-4oでも対応可能.ただし,研究デザインの多要素最適化や相互作用効果の深い検討など,高度な推論が必要な場面ではo1を検討する価値がある

5.初稿執筆(導入・背景・方法章)
作業内容:文献レビュー結果や仮説,方法論をテキストとして起こす作業
モデル選択:GPT-4o
理由:この段階は基本的に既に確立したロジックを文章化する作業であり,特に高度な推論を要しない.GPT-4oの自然な文章生成能力の方が妥当.

6.結果の整理・分析
作業内容:得られたデータから統計解析,結果の要約,パターン発見
モデル選択:GPT-4oとo1を併用
理由:単純なデータまとめや統計結果の言い換えはGPT-4oで可能であるが,大量かつ複雑なデータの意味付けや統計モデル比較,潜在因子の特定,検証的因子分析などの高度推論タスクではAdvanced Data Analysis(Code Interpreter)が使用できるGPT-4oとo1の併用がよい.

7.考察・結論の構築
作業内容:結果を先行研究や仮説と突き合わせ,理論的・実践的示唆を導く.矛盾点や限界点の論理的整理
モデル選択:o1(ただし,先行研究内容を抽出要約するにはGPT-4oが必要)
理由:考察セクションは論文全体で最も高度な思考プロセスが必要とされ,結果の解釈や結論への飛躍には複数の要因を複雑に考慮する必要がある.o1は高度な推論で,多面的な視点から結果解釈をサポートできる.ただし,o1には文書ファイルをアップロードすることができない.そのため,プロンプトに先行研究内容を書く必要があり,先行研究内容を抽出要約するにはGPT-4oが必要となる.

8.文章校正・言語表現の磨き上げ
作業内容:文法・表現の修正,読みやすさ向上,ジャーナル指定のフォーマット調整
モデル選択:GPT-4o
理由:この段階は高度な推論よりも言語的な流暢さ,整合性,スタイル改善が重要であり,優れた言語能力を持つGPT-4oの得意分野である.

9.参考文献の整合性確認・引用形式統一
作業内容:参考文献の整合性チェック,引用スタイル(APA, MLA, Vancouverなど)の統一
モデル選択:GPT-4o
理由:これは機械的な作業が多く,高度な論理推論は不要であり,このような自動化支援はGPT-4oが向いている.

10.最終的な整合性チェック(論理矛盾・全体的ストーリー確認)
作業内容:論文全体を再読み込みし,論理的な飛躍,冗長性,矛盾点がないかを総合的に確認
モデル選択:GPT-4o(理想はo1だが機能制限で困難)
理由:最後のクオリティチェックでは,高度な推論能力で論理構造をトレースし,隠れた矛盾や論理的不備を発見できるo1が有用ではある.ただし,論文1本をまるまるチェックするとなれば,文書ファイルをアップロードできないo1では困難である(プロンプトに入力しようにもトークン数の上限にひっかかる).GPT-4o(あるいはClaude-3.5-SonnetやGemini-1.5Pro)が現実的であろう.
■なお,GPT-4oは無料会員も使用可能である.

4.pro modeを使うべきか?

■ここまで述べてきた内容を読んでいれば,多くの方はpro modeを使用するかどうかについて一定の結論が出せていると思われるが,要点を整理しておく(もっともpro modeの特典はo1-proが使用できることだけではない).
【AI】ChatGPTにo1完成版とo1 proが搭載.pro modeに3万円も払うべき?_e0255123_14353711.png
■pro modeは月額$200(約3万円)の高額プランである.このプランの特典はo1-proが使用できることに加え,o1やo1-proの無制限使用,さらにはAdvanced Voice機能の無制限使用が可能である.Advanced Voice機能は,2024年9月24日より全ユーザーが利用可能なモードで,様々な言語を識別し,複雑な会話に対して高速で返答文と音声を生成する,リアルタイムの会話(あるいは同時通訳)が可能なモードである.このモードは無料会員では15分/日,Plus会員では45分/日前後使用すると制限がかかるため,これが無制限に使用できるのは大きい.

■o1 proの性能と使用回数制限がないことを考えれば,事業者においては,エージェントを1人雇う,通訳者を雇う,あるいはコンサルティング業者に委託するよりも月3万のo1 proを使用する方が非常に安価といえる.

■一方で,個人が使用するならば,日々推論タスクあるいはリアルタイム音声会話機能を頻回に利用する人でない限りはメリットは乏しいだろう.先述の通り,o1とo1 proは,一貫性の差こそあれどベースの性能にそこまでの劇的な違いはなく,o1もかなり優秀である.よって,多くの個人ユーザーにとっては,新たな3万円を超えるビジネスモデル(金融投資を含む)を生み出さない限りは,月3万円支払うのはコストパフォーマンスが悪く,月3000円のo1で十分だと思われる.
# by DrMagicianEARL | 2024-12-09 17:00 | 医学・医療とAI
ChatGPT新モデル「OpenAI o1」が登場
OpenAI o1をうまく活用するコツ
・科学分野(特に数学)やコーディングタスクの場合に使用推奨
・科学分野以外のタスクや複雑な計算に関してはChatGPT-4oを推奨
・広範な知識を必要としないタスクならo1-previewよりもo1-miniを推奨(使用回数制限の関係)
・GPT-4oと違い,OpenAI o1では「シンプルかつ明確」なプロンプトを推奨
■ChatGPTに新しいモデル「OpenAI o1」が2024年9月12日にリリースされた(一方でGPT-5はいつになったらでるんだとも思いましたが).以下に,利用方法,特徴,ベンチマーク評価,実際の使用感を紹介する.

1.OpenAI o1の利用方法

■ChatGPTでは「o1-preview」として選択できる.また,より軽量で速度が速く低コストの,数学やコーディングの性能は維持されたo1-miniも同時にリリースされている.現在,OpenAI o1(以下,o1と略す)を使用できるのは,月$20のサブスクリプションプランであるChatGPT plus会員(有料会員)に限定されているが,将来的に無料会員にも開放予定とのことである.

■なお,現在,o1は無制限に使用できるわけではない.o1-previewは1週間に30回まで,o1-miniは1週間に50回までしか使用できないことに注意が必要である.このため,後述の通り得意分野が異なるGPT-4oと使い分けた方がいいだろう.また,o1-miniは軽量化した上でSTEM推論に最適化して数学やコーディング性能を維持しているモデルのため,広範な知識を必要としない数学・コーディングタスクであれば,使用回数上限が多いo1-miniを優先的に使う方がいいだろう

■o1のAPIに関しては値段は高く,$15/1M入力トークン,$60/1M出力トークンであり,GPT-4oに比して3~4倍の料金となっている.o1-miniであれば$3/1M入力トークン,$12/1M出力トークンと比較的安価である.

2.OpenAI o1の特徴

■OpenAI o1はコードネーム「Strawberry」として推論に焦点をあてて開発されていたAIモデルである.複雑な推論を行うために強化学習でトレーニングされており,回答する前に長くかつ深く考える特徴がある.特にchain-of-thought(思考の連鎖)はこれまではプロンプトやcustom instructionsなどで指示しないと施行しなかったが,OpenAI o1はデフォルトでこれを行う.この結果,以下の通り,数学・化学・物理・生物学などの科学分野タスク,コーディングにおいて大幅に精度が向上したとしている.

■一方で,実世界の知識など複数分野ではGPT-4oを下回っており,タスクによってGPT-4oとo1の使い分けが必要である.

■また,o1は現時点ではネットアクセス(Web browsing)やファイルアップロード,Advanced Data Analysis(Code Interpreter)にもまだ対応していない

■o1はGPT-4oとは異なり,単純なプロンプトで最高のパフォーマンスを発揮するようにできており,かつ思考プロセスが定まっている.プロンプトはシンプルかつ明確(区切り記号を使うなど)にしておかないと,パフォーマンスを妨げてしまう

3.ベンチマーク評価

■o1は,競技プログラミング問題(Codeforces)で89パーセンタイルにランクインし,米国数学オリンピック予選で全米上位500名に入る成績を収めている.具体的には,2024年の問題において,GPT-4oの正答率は平均12%(15問中1.8問)であったのに対し,o1は平均74%(15問中11.1問),64サンプルでのコンセンサスでは83%(15問中12.5問),1000サンプルの中から学習したスコアリング関数で再ランク付けすると93%(15問中13.9問)の正答率を記録した.このスコアは本選進出基準を上回る成績である.また,物理学・生物学・化学の問題に関する評価基準(GPQA)では,人間の博士号レベルの精度を超えている.

■また,o1を化学,物理,生物学の専門知識を問うGPQAダイヤモンドという難解な知能ベンチマークで評価したところ,o1はこれらの専門家を上回る成績を収め,このベンチマークで初めて人間を超えたモデルとなった(あくまで博士号を持つ人間が解ける問題の一部においてモデルの方が優れているということ).他のいくつかの機械学習ベンチマークでも、o1は最先端の性能を上回っており,視覚認識能力が有効な場合,o1はMMMUで78.2%のスコアを記録し,初めて人間の専門家と競えるモデルとなった.また,MMLU57サブカテゴリのうち54でGPT-4oを上回った.

■国際的なプログラミングコンテストでは上位11%に入る成績を達成している.

4.使用感

■o1モデルは主に科学分野でのバージョンアップであり,それ以外についてはGPT-4oが勝っていること,プロンプト入力のコツも異なることから,科学分野,特に数学的問題解決能力やコーディングの試行を行い,より精度が上がるプロンプトを模索してきた.それをo1にも行った.その上で使用感を述べる.

(1)コーディング
■GPT-4oはコーディングが使えないと評価されてきたが,o1では大幅に向上したようであり,Claude-3.5-Sonnetと同等レベルかもしれない.o1とClaude-3.5-Sonnet,v0を組み合わせることで大きく幅が広がるだろう.ただし,私はプログラマーではなく,生成されたコードを使用して試しているだけなので,より正確な評価はプログラミングのプロの方の評価を参照されたい.

(2)推論能力
■chatGPT-4oと違い,o1は思考の連鎖と修正を繰り返し,解答にたどりつく.このためかなりきっちりした推論を出力する.ただし,超難問が解けるようになるわけではないである.

(3)探索が苦手
■「AIは選択するというプロセスが非常に苦手」ということに関連するが,「すべて求めよ」という問題文をGPT-4oは非常に苦手としていて,いくつかの具体的な数値で試行を行い,それだけで結論づけてしまい,それですべてを網羅しているのか,他に数値はないのかを論証しようとしない.残念ながらo1でもそれは同様である.この手の問題文は,プロンプトを「すべて求め,それ以外には存在しないことも証明せよ」と書き足さなければいけない.

(4)計算力(算術能力)は依然として低い
■ChatGPTに限らず,AIは推論力は向上しても,計算力は非常に悪い.これは残念ながらo1でも同様である.ChatGPT-4oはAdvanced Data Analysis(Code Interpreter)があるため,正確な計算はそちらでできる.o1はAdvanced Data Analysisは対応していないが,「Advanced Data Analysisを用いると」「mathモジュールを用いると」という文言とともに誤った応えを出力してしまうハルシネーションがしばしば起こる.このため,複雑な計算を要するタスクではGPT-4oを使用した方がよい

(5)回答が終了しない
■o1の思考プロセスの概略は見ることはできるが,詳細なプロセスは非公開であるため,推測になるが,思考の連鎖プロセスの関係で,思考が終了せず動きっぱなしになっている可能性があり,回答文生成が終わっても次のプロンプト入力ボタンが回答生成中止ボタンのままというトラブルがよく起こる(特に難問を解決させるタスクで発生しやすい).
# by DrMagicianEARL | 2024-09-13 11:42 | 医学・医療とAI
AI検索最強のPerplexityに強力なライバルが登場「Genspark」
【AI】AI検索最強のPerplexityに強力なライバルが登場「Genspark」_e0255123_11174822.png
■AI検索では1年余りの間,Perplexityが無双状態であったが,ここにきてその地位を脅かす強力なライバル「Genspark」が2024年6月18日に登場した.Genspark社は,Baidu(百度)の元幹部が設立した企業(本社はカリフォルニア州パロアルト)である.

■Gensparkの売りは「無料」「速い」「Sparkpagesの充実性」であろう.特に,Sparkpages機能は,医学情報においては,レビュー論文ばりの詳細情報を即座に生成することができる

1.Gensparkの機能

(1)複数のAIモデルを使用して検索情報からSparkpagesを生成
■Gensparkは,同社で訓練されたモデルに加え,OpenAI社,Anthropic社などのサードパーティーモデルも含む複数のAIモデルプロバイダーを使用して情報をインデックス化して要約する.結果は,AI生成サマリーの提示に加えて,1ページにカスタマイズされた,Wikipediaのような詳細なSparkpagesを生成してリンクを表示する.権威性や人気が高いWebページを優先し,信頼性の低い情報を排除している.また,生成したSparkpagesにはAIによるCopilot機能がついている他,Sparkpagesを他者にシェアすることもできる.

(2)ユーザーの検索行動を学習
■Gensparkは,ユーザーの検索行動を学習し,個々のニーズに合わせたカスタマイズされた情報を提供できる.

(3)無料で使用可能
■現時点ではGensparkはβ版であり,無料で提供されている.ゆくゆくはサブスクリプションプランも組むとのことである.

(4)生成速度が非常に速い
■実際に触ってみると分かるが,Gensparkの検索結果生成速度は非常に速い.検索結果のサマリーだけならPerplexityと同程度と感じるかもしれないが,それに加えて詳細なSparkpagesも同時に完成させるため,トータルの速度は断然Gensparkが早い.

2.Gensparkでの医学情報の検索

■Gensparkは旅行や画像,商品の情報を前面に押し出しているが,医療・医学情報にも強く,検索結果のサマリー生成とその引用サイトはPerplexityにひけをとらない質の回答を生成する他,Sparkpagesはかなり充実しており,例えば治療薬についての検索だと「治療目的」「効果のエビデンス」「投与方法」「研究結果の比較」「副作用と注意点」「ガイドラインの推奨」「まとめと結論」といった,さながらレビュー論文ばりのまとめを即座に生成する.PerplexityにもPerplexity Pagesがあるが,Sparkpagesに比べてかなり時間がかかる.

■↓検索結果サマリー(Directed Answer by AI)
【AI】AI検索最強のPerplexityに強力なライバルが登場「Genspark」_e0255123_11243485.png
■↓Sparkpages
【AI】AI検索最強のPerplexityに強力なライバルが登場「Genspark」_e0255123_11260485.png

■Perplexityよりも劣る点では以下のことがあげられる.
・AcademicやWritingといったフィルター機能がない
・Perplexityに比して情報の最新性がやや劣る
・ファイルアップロード機能がない
・APIがない
・アプリがない

# by DrMagicianEARL | 2024-06-28 11:34 | 医学・医療とAI
最新のClaude-3.5-Sonnetをどう使うか?課金すべきか?
【AI】最新のClaude-3.5-Sonnetをどう使うか?課金すべきか?_e0255123_18174338.png
■2024年6月21日にAnthropic社のAIモデルClaudeシリーズに最新のClaude-3.5-Sonnetが登場した(今年度末には3.5でのHaikuやOpusもリリース予定).精度向上のみならず,新たなArtifactよるPreview機能がビジュアル的にインパクトがあってか,SNSでは絶賛されているが,使用するとなれば,無料ではすぐにレート制限にひっかかってしまい,短時間しか使えない.さらに,プロジェクトごとにファイルアップロード(Knowledge)と事前の指示(Instructions)ができるbot機能を使用できるProjects機能が6月25日に搭載されたが,これは無料ユーザーには開放されていない.

■最近はAIのアップデート,新しいツールの登場などが目まぐるしい中,課金すべきか悩むケースも多いと思われる.では,Claude-3.5-Sonnetにはどのような人が課金すべきか?代替手段はないのか?このあたりについてこの記事では扱う.

1.Claude-3.5-Sonnetの性能

■Claude-3.5-Sonnetは確かに高性能で,「LLMのベンチマークではGPT-4oを超えて最強」とSNSでは湧き上がっているが,この手のベンチマーク比較については話半分に聞いておいた方がよい(新しいモデルがでるたびにこういう騒ぎが起こるが,過剰評価であることもしばしばで,後で評価が逆転することもある).なので,LLMとしての精度だけで課金しようとするのはおすすめしない今回のアップデートは,LLMの精度向上というよりもむしろ,Claudeの新しいオプション機能による利便性が大幅に増した,というのがポイントで,ここに自分のAIを使う目的がマッチするかどうかである.
Claude-3.5-Sonnetの注目すべきポイント
・回答速度の速さ
・API利用料金の安さ
・Artifact機能
・Projects機能
(1)回答速度の速さ
■Claude-3.5-Sonnetの性能はClaude-3シリーズで最強と言われているOpusを上回っており,その回答速度はOpusの2倍である.他者のLLMとのベンチマークでの比較は参考程度にとどめておいた方がいいが,同じClaude同士の比較では確かにOpusより高性能である.
【AI】最新のClaude-3.5-Sonnetをどう使うか?課金すべきか?_e0255123_18183292.png
(2)APIの安さ
■APIを使用しない方には関係ない話であるが,最近,OpenAIもGoogleもAPIの料金の安さで競争しているかのような低コスト化が進んでおり,Anthropic社もそれに乗っかった形となった.入力トークン100万あたり$3,出力トークン100万あたり15$で,トークンコンテキストウィンドウは20万(200K)である.これはClaude-3-Opus/Sonnetのみならず,GPT-4oやGemini-1.5Proよりも安く,1000文字の入力で1円程度である($1=¥155,1文字2トークンと換算した場合).APIは従量制であるため,どの程度値段がかかるのか使用してみなければ分からないという恐怖心がある人も多いが,ここまで安くなると使いやすいのではないだろうか?
【AI】最新のClaude-3.5-Sonnetをどう使うか?課金すべきか?_e0255123_18195752.png
(3)Artifact機能
■Claude-3.5-Sonnetで最もインパクトがあるのがこの機能であろう.この機能はアプリ版では使用できず,Web版のみ可能である.Claude-3.5-Sonnetのページでアカウント(設定)をクリックし,[Feature Preview]を選択してArtifactsを[On]に設定すれば使用できる.
【AI】最新のClaude-3.5-Sonnetをどう使うか?課金すべきか?_e0255123_18211905.png
■Artifactsには以下の6つの機能が搭載されている.

- コード:プログラミング言語で書かれたコードスニペットやスクリプトを表示する.シンタックスハイライトが適用されており,コードの構文に基づいた色分けが行われて読みやすくなっている.
【AI】最新のClaude-3.5-Sonnetをどう使うか?課金すべきか?_e0255123_18221447.png
- ドキュメント:プレーンテキストやMarkdown形式のドキュメントを表示する.長文のテキスト,説明文,レポートなどに適している.
【AI】最新のClaude-3.5-Sonnetをどう使うか?課金すべきか?_e0255123_18233217.png
- HTML:HTML形式のコンテンツを表示する.HTML,CSS,JavaScriptを含む単一ファイルのウェブページを表示でき,インタラクティブな要素を含むことができる.ホームページ作成に適している.
【AI】最新のClaude-3.5-Sonnetをどう使うか?課金すべきか?_e0255123_18240022.png
- Scalable Vector Graphics (SVG):一言で言えば図形や簡単な絵などの描画機能である.SVGはウェブやその他の環境で使用される2次元のベクター画像を定義するためのXMLベースのファイル形式であり,ベクター形式のグラフィックスを表示できる.ベクター画像は数式で描画されるため,どの解像度でも鮮明に表示され,直接編集しやすく,要素の位置や形状,色などを手軽に変更できる.軽量なため,ウェブページの読み込み速度を向上させることができる.
【AI】最新のClaude-3.5-Sonnetをどう使うか?課金すべきか?_e0255123_18243874.png
- Mermaid図:Mermaid記法で書かれた図表を表示できる.具体的には,フローチャート,シーケンス図,ガントチャート,マインドマップなどの図表を簡単に作成できる.テキストベースで図表を定義できるため,修正や更新が容易である.同様の機能はGPTsにもあるが,Artifactsでは事前に日本語表記できる点が異なる.
【AI】最新のClaude-3.5-Sonnetをどう使うか?課金すべきか?_e0255123_18250418.png
- Reactコンポーネント:ReactはFacebookによって開発されたオープンソースのJavaScriptライブラリであり,主にユーザーインターフェース(UI)の構築に使用されている.要は,ウェブページの一部分を作るための「部品」のようなものである.例えば,ボタン,フォーム,カードなどのUI要素を作ることができる.ボタンやフォーム(クリックしたり,テキストを入力したりできる部品),データの表示(グラフや表で情報を見やすく表示できる),シンプルなゲーム(簡単なクイズやパズルのようなゲームを作れる)などが可能である.
【AI】最新のClaude-3.5-Sonnetをどう使うか?課金すべきか?_e0255123_18260550.png
■「Claude-3.5-Sonnetはスライドも作成できる」との話もあるが,これは間違いである.確かに,プロンプトで指示するとあたかもスライド生成ができるようには見える.しかし,このArtifact機能にはスライド生成機能はなく,上記の6つの機能を組み合わせて,プレゼンテーションのような内容を生成し,スライドを模倣しているというのが実際である.

■このArtifact機能を活用する上で肝となるのが「Preview」である.Previewは生成されたArtifactの内容をユーザーに即座に表示する機能であり,これにより,ユーザーは,コードだけでは分かりにくい作成されたコンテンツを直接視覚的に確認し,必要に応じて修正や調整を要求することができる.まさにプログラムができない人でもコードを扱いやすくするためのツールである.

■このPreviewが非常にインパクトが高いためSNSでは話題性が高いが,Artifacts機能を扱う上でのその本質はPreviewではなく,コード生成能力の高さにある.もともとClaudeはChatGPTなどの他のLLMよりもコード生成能力が高く,Claude-3.5-Sonnetではさらに精度が向上している.その精度に自信がなければ,このようなPreview機能はつけられなかっただろう.同時に,このPreviewはダウンロードはできない.もっとも,特定のデータを可視化して自分にとって理解しやすい形にする上ではその場では便利で,例えば,論文を読み込ませた上で内容・データをビジュアル化させるのは一つの手である.だが,そこでせっかく生成されたコードを活用できなければ宝の持ち腐れでもある.

(4)Projects機能
■Projects機能は,Claude-3.5-Sonnetリリースから数日遅れで追加された機能で,有料会員であるProもしくはTeamのユーザーしか使用できない.この機能は早い話が自分専用のbotを作成できる機能である.GPTsと似ているが,Webアクセス機能やActionによる外部API呼び出し機能,Advanced Data Analysis(旧Code Interpreter)ほどの機能は有していない.

- ファイルアップロード登録機能
■knowledgeとしてドキュメントやコードなどのファイルをアップロードでき,会話の際にそのファイルを参照してくれるようになる.1つのプロジェクトにつき,アップロードできるファイルの上限は200kトークンであり,書籍で言うとや500ページほどの量である(NotebookLMには遠く及ばない).

- Custom Instructions機能
■ChatGPTにもあるような,事前の指示をそのプロジェクトにおいて守らせることができる,「自分だけのチャットbot」の機能である.

2.Claude-3.5-Sonnetをどう使う?課金は必要?

■前述の通り一通りの機能を説明したが,ここからはどう使うかである.ただ普通に会話するだけならChatGPTもあるので,わざわざ課金する必要はないだろう.無料のままでいいのか,有料(月$20≒3100円のサブスクリプション)で使用するかはここが大きな分岐点である.当ブログの性質上,読者が医療従事者であるため,医療従事者を想定した内容に限定することになるが,ここの読者が使用するとなると第一に考えることと言えば学術的な内容であろう.

(1)論文の理解のための使用
■Claude-3.5-Sonnetは論文の解説がうまい.加えて,内容をデータも含めてビジュアル的に分かりやすくする上では非常に使い勝手がいい.となれば,あとは1日にどれくらいの本数の論文を読み込ませるかしだいである.
考え方

1日2~3本程度
 →無料がおすすめ

まとまった時間に何本も読み込ませたい
 →選択肢1:有料化
 →選択肢2:ChatGPT-4o(無料)を使う
(2)ガイドラインや通知文書等,まとまった情報の理解
■ガイドラインやレビュー論文,厚労省などの通知文書などを読み込ませてFAQのbot代わりに使うことも可能である.ただし,毎回アップロードするのではなく,あらかじめファイルをアップロードしたbotを作っておくと便利で,このような使い方をする際は有料のProjects機能が便利である.ただし,同様の機能を有する代替手段は無料のものも含めて多い.
考え方

多量の参照文書のbot的使い方はしない
 →無料がおすすめ

多量の参照文書のbotを作成して使用したい
 →選択肢1:有料でProjects機能を使う(Artifacts機能付きで使いたいなら特におすすめ)
 →選択肢2:既にChatGPTの有料ユーザーならGPTsを使う
 →選択肢3:Cozeで自作する(無料.モデルはClaude-3.5-Sonnetを含め様々なAIから選択できる)
 →選択肢4:NotebookLMで自作する(無料)
 →選択肢5:Poe.comで自作する(使用回数制限はあるが無料.モデルはClaude-3.5-Sonnetを含め様々なAIから選択できる)
 →選択肢6:easy-peasy.AIで自作する(有料.NotebookLMのような特化bot,GPTsのような創造性もあるbotのどちらも作成可能)
(3)論文を書く
■論文生成にも使用できるが,論文生成となればそれなりの会話頻度になるため,無料で使用するのは現実的ではないだろう.有料で使うにしても,既にChatGPT-4oが無料で使用できる他,論文生成を支援してくれるGPTsは既にいくつか公開されているので,そちらを使うのがいいだろう.
考え方

Claude-3.5-Sonnetはおすすめしない.既存の論文生成を支援してくれるGPTsを使用する.
(4)スライド作成
■アウトラインを考えてくれたり,スライドに使用するデータをまとめる上では有用だが,それは他のAIでも可能である.なにより誤解してはいけないのは,前述の通り,Claude-3.5-SonnetのArtifacts機能はスライド生成機能はなく,HTML等を使用した模倣であり,提示されたコードを使用してもスライドは作れない.
考え方

Claude-3.5-Sonnetはおすすめしない.ChatGPT-4o,あるいは既存のスライド生成を支援してくれるGPTsを使用する.
(5)データの解析
■ChatGPTのAdvanced Data Analysis(旧Code Interpreter)ように,プログラムを独自にUI上で走らせて解析してくれる機能までは備わっていないが,コード生成機能自体は全AIモデルの中でほぼトップであり,そのコードを用いて自分のPC(あるいはコードが使用できるGoogle Colaboratoryなどのプラットフォーム)で動かす上では非常に有用である.ChatGPTのAdvanced Data Analysisが精度があまりよくなくて失敗しやすいことを考えれば,Claude-3.5-Sonnetの使用はおすすめである.コード生成する上では会話回数も多くなることから,有料での使用がおすすめである.
考え方

無料はおすすめしない.

選択肢1:有料で使用する(コードを使用するための他のアプリケーションを使用する必要はある).
選択肢2:ChatGPT-4oのAdvanced Data Analysisを使用する(無料.精度は落ちるが,解析をAI上で済ませてしまいたい場合はおすすめ)

# by DrMagicianEARL | 2024-06-26 18:31 | 医学・医療とAI
多数のアップロードした文書に特化したAIチャットアプリ「NotebookLM」の強みと弱点
【AI】多数のアップロードした文書に特化したAIチャットアプリ「NotebookLM」の強みと弱点_e0255123_13162061.jpg
■Googleから新たなAIツール「NotebookLM」が試験的に無料公開された.NotebookLM自体は2023年の開発者向けカンファレンスGoogle I/O 2024の基調講演で発表されたサービスで,2023年12月8日から米国アカウントのみで使用可能となり,開発者や企業がGoogle AI StudioやGoogle Cloud Vertex AIのAPIを通してGemini-1.0Proを搭載したNotebookLMが利用できた.今回はそれが大幅アップデートされ,かつ世界200か国で公開され,SNSでもかなり話題となっている.

1.NotebookLMとは何か?

■NotebookLMは作家のSteven Johnson氏とのパートナーシップで設計されたもので,ユーザーがパソコン,Google Drive,Googleスライド,ウェブサイト,あるいはテキストの直接入力から複数のドキュメントを1つのデジタルノートスペースにアップロードし,Google最新のAIであるGemini-1.5Proを通して会話し,アップロードしたドキュメントを使用して回答できるような質問をすることができるように設計されている.

■これはプライベートRAG(Retrive-Augumented Generation)と呼ばれる機能で,入力されたクエリに関連する情報を大規模なデータベースから検索し,その情報を利用して回答を生成する手法である.NotebookLMは,ユーザーのアップロードしたローカル資料を基盤として言語モデルを構築することで,個々のニーズに最適化されたインサイトを提供する.このソースグランディングによって,AIが提供する情報の信頼性と関連性が高まる.通常のLLMモデルとは異なり,NotebookLMは入力データに書かれていないことには回答を拒否する場合があるため,事実と異なる情報を生成するリスクが低い.
【AI】多数のアップロードした文書に特化したAIチャットアプリ「NotebookLM」の強みと弱点_e0255123_15195142.png
■例えば,医学研究者がNotebookLMに複数の論文をアップロードし,特定のトピックに関する質問をすると,NotebookLMはアップロードされた論文の内容に基づいて正確な回答を生成することができる.特定の疾患についてのレビュー論文やガイドラインなどを複数アップロードすれば,その疾患について非常に詳しいボットを作成することができる.

■Gemini-1.5Proは,2024年2月8日にリリースされ,4月9日にはAPI開放,5月15日にはWeb版とGoogleアプリでGemini Advancedとして使用可能になったGoogleが誇る最新AIである.その強みはやはり,その膨大な処理能力にある.機械学習の向上によりコンテキストウィンドウで最大100万トークンもの膨大な情報を処理可能になっている.GPT-4oが12万8000トークンであることを考えると,Gemini-1.5Proは圧倒的な処理量で,これはハリーポッターの全書籍の8割の量に相当する.これによりこれまでよりも複雑な問題を解決できるようになり,情報の探索と分析の時間が節約され,生産性の向上が期待されている.NotebookLMに数十のソースをアップロードしてのプライベートRAGは他のAIにはなかなか真似できないだろう.

2.NotebookLMの機能

■ここでは,NotebookLMの機能について述べる.

(1)アップロードできるファイルの種類と数
■Notebookにアップロードできるファイルは以下の通りである.
・Googleドキュメント(Googleドライブから)
・Googleスライド(Googleドライブから)
・PDFファイル(.pdf)
・テキストファイル(.txt)
・コピペで直接入力したテキスト
・ウェブサイトURL
■アップロードファイルについての制限・応用は以下の通りである.
・アップロードできるファイル内容の上限は50万語まで.
・アップロードできるファイル数の上限は49(公開情報では50だが実際には49個までしかアップロードできない).・基本的には文書がメインだが,Googleスライドに限って言えば画像や表も可能.・ウェブサイトURLについては,そのウェブサイトがアップロード後に更新されても反映はされない.・NotionのURLでも内容を読み込むことが可能で,この場合は公開設定にした上でネット検索を可能にする必要がある.ただし,読み込みはあまりうまくいかない.・Excelファイル(あるいはCSVファイル)そのものは読み込めないが,PDFファイルもしくはJSON形式に変換した上での.txtファイルにすると読み込める.PDFファイル化する場合は,セル内改行を施しておく必要がある.
(2)質問する
■チャットボックスに質問や指示を書くことで,アップロードしたソースをもとにGemjni-1.5Proが回答する.言語は日本語でもよく,回答はあくまでソース情報のみしか生成しない(Gemini-1.5Proがもつ知識は適用されない).質問の際に使用するソースのファイルは選択が可能である(チェックボックスのon/off切り替え).なお,チャット内容は自動的には保存されないため,回答を保存したい場合は次に説明するメモ機能を使用する

■ほとんどの場合,AIの回答にはソースからの引用番号がつく.引用は直接引用であるため,引用の文章を確認することで,回答の正確性を確認したり,元の引用を見つけることができる.
【AI】多数のアップロードした文書に特化したAIチャットアプリ「NotebookLM」の強みと弱点_e0255123_13304580.png
【AI】多数のアップロードした文書に特化したAIチャットアプリ「NotebookLM」の強みと弱点_e0255123_13310315.png
(3)メモを使う
■NotebookLMにはメモ機能がついており,いくつかの使い方がある.
- メモにAIからの回答を保存する:回答を保存したい場合は,回答ボックスの右上にあるピンマークをクリックすると保存できる.保存された回答ノートは編集は不可である.
- ソースの1つから引用または要約を保存する:アップロードしたソースを読みながら,保存するテキストを選択し,メモに追加またはメモに要約を選択して新しいメモを作成できる.これらの保存されたメモは編集は不可である.
- 既存のメモを使用して新しいメモを作成する:メモを選択し,提案されたアクションの1つを選択して,その内容に基づいて新しいメモを作成する.たとえば,すべてのメモを選択し,学習ガイドの作成を選択するなどが可能.
- 新しいメモを書く:メモセクション(質問入力部位の左にある「チャットを閉じる」をクリック)の左上にある「メモを追加」をクリックすると,新規にメモを作成できる.

■作成したメモの右上にある□のチェックボックスをクリックすると,下のチャットモードが起動し,メモ内容からAIへの質問・指示が可能である.
【AI】多数のアップロードした文書に特化したAIチャットアプリ「NotebookLM」の強みと弱点_e0255123_14573570.png
■1つのノートブックには最大1000件のノートを作成できる.

(4)ノートブックの共有

■各ノートブックの右上に共有ボタンがあり,これをクリックすると別のユーザーのメールアドレス(自分のアカウントと同じドメインのみ)を追加することで共有ができる.追加されたユーザーのアクセス権に関しては閲覧者か編集者のいずれかを指定できる.
- 閲覧者:共有ノートブック内のソースとメモの読み取り専用のアクセス権を有する.
- 編集者:共有ノートブック内のソースとメモを表示,追加,削除したり,他のユーザーとさらに共有することができる.

■共有できる個人ユーザー数は最大で50人であるが,Googleグループとは共有は不可.企業アカウントでは,ノートブックを共有できるユーザー数に制限はない.

(5)ノートブックガイド
■プロンプト入力欄の右に「ノートブックガイド」というものがあり,ここをクリックすると以下の5つから選択してメモが自動作成される.
- よくある質問:FAQを自動作成
- 学習ガイド:ソース内容から問題を自動的に出題することができる
- 目次:ソースから目次を自動生成する
- タイムライン:ソース内の時系列や登場人物についての情報を自動作成する
- ブリーフィング・ドキュメント:ソース内容の概要を自動的に作成する

3.NotebookLMの弱点

■SNSではNotebookLMを賞賛する投稿であふれているが,当然ながら弱点がある.

(1)言語の壁
■NotebookLMに搭載されているAIモデルであるGemini-1.5Proは日本語能力にかなり優れており,ChatBot Arenaでも他のモデルをおさえてトップだったことが話題になっている.しかしながら,ことNotebookLMにおいては,ソースとしてアップロードした文書が英語であった場合,日本語で質問した時の精度がやや落ちているようである.質問の日本語を英語に変換した上でソースから検索するというワンステップ多い過程となるため,ここがボトルネックになっているようである.

(2)連続した会話が成立しにくい
■通常のAIチャットボットは,文書の内容だけでなく,ユーザーと繰り返す対話の文脈も考慮して回答を生成する.NotebookLMの場合は,あくまでアップロードされた文書の内容のみに基づいて回答が生成されるため,文脈を考慮した柔軟な対話が難しい.

(3)通常のGemini-1.5Proとの会話と比べて柔軟性や応用性が損なわれている
■NotebookLMではソースからの情報に特化し,それ以外の情報(元々AIが有している知識等)は出力しない仕様となっているため,柔軟な対応や応用性が損なわれている.このため,思っていた回答がなされなかったり回答を拒否されることもある.大量の文書の処理や正確性を求めるならNotebookLMがいいが,もし柔軟性や応用性を求めるならば,通常のGemini-1.5Proやその他大規模言語モデルのAIチャットボットにアップロードして質問・指示した方がいいだろう.

(4)機能性が会話に限定される
■ファイルをアップロードしてのカスタマイズしたプライベートRAGとしてのAIチャットボットにはGPTsやPoeの自己作成ボット,Cozeアプリなどがあり,これらはbotを呼び出したり,解析やウェブアクセス等の他の機能も同時に使用できる.NotebookLMは会話機能以外が一切できない仕様であり,こういった機能性を有していない.

■このため,使い勝手を知るならば,GPTs,Poe,Cozeなどを触った上でソース内容とその使用目的でNotebookLMと使い分けをした方がいいだろう.GPTs作成は有料であるが,Poeボット(一部有料のモデルもあり),Cozeは無料で使用できる.

(5)プロンプトの工夫があまり通用しない可能性
■NotebookLMは見ての通りチャットのプロンプト入力部分が非常に狭い上に改行もできない.改行したプロンプトをコピペして実行してもチャット上には反映されていない.長く複雑なプロンプトを想定したつくりにはなっていないのかもしれない.

(6)スマートフォンからは扱いづらい
■スマートフォンでもNotebooLMの使用はできるが,表示があまりよくなく,ソースをアップロードする際のエラーもでやすい.

(7)チャット履歴が自動で保存されない
■前述の通り,チャット履歴は自動では保存されず,メモに移す必要がある.

(7)メモ保存で表形式が崩れる
■チャットでは表形式で出力させることも可能だが,これをメモに保存した場合,表形式が崩れてしまう.

(8)APIがない
■NotebookLMには利用できるAPIがない.このため,外部からNotebookLMの情報をリクエストすることはできない.
# by DrMagicianEARL | 2024-06-12 15:16 | 医学・医療とAI

by DrMagicianEARL