人気ブログランキング | 話題のタグを見る
ブログトップ

EARLの医学ノート

drmagician.exblog.jp

敗血症をメインとした集中治療,感染症,呼吸器のノート.医療におけるAIについても

■心停止患者に対する心肺蘇生時に慣習的に重炭酸ナトリウムを使用されることがある.重炭酸塩は,古代エジプト人が天然に存在する複合塩であるナトロンという形で初めて使用した.干上がった塩湖の湖底から塩の混合物を採掘して得られていたナトロンの用途は,スキンケア,ミイラ化プロセスにおける薬剤としての日常的な使用,さらには局所的な創傷消毒剤としての使用など,多岐にわたった[PMID:27027749,PMID:11625036].重炭酸水素ナトリウムの医学的適応は,伝統的に高カリウム血症の治療,腎毒性薬剤の尿アルカリ化,および特定の毒性摂取の治療(例えば、三環系抗うつ薬および他のナトリウムチャネル遮断薬の過剰摂取)に限られている.しかし,救急患者における重炭酸水素ナトリウムの使用は,これらの臨床的適応以外のさまざまな臨床場面,特に重篤な代謝性アシドーシスの状況において明確な指針はない.

■重炭酸水素ナトリウムは酸塩基平衡障害の治療によく使用される.心停止患者の体内では酸素交換の不均衡が生じ,その結果アシドーシスが生じる.このため,心停止患者に重炭酸ナトリウムを投与することは理にかなっているという理由で行われてきた経緯がある.確かに,代謝性アシドーシスは,筋細胞収縮能の低下,全身血管緊張の低下,内因性カテコラミンや血管作動薬に対する反応障害,肺血管収縮,免疫反応低下,白血球機能障害などが知られている.しかし同時に,代謝性アシドーシスには,酸素に対するヘモグロビンの親和性が低下して組織への酸素利用率が高まること,血管拡張によって組織への血流が増加すること,イオン化カルシウムの利用率が高まって心筋収縮力が増強することなど有益な作用もある生理学的反応ともいえる[PMID:24377654,PMID:4621213]

■臨床ではどうかというと,2020年に報告された観察研究6報18,406例のシステマティックレビュー[PMID:32978028]では,心停止患者に対する重炭酸ナトリウムの使用は死亡リスクは改善せず,副作用として,高ナトリウム血症,アルカローシス,CO2蓄積などが指摘された.そして今回紹介するのは,American Journal of Emergency Medicine誌に報告されたRCTおよび傾向スコア研究のシステマティックレビューである.結果は,院外心停止患者に対する重炭酸ナトリウムの投与は短期生存率にも長期生存率にも関連せず,感度分析ではむしろ長期生存率を悪化させる可能性があるというものであった.このことから,重炭酸ナトリウムのルーティン使用は益が乏しいどころか害が益を上回る可能性がある

■おそらく重要なのはアシドーシスの原因解除であって,強制的な補正ではないのであろう.逆に言えば,病態によっては重炭酸ナトリウムが有効に働くサブグループが存在する可能性も残されている.アニオンギャップのない代謝性アシドーシス(消化管や尿路からの重炭酸塩の直接喪失,慢性腎臓病に伴うアンモニアの排泄障害等[PMID:22403272])では,重炭酸ナトリウムの喪失が原因であるため,重炭酸イオンの補充がアシドーシスの原因解除に直結しうることから,有効に働くかもしれない.
院外心停止患者における重炭酸ナトリウムの効果:RCTと傾向スコア研究のシステマティックレビューおよびメタ解析
Xu T, Wu C, Shen Q, et al. The effect of sodium bicarbonate on OHCA patients: A systematic review and meta-analysis of RCT and propensity score studies. Am J Emerg Med 2023; 73: 40-6
PMID: 37611525
https://doi.org/10.1016/j.ajem.2023.08.020

Abstract

【背景】院外心停止(OHCA)における重炭酸水素ナトリウム(SB)の有効性に関するエビデンスは議論の余地があり,一般的に質が低い.無作為化比較試験(RCT)および傾向スコアマッチング(PSM)コホート研究に基づき,OHCA患者におけるSBの効果を評価するために系統的レビューおよびメタ解析を行った.

【方法】PubMed,Cochrane,Embaseの各データベースから,開始時から2023年7月15日までのRCTおよびPSMコホート研究を検索した.重炭酸塩群と対照群の比較が明確な成人(16歳以上)の外傷のないOHCA患者を対象とした研究を対象とした.すべての研究で,主要評価項目である短期生存率(ROSC,救急部または入院までの生存率),副次評価項目である長期生存率(退院時の生存率,1ヵ月後の良好な神経学的予後)が報告された.結果はオッズ比(OR)と95%信頼区間(CI)を用いた.バイアスを減らすために,RCTとPSMコホート研究のサブグループ解析を行った.また,異質性を解消するために感度分析を行った.

【結果】21,402人の患者を対象とした6件の研究(RCT3件,PSM3件)が組み入れられた.このメタアナリシスの主要評価項目は,両群間の短期生存率に差がないことを示した(OR=1.04; 95%CI 0.98-1.12; P=0.21; χ2=6.68; I2=25%).副次評価項目では,両群間の長期生存率に差はなかった(OR=0.82; 95%CI 0.50-1.34; P=0.43; χ2=14.96; I2=80%).1つの研究を除外して感度分析を行ったところ,重炭酸塩群の長期生存率は対照群より低かった.

【結論】OHCA患者において,重炭酸ナトリウムの投与は短期生存率にも長期生存率にも関連せず,むしろ長期生存率を悪化させる可能性がある.

# by DrMagicianEARL | 2023-08-29 12:36 | 文献
■敗血症性ショックの初期蘇生においては,30mg/kg以上の急速輸液負荷が長年推奨されている.この30mL/kg以上という輸液量は,敗血症治療の蘇生バンドルの順守率と予後を検討した大規模観察研究結果[PMID:20069275]が根拠となっており,以降,この輸液量が慣習化し,その後の無作為化比較試験のプロトコルでも最低30mL/kgの輸液投与が行われている.

■少なくとも組織低灌流が臓器虚血を引き起こし,多臓器不全の要因となる以上,過小輸液は推奨されない.一方で過剰輸液も予後を悪化させることが報告されており[PMID:30199843],ある程度の制限輸液戦略が有効なのではないかという仮説がたてられた.しかし,2022年にNEJMにpublishされた1554例のRCT[PMID:35709019]では,主要評価項目の90日死亡率は42.3% vs 42.1%で有意差はみられず,その他副次評価項目の短期予後,1年後死亡率やPICS[PMID:37330928]も有意差はみられなかった.2023年にNEJMにpublishされた1563例のRCT[PMID:36688507]でも90日死亡率に有意差はみられていない(14.0% vs 14.9%).また,最も長いフォローアップが行われたバイアスリスクの低い8つの試験でのメタ解析[PMID:37142091]でも90日全死亡リスクに差はみられていない(RR 0.99; 97%CI 0.89–1.1).

■今回の紹介する研究は,ベースに心不全既往を有する敗血症患者において制限輸液戦略が有効かを検討したシステマティックレビューである.結果は,4研究571例が抽出され,制限輸液群の方が1.81倍死亡リスクが高かった(OR=1.81,95%CI=1.13-2.89,p=0.01).異質性解析の結果,I2は0%であり,選択された研究の結果とプールされたデータの間に異質性はみられなかった.
【SR】心不全既往のある敗血症性ショック患者への制限輸液戦略は死亡リスクを増加させた_e0255123_11244126.png
■このシステマティックレビューに組み込まれた4研究は全て後ろ向き観察研究であり,交絡因子は免れない.しかしながら,敗血症病態を考慮すれば,過小輸液はたとえ心不全病態であっても避けるべきであるという仮説を支持するものであり,より質の高い研究での評価が待たれる.なお,ベースに心不全や腎不全があると輸液を躊躇する医師は多い.私は敗血症性ショックの場合はベースに心不全/腎不全があっても最低30mL/kgの初期急速輸液負荷は躊躇するなと研修医には伝えてきた.個々のモニタリング指標があるにはあるが確定的なものはなく,迷うなら輸液を入れる(あとで水引きはどうになかなるので)という,まずは血管内充填を最優先に考えるClinical Pearlであった.

■熟練の集中治療医なみの循環管理ができる自信があるなら3時間以内に30mL/kgという固定された輸液量にこだわる必要もないが,そうでないなら少なくともこれまでのRCTレベルの知見によって,循環管理に長けた集中治療医による管理とほぼ同等の死亡率であったプロトコル(いわゆるEGDT:Early-Goal Directed Therapy)を行った方がマシである.EGDTは否定されたといってもそれは死亡率が高かったという結果ではない以上,ガイドラインの推奨から消えてもEGDTは敗血症治療に不慣れな医師にとっては迷走せずに施行しやすく患者を救命しうる手段と思われる.
心不全を合併した敗血症患者に対するガイドラインベースと制限輸液の蘇生戦略:システマティックレビューおよびメタ解析
Zadeh AV, Wong A, Crawford AC, et al. Guideline-based and restricted fluid resuscitation strategy in sepsis patients with heart failure: A systematic review and meta-analysis. Am J Emerg Med 2023; 73: 34-9
PMID: 37597449
https://doi.org/10.1016/j.ajem.2023.08.006

Abstract

【目的】敗血症および心不全(HF)の既往を有する患者において,ガイドラインに基づく輸液蘇生戦略(30mL/kg以上の晶質液を静脈内投与)と,3時間以内に30mL/kg未満に制限した輸液アプローチとが,院内死亡率に影響を及ぼすかどうかを検討する.

【データソース】Embase,PubMed,Scopusにおいて,PRISMAガイドラインを用いて査読のある論文と抄録を検索した.

【研究選択】言語は英語に限定した.2016年以降に発表された研究で,HFの既往を有する敗血症患者,またはHFを有する患者のサブグループ,およびこれらの患者に関する院内死亡率データがあり,3時間以内に30mL/kg(30×3)の目標を達成した,または達成しなかったものを対象とした.重複研究,敗血症の診断から3時間よりも長い期間に焦点を当てた研究,HF患者の死亡率の内訳がない研究,タイトル/抄録が無関係な研究,倫理委員会の承認がない研究は除外した.
※この論文では「3時間以内に30mL/kgの輸液」を「30×3」と表記している.

【データ抽出】院内死亡率データは,30×3の目標を達成した敗血症を有するHF患者,または達成しなかったHF患者に関する最終研究から抽出した.

【データの統合】メタアナリシスは,効果指標としてORを用い,Review Manager 5.4プログラムを用いて行った.出版バイアスの評価にはProMetaプログラムバージョン3.0を用いた.出版バイアスの評価には,Eggerの線形回帰とBerg and Mazumdarの順位相関を用いた.結果はファネルプロットで視覚的に表した.異質性に起因する分散の割合を推定するために,I2統計量を算出した.

【結果】検索により26,069件の研究が得られ,4件の研究が抽出された.30×3の目標を達成した群と比較して,<30×3群では院内死亡リスクが有意に高かった(OR=1.81,95%CI=1.13-2.89,P=0.01).

【結論】制限的な輸液蘇生法は,敗血症を有するHF患者の院内死亡リスクを増加させた.この集団に対する最適な輸液蘇生戦略を決定するためにはより厳密な研究が必要である.

# by DrMagicianEARL | 2023-08-21 11:27 | 敗血症
■リファンピシンは黄色ブドウ球菌に対して極めて強い抗菌活性を有しており,効果発現も速やかで,細胞・組織・バイオフィルムへの浸透も良好である(ただし,単剤で使用すると短期間で耐性化するため必ず併用で使用することとなっている).このため,難治性の場合のオプションとして使用されることがあるが,エビデンスとしては大規模RCTが1件あり,治療失敗,菌血症再燃,死亡リスクに影響は与えないことが2017年にLancetに報告されたARREST試験で示された[PMID: 29249276]

■今回,黄色ブドウ球菌菌血症に対する補助的リファンピシンのRCTのメタ解析がJournal of Antimicrobial Chemotherapyに報告された.全部で6報のRCTがあったが,前述のARREST以外は小規模であったため,85%のweightを占めるARRESTにかなり引っ張られる結果となっている.結果は,細菌学的治療失敗が59%減少するが,臨床的治療失敗や死亡に関しては有意差はみられなかった.これらの結果から,少なくともルーティンでのリファンピシン併用は行う必要はないと思われる.ただし,ARRESTは菌血症の割には比較的軽症集団であり,皮膚軟部組織感染症やカテーテル関連血流感染症が多いことは考慮しておく必要があり,重症例や人工物感染においてのオプションとしては考慮してもいいかもしれない.
黄色ブドウ球菌菌血症の治療における補助的リファンピシンの効果:無作為化比較試験のシステマティックレビューおよびメタ解析
Dotel R, Gilbert GL, Hutabarat SN, et al. Effectiveness of adjunctive rifampicin for treatment of Staphylococcus aureus bacteraemia: a systematic review and meta-analysis of randomized controlled trials. J Antimicrob Chemother 2023 Aug.16[Online ahead of print]
PMID: 37583062
https://doi.org/10.1093/jac/dkad214

Abstract

【目的】黄色ブドウ球菌(Staphylococcus aureus)菌血症(SAB)に対する従来の治療にリファンピシンを追加することで,細菌学的または臨床的失敗や死亡が減少するかどうかを評価する.

【データソース】 PubMed,Embase,Cochrane CENTRALデータベースを開始時から2022年12月31日まで検索した.適格な研究の参考文献リストとPubMedの引用をチェックした.

【方法】2人の研究著者が独立して,成人SAB患者を対象とし,介入群にはリファンピシンを補助的に投与し,対照群にはプラセボを併用する,または併用しない通常のケアを行った無作為化比較試験(RCT)を同定した.Mantel-Haenszelランダム効果モデルを用いて,リスク比(RR)と95%信頼区間(CI)を用いて,2値データ(細菌学的,臨床的失敗および死亡)を解析し,試験間でプールした.重要な変数はリファンピシンの使用の有無であった.

【結果】894例(うち758例(85%)が1件のRCT)の参加者を含む6件のRCTが組み入れ基準を満たした.SABの通常治療にリファンピシンを追加すると,細菌学的失敗が59%有意に減少した(RR 0.41,95%CI 0.21-0.81,I2=0%,NNT 27).しかし,臨床的失敗(RR 0.70,95%CI 0.47-1.03,I2=0%)や死亡(RR 0.96,95%CI 0.70-1.32,I2=0%)は減少しなかった.さらに,菌血症の期間や入院期間も短縮しなかった.リファンピシンの併用はSABの再発を減少させた(1% vs 4%,P=0.01)。治療中にリファンピシン耐性が出現することはまれであった(1%未満).

【結論】リファンピシンの併用は,細菌学的失敗および再発のリスクを減少させたが,SABにおける使用を支持する死亡率への有益性は認められなかった.

# by DrMagicianEARL | 2023-08-17 11:36 | 抗菌薬
■近年のChatGPTをはじめとする大規模言語モデル(LLM)は自然言語処理(NLP)分野で著しい進歩を遂げているが,単純にモデルのスケールを拡大するだけでは理解力や推論力の向上にはつながらない.このため,プロンプトデザインの工夫が,大規模なファイン・チューニングと同等レベルあるいはそれ以上にLLMの性能を向上させる有望なアプローチとして注目されている.例えば,Chain-of-Thought(思考の連鎖)などの手法で中間的な推論ステップを明示的に導入する試みが進められ,論理的思考力の強化に効果があることが示されている.

■しかし,これらのアプローチは算術等特定の領域に特化しており,文章理解力そのものの向上には限界がある.自然言語理解(NLU)はAIの言語理解能力を指し,質問応答,テキスト分類,言語推論など幅広いNLPタスクで重要である.LLMは注目されているが,そのNLU能力の研究は相対的に限定的である.人間の認知プロセスは言語能力に深く関係し,NLUにも影響を与える.今回,新たに人間の内省過程からインスピレーションを得た「メタ認知プロンプティング」を提案し,LLMの理解能力の強化を図った論文を紹介するとともにその下に詳細を解説する.
大規模言語モデルにおけるメタ認知プロンプトは理解を改善させる
Wang Y, Zhao Y. Metacognitive Prompting Improves Understanding in Large Language Models. arXiv 2023 Aug.10[arXiv:2308.05342]
http://export.arxiv.org/abs/2308.05342v1

Abstract

大規模言語モデル(Large Language Models: LLM)では,効果的なプロンプトの設計に大きく影響されながら,タスク固有の性能が一貫して向上してきた.近年のプロンプトに関する研究により,LLMの推論能力は向上しているが,理解能力をさらに向上させるにはギャップが残っている.本研究では,人間の内省的推論プロセスに着想を得た戦略であるメタ認知プロンプト(MP)を導入する.MPを用いることで,LLMは構造化された一連の自己認識的評価を受け,その膨大な固有知識と新たな洞察の両方を活用する.我々の実験では,5つの一般的なLLMを使用した: Llama2,Vicuna,PaLM,GPT-3.5,GPT-4であり,いずれもGLUEおよびSuperGLUEベンチマークの様々な自然言語理解(NLU)タスクに対応している.その結果,GPT-4はほとんどのタスクで一貫して優れているが,PaLMはMPを装備した場合,その性能レベルに近づくことが示された.さらに,モデルやデータセットを問わず,MPは,標準的なプロンプティングや思考連鎖プロンプティングを含む既存のプロンプティング手法を常に凌駕している.本研究は,LLMの理解能力を増幅する可能性を強調し,NLUタスクにおいて人間の内省的推論を反映することの利点を強調する.
1.メタ認知プロンプティングの提案

■この研究で提案された手法であるメタ認知プロンプティング(MP)については次のように説明されている.MPは,人間のメタ認知プロセスから着想を得た新しいプロンプティング戦略である.MPはLLMに5つの段階のプロセスを経ることを要求することで,単なるタスクの実行を超えて,応答の根拠を深く理解することをLLMに要求する.
1段階目:入力テキストの理解で,人間の理解段階に相当する.
2段階目:予備的判断の形成で、人間の判断形成に相当する.
3段階目:予備判断の批判的評価で,人間の内省に相当する.
4段階目:最終判断とその説明で,人間の意思決定に相当する.
5段階目:プロセス全体への自信度評価で,人間の評価に相当する.
【AI】人間を模倣したメタ認知プロンプトは大規模言語モデルの精度を向上させる_e0255123_11060176.png
【AI】人間を模倣したメタ認知プロンプトは大規模言語モデルの精度を向上させる_e0255123_11061567.png
■MPの1段階目では,LLMに入力テキストの理解と意味の明確化を求める.プロンプト例を以下に示す.これらは,LLMに文章の内容や意味,テーマ,議論の流れ,キーワード,主張などを正しく把握することを求め,人間の認知プロセスとしての「理解」を模倣し,LLMにも同様の文章理解と意味把握のプロセスを経ることで,以降の判断形成の基盤を整える.
1段階目(入力テキストの理解)のプロンプト例
・この文章の内容と意味を理解し,要点をまとめてください.
・この文章は何について述べているか,簡潔に説明してください.
・この文章の主題と議論の流れを把握し、要約してください.
・この文章のキーワードと主張を特定して、内容を確認してください.
・この文章の背景と文脈を考慮し、主要なアイデアを理解してください.
■MPの2段階目では,LLMに1段階目で理解した内容に基づいて予備的な判断を形成することを求めている.プロンプト例を以下に示す.これらはLLMの理解力と判断力の基礎を形成する初期の段階として,ある一定の見解を示すことを要求しており,人間の認知プロセスにおける「判断の形成」を模倣したもので,LLMの論理的思考形成の足がかりとなる重要な段階である.
2段階目(予備的判断の形成)のプロンプト例
・1段階目での理解に基づき,この文章の内容に対するあなたの予備的な判断を述べてください.
・この文章の意味を考慮し,最初の印象としてどのように判断しますか?
・現時点での理解によると,この文章の主張に対してあなたは賛成ですか?反対ですか?
・この文章の主題と論点を踏まえ,予備的にどの見解を支持しますか?
・段階的に考えを発展させるため,まずはこの文章に対する自分の第一印象的な判断を述べてください.
■MPの3段階目では,LLMに2段階目で形成した予備的な判断について,批判的に評価・再評価することを求めている.プロンプト例を以下に示す.このように,一旦形成した判断を批判的に分析・再評価することで,人間のメタ認知過程の「内省」をLLMに模倣しており,LLMの判断力と論理的思考力を高める上で重要な段階といえる.
3段階目(批判的評価)のプロンプト例
・2段階目のあなたの予備的な判断は正しいと思いますか?不確定な場合は再考してください.
・もう一度予備判断を評価し,それが妥当かどうか検討してください.
・予備判断に反する可能性のある要素がこの文章にはないか注意深く確認してください.
・予備判断を支持する証拠と,反証の証拠のどちらが強いか評価してください.
・予備判断に確信が持てない場合,どの点をもう一度考え直すべきか特定してください.
■MPの4段階目では,LLMに3段階目の批判的評価を経た上で,最終的な判断を下し,その理由付けをすることを求めている.プロンプト例を以下に示す.このように,LLMに判断の理由付けと説明を求めることで,人間の意思決定プロセスを模倣しており,LLMの論理展開と説明能力を高める上で重要な段階といえる.
4段階目(判断の確認)のプロンプト例
・3段階目の評価に基づき,あなたの最終的な判断を述べてください.
・批判的評価後のあなたの結論を簡潔に説明してください.
・あなたの最終判断に至った論理的な理由をstep-by-stepで説明してください.
・なぜその最終判断が最善の判断だと思うのか,根拠を示してください.
・可能性のある他の選択肢を検討し,最終判断が妥当である理由を述べてください.
■MPの5段階目では,LLMに1-4段階目のプロセス全体を通しての最終判断に対する信頼性を評価させることを求めている.プロンプト例を以下に示す.このように,LLMの出力した最終判断に対する不確実性を定量的に評価させることで,人間のメタ認知的な「自己評価」を模倣しており,LLMの判断の精度と限界の自覚を高める上で重要な段階といえる.
5段階目(信頼性評価)のプロンプト例
・あなたの最終判断に対する確信性を0-100%で述べてください.
・最終判断に至るまでの推論過程の正確さを評価してください.
・判断の信頼性が低いと思われる点があれば具体的に述べてください.
・最終判断の妥当性を支持する証拠は十分だと思いますか?評価してください.
・もしこのタスクを再度行った場合,同様の判断に至る確率はどの程度だと思いますか?
2.メタ認知プロンプティングの評価

■この論文のMPについて有効性を検証するため,次の方法を行っている.GLUEとSuperGLUEのベンチマークから,SST-2,STS-B,QQP,QNLIなど多様な一般的言語理解タスクのデータセットを使用した.評価するために用いたLLMは Llama2,Vicuna,PaLM,GPT-3.5,GPT-4である.比較するプロンプトは,標準プロンプト,Chain-of-Thoughtプロンプト,提案手法のMPの3種類とした.これらの各モデルとデータセットに対して,ゼロショットと5ショットの両方の設定で実験を実施し,各タスクの標準的な評価指標(精度,F1,相関係数など)でモデルのパフォーマンスを比較評価した.

■結果は,MPはほぼ全てのモデルとタスクで,標準プロンプトやChain-of-Thoughtプロンプトを上回る精度を達成した(下画像参照:左軸に注意.棒グラフの表示方法としてはよくない).特に,文章理解力を必要とするSST-2,STS-B,QQPなどのタスクで顕著なパフォーマンス向上が見られた.GPT-3.5では,SST-2の精度が標準プロンプトの場合は71%だったのに対し,MPでは82%に大きく改善した.MPの効果は,ゼロショットと少数ショットの両方で確認され,データ量に依存しないことが示唆された.
【AI】人間を模倣したメタ認知プロンプトは大規模言語モデルの精度を向上させる_e0255123_11065591.png
■一方で,以下のように,過剰思考による誤答もMPでは観察され,改善の余地があることも判明した.
ユーザーによるMPの指示
2つの文章で,文章1:「神経細胞を興奮させる」,文2:「祭りの幕開けを飾った花火はその場にいた全員を興奮させた.」のいずれも「excite(興奮させる)」という言葉を含んでいます.ターゲットワードが両文で同じ意味で使われているかどうかを判断しなさい.

AIのMP2段階目回答
ターゲットワードは同じ意味である:誤り(適切)

AIの最終回答(MPの4・5段階目)
ターゲットワードは同じ意味である:正しい.再評価の結果,「モデルは,両方の文脈が生物学的または感情的な反応を引き起こすことを示唆し,類似性という結論に至るという仮説を立てた」.この修正分析に対する信頼度は90%である.(誤答)
ユーザーによるMPの指示
文章1:「The very easiness of the deed held her back.」,文章2:「There was an easiness between them.」の2つの文には,どちらも目的語 "easiness"が含まれている.この2つの文において,目的語が同じ意味で使われているかどうかを判断しなさい.

AIのMP2段階目回答
ターゲットワードは同じ意味である:誤り(適切)

AIの最終回答(MPの4・5段階目)
ターゲットワードは同じ意味である:正しい.再評価の結果,両文章の「easiness」は感情状態に関係し,前者では単純さによるためらいを,後者では感情的な調和を意味している.この修正された分析に対する信頼度は85%である.(誤答)
■また,MPによる回答は,標準プロンプトの場合よりもLLMの確信度が低めになる傾向があり,自己評価能力を示唆した.

3.メタ認知プロンプティングの問題点

■本研究のLimitationとして著者らは以下のことを挙げている.
・MPは長めのプロンプトを要求するため,効率性に課題がある.
・段階的プロセスに従うことで,過剰思考や過剰修正が生じる可能性がある.
・MPの各段階の設計にはさらなる最適化の余地がある.
・人間のメタ認知過程の完全な再現には至っていない.
・MPの有効性は一般的言語理解タスクで確認できたが,他のタスクへの適用可能性は不明確.
・長文や論理的に複雑な文章への適用には改良が必要.
・MPによって本当に「理解力」が向上したかを直接測定できていない.
■これらに加えて,私からも問題点を挙げるとすると,まず,確信性の評価についてである.これは全くあてにならないケースもある.例えば,GPT-4が算術能力がかなり低く,明らかに誤った回答であるにもかかわらず,確信性を100%と回答してくることがある.

■また,ChatGPTにおいては確率的な問題がある.「理解力」とはいうものの,ChatGPTは真に人間のように意味を理解するわけではなく,与えられた入力に対して最も確率的に適切なテキストを生成することを学習しているのである.したがって,特定の質問の意図やニュアンスを完全に理解することはできないし,特定の「答え」を持っているわけでもない.それはある程度のランダム性を持っており,それにより多様な回答を生成することができる.すなわち,事実関係ではなく確率で単語を出現させて回答を生成している.このため同一の質問をスレッドを変えてChatGPTに行うと回答が変わるという一貫性欠如の現象が起こることが知られており,適切な回答にたどりつくには同様の質問をスレッドを変えて繰り返し,頻度が高い回答を選択するという方法で精度があがることが知られているが,これは効率が悪い.

■また,標準プロンプト,Chain-of-Thoughtと比較したMPの評価における精度向上については有意差検定は行う研究デザインにはなっておらず,実際の数値をみるにどこまで意義のある差なのかという疑問は残る.
# by DrMagicianEARL | 2023-08-14 16:02 | 医学・医療とAI
※2023年7月21日作成
※2023年8月14日改訂:無料ユーザーが8/9から使用可能に。設定アイデアに「(7)キャラクター設定」を追加

ChatGPTを自分のAIアシスタントにするCustom Instructions機能搭載

1.Custom instructionsとは?

■ChatGPTに新たな機能「Custom instructions(カスタム指示)」が搭載された.OpenAI社のリリースでは2023年7月21日から有料のChatGPT Plus会員から利用できるようになり,8月9日からは無料ユーザーも使用できるようになった.

■Custom Instructionsは,ユーザーのニーズに合わせてChatGPTを調整できるカスタム指示であり,専門知識の調整,言語学習など,ChatGPTをパーソナライズされたAIアシスタントのように使える機能である.この機能は,以前からもできないわけではなかったが,事前にプロトコルに詳細設定を毎回入力しなければならず,また,ChatGPTと対話を重ねていったりセッションから外れたりすると初期設定が記憶からはずれてしまうことが多々あった.今回この機能が搭載されたことで,そのようなプロンプト入力の手間が省け,初期設定を維持することができる.

■この機能をOnにした場合,Code Interpreterやpluginのようにモードを選択するのではなく,ChatGPT(GPT-3.5,GPT-4の両方)を使用する際は常にその設定が適用される.

2.Custom instructionsの始め方

■以下に,画像とともに,Custom Instructionsの始め方を解説する.
①チャット履歴の一番下のアカウント名をクリックorタップ
②[Settings]を選択(これでSettingが立ち上がる)
【AI】新たに搭載されたChatGPTを自分のAIアシスタントにするCustom Instructions機能とその使い方_e0255123_12453747.png
③[Beta features]を選択
④[Custom instructions]をOnにする
⑤×ボタンでSettingを閉じる
【AI】新たに搭載されたChatGPTを自分のAIアシスタントにするCustom Instructions機能とその使い方_e0255123_12483518.png
⑥チャット履歴の一番下のアカウント名をクリックorタップ
⑦[Custom instructions]を選択(Custom instructionsの設定が立ち上がる)
【AI】新たに搭載されたChatGPTを自分のAIアシスタントにするCustom Instructions機能とその使い方_e0255123_12492040.png
⑧説明を読んでOKを押す(カスタムに移る)
【AI】新たに搭載されたChatGPTを自分のAIアシスタントにするCustom Instructions機能とその使い方_e0255123_12505832.png
⑨ChatGPTをカスタマイズするにあたって,自分がどういうユーザーであるかを説明する
【AI】新たに搭載されたChatGPTを自分のAIアシスタントにするCustom Instructions機能とその使い方_e0255123_12514631.png
⑩ChatGPTにどのような役割をしてもらうか,どのような回答をしてもらいたいかなどを入力
⑪[Save]をクリックorタップ
【AI】新たに搭載されたChatGPTを自分のAIアシスタントにするCustom Instructions機能とその使い方_e0255123_12530181.png
■なお,私が行った設定では,必ず医学論文をソースで提示させるように指示している.これにより学習データの中からより質の高い情報を提示されることが期待できる.

■設定する場合,上段の入力フォームに自分のバックグラウンドを,下段の入力フォームにChatGPTにどのように回答してもらいたいかを入力することになるが,早い話が,上段はコンテキスト,下段はタスク,と考えるとよい.

3.Custom instructions設定テクニックのアイデア

■Custom instructionsの設定は人それぞれで無限にある.ここからは,設定のテクニックのアイデア例を書いていく.

(1)架空パラメータ導入
■ChatGPT-4では,回答の方向性やテンション,文体などはユーザープロンプトで調整が可能であり,これはCustom instructionsでも同様である.基本的にGPT-4はパラメータ設定の変更はできない仕様になっている.しかし,プロンプトでパラメータを設定すると,そのパラメータ通りの回答をGPT-4がしてくれるようになる.これは,自作の架空パラメータでも同様に可能である.そのパラメータ設定をCustom instructions設定の,ChatGPT回答設定のところ(下の欄)に入力しておけばよい.

■例として,「Predictionパラメータ」を自作してみよう.GPT-4の回答はポジティブなものが多いと感じられる方もおられるだろう.このPredictionパラメータで調整すれば中立的意見やワーストケースシナリオなどを生成させることができる.
ChatGPT Custom instructions設定文

パラメータ「Prediction」は-5から5までの値をとります.数字が小さいほど悲観的予測,大きいほど楽観的予測とします.
プロンプト

#ユーザーのタスク#
回答はprediction=#ユーザーが指定する数値#で回答してください.
■これでパラメータ設定は完了である.なお,ここではパラメータの幅は「-5〜5」と設定して上限下限を決めているが,その幅を超えた10や20などの数値で回答を要求してもちゃんとその数値に応じた内容で回答してくれる.また,設定する名前や数値は自由である.さらに,複数のパラメータを組み合わせることも可能である.これらのパラメーターを予め設定で埋め込んでおけば,あとはパラメータの数値をプロンプト上で指定するだけでチューニングできる.以下に,このように自作してみたパラメーターをいくつか紹介する.

(2)質問の提案をさせる
■いわゆるbrainstormingの一種であり,BingAI,Bard,Claude2にはデフォルトで搭載されている.ユーザーの質問に回答した後,その回答の最後に,この情報においてさらにどのような質問をすればいいかの提案をさせるようにする.
ユーザーの質問に回答した後,その回答の最後に,この情報においてさらにどのような質問をすればいいかの提案として,質問例を3つ挙げてください.

(3)逆質問させる
■通常はChatGPTからユーザーに質問することはほぼないが,ChatGPTがより質の高い回答を生成するために必要な情報を考えさせ,ユーザーに追加情報提供を求める質問をさせる.
より質の高い回答を生成するために,回答の最後に私に追加情報提供を求める質問をしてください.

(4)箇条書き形式で回答させる
■大規模言語モデルClaude2は箇条書き形式で回答する特徴があり,この方がポイントがまとまっていて分かりやすいという人もいるだろう.その場合は,回答の箇条書きを指定するとよい.
回答はできる限り箇条書きにまとめてください.

(5)chain of thoughtの誘導など数学的問題解決能力の向上設定
■chain of thought(思考の連鎖)は,大規模言語モデルにおいて,特に数学的・論理的な問題解決の手段として重要である.残念ながら,最近の研究では,GPT-4は2023年3月のバージョンと比較して,6月のバージョンでは大幅に数学的問題解決能力が低下していることが報告された.その理由として,GPT-4がchain of thoughtを行わなくなってしまったことが挙げられている.ただし,現在のGPT-4でもchain of thoughtを誘導(「段階的に考えてみましょう」といったプロンプトを使用)することで正確なプロセスを踏みやすいことは確認した.これを設定に組み込んでおいた方がスムーズであろう.
数学的・論理的問題に関しては段階的に考えるchain of thoughtを用いて回答してください.
回答は急がず,正確性を重視してください.
数学的問題では,検算して,生成した回答が正しいのかを検討してください.

(6)設定の複数パターンの使い分け
■複数の設定を使い分けたい人もいるだろう.その場合,冒頭に「以下の各設定について,設定がonのものには従い,設定がoffのものには従わないでください」と書き,設定を箇条書きにして,各設定の末尾に「この設定をon/offにする」という文章をつける,というやり方がある.これでon/off切り替えだけで設定を変更でき,全て書き換える必要はない.
以下の各設定について,設定がonのものには従い,設定がoffのものには従わないでください.
設定1:#設定内容#.この設定をonにする.
設定2:#設定内容#.この設定をoffにする.
・・・
■別のやり方としては,設定に番号をつけておき,プロンプトで「このスレッドでは設定3を適用させてください」と指示する方法も可能である.

(7)キャラクター設定

■特定のキャラクターを設定することができる.たとえば,学会発表する内容をChatGPTに入力すると,回答で厳しい質問をしてくるような設定が可能であり,これにより質疑応答を事前に鍛えることが可能となる.また,ネットでセリフ集を拾ってきて設定すればアニメキャラクターなどを憑依させることもできる.画像は,「学会発表の質疑応答で激詰めしてくる教授設定」と「アニメキャラクター設定(スパイファミリーのアーニャ,鬼滅の刃の鬼舞辻無惨,キングダムの王騎将軍)」を同時に起動させたものである.
【AI】新たに搭載されたChatGPTを自分のAIアシスタントにするCustom Instructions機能とその使い方_e0255123_14460449.jpeg
【AI】新たに搭載されたChatGPTを自分のAIアシスタントにするCustom Instructions機能とその使い方_e0255123_14461630.jpeg
【AI】新たに搭載されたChatGPTを自分のAIアシスタントにするCustom Instructions機能とその使い方_e0255123_14462617.jpeg

# by DrMagicianEARL | 2023-08-14 14:48 | 医学・医療とAI

by DrMagicianEARL