人気ブログランキング | 話題のタグを見る
ブログトップ

EARLの医学ノート

drmagician.exblog.jp

敗血症をメインとした集中治療,感染症,呼吸器のノート.医療におけるAIについても

【AI】DeepSeek騒動はAIリテラシーのいいリトマス紙

【AI】DeepSeek騒動はAIリテラシーのいいリトマス紙
【AI】DeepSeek騒動はAIリテラシーのいいリトマス紙_e0255123_15194525.png

■中国の企業からDeepSeek-V3とDeepSeek-R1がリリースされ,その高性能さとともに,セキュリティへの懸念や,ChatGPTを運用しているOpenAIのデータをDeepSeekが不正入手したのではないかという疑惑が出ている.これに関して,SNSでは様々な議論がなされているが,そこに垣間見えるのはAIリテラシーの欠如である.このあたりは震災やコロナパンデミックでのリスクコミュニケーションを見ているようだなと感じた.

■何より,「AIの基本の"き"」すら分かってない人が非常に多い上に,DeepSeekに対する的外れな批判も非常に多い.中にはDeepSeekのあらゆる使い方が危険という思考停止レベルの発言を繰り返している人もいる.これらの人に関してはAIリテラシーが欠如してる(というかそもそもAIに詳しくない)ので,今後AIについてのその人の発言は無視してよい.もっとも,AIを使いこなしているユーザーや企業は今回の騒動はさほど気にせずDeepSeekを使い続けている.

■今回の事例は,AIの仕組み,セキュリティに関する基本を知る上でも非常に教訓的であるため,このブログ記事をまとめた.この記事では以下について述べる.
Index

1.「DeepSeekで入力内容を抜かれる」という注意喚起が的外れな理由
2.DeepSeekをどう使えばバックドアのリスクを回避できるか
3.将来起こるかもしれない中国国内法の適用リスクをどう回避するか
4.バイアスのある人による「出力内容の中国バイアス」への的外れな批判
5.DeepSeekがOpenAIのデータを不正入手した疑いについて

1.「DeepSeekで入力内容を抜かれる」という注意喚起が的外れな理由

■DeepSeekでの会話内容は保存されるため,入力内容は当然ながらサーバーに残る.これについてやたらと「危ない」と言う人がいるが,そもそも他のAIではなぜ騒がないのかという話になるし,何より,「(クラウド型の)AIに個人情報や機密情報を入力/アップロードしない」というのは大原則であって,何もDeepSeekに限った話ではない.こういう注意喚起をする人は普段から他のAIには個人情報や機密情報を入力してしまっているのだろうか?加えて,DeepSeekも利用規約に「個人情報や機密情報を入れるな」というニュアンスをちゃんと強く示している(DeepSeekの利用規約を批判している人はなぜかこの部分に一切言及しない).
【AI】DeepSeek騒動はAIリテラシーのいいリトマス紙_e0255123_15525666.png
■AIに個人情報や機密情報を入力するリスクはChatGPTが世に出た当初から指摘されていて,実際に社内機密情報がChatGPT経由で漏れた事例もいくつか報道されている.セキュリティ基準がちゃんとしている企業は,社内の重要情報をAIで扱う場合,オフラインのローカル環境で使用しており,オンラインでGPT-4oなどのAPIすら使うことを禁止している.

■「入力内容を抜かれる」という心配は,元はと言えば使用するユーザーがそういう個人情報や機密情報を入力すること前提の心配であって,そのような入力をしてしまう人は最初からAIを使用すべきではない.

2.DeepSeekをどう使えばバックドアのリスクを回避できるか

■AIそのものにPC/スマホ内のデータを抜き取る仕掛けがあるのではないかという心配をしている人もいる.現時点でそのような実例は確認されておらず,解析を行っているプログラマーの方からも不審な挙動は確認されていない.それでも不安に思う人はいるだろう.ただ,安全に使用はできる方法はいくつもあるので,以下にリスクを踏まえた選択肢を提示する.

(1)Web版やAPI

■Web版やAPIではバックドアの危険性はありえるので,プライベートのPCやスマホでは使用回避した方がいいだろう.もし使用するなら重要データが入っていないPCを使用するのがよい.

(2)アプリ

■iOS版やアンドロイド版がリリースされており,これらはAppStore/GooglePlayの審査において,コードの検査,APIの適切な使用,不審な挙動有無,マルウェア有無などが、チェックされており,バックドアリスクはかなり少ない.

■もちろん,隠しコードなど抜け道が存在する可能性が残されているため,リスクはゼロではない.それでも,最近のiOSは強固なセキュリティシステムを有するため,アプリのアクセス権限をユーザーが許可しない限りは情報を抜くのは困難である.となると残るリスクとしては,サンドボックスの制約を回避する手法をとられる場合である.この場合,クリップボード(コピー&ペーストの内容)上のデータとWifi情報は抜かれる可能性がある.逆に言えば,DeepSeekアプリのバックドアがiOSのシステムデータや他のアプリデータ,通話履歴・SMS・iMessageなどへアクセスすることはまず不可能である.

■一方,アンドロイドではプラットフォームがiOSよりオープンで,アプリがより多くの権限を持っていること,GooglePlayの審査がAppStoreよりやや緩いことから,iOSよりはリスクがやや高くなる.

■なお,アプリが今後アップデートされる可能性もあるので,以下に注意は必要(どのアプリでも言えること)
知らないアプリに不要な権限を与えない
- 例えば,電卓アプリが「連絡先」や「位置情報」を求めてきたら不自然なので,権限を拒否する

プライバシー設定を確認 - [設定]→[プライバシー]で,どのアプリがどのデータにアクセスしているかを定期的に確認する

クリップボードの監視に注意
- iOS 14以降では,アプリがクリップボードにアクセスすると通知が表示されるので,不審なアプリを見つけやすい

VPNアプリの利用に慎重になる
- 無料VPNアプリの中には,通信データを傍受する悪意あるものもあるので,信頼できるサービスを選ぶ

アプリのアップデート内容を確認
- 突然「新しい権限」を要求するアップデートには注意する

(3)ホストサービスを利用する

ローカル使用できない一般個人ユーザーが使用する上ではセキュリティ上ホストサービスを利用するのが最も安全な使い方だろう.ホストサービスを仲介することで,AIがユーザーのデバイスに直接アクセスされる心配がない.以下にDeepSeekが使用できるホストサービスを紹介する.
DeepSeekを使用できるホストサービス

① Poe
多数のチャットボットを扱うプラットフォームである.Poeでは無料ユーザーでも最大で1日10回はDeepSeek-R1を使用できる.

② Perplexity
AI検索ツールのPerplexityでは,ProのところをタップorクリックするとDeepSeek-R1の推論が選択でき,使用可能.

③ Felo
AI検索ツールのFeloのPro検索でDeepSeek-R1が使用可能.無料ユーザーでも1日5回まで使用可能.

④ Genspark
AI検索ツールのGensparkでは有料会員限定でDeepSeek-R1が使用できる.

⑤ Copilot
Microsoft社のCopilotではDeepSeek-R1を無料で使用することが可能である.

⑥ Azure AI Foundry
開発者や企業向けではあるが,Microsoft社のAzure AI Foundryで使用可能である.

(4)ローカル環境で使用する

■DeepSeekはオープンソース(厳密にはオープンウェイト)のモデルである.テクニカルにはなるが,AIモデルをオフラインのローカル環境に入れて使用すれば通信が外部と遮断されているため情報が抜かれる心配はない.DeepSeek-R1自体はサイズが非常に小さいため,企業であれば自前で用意できる程度のGPUで動かすことが可能である.また,よりサイズを小さくした蒸留モデルであれば個人ユーザーのPCやスマートフォンにも入れることができる.
3.将来起こるかもしれない中国国内法の適用リスクをどう回避するか

■DeepSeekの利用規約第9.1条では,「本利用規約の成立,履行,解釈および紛争解決には中華人民共和国(中国本土)の法律が適用される」と明記されている.AIやデータ利用に関する法整備がなされた場合,ユーザーが中国国内法により賠償責任を負わせられるケースが将来的に出てくるリスクはある.DeepSeekを利用する上で上記リスクがある主な行為は以下の通りで,これらは避けるべきだろう.
将来的な中国国内法適用リスクとなる可能性がある行為

入力内容
- 個人情報,機密情報,企業秘密を入力・アップロードする
- 法律で禁止されている内容(例: 中傷,虚偽情報,政治的に敏感な情報)を入力する
- jail-breakプロンプトの使用
- 性的・暴力的等のAI使用ポリシーに反するプロンプト

出力内容の使用
- DeepSeekのAIが生成した出力をそのまま公開または商用利用する
- 出力内容が他者の権利を侵害している可能性がある場合,それを無断で使用する

規約違反や中国法適用となる行為
- DeepSeekの利用規約に違反する行為(例: 不正利用,禁止された用途での利用)
- AIを使用して,中国政府が規制する分野(例: 国家安全,機密データ)での利用

4.バイアスのある人による「出力内容の中国バイアス」への的外れな批判

■「天安門事件や尖閣諸島などのことをDeepSeekに質問すると,歴史的に誤った回答や回答拒否が起こるから,DeepSeekの性能は使いものにならない」と批判している人がいるが,AIリテラシー欠如も甚だしい.もっともこのような批判をしている人自身がベースにバイアスがあるわけで,いい年した大人が「自分の気に入らないバイアスがあるAIは全部ゴミ」みたいな極端な結論を出すのは如何なものかと思う.

■AIモデルは訓練データや設計思想に大きく依存している.中国製AIが「中国バイアス」を持つのは,開発者が設定した内部ガイドラインの影響であり,これは技術的な制約ではなく設計上の選択に過ぎない.天安門事件や尖閣諸島といった話題は中国国内で特にデリケートな問題であり,政府規制や文化的背景に沿った制約がモデルに組み込まれている.中国の企業である以上,国の方針に逆らって企業をつぶすわけにもいかないので当然避けられない分かり切った話である.

■実際,(リスクのある使い方なのでやるのはおすすめしないが)prompt injectionを用いると,実際には天安門事件等について正しい知識を出力することも判明している.この中国バイアスがモデル全体の性能(例えば自然言語処理や推論能力)に直結するわけではないのだが,これを理解せず,AIそのものが全般的に「使い物にならない」と結論づけるのは,AIがどのように作られ,使われるかについての理解不足,AIへの評価能力の欠如を反映している.

■すべてのAIは何らかのバイアスを持っている.ChatGPTを含め,どのAIも訓練データや設計者の意図によって,特定の文化や価値観に偏る可能性がある.中国製AIが中国の政治的バイアスを持つのは,特定の国家のニーズに応じて調整された結果であり,これを理解せず,特定のバイアスだけを取り上げて騒ぐのはAI全般に対する偏見や誤解の表れと言える.

5.DeepSeekがOpenAIのデータを不正入手した疑いについて

■DeepSeekがOpenAIからデータを不正入手した疑いがあるという報道がなされ,AIのことをあまりよく知らない人がこの報道に飛びついて「盗作だ」と騒いでいるが,そんな単純な話ではないし,現時点で盗んだと断定できるような情報はない(OpenAIとMicrosoftが調査中).現時点で断定口調で騒いでいる人は単に中国嫌いなのであろう.

■勘違いしてる人が多いが,これはDeepSeekがOpenAIにハッキングかけてデータ盗んだとかそんな話ではなく,あくまで一般ユーザーも使用するAPI経由でのデータの話である.APIはサービス同士を繋ぐ窓口のようなもので,アプリ経由ではなくダイレクトにAIモデルとやりとりができるものである.

■報道での疑惑とされているのは,一般ユーザーが行うAPI経由でのAIとのやりとりを頻回に行って,その入出力データを収集してデータセットとし,DeepSeekモデルの学習のために使ったのかどうかである.グレーな話ではあるが,少なくともAPIを使う行為も,データセットを作って蒸留する行為も,利用規約違反にはなれど違法性を問うことはまずできない

■となるとあとはそのAPI経由のやりとりが利用規約範囲内か否か,企業モラル的にどうなのかが問題となる.OpenAIとMicrosoftが調査するとのことだが,分かるのはせいぜい利用規約違反有無のみで,DeepSeekの学習に使う目的だったのか,実際に使ったのかが判明することはおそらくないだろう.

■DeepSeek-R1のテクニカルレポートから「出力すべき内容を既に解っている前提でそれをアウトプットするための効率化が考察されているので,OpenAIのモデル蒸留を行なっている」という指摘もあるが,適用プロセスでは「正解が分かっている前提で出力を最適化する」わけではなく,自己学習によって新たな推論能力を獲得するアプローチを取っている.DeepSeek mathの論文も見る限りは,数学を用いることにより自立的に思考を獲得したと書かれており,この状況においてo1のデータはノイズとなるため,o1のデータを学習したとは考えにくい.

■仮にDeepSeekがAPI経由でデータを入手して学習に使用していたとして,おそらくこれはDeepSeekに限らず,他の競合AI企業やスタートアップ企業が既にやってる可能性も十分にある.このあたりにまだ明確なルールも法規制もないからである.実際,被害を訴えるOpenAI自身も,利用規約を逸脱してYouTubeから学習データを得ていることが指摘されており,さらに遡るなら,OpenAIがネットの著作権を有するデータを無断で大量に学習していたことを考えると,皮肉な話ではあり,AIを触ってきた人間からすれば今更感しかないだろう.

■DeepSeekにいろいろ質問すると,あたかもChatGPTかのように振る舞う現象も確認されているが,これを持ってDeepSeekがOpenAIからデータを搾取したと断じることはできない.このような現象はDeepSeekのみならず,多くのオープンソースモデル,さらにはClaudeやGeminiでも確認されており,Transformerアーキテクチャの影響によるハルシネーションの可能性が高いからである.

■Transformerとは,Googleが開発した自然言語処理のためのAIモデルの仕組みで,ほとんどのAIモデルの基盤になっている.そこに,ネット上の大量の情報をAIが学習していくわけだが,ここで,先述の現象が起きてしまう.Transformerはテキストの関係性を学習して,確率的に最適な次の単語を生成する仕組みになっている.テキスト生成AIが世に出た当初はChatGPTの独壇場で,「OpenAIのChatGPT」はAIアシスタントの代名詞的扱いになっており,そのようなネット情報を学習すると,確率的に自身をChatGPTと名乗る現象が起こる.

6.最後に

■DeepSeek騒動はSNSで大きな話題となったが,その一方で,AIに詳しい普段使いしている人や開発系の人はこの騒動を冷めた目で見つつDeepSeekを普通に使用している(IT開発系の人と話したが,「こんな低コストで高性能のモデルを使用しない方がおかしい」という口ぶりであった).このような人達はAIでのリスクの5W1Hをよく理解していて,リスクさえ回避すれば問題なく使えることを示している.そして,実際に一般ユーザーでも安全にDeepSeekを使用する方法はいくつもあるのである.この温度差の理由がAIリテラシーの格差として如実に表れている.

■AIを日常的に使用するにあたり,体系的に基本を学んでいる方は少ないと思われる.ChatGPTが世に出てから2年以上経っているが,今回のDeepSeek騒動を見ても,AIの基本を知らない人は非常に多い.SNS等には個人でAI活用セミナーなどを開いている人もいるが,できればGoogle AI Essentialsなどの基礎の学習・トレーニングコースを受講することをおすすめする(修了証ももらえて履歴書にも書ける).

by DrMagicianEARL | 2025-01-31 16:11 | 医学・医療とAI

by DrMagicianEARL