【AI】ChatGPTでウェブアクセスするプラグイン4種
■2023年6月12日現在,ChatGPT(GPT-4)でウェブから幅広く情報を取得するためのプラグインが4種ある.これらのプラグインと大規模言語モデルのChatGPTが連携することで,様々なことが可能となる.AIと連携した情報収集手段として知っておくに越したことはないだろう.WebRequestsプラグインとLinkReaderプラグインがおすすめではあるが,機能がどれも異なるため,どれが一番いいということではなく,使う目的次第で使い分けるのがいいだろう.以下に各機能と使い分けについて述べるとともに,まとめた表も掲載した.
1.スクレイピング系
■スクレイピングはウェブサイトからデータを抽出するための自動化されたプロセスであり,これは通常,HTML,XML,JSONなどの形式で提供されるウェブページの内容を解析し,特定のデータを抽出するために使用される.スクレイピングは,大量のデータを効率的に収集するための手段であり,データマイニング,ウェブマイニング,ウェブクローリングなどのタスクに使用される.イメージとしては「広く浅く」で使用するものである.
データマイニング(Data Mining):大量のデータから有用な情報やパターンを見つけ出すための手法やプロセスを指す.データマイニングは,データベース,統計学,機械学習などの技術を利用して,データセットから潜在的な関連性や規則性を見つけ出し,傾向やパターンを抽出する.データマイニングの目的は,ビジネス上の意思決定を支援し,予測や顧客行動の分析,マーケットセグメンテーションなどの課題に対する洞察を提供することである.(1)Scraperプラグイン
ウェブマイニング(Web Mining):ウェブ上に存在する大量の情報から有用な知識やパターンを抽出するための技術である.ウェブマイニングは,ウェブページの内容やリンク構造,ユーザーの行動などのデータを収集し,解析して情報を抽出する.ウェブマイニングの応用例には,ウェブ検索エンジンの改善,ユーザー行動の予測,ウェブページのクラスタリングなどがある.
ウェブクローニング(Web Crawling):ウェブ上の情報を収集するための自動化されたプロセスである.通常,ウェブクローラーまたはスパイダーと呼ばれるプログラムが使用される.ウェブクローラーは,与えられた開始点(シードURL)から始まり,そのページ上のリンクをたどって新しいページを探索し,それらのページを収集する.ウェブクローニングは,ウェブ検索エンジンのインデックス作成や情報収集,ウェブサイトのスクレイピングなどに利用される.
■特定のウェブページからテキスト,リンク,画像などの特定のタイプのデータを抽出するためのツールである.このプラグインは,ウェブページの内容を解析し,特定の情報を抽出するために使用される.
(2)Web Requestsプラグイン
■HTTPリクエスト(ウェブサーバーに対して行う要求)を送信し,ウェブページやAPIエンドポイントからデータを取得する.HTML,PDF,JSON,XML,CSV,画像など,さまざまな形式のデータを取得することができる.また,Google検索を行う機能もある.このプラグインは,特定のウェブページから特定の情報を抽出するため,または特定の検索要求に対する結果を取得するために使用される.
(3)2つのプラグインの使い分け
■データ取得の対象範囲やGoogle検索機能からWebRequestsプラグインの方が機能の幅が広い.ただし,特定のウェブページから特定のタイプのデータを効率的に抽出するという目的においてはWeb Scraperプラグインの方が適している.
2.非スクレイピング系
■非スクレイピング系のツールは,ウェブページやドキュメントの内容を読み取り,理解するために使用される.これは通常,ウェブページのテキストを抽出し,それを解析または要約するために使用される.非スクレイピング系のツールは,ユーザーがウェブページやドキュメントの内容を理解するのを助けるために使用される.これには,テキストの要約,キーワードの抽出,感情分析などのタスクが含まれる.イメージとしては「狭く深く」で使用するものである.
(1)Web Pilotプラグイン
■このプラグインは,特定のウェブページを訪れてそのコンテンツを取得するためのものである.Webページの内容全体(HTML,CSS,JavaScriptなど)を取得できる.また,ユーザーが特定のリクエストを持っている場合(例えば,ページの特定の部分を翻訳する,あるいはページの内容を要約するなど),そのリクエストに基づいて情報を取得する.また,ユーザーが特定のアクション(例えば,ボタンのクリック,フォームの送信など)をリクエストした場合に,そのアクションをWebページ上で実行することができる.
(2)Link Readerプラグイン
■このプラグインは,ウェブページ,PDF文書,PowerPointプレゼンテーション,画像,Wordファイルなど,さまざまなリンクタイプからの情報を理解し,合成することに優れている.このツールは,提供されたリンクを通じてソース資料に移動し,そこにある情報を処理し,それをさらに使用するために中継する.これにより,より詳細で正確な,そして文脈に関連した応答を生成することができる.また,検索語がエンコードされてURLに挿入されるタイプの検索エンジン(Google検索やPubMed検索など)であれば検索も可能である.
(3)2つのプラグインの使い分け
■LinkReaderプラグインの方がWebPilotプラグインよりも取得可能なコンテンツの範囲が広い.ただし,特定のWebページからテーブルデータを抽出したい,あるいは特定のセクションのテキストを取得したいといった場合には,WebPilotプラグインが適している.また,JavaScriptなどの動的データはLinkReaderプラグインでは取得できず,WebPilotプラグインの方が適している.また,ウェブ上での特定のアクションが可能なのもWebPilotの特徴である.
■CSVファイルやExcelファイルはデータ構造上,上記のプラグインでは扱いづらいデータである.この場合,Noteableプラグインを使用して取得することをおすすめする.Noteableプラグインについては以下を参照.