ブラウザエージェント (Browser Use)
読み: ぶらうざえーじぇんと
最終更新: 2026-06-29・AI PICKS編集部
定義
ブラウザエージェントとは、AIがChromeなどのウェブブラウザを自律的に操作し、検索・フォーム入力・データ収集などを人手なしで実行するエージェント技術のこと。
ブラウザエージェント (Browser Use)とは — 詳しく解説
ブラウザエージェント(Browser Use)とは、LLMがウェブブラウザを直接制御し、クリック・入力・スクロール・画面認識を組み合わせて複雑なタスクを自律実行する技術。RPAの進化版とも言え、事前のセレクタ設定なしに動的なページを操作できる点が最大の特徴だ。 2026年時点の実運用における落とし穴は主に3つある。①CAPTCHAや認証壁にぶつかると即停止するためエラーハンドリングが必須。②Vision対応LLMを使うと1タスクあたり数十〜数百円のAPI費用が発生し、高頻度タスクでは月5〜20万円規模になることも多い(相場感として把握しておきたい)。③個人情報を扱うフォーム操作は法的リスクを伴うため、現場では社内法務との確認が求められる。 AI PICKSが検証した事例では、EC価格モニタリングや求人サイトのデータ収集は安定稼働する一方、Google Workspaceのような多段認証フローでは成功率が50%を下回るケースが目立つ。ツール選定は「マルチモーダル対応か」「セッション管理機能があるか」「プロキシ対応か」の3軸が2026年の定石。
ブラウザエージェント (Browser Use)の使用例
- Amazonの商品ページを毎朝8時に自動巡回し、価格が10%以上下落したらSlackに通知するブラウザエージェントを構築した事例。
- フォーム送信タスクのプロンプト例:「会社名〇〇・担当者〇〇でお問い合わせフォームに入力し、確認画面を経て送信してください」
ブラウザエージェント (Browser Use)に関連するAIツール
関連用語
「AIエージェント」の他の用語
目標を渡すと 自律的に計画 + 行動を繰り返す AI。 単なる対話を超えて タスクを完遂する。
ReAct とは、 LLM に 推論 (Reasoning) と 行動 (Acting) を 交互に繰り返させ、 ツールを使いながら答えに辿り着かせる エージェント設計手法のこと。
MCPとはAIモデルが外部ツールやデータソースと統一的な方法で連携するためのオープンプロトコルのこと。Anthropicが2024年11月に公開した。
Function Callingとは、LLMが外部の関数やAPIを呼び出すための構造化データを生成し、自律的にツールを使えるようにする仕組みのこと。
ヒューマン・イン・ザ・ループとは、AIの判断プロセスに人間が介入・確認する仕組みのこと。AIが出力した結果を人間がレビューし、承認・修正・却下を行うことで精度と安全性を担保する。
Computer Useとは、AIがスクリーン認識・マウス・キーボード操作を通じてコンピュータを人間のように自律的に操作する技術のこと。
AI用語辞典をすべて見てみませんか
12カテゴリ・302語以上を体系的に整理しています
辞典トップへ