Browser Use Agent
Browser Use Agent 以自然語言描述任務目標,並透過大型語言模型(LLM)自主操作瀏覽器。需注意越大的目標語言模型越容易產生誤判,也會使用更多的 Token,建議拆解成多個小任務來降低失敗率。

參數
API KEY - OpenAI 或 Google 的 API 金鑰,支援 %FILENAME% 變數,或使用儲值的專用金鑰 %credit-key%。
- OpenAI API Key 請參閱 OpenAI 金鑰申請
- Google API Key 請參閱 Gemini 金鑰申請
MODEL - 目前支援以下模型:
| 平台 | 模型 | 價格 |
|---|---|---|
| OpenAI | gtp-5, gpt-5-mini, gpt-4.1, gpt-4.1-mini, computer-use | OpenAI 官網 |
| gemini-3-pro, gemini-3-flash, gemini-2.5-pro, gemini-2.5-flash, computer-use | Gemini 官網 |
MAX ACTION - 設定代理最多可執行的動作次數,範圍為 1–100。
GUARDRAIL - 設定代理的操作範圍限制:
SAME PAGE- 僅限目前網頁SAME SITE- 僅限同一網域中的網頁NONE- 沒有限制
因為使用模型會依使用量計費,建議適當的設定
MAX ACTION與GUARDRAIL參數來避免預期外的花費。
GOAL - 用自然語言描述任務,可使用 %FILENAME% 樣板。
ACTION - 由模型判斷並執行的下一步瀏覽器操作。每個步驟都會自動擷取螢幕畫面,並儲存至工作資料夾中以供追蹤與檢視。
範例
以這個查詢高鐵班車時刻為例,查詢網頁預設從「南港」出發抵達「左營」,日期是 2026/01/26,時間為 20:30。

使用自然語言提示模型:查詢 2026/01/30 早上九點後,從「台北」出發到「台南」的班車。然後點擊「TEST」執行看看。

最後檢查瀏覽器中的內容是否正確。
