工具介绍
产品简介
page-agent 是阿里巴巴开源的 JavaScript 网页内嵌 GUI Agent。与传统浏览器自动化工具不同,它无需浏览器扩展、Python 环境或无头浏览器,仅通过一行 JavaScript 代码即可嵌入任意网页。它采用纯文本 DOM 操作技术,不依赖截图或多模态大模型,支持自带 LLM(BYOK),并提供可选的 Chrome 扩展与 MCP Server(Beta),方便跨标签页任务与外部集成。
核心功能
- 无需后端与浏览器扩展,一行 JS 即可嵌入网页
- 采用纯文本 DOM 解析,降低多模态模型依赖与算力成本
- BYOK 架构保障数据隐私,支持接入任意兼容 LLM
- 覆盖自动化与智能体相关需求
- 覆盖办公与效率相关需求
适用场景
- 流程自动化
适合谁用
- 个人用户
- 团队用户
- 希望提升效率的专业用户
核心能力
主能力
自动化与智能体
次要能力
办公与效率
适用场景
流程自动化
编辑点评
"阿里开源的轻量级网页内嵌 Agent,以纯文本 DOM 操控替代多模态方案,集成极简且支持自带大模型。"
优势
- • 无需后端与浏览器扩展,一行 JS 即可嵌入网页
- • 采用纯文本 DOM 解析,降低多模态模型依赖与算力成本
- • BYOK 架构保障数据隐私,支持接入任意兼容 LLM
局限
- • 复杂动态渲染页面的 DOM 解析稳定性依赖网页结构规范
- • 跨标签页控制需依赖 Chrome 扩展,纯网页内嵌模式能力受限
- • 官方免费测试 API 仅限技术评估,生产环境需自备合规 LLM 密钥
Q&A
快速了解这个工具的常见问题与答案
- 这个工具是否提供免费版?
- Answer
项目基于 MIT 协议完全开源免费,官方提供免费的测试 LLM API 仅供技术评估,生产环境需用户自备大模型 API 密钥。
- 这个工具支持哪些访问方式?
- Answer
支持通过在网页中嵌入 JavaScript 脚本使用,提供可选的 Chrome 浏览器扩展以支持多标签页任务,并开放 API 与 MCP Server(Beta)用于 Agent 协作。
- 这个工具是否支持中文或多语言?
- Answer
UI 和文档提供英文与简体中文版本。自然语言指令支持取决于您配置的 LLM,page-agent 本身不执行翻译或语言切换。
- 使用这个工具需要技术背景吗?
- Answer
基础使用仅需在前端页面引入一行 JavaScript 代码,门槛较低;但自定义模型接入、MCP 集成或深度二次开发需要一定的前端开发经验。
- 这个工具有哪些主要限制?
- Answer
官方免费测试 API 仅限评估不可用于生产;纯网页内嵌模式无法跨标签页操作(需依赖扩展);复杂动态页面的 DOM 解析效果受网页结构影响。
Q
Q
Q
Q
Q
价格与版本
Free
访问方式
APIBrowser Extension
支持语言
EnglishSimplified Chinese