Project Mariner 是什么
Project Mariner,作为 Google DeepMind 的创新之作,是一款基于 Gemini 2.0 构建的早期研究原型,它预示着人与 AI 代理交互的未来。这款原型产品专注于通过您的浏览器实现复杂的任务自动化,它能够理解并推理浏览器屏幕上的信息,包括像素和网络元素,如文本、代码、图像和表单。Project Mariner 利用这些信息,通过一个实验性的 Chrome 扩展程序来为您完成任务。
Project Mariner 的功能特色
- 原生多模态理解:Project Mariner 能够理解并推理浏览器屏幕上的所有内容,包括像素和网络元素,如文本、代码、图像和表单。
- 跨网站无缝推理:它能够理解不同网站之间的信息,并据此执行任务。
- 语音指令响应:Project Mariner 能够理解并响应语音指令,提供更自然的交互方式。
- 进度反馈:通过视觉反馈和更新,让用户随时了解任务的进展。
- 浏览器交互:实时理解并导航复杂网站,自动化浏览器中的任务,同时保持用户控制权。
- 代表用户导航和交互:Project Mariner 能够代表用户与网站进行交互,自动化重复性任务,节省用户时间。
- 请求澄清:如果不理解指令,它会向用户请求澄清。
- 推理展示:能够遵循复杂指令并在网站间进行推理,展示其工作流程。
基准测试表现:

- 在 ScreenSpot 基准测试中,Project Mariner 在多模态屏幕理解和定位方面达到了 84.0% 的准确率。
- 在 WebVoyager 基准测试中,它在单一代理设置下达到了 83.5% 的准确率,而在树搜索设置下达到了 90.5% 的准确率。
如何使用Project Mariner
- 加入候补名单:访问 Project Mariner 官方网站,填写必要信息,加入候补名单。
- 接收访问权限:一旦申请被接受,您将收到包含访问平台说明的电子邮件。
- 探索功能:登录后,您可以探索各种功能,根据需要将它们集成到您的浏览活动中。
- 提供反馈:作为研究原型,用户反馈至关重要,您将有机会提供反馈,帮助改进和塑造平台的未来发展。
Project Mariner 的适用场景
- 日常浏览:自动化日常浏览任务,如填写表单、搜索和导航。
- 复杂任务处理:处理涉及多个网站的复杂任务,如比较购物或研究。
- 内容创作:辅助内容创作者在博客、社交媒体和在线出版物中提升内容质量和互动性。
- 在线研究与学习:自动化数据收集和信息整理,使研究人员和学生能够更高效地进行在线研究和学习。
Project Mariner 的推出,标志着 Google DeepMind 在 AI 代理技术领域的一次重大进步,为开发者和用户提供了一个充满可能性的新平台。随着这款工具的不断完善和普及,我们有理由期待一个更加智能和互动的未来。
©️版权声明:若无特殊声明,本站所有文章版权均归
MeoAI
原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。
类似于Project Mariner的AI工具
暂无评论...