2024年10月22日,Anthropic 发布了最新的 Claude 3.5 模型系列,包括升级版的 Claude 3.5 Sonnet 和全新的 Claude 3.5 Haiku 模型。以下是详细的模型介绍和更新内容,跟随MeoAI一起详细了解此次更新以及亮点内容吧:
Claude 3.5 Sonnet
Claude 3.5 Sonnet 是一个多模态大型模型,它在多个领域设定了新的基准,包括研究生水平的推理、编码能力以及多语言数学、文本推理等。这款模型在视觉推理任务上,如图表解释和图像文本转录,展现了超越人类的能力。Claude 3.5 Sonnet 特别适合处理需要高级推理和知识的任务,例如复杂编程问题、数据分析和多步骤工作流程的协调。它还能够生成各种类型的文本内容,从电子邮件到社交媒体帖子,以及增强现有文本内容。此外,它在视觉输入分析能力方面也比前代产品和竞争对手更强,可以对包含图像的查询生成准确的输出,或进行高精度的分析。
- 性能提升:
- 编程能力显著增强,能够一次性生成多达280行代码,并生成可互动的动效模拟器。
- 在 SWE-bench Verified 基准测试中的得分从33.4%提升到49.0%,超越了所有公开可用的模型,包括 OpenAI 的 o1-preview 模型。
- 在 TAU-bench 测试中,零售领域得分从62.6%提升到69.2%,航空领域得分从36.0%提升到46.0%。
- 在研究生水平推理(GPQA)、本科水平知识(MMLU)和编码能力(HumanEval)等方面表现出色,相比前代模型有显著提升。
- 新功能“计算机使用”(Computer Use):
- 允许模型实时分析用户计算机屏幕上的活动并自主执行在线任务,如浏览、点击和输入。
- 通过 Computer Use API,开发者可以教导 Claude 模拟人类操作计算机,包括观察屏幕、移动鼠标、点击按钮和输入文字。
- 在 OSWorld 测试中,Claude 3.5 Sonnet 在“仅截图”类别中得分14.9%,当允许更多操作步骤时,得分提升到22.0%。
- Artifacts 功能:
- 用户可以在对话窗口旁查看、编辑和构建 Claude 生成的内容,如代码片段、文本文件和网站设计。
- 这一动态工作空间使得 AI 生成的内容能够无缝集成到用户的项目和工作流中。
Claude 3.5 Haiku
Claude 3.5 Haiku 是 Anthropic 推出的快速模型,Haiku 模型专为速度和响应性设计,它是系列中最快且最紧凑的,非常适合需要近乎即时响应和无缝人工智能交互的应用。这款模型能够在短短三秒内阅读并理解一篇信息丰富、数据密集型的 arXiv 研究论文,包括其中的图表和图形。对于需要快速响应的任务,如知识检索或销售自动化,Haiku 是一个理想的选择。
- 速度与性能的结合:与 Claude 3 Haiku 的成本相同,速度相似,但在每项技能上都有改进,并且在许多智能基准测试上甚至超过了 Anthropic 上一代最大的模型 —— Claude 3 Opus。
- 编码任务能力强大:在 SWE-bench Verified 上的得分为 40.6%,超过了使用公开可用的 SOTA 模型的许多智能体,包括原始的 Claude 3.5 Sonnet 和 GPT-4o。
- 适用场景:低延迟、改进的指令遵循和更准确的工具使用,使其非常适合开发用户产品、处理子智能体任务,或从海量数据中生成个性化体验。
- 计算机使用能力:也支持“计算机使用”功能,使 AI 能模拟人类与计算机的交互方式,如移动光标、点击按钮和输入文本。
新功能“计算机使用”(Computer Use)
Anthropic 公司推出新功能“计算机使用”(Computer Use)是为了使 AI 能够像人类一样直接与电脑软件进行交互,从而开启大量现代工作流程的自动化。这项功能允许 AI 模型“看见”屏幕、移动光标、点击按钮,甚至输入文字,帮助开发者实现复杂任务的自动化。例如,通过这一功能,AI 可以进行多步骤软件测试、网页操作和数据填充,极大地提升了生产力。
“计算机使用”功能的用途非常广泛,它不仅可以自动化重复性的任务,还可以进行开放式研究和执行需要复杂操作的任务。例如,AI 可以自动完成网页构建、数据收集和表单填写的任务,甚至可以帮助用户规划旅行,搜索相关信息,并将这些信息添加到日历中。
至于效果,目前这项功能仍处于公开测试阶段,在操作计算机时速度较慢,并且经常会出现错误。一些简单的操作——比如滚动、拖动、缩放,对 Claude 来说依然是个不小的挑战。尽管如此,Claude 在 OSWorld 测试中的得分为14.9%,远高于同类产品中排名第二的 AI 模型的7.7%,显示出其在这一领域的潜力和优势。Anthropic 公司希望通过获取开发者的反馈,预计这项功能随着时间会逐渐改进,变得更加高效和稳定。
定价信息
目前,Claude 3.5 Sonnet 已经在 Claude.ai 和 Claude iOS 应用程序上免费提供,而 Claude Pro 和 Team 计划订户能够以更高的速率访问它。以下是API价格:
- Claude 3.5 Sonnet:这款模型的定价为每百万输入tokens收费3美元,每百万输出tokens收费15美元。Sonnet 模型在性能上与更高端的 Opus 模型相当,但在成本上更加低廉,运行速度是 Claude 3 Opus 的两倍,使其成为需要高级推理和知识的任务的理想选择,如复杂编程问题、数据分析和多步骤工作流程的协调。
- Claude 3.5 Haiku:Haiku 模型的定价为每百万输入tokens收费0.25美元,每百万输出tokens收费1.25美元。Haiku 模型主打性价比,提供快速的响应能力,适合需要快速处理文本任务的场景,如实时互动、内容管理、物流库存管理、文本翻译等。
更多信息:
- 多模态能力:
- Claude 3.5 在多模态视觉任务上的表现达到了当前最优水平(SOTA),特别擅长解释图表和图形,处理质量不佳的图像中的文本。
- 安全和合规:
- Claude 3.5 Sonnet 被分类为 AI 安全等级 2(ASL-2)模型,表明它在化学、生物、放射性和核(CBRN)风险、网络安全和自主能力方面进行了严格评估,不会构成灾难性伤害的风险。
- 实际应用和集成:
- Claude 3.5 已被多家公司集成到其系统中,如 DoorDash 用于呼叫中心自动化,WPP 用于智能营销运营系统,以及英国斯温顿自治市政府用于帮助有学习障碍的人士。
- 未来计划:
- Anthropic 计划在今年晚些时候发布 Claude 3.5 Haiku 和 Opus 版本,并继续改进模型的性能、速度和成本。
项目官网
如何使用
- 直接使用官方平台:
- 如果你有海外手机号码和独立海外IP地址,可以自行注册使用官方提供的Claude 3.5模型。官方目前提供Claude 3.5 Sonnet免费使用。
- 利用云服务商的赠金:
- 通过注册Google Cloud或AWS,可以获得免费赠金。例如,Google Cloud注册完成后可以获得150美元的赠金,利用该赠金可以免费使用Claude 3.5 Sonnet。AWS也上线了Claude 3.5 Sonnet模型,使用方法类似。
- 访问套壳网站:
- 有些开发者提供免费使用Claude 3.5 Sonnet的网站,例如某个网站已测试免费可用,免费额度用完后可以换个邮箱重新注册。
- 通过API接入:
- 如果你是开发者,可以使用Anthropic提供的API将Claude 3.5 Sonnet集成到你的应用程序中。这种方法提供了最大的灵活性,但需要一定的技术知识。
- 使用Amazon Bedrock平台:
- Amazon Bedrock平台允许用户使用Claude 3.5 Sonnet构建自定义人工智能应用,定价基于输入和输出令牌。
- 使用Google Cloud Vertex平台:
- Vertex AI Studio提供了一个控制台工具,用于测试用户构建的人工智能应用,可以利用这个平台体验Claude 3.5 Sonnet模型。
适用场景
Claude 3.5 Sonnet 使用场景:
- 医疗保健和生命科学:在医学领域,Claude 3.5 Sonnet 能够增强成像分析、作为诊断助手进行患者分诊,以及以易于理解的格式总结最新的研究成果。
- 金融服务:该模型能够识别财务趋势,为不同客户制定个性化的债务偿还计划。
- 法律领域:律师事务所可以利用它快速显示相关的先例和法规,加速法律研究。此外,它还能通过合同分析提高律师助理的效率,并协助起草标准法律文件。
- 媒体和娱乐:Claude 3.5 Sonnet 可以加快记者的研究速度,支持剧本创作和角色发展的创作过程,并提供有价值的观众情绪分析。
- 技术开发:对于软件开发人员,它提供了快速应用程序原型设计、旧代码迁移、创新功能构思、用户体验优化和摩擦点识别的机会。
- 教育领域:AI 模型可以用于个性化教育和培训,通过分析学生的学习习惯和进度,提供定制化的学习资源和教学计划。
Claude 3.5 Haiku 使用场景:
- 自动化桌面任务:通过新的“计算机使用”API,Claude 3.5 Haiku 能模拟人类与计算机的交互,执行如按键、点击和鼠标手势等操作,自动化日常的桌面任务。
- 虚拟助手:Anthropic 构建的虚拟助手可以独立进行研究、回答电子邮件和处理后台工作。Claude 3.5 Haiku 可以理解并与任何桌面应用程序互动,支持开发者通过 Anthropic 的 API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 平台尝试计算机使用。
- 安全和合规性:在安全领域,AI 技术如 Claude 3.5 Haiku 可以用于提升复杂数据分析能力、自适应防护能力,辅助降低专业技能要求。它可以帮助组织更有效地监测、预警和处置安全风险和威胁,提升网络空间智能安全防护水平。
- 医疗决策支持:在医疗领域,AI 模型如 Claude 3.5 Haiku 可以用于辅助临床决策,通过分析病人数据提供治疗建议。
- 客户服务:在客户服务领域,AI 模型可以提供聊天机器人和自动回复系统,提高响应速度和服务质量。
总结
Claude 3.5 系列模型在智能、速度和成本上的全面提升,使其成为用户理想的 AI 工具。Anthropic 通过引入计算机使用能力和 Artifacts 功能,进一步扩展了 AI 模型的应用场景和实用性。