OpenAI新音频模型发布,调控语音+情绪操控

AI快讯1个月前发布 MeoAI
332 0

OpenAI 发布新一代音频模型:更智能的语音交互与潜在挑战

3 月 20 日,OpenAI 宣布推出新一代音频模型,包括两款语音转文本(STT)模型 gpt-4o-transcribe/gpt-4o-mini-transcribe,以及文本转语音(TTS)模型 gpt-4o-mini-tts。了解更具体信息,可进入OpenAI 的官方博客

OpenAI-audio-model

OpenAI 专门做了个 https://www.openai.fm/ 的演示网站可以体验。不好的消息是,虽然功能强大,但 OpenAI 这次学聪明了:

  • 水印追踪:所有生成音频都自带隐形标记,源头一查一个准。
  • 合作伙伴白名单:目前只向教育、医疗等领域的可信企业开放,禁止个人用户克隆他人声音。
  • 强制标注:必须明确告知听众 “这是 AI 生成的声音”,否则封号没商量。
OpenAI.FM界面

技术突破:准确性与可控性提升

新的 STT 模型(gpt-4o-transcribe/gpt-4o-mini-transcribe):在多语言基准测试 FLEURS 中表现突出,覆盖 100 多种语言,词错误率(WER)较前代 Whisper 模型降低 40%。特别是在复杂场景下,如口音识别、噪音过滤和语速变化处理上,展现出更强的鲁棒性。新的 gpt-4o-transcribe 系列堪称 “语音净化器”。我用一段带东北口音的嘈杂会议录音测试,不仅准确识别了 “嘎哈呢”“咋整” 这些方言,还自动过滤了背景音乐和隔壁老王的咳嗽声。

TTS 模型 gpt-4o-mini-tts:首次支持自然语言指令调控语音风格。你可以直接用 “带点沙哑的科幻旁白”“兴奋到跺脚的少女音” 这类自然语言描述,让 AI 秒变声优。实测输入 “用冲浪者的口吻介绍防晒霜”,生成的语音不仅带着加州阳光的慵懒感,连 “Bro” 的尾音都充满了浪花的节奏感!更绝的是响应速度,0.3 秒就能生成音频,比我刷短视频的手速还快。采样率直接拉满到 48kHz,信噪比优化 18 分贝,用来录有声书、配电影预告完全没问题。价格更是香到离谱,每分钟只要 0.015 美元(约 1 毛钱),比某些国产工具便宜一半!

潜在风险与限制

  • 指令混淆风险:TTS 模型可能误将文本中的括号内内容(如 “(小声说)”)作为控制指令,导致生成结果不稳定;
  • 合成语音滥用:STT 与 TTS 的结合可能加剧语音伪造风险,OpenAI 已通过水印追踪和合作伙伴白名单机制进行管控;
  • 语言覆盖差异:部分小语种(如马拉雅拉姆语)的转录准确率仍有提升空间。

开发者资源与成本

新模型已全面开放 API 接口,并提供免费试用平台 openai.fm。价格方面,STT 模型按分钟计费(gpt-4o-transcribe 0.006/min,mini版0.003/min),TTS 模型为 $0.015/min,显著低于行业平均水平。开发者还可通过 Agents SDK 快速将现有文本类 AI 升级为语音交互系统。

© 版权声明

相关文章

暂无评论

Avatar photo
暂无评论...