OpenAI 今天又发布了一批新功能,这次是三个音频模型API,个人觉得挺实用。
新音频模型一览
这次发布的API主要分为两类:
1. 语音识别模型(Speech-to-text):
• gpt-4o-transcribe(精准版)
• gpt-4o-mini-transcribe(轻量版)
2. 文字转语音模型(Text-to-speech):
• gpt-4o-mini-tts(支持自定义声音风格)
这些新模型相较之前的Whisper模型,准确率有明显提升,尤其是在有噪音、口音明显或语速变化快的环境下。
价格一览(每百万tokens)
官方也给出了新模型的定价明细,具体如下:
模型名称 文本输入价格 文本输出价格 音频输入价格 音频输出价格
gpt-4o-mini-tts $0.60 - - $12.00
gpt-4o-transcribe $2.50 $10.00 $6.00 - gpt-4o-mini-transcribe $1.25 $5.00 $3.00 -
从定价来看,mini版本明显更便宜,更适合日常小规模使用,而gpt-4o-transcribe则适合需要更高精准度的专业场景,比如客服中心、会议记录等。
有哪些新亮点?
1. 语音转文字更精准
新版gpt-4o-transcribe针对之前Whisper模型存在的“听错”、“漏听”等问题进行了优化,尤其擅长处理:
• 带口音的英语或其他语言
• 背景噪音较大的场景(如咖啡厅、户外)
• 讲话速度较快的内容
对那些日常使用语音识别经常感到“痛苦”的朋友来说,这个更新意义巨大,毕竟识别准确度直接影响使用体验。
2. TTS模型支持“声音风格指令”
传统的TTS(文字转语音)模型虽然可以合成自然的声音,但往往声音风格比较固定。而gpt-4o-mini-tts首次支持用户通过简单的指令来控制声音表现,比如:
• “像一个有同理心的客服人员说话”
• “用兴奋的语气讲述故事”
• “模仿播音员的语调朗读新闻”
这对开发创意内容、音频书籍、游戏配音,甚至是客户服务机器人,都是极大的提升。
3. 开发者的福音:Agents SDK支持音频
OpenAI还特意提到了,现在他们的Agents SDK已经可以直接支持音频了,也就是说,以后开发者可以更轻松地搭建一个能“听”和“说”的智能语音助手。
比如,你只需要简单调用API,就能实现智能客服、智能导游、甚至能聊天的虚拟伙伴。
亲测体验(附官方在线Demo)
如果你感兴趣,OpenAI专门做了一个小网站,可以直接在线体验TTS效果(无需写代码):
👉 OpenAI[.]fm
我自己简单试了一下,声音的表现力和自然程度确实有明显提升,非常值得一试。
另外官方还举办了一个创意音频分享比赛,获奖者还能拿到一个Teenage Engineering OB-4收音机,有兴趣的朋友不妨试试看~
总结一下我的看法:
简单来说,这次OpenAI发布的音频模型更新虽然看起来没有特别华丽的噱头,但实用性非常高:
• 更精准的语音识别让实用价值提升不少。
• 支持个性化风格的TTS则打开了声音合成的新玩法。
个人觉得,这些看似细小的改进,其实在日常应用中都会带来明显的体验提升。开发者们可以更容易地创造出个性化、定制化的音频内容,普通用户也能更舒适地使用语音转文字功能。
期待看到更多有趣的应用出现,也许不久后我们日常用到的客服、导航、甚至聊天,都可能因为这些改进而变得更智能、更人性化。
以上就是OpenAI 今天又发布了一批新功能,这次是三个音频模型API的详细内容,更多请关注全栈开发网其它相关文章!下一篇:通俗易懂说清楚什么是MCP