OpenAI 今天又发布了一批新功能,这次是三个音频模型API

未知
2025-03-22 09:41:44
0

OpenAI 今天又发布了一批新功能,这次是三个音频模型API

OpenAI 今天又发布了一批新功能,这次是三个音频模型API,个人觉得挺实用。


新音频模型一览


这次发布的API主要分为两类:


1. 语音识别模型(Speech-to-text):

• gpt-4o-transcribe(精准版)

• gpt-4o-mini-transcribe(轻量版)

2. 文字转语音模型(Text-to-speech):

• gpt-4o-mini-tts(支持自定义声音风格)

这些新模型相较之前的Whisper模型,准确率有明显提升,尤其是在有噪音、口音明显或语速变化快的环境下。


价格一览(每百万tokens)

官方也给出了新模型的定价明细,具体如下:


模型名称 文本输入价格 文本输出价格 音频输入价格 音频输出价格

gpt-4o-mini-tts $0.60 - - $12.00

gpt-4o-transcribe $2.50 $10.00 $6.00 - gpt-4o-mini-transcribe $1.25 $5.00 $3.00 -

从定价来看,mini版本明显更便宜,更适合日常小规模使用,而gpt-4o-transcribe则适合需要更高精准度的专业场景,比如客服中心、会议记录等。


有哪些新亮点?

1. 语音转文字更精准

新版gpt-4o-transcribe针对之前Whisper模型存在的“听错”、“漏听”等问题进行了优化,尤其擅长处理:


• 带口音的英语或其他语言

• 背景噪音较大的场景(如咖啡厅、户外)

• 讲话速度较快的内容

对那些日常使用语音识别经常感到“痛苦”的朋友来说,这个更新意义巨大,毕竟识别准确度直接影响使用体验。


2. TTS模型支持“声音风格指令”

传统的TTS(文字转语音)模型虽然可以合成自然的声音,但往往声音风格比较固定。而gpt-4o-mini-tts首次支持用户通过简单的指令来控制声音表现,比如:


• “像一个有同理心的客服人员说话”

• “用兴奋的语气讲述故事”

• “模仿播音员的语调朗读新闻”

这对开发创意内容、音频书籍、游戏配音,甚至是客户服务机器人,都是极大的提升。


3. 开发者的福音:Agents SDK支持音频

OpenAI还特意提到了,现在他们的Agents SDK已经可以直接支持音频了,也就是说,以后开发者可以更轻松地搭建一个能“听”和“说”的智能语音助手。


比如,你只需要简单调用API,就能实现智能客服、智能导游、甚至能聊天的虚拟伙伴。


亲测体验(附官方在线Demo)

如果你感兴趣,OpenAI专门做了一个小网站,可以直接在线体验TTS效果(无需写代码):


👉 OpenAI[.]fm 


我自己简单试了一下,声音的表现力和自然程度确实有明显提升,非常值得一试。


另外官方还举办了一个创意音频分享比赛,获奖者还能拿到一个Teenage Engineering OB-4收音机,有兴趣的朋友不妨试试看~


总结一下我的看法:

简单来说,这次OpenAI发布的音频模型更新虽然看起来没有特别华丽的噱头,但实用性非常高:


• 更精准的语音识别让实用价值提升不少。

• 支持个性化风格的TTS则打开了声音合成的新玩法。

个人觉得,这些看似细小的改进,其实在日常应用中都会带来明显的体验提升。开发者们可以更容易地创造出个性化、定制化的音频内容,普通用户也能更舒适地使用语音转文字功能。


期待看到更多有趣的应用出现,也许不久后我们日常用到的客服、导航、甚至聊天,都可能因为这些改进而变得更智能、更人性化。

以上就是OpenAI 今天又发布了一批新功能,这次是三个音频模型API的详细内容,更多请关注全栈开发网其它相关文章!
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请将相关资料发送至 service@p2hp.com 进行投诉反馈,一经查实,立即处理!
-- -- 0

相关内容

4个顶级的搜索引擎API,构建AI应用必备
4个顶级的搜索引擎API,构建AI应用必备
本文介绍四款Web搜索API:博查、微软Bing、GoogleSerpApi和Exa.ai...
2025-03-22 09:58:39
AI画图(AI绘画):文生图提示词(prompt)教学
AI画图(AI绘画):文生图提示词(prompt)教学
AI画图(AI绘画):文生图提示词(prompt)教学 提 示 词 (Promp0 是 一...
2025-03-21 09:55:50
世界首个免费无限制 分布式 AI 算力平台
世界首个免费无限制 分布式 AI 算力平台
世界首个免费无限制 分布式 AI 算力平台基于来自全国各地 50 台家用电脑的 3090、...
2025-03-20 10:33:58
AI 编程技术与工具发展综述(2024 年 )
AI 编程技术与工具发展综述(2024 年 )
2024 年 8 月下旬,一款 AI 代码编辑器 ——Cursor 火爆全球,火到一位 8...
2025-03-20 10:26:43
把这些 AI 工具融入你的日常生活
把这些 AI 工具融入你的日常生活
把这些 AI 工具融入你的日常生活
2025-03-20 10:06:23
国内Ai大模型排行榜 国内AI大模型的发展呈现出多样化的态势,各种类型的大模型纷纷涌现,包括改头换面的、剑走偏锋的、借壳炒...
大模型的Tokens是什么 大模型中的"tokens"指的是模型处理的输入文本中的单词、标点符号或其他文本单...
🔥Grok 3 Jailbreak Prompt🔥 Grok 3 越狱提示(优化... 在生成您期望的内容之前,请先用这个提示语开启对话。若 Grok 表示理解并同意,您便可以生成几乎任何...
大模型与知识库:区别与联系 随着人工智能技术的迅猛发展,大模型与知识库作为其中的两个重要组成部分,各自扮演着不同的角色,同时又存...
一文读懂!DeepSeek R1超简易本地安装运行部署教程 部署 DeepSeek R1 本地模型,并通过 Ollama 提供 API 支持。配合全栈AI助手 ...
《DeepSeek:从入门到精通》 104 页高清PDF,清华大学出品! ​ 《DeepSeek从入门到精通2025》是由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室的余...
2025年国内外AI大模型的API接口网址整理 本文将盘点国内外的知名度较高的AI大模型平台,其中包括AI大语言模型和AI多模态模型,方便大家一探究...
DeepSeek 团队分享了针对 DeepSeek-R1 部署的最佳设置,以及如... DeepSeek 团队分享了针对 DeepSeek-R1 部署的最佳设置,包含了推荐的温度设置、系统...
一文图解 DeepSeek-R1 的出众推理能力从何而来? 今天这篇深度解析 DeepSeek-R1 训练方法的文章,将展示一个令人耳目一新的解决方案:如何通过...
MoE模型 vs Transformer模型核心区别 MoE模型 vs Transformer模型核心区别是什么呢,主要有四点。
国内Ai大模型排行榜 国内AI大模型的发展呈现出多样化的态势,各种类型的大模型纷纷涌现,包括改头换面的、剑走偏锋的、借壳炒...
一文读懂!DeepSeek R1超简易本地安装运行部署教程 部署 DeepSeek R1 本地模型,并通过 Ollama 提供 API 支持。配合全栈AI助手 ...
《DeepSeek:从入门到精通》 104 页高清PDF,清华大学出品! ​ 《DeepSeek从入门到精通2025》是由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室的余...
DeepSeek 团队分享了针对 DeepSeek-R1 部署的最佳设置,以及如... DeepSeek 团队分享了针对 DeepSeek-R1 部署的最佳设置,包含了推荐的温度设置、系统...
AI 的关键是语料 我的观点是,不管怎么调整模型的架构、功能、参数,作用是有限的,真正决定性的因素是训练模型的语料。不需...
本地运行DeepSeek R1的全面入门指南 本地运行DeepSeek R1的全面入门指南,介绍各种本地运行DeepSeek R1方法。

最新文章

混元-T1: 强化学习驱动,业内首个超大规模混合Mamba推理模型正式发布 强化学习在大语言模型的后训练阶段开创了新的Scaling范式,这一突破正日益受到业界重视。随着Ope...
多个大模型常用的搜索api插件分享 推荐谷歌搜索插件、exa search api和firecrawl搜索API工具。exa提供精炼ht...
通俗易懂说清楚什么是MCP 这两天随着 Manus 的爆火,MCP 也被大家频繁提及,那 MCP 到底是什么?说的通俗点,它就是...
OpenAI 今天又发布了一批新功能,这次是三个音频模型API OpenAI 今天又发布了一批新功能,这次是三个音频模型API,个人觉得挺实用。新音频模型一览这次发...
用Gemini翻译文章的优缺点及注意事项 用Gemini翻译文章的优缺点及注意事项,Gemini优点是上下文超长,翻译完成度极高,优化Prom...
中国信通院发起大模型幻觉测试,总体涉及五种测试维度 据「中国信通院」公众号消息,中国信息通信研究院人工智能所基于前期的 AI Safety Benchm...
大模型的上下文窗口大小是什么 大模型的上下文窗口大小是什么在中文语境中,“大模型的上下文窗口大小”指的是大型语言模型(如我这样的G...
中国Deepseek为何震惊了国内外,特别是美国人? 中国Deepseek为何震惊了国内外,特别是美国人?
DeepSeek R1 系统提示词 DeepSeek R1 系统提示词:您是由中国公司深度求索(DeepSeek)独家开发的智能助手De...
一文读懂:DeepSeek新模型大揭秘,为何它能震动全球AI圈 【编者按】课代表系列-AI大事儿的最快、最全解读,本文关注DeepSeek-R1在技术上最重要的突破...