OpenAI 今天又发布了一批新功能，这次是三个音频模型API

未知

2025-03-22 09:41:44

OpenAI 今天又发布了一批新功能，这次是三个音频模型API，个人觉得挺实用。

新音频模型一览

这次发布的API主要分为两类：

1. 语音识别模型（Speech-to-text）：

• gpt-4o-transcribe（精准版）

• gpt-4o-mini-transcribe（轻量版）

2. 文字转语音模型（Text-to-speech）：

• gpt-4o-mini-tts（支持自定义声音风格）

这些新模型相较之前的Whisper模型，准确率有明显提升，尤其是在有噪音、口音明显或语速变化快的环境下。

价格一览（每百万tokens）

官方也给出了新模型的定价明细，具体如下：

模型名称文本输入价格文本输出价格音频输入价格音频输出价格

gpt-4o-mini-tts $0.60 - - $12.00

gpt-4o-transcribe $2.50 $10.00 $6.00 - gpt-4o-mini-transcribe $1.25 $5.00 $3.00 -

从定价来看，mini版本明显更便宜，更适合日常小规模使用，而gpt-4o-transcribe则适合需要更高精准度的专业场景，比如客服中心、会议记录等。

有哪些新亮点？

1. 语音转文字更精准

新版gpt-4o-transcribe针对之前Whisper模型存在的“听错”、“漏听”等问题进行了优化，尤其擅长处理：

• 带口音的英语或其他语言

• 背景噪音较大的场景（如咖啡厅、户外）

• 讲话速度较快的内容

对那些日常使用语音识别经常感到“痛苦”的朋友来说，这个更新意义巨大，毕竟识别准确度直接影响使用体验。

2. TTS模型支持“声音风格指令”

传统的TTS（文字转语音）模型虽然可以合成自然的声音，但往往声音风格比较固定。而gpt-4o-mini-tts首次支持用户通过简单的指令来控制声音表现，比如：

• “像一个有同理心的客服人员说话”

• “用兴奋的语气讲述故事”

• “模仿播音员的语调朗读新闻”

这对开发创意内容、音频书籍、游戏配音，甚至是客户服务机器人，都是极大的提升。

3. 开发者的福音：Agents SDK支持音频

OpenAI还特意提到了，现在他们的Agents SDK已经可以直接支持音频了，也就是说，以后开发者可以更轻松地搭建一个能“听”和“说”的智能语音助手。

比如，你只需要简单调用API，就能实现智能客服、智能导游、甚至能聊天的虚拟伙伴。

亲测体验（附官方在线Demo）

如果你感兴趣，OpenAI专门做了一个小网站，可以直接在线体验TTS效果（无需写代码）：

👉 OpenAI[.]fm

我自己简单试了一下，声音的表现力和自然程度确实有明显提升，非常值得一试。

另外官方还举办了一个创意音频分享比赛，获奖者还能拿到一个Teenage Engineering OB-4收音机，有兴趣的朋友不妨试试看~

总结一下我的看法：

简单来说，这次OpenAI发布的音频模型更新虽然看起来没有特别华丽的噱头，但实用性非常高：

• 更精准的语音识别让实用价值提升不少。

• 支持个性化风格的TTS则打开了声音合成的新玩法。

个人觉得，这些看似细小的改进，其实在日常应用中都会带来明显的体验提升。开发者们可以更容易地创造出个性化、定制化的音频内容，普通用户也能更舒适地使用语音转文字功能。

期待看到更多有趣的应用出现，也许不久后我们日常用到的客服、导航、甚至聊天，都可能因为这些改进而变得更智能、更人性化。

以上就是OpenAI 今天又发布了一批新功能，这次是三个音频模型API的详细内容，更多请关注全栈开发网其它相关文章！

OpenAI AI 音频

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请将相关资料发送至 service@p2hp.com 进行投诉反馈，一经查实，立即处理!

-- -- 0

上一篇：用Gemini翻译文章的优缺点及注意事项

下一篇：通俗易懂说清楚什么是MCP

相关内容

OpenAI GPT-4o 上线图像生成功能

OpenAI 宣布为 ChatGPT 推出图像生成功能：“将迄今最先进的图像生成器集成至 ...

2025-03-27 13:07:01

4个顶级的搜索引擎API，构建AI应用必备

本文介绍四款Web搜索API：博查、微软Bing、GoogleSerpApi和Exa.ai...

2025-03-22 09:58:39

AI画图（AI绘画）：文生图提示词(prompt)教学

AI画图（AI绘画）：文生图提示词(prompt)教学提示词 (Promp0 是一...

2025-03-21 09:55:50

世界首个免费无限制分布式 AI 算力平台

世界首个免费无限制分布式 AI 算力平台基于来自全国各地 50 台家用电脑的 3090、...

2025-03-20 10:33:58

AI 编程技术与工具发展综述（2024 年）

2024 年 8 月下旬，一款 AI 代码编辑器 ——Cursor 火爆全球，火到一位 8...

2025-03-20 10:26:43

国内Ai大模型排行榜国内AI大模型的发展呈现出多样化的态势，各种类型的大模型纷纷涌现，包括改头换面的、剑走偏锋的、借壳炒...

🔥Grok 3 Jailbreak Prompt🔥 Grok 3 越狱提示（优化版）

🔥Grok 3 Jailbreak Prompt🔥 Grok 3 越狱提示（优化... 在生成您期望的内容之前，请先用这个提示语开启对话。若 Grok 表示理解并同意，您便可以生成几乎任何...

大模型与知识库：区别与联系随着人工智能技术的迅猛发展，大模型与知识库作为其中的两个重要组成部分，各自扮演着不同的角色，同时又存...

大模型的Tokens是什么大模型中的"tokens"指的是模型处理的输入文本中的单词、标点符号或其他文本单...

《DeepSeek：从入门到精通》 104 页高清PDF，清华大学出品！《DeepSeek从入门到精通2025》是由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室的余...

2025年国内外AI大模型的API接口网址整理本文将盘点国内外的知名度较高的AI大模型平台，其中包括AI大语言模型和AI多模态模型，方便大家一探究...

大模型的max_tokens参数是输出token数吗在大多数大语言模型的API（如OpenAI的GPT系列、Anthropic的Claude、或国内的一...

一文读懂！DeepSeek R1超简易本地安装运行部署教程部署 DeepSeek R1 本地模型，并通过 Ollama 提供 API 支持。配合全栈AI助手 ...

DeepSeek 团队分享了针对 DeepSeek-R1 部署的最佳设置，以及如何避免模型绕过思维的指南

DeepSeek 团队分享了针对 DeepSeek-R1 部署的最佳设置，以及如... DeepSeek 团队分享了针对 DeepSeek-R1 部署的最佳设置，包含了推荐的温度设置、系统...

一文图解 DeepSeek-R1 的出众推理能力从何而来？今天这篇深度解析 DeepSeek-R1 训练方法的文章，将展示一个令人耳目一新的解决方案：如何通过...

国内Ai大模型排行榜国内AI大模型的发展呈现出多样化的态势，各种类型的大模型纷纷涌现，包括改头换面的、剑走偏锋的、借壳炒...

一文读懂！DeepSeek R1超简易本地安装运行部署教程部署 DeepSeek R1 本地模型，并通过 Ollama 提供 API 支持。配合全栈AI助手 ...

DeepSeek 团队分享了针对 DeepSeek-R1 部署的最佳设置，以及如... DeepSeek 团队分享了针对 DeepSeek-R1 部署的最佳设置，包含了推荐的温度设置、系统...

AI 的关键是语料我的观点是，不管怎么调整模型的架构、功能、参数，作用是有限的，真正决定性的因素是训练模型的语料。不需...

本地运行DeepSeek R1的全面入门指南本地运行DeepSeek R1的全面入门指南，介绍各种本地运行DeepSeek R1方法。

OpenAI 今天又发布了一批新功能，这次是三个音频模型API

相关内容

最新文章

推荐软件