AI 的关键是语料

未知

2024-05-11 12:12:38

推荐精选

大家有没有发现，现在打开新闻，都是 AI 模型的消息。

今天甲发布一个模型，明天乙发布一个模型，个个（听上去）都具备了不得的能力。

2023年5月有一个统计，那个时候，10亿参数以上的模型，中国已经发布了79个。一年过去了，现在恐怕上千了。

说实话，我现在看到新模型，已经麻木了，压根不觉得这种消息有什么重要。

我的观点是，不管怎么调整模型的架构、功能、参数，作用是有限的，真正决定性的因素是训练模型的语料。

不需要说，你的模型多新颖、多强大，只需要告诉我，你用什么语料训练模型。

模型完美，但是语料垃圾，一样不行；反之，模型很平常，但是语料足够，那就 OK。模型不是关键，语料才是关键。

这其实不是我的观点，而是 OpenAI 的工程师 James Betker 的观点。他是 AI 专家，著名"文生图"模型 DALL-E 的第一作者。

去年，他写过一篇文章，只有几段话，在国外的影响很大。国内似乎没人提到这件事。但是我认为，这篇文章很重要。

他说，自己的日常工作就是开发 AI 模型，但是不管怎么增加参数、调整方程，模型效果都不如语料集的大小来得显著。

更多的训练材料，会显著提升模型效果，影响远大于其他因素。更神奇的是，不同的模型拿同样的语料训练，最后的表现居然很接近。

他的结论是，模型的差异其实不是关键，决定性的是你的训练材料。只要有更多更好的语料，不管用什么模型，都会得到差不多的结果。

初次听到，你可能觉得，这个结论难以置信，但是仔细想想，你会发现它很可能是对的。

因为不管什么 AI 模型，最终目标只有一个，就是模仿人类的思维。语料体现的正是人类思维，同一份语料，不管你拿什么规则去分析，最后得到的结果应该是一样的，因为它包含的人类思维是不变的。

这就好像，不同的画家去临摹同一个模特，如果目标都是复现原貌，那么只要画家达到一定水准，不管谁来画，结果将非常接近，因为模特的长相是不变的。

这告诉我们两点启示。

（1）哪一家公司的语料的数量多、质量好，它的模型就会强于其他公司。

（2）开源模型完全可以替代闭源模型，前提是训练语料要足够。

下面是 James Betker 的原文，大家仔细读读，看看是否认同他的观点。

我在 OpenAI 工作已经快一年了。这段时间里，我训练了很多生成式 AI 模型，比任何人能想到的还要多。
每当我花了几个小时，观察和调整各种模型配置和参数时，有一件事让我印象深刻，那就是所有训练结果之间的相似性。
我越来越发现，这些模型以令人难以置信的程度，向它们的语料集靠近。
这表明在相同的语料集上训练足够长的时间，几乎每个具有足够权重和训练时间的模型都会收敛到同一点。足够大的扩散卷积网络会产生相同的结果。
这是一个令人惊讶的观察！
这意味着模型行为不是由架构、参数或优化器决定的。它由你的语料集决定，没有其他决定因素。其他一切因素都不过是为了有效计算以近似该语料集的手段。
当你谈论 Lambda、ChatGPT、Bard 或Claude 时，指的并不是它们的模型，而是它们的语料集。

以上就是AI 的关键是语料的详细内容，更多请关注全栈开发网其它相关文章！

AI 大模型推荐精选

原文链接：https://www.ruanyifeng.com/blog/2024/05/weekly-issue-299.html
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请将相关资料发送至 service@p2hp.com 进行投诉反馈，一经查实，立即处理!

-- -- 0

上一篇：2023 年度 AI 大事记

下一篇：国内Ai大模型排行榜

相关内容

OpenAI GPT-4o 上线图像生成功能

OpenAI 宣布为 ChatGPT 推出图像生成功能：“将迄今最先进的图像生成器集成至 ...

2025-03-27 13:07:01

4个顶级的搜索引擎API，构建AI应用必备

本文介绍四款Web搜索API：博查、微软Bing、GoogleSerpApi和Exa.ai...

2025-03-22 09:58:39

多个大模型常用的搜索api插件分享

推荐谷歌搜索插件、exa search api和firecrawl搜索API工具。exa提...

2025-03-22 09:56:42

OpenAI 今天又发布了一批新功能，这次是三个音频模型AP...

OpenAI 今天又发布了一批新功能，这次是三个音频模型API，个人觉得挺实用。新音频模型...

2025-03-22 09:41:44

AI画图（AI绘画）：文生图提示词(prompt)教学

AI画图（AI绘画）：文生图提示词(prompt)教学提示词 (Promp0 是一...

2025-03-21 09:55:50

世界首个免费无限制分布式 AI 算力平台

世界首个免费无限制分布式 AI 算力平台基于来自全国各地 50 台家用电脑的 3090、...

2025-03-20 10:33:58

国内Ai大模型排行榜国内AI大模型的发展呈现出多样化的态势，各种类型的大模型纷纷涌现，包括改头换面的、剑走偏锋的、借壳炒...

🔥Grok 3 Jailbreak Prompt🔥 Grok 3 越狱提示（优化版）

🔥Grok 3 Jailbreak Prompt🔥 Grok 3 越狱提示（优化... 在生成您期望的内容之前，请先用这个提示语开启对话。若 Grok 表示理解并同意，您便可以生成几乎任何...

大模型的Tokens是什么大模型中的"tokens"指的是模型处理的输入文本中的单词、标点符号或其他文本单...

大模型与知识库：区别与联系随着人工智能技术的迅猛发展，大模型与知识库作为其中的两个重要组成部分，各自扮演着不同的角色，同时又存...

2025年国内外AI大模型的API接口网址整理本文将盘点国内外的知名度较高的AI大模型平台，其中包括AI大语言模型和AI多模态模型，方便大家一探究...

一文读懂！DeepSeek R1超简易本地安装运行部署教程部署 DeepSeek R1 本地模型，并通过 Ollama 提供 API 支持。配合全栈AI助手 ...

《DeepSeek：从入门到精通》 104 页高清PDF，清华大学出品！《DeepSeek从入门到精通2025》是由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室的余...

DeepSeek 团队分享了针对 DeepSeek-R1 部署的最佳设置，以及如何避免模型绕过思维的指南

DeepSeek 团队分享了针对 DeepSeek-R1 部署的最佳设置，以及如... DeepSeek 团队分享了针对 DeepSeek-R1 部署的最佳设置，包含了推荐的温度设置、系统...

大模型的max_tokens参数是输出token数吗在大多数大语言模型的API（如OpenAI的GPT系列、Anthropic的Claude、或国内的一...

一文图解 DeepSeek-R1 的出众推理能力从何而来？今天这篇深度解析 DeepSeek-R1 训练方法的文章，将展示一个令人耳目一新的解决方案：如何通过...

国内Ai大模型排行榜国内AI大模型的发展呈现出多样化的态势，各种类型的大模型纷纷涌现，包括改头换面的、剑走偏锋的、借壳炒...

一文读懂！DeepSeek R1超简易本地安装运行部署教程部署 DeepSeek R1 本地模型，并通过 Ollama 提供 API 支持。配合全栈AI助手 ...

DeepSeek 团队分享了针对 DeepSeek-R1 部署的最佳设置，以及如... DeepSeek 团队分享了针对 DeepSeek-R1 部署的最佳设置，包含了推荐的温度设置、系统...

AI 的关键是语料我的观点是，不管怎么调整模型的架构、功能、参数，作用是有限的，真正决定性的因素是训练模型的语料。不需...

本地运行DeepSeek R1的全面入门指南本地运行DeepSeek R1的全面入门指南，介绍各种本地运行DeepSeek R1方法。

AI 的关键是语料

相关内容

最新文章

推荐软件