Jim Fan2024年终推文：这是AI的疯狂一年

未知

2025-02-18 15:09:24

Jim Fan年终推文：这是AI的疯狂一年。

读了一下： 1、具身智能突破越来越多，AI在2025年必然要从屏幕里跳出来；2、大模型三杰是Claude、OpenAI和Gemini，以及黑马Deepseek；3、OpenAI还是引领产业的人，年初的Sora，年末的o3，世界模型和推理计算，都是这家公司带火的；4、专业人士会越来越焦虑，诺奖已经给了搞AI的人，你的门槛是否比物理学奖、化学奖还高？5、计算还能扩展，向下到端，向上到集群。

再讲一次“AI”，我们就可以直接结束 2024 年（已经结束）。

今年真的疯狂。就像扩散模型一样——我们看着那些科幻愿景逐渐去噪、成形。让我们用“一人一句”的方式来庆祝吧，快速接龙。准备好了吗？

6 个章节：机器人硬件、具身智能（机器人大脑）、计算硬件、视频生成 & 世界建模、LLM、大模型赋能科学。

第 1 章：机器人硬件

我们将是最后一代——身边还没有随处可见的高级机器人。未来，一切可以移动的东西都将实现自主化。

1）高端人形机器人的崛起：这个世界是为人类形态设计的，各种设施、家电和工具都围绕我们的身体规格而建。 • Tesla Optimus：很少有人形机器人公司敢在公开场合做实时交互演示，特斯拉在“We, Robot”活动上就做到了。第三代机械手，22 个自由度，走在行业前列； • 1X Neo：目标是成为你家附近“友好的小区人形机器人”，计划大规模部署进家庭； • 波士顿动力 e-Atlas：重型冠军，360 度关节能做各种疯狂体操动作； • Figure：从原型机到在汽车工厂部署，迭代速度极快； • Fourier Intelligence：GR-1 系列已经实现量产（数千台），并在全球发货； • Clone：用“西部世界”风格的仿生肌肉与肌腱重新思考人形机器人如何成型。还有许多新公司如雨后春笋，数不胜数。

2）廉价机器人硬件的崛起：成本比汽车还低，可大规模生产，不久的将来大部分中产阶级都买得起。 • Unitree G1 人形机器人：售价约 4 万美元，重 77 磅，身高 50 英寸，小巧但灵活性惊人； • Unitree B2-W：带 4 个轮子的机器人狗，机动性能比地球上大多数动物都强； • ALOHA：来自斯坦福的廉价开源机器人，配有 2 个抓手。可通过远程遥控完成做蛋卷、叠衣服等复杂操作。

3）Apple Vision Pro：在机器人领域或许能充当数据采集设备的有趣角色。它可实时解析你的头部和手部动作，并将这些动作映射到机器人身上。

第 2 章：具身智能（机器人大脑）

这里有不少“王婆卖瓜”的自夸，因为这是我自己的主攻领域 ;)

1）Tesla FSD v12：史上最大规模的“实体 AI 数据飞轮”，从感光到行动的神经网络，压缩了整整十年自动驾驶积累，引领范式转变。

2）NVIDIA 启动 “Project GR00T”：这是英伟达的登月计划，要为通用机器人构建 AI 大脑。黄仁勋在 SAP 中心舞台上带着 10 台人形机器人一起亮相。

3）HOVER：我们团队训练了一个 150 万参数级别的基础模型，让人形机器人的马达能协调运作，就像我们小脑毫秒级别的“潜意识处理”那样。

4）DrEureka：我们团队把机器狗训练到能在瑜伽球上平衡并行走，全程只在模拟环境中完成，然后零样本迁移到真实硬件。整个过程中，LLM 自动写奖励函数、调参，我们则可以一边看 Netflix，一边等结果。

5）pi0（创业公司 Physical Intelligence）：研发出“视觉-语言-动作（VLA）”模型，可执行多步复杂任务，比如叠衣服。依靠 ALOHA 这种廉价方案做大规模数据收集。

6）OpenVLA（斯坦福）：开源 VLA 模型，用全球各大实验室分享的机器人运动轨迹数据集（Open X-Embodiment，OXE）来训练。

第 3 章：计算硬件

1）向上扩展：NVIDIA 发布 Blackwell 架构新巨兽，DGX GB200 在一个机架里就突破 1 Exaflop 的算力。

2）向下延伸：Jetson Nano Super，售价 249 美元，拥有 67 TOPS AI 算力，专为在机器人等边缘设备上运行小型 LLM 打造。英伟达的“树莓派”时刻来了！

3）Google Willow Chip：量子计算如同在“多元宇宙”里做 GPU 运算。在 5 分钟内完成随机电路采样（RCS），而普通电脑需要 10^25 年（1 后面 25 个零）。

第 4 章：视频生成 & 世界建模

1）Sora：2 月公布时惊艳全球，12 月才发布，等太久导致热度降低。它是首个高分辨率、长视频生成模型，就靠降噪和梯度魔法就学会了复杂渲染和直觉物理。

2）Veo：OpenAI 一直跳票，谷歌凭此强势反击，带来更精准的物理和细粒度的物体交互。

3）行动驱动的世界模型： • GameNGen：你可以在扩散模型内部跑 DOOM； • Oasis：你也可以在扩散模型内部跑 Minecraft； • GENIE-2：能在扩散模型中用手柄操控更多游戏。

4）World Labs（由李飞飞领衔）：展示了强几何一致性的 3D 生成基础模型，演示效果惊艳。

第 5 章：LLM（大型语言模型）

能力前沿

1）Claude Sonnet-3.5：几乎没人料到 Anthropic 会登顶，但这款强力模型确实打破了预期。

2）Gemini 1.5 pro，10M 上下文长度：能只靠上下文就学会英文到卡拉芒语（新几内亚仅 200 人使用）的翻译：只用了 500 页教程、一本词典和 400 条平行语料。学习过程在神经激活中即时完成，而不是通过慢速梯度下降。

3）o1（项目代号“Strawberry”）：普及了推理时的规模化，把“计算”这一苦口婆心的“痛点”推向普遍部署。正应了 Sutton 的“痛苦教训”：能无限扩展的只有两样——“学习”和“搜索”。现在轮到“搜索”上场了。

4）o3：强化学习的新回归。给我一个奖励函数，我就能“撼动世界”。o3 的核心在于，从单点的 RL 超级智能（如 AlphaGo）扩展到涵盖更广泛的有用问题（数学、编程等）。

5）真正的 AGI 测试：完成以下序列：

4o -> o1 -> o3 -> (?)

>> 人机交互是被严重低估的话题。LLM 已经远远领先于现有的 UI/UX 设计，而好的交互才能真正发挥模型潜能。

6）实时语音模型崛起，如 GPT-4o（高级语音模式）。它把传统的 3 步（语音识别->LLM 回复->文本转语音）合并为单步。

7）NotebookLM：对 LLM 交互方式的绝佳再想象。可把任何内容“播客化”。无需写提示词，也不用读文字，只要上传一个文件即可实时收听生成过程。

开源社区

8）llm.c：Andrej Karpathy 用纯 C 语言执行推理，没 Python、没框架、没依赖，就是裸奔数学和底层硬件对话。他的代码堪称“诗”。

9）Llama-3：把 GPT-4 的能力压缩进每个人的掌心。

10）DeepSeek：今年开源社区最大黑马。资源限制反而迫使他们走出了一条华丽的创新之路。

第 6 章：大模型赋能科学（AI4Science）

1）诺贝尔物理学奖：人人都是物理学家？AI 博士们注意，改个名就行：机器学习改叫“统计力学”，你就具备角逐最高奖项的资格了，笑。

2）诺贝尔化学奖：再说一次“诺贝尔”试试看……开个玩笑，恭喜 Demis 和 AlphaFold 团队，百年突破。先把 AI 搞定，再用 AI 搞定其他一切！

3）Neuralink：有脊髓损伤的患者如今能用大脑直接操控鼠标来浏览网页、直播、玩文明 6，甚至在 Switch 上玩马里奥赛车。Neuralink 将生物电信号映射到人工神经脉冲，再把像素位置转成鼠标行为。真的被低估了。

最后感想

如此多的 AI 进展，我在这条动态里也无法一一列举。距离 ChatGPT 首发已 2 年，Transformer 论文面世则已 7 年。各种炒作、承诺与恐惧并存。我只能尽力为大家提高“信噪比”。

就用威尔逊的一句话结束吧：

“人类真正的问题是：我们仍有旧石器时代的情感，中世纪的制度，却拥有如神般的技术。”

好消息是，我们能亲手打造这项技术，也能定义它在社会和文化中的作用。AI 注定是人类未来的一部分，只要我们用对方式，就能带来无与伦比的正面力量

以上就是Jim Fan2024年终推文：这是AI的疯狂一年的详细内容，更多请关注全栈开发网其它相关文章！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请将相关资料发送至 service@p2hp.com 进行投诉反馈，一经查实，立即处理!

-- -- 0

上一篇：个人推测2025年AI大概率发生的几个事情

下一篇：国产AI大模型开源引爆海外新闻时间线总结

Jim Fan2024年终推文：这是AI的疯狂一年

相关内容

最新文章

推荐软件