Jim Fan2024年终推文:这是AI的疯狂一年

未知
2025-02-18 15:09:24
0

Jim Fan2024年终推文:这是AI的疯狂一年

Jim Fan年终推文:这是AI的疯狂一年。

读了一下: 1、具身智能突破越来越多,AI在2025年必然要从屏幕里跳出来;2、大模型三杰是Claude、OpenAI和Gemini,以及黑马Deepseek;3、OpenAI还是引领产业的人,年初的Sora,年末的o3,世界模型和推理计算,都是这家公司带火的;4、专业人士会越来越焦虑,诺奖已经给了搞AI的人,你的门槛是否比物理学奖、化学奖还高?5、计算还能扩展,向下到端,向上到集群。


再讲一次“AI”,我们就可以直接结束 2024 年(已经结束)。

今年真的疯狂。就像扩散模型一样——我们看着那些科幻愿景逐渐去噪、成形。让我们用“一人一句”的方式来庆祝吧,快速接龙。准备好了吗?

6 个章节:机器人硬件、具身智能(机器人大脑)、计算硬件、视频生成 & 世界建模、LLM、大模型赋能科学。

第 1 章:机器人硬件

我们将是最后一代——身边还没有随处可见的高级机器人。未来,一切可以移动的东西都将实现自主化。

1)高端人形机器人的崛起:这个世界是为人类形态设计的,各种设施、家电和工具都围绕我们的身体规格而建。 • Tesla Optimus:很少有人形机器人公司敢在公开场合做实时交互演示,特斯拉在“We, Robot”活动上就做到了。第三代机械手,22 个自由度,走在行业前列; • 1X Neo:目标是成为你家附近“友好的小区人形机器人”,计划大规模部署进家庭; • 波士顿动力 e-Atlas:重型冠军,360 度关节能做各种疯狂体操动作; • Figure:从原型机到在汽车工厂部署,迭代速度极快; • Fourier Intelligence:GR-1 系列已经实现量产(数千台),并在全球发货; • Clone:用“西部世界”风格的仿生肌肉与肌腱重新思考人形机器人如何成型。 还有许多新公司如雨后春笋,数不胜数。

2)廉价机器人硬件的崛起:成本比汽车还低,可大规模生产,不久的将来大部分中产阶级都买得起。 • Unitree G1 人形机器人:售价约 4 万美元,重 77 磅,身高 50 英寸,小巧但灵活性惊人; • Unitree B2-W:带 4 个轮子的机器人狗,机动性能比地球上大多数动物都强; • ALOHA:来自斯坦福的廉价开源机器人,配有 2 个抓手。可通过远程遥控完成做蛋卷、叠衣服等复杂操作。

3)Apple Vision Pro:在机器人领域或许能充当数据采集设备的有趣角色。它可实时解析你的头部和手部动作,并将这些动作映射到机器人身上。

第 2 章:具身智能(机器人大脑)

这里有不少“王婆卖瓜”的自夸,因为这是我自己的主攻领域 ;)

1)Tesla FSD v12:史上最大规模的“实体 AI 数据飞轮”,从感光到行动的神经网络,压缩了整整十年自动驾驶积累,引领范式转变。

2)NVIDIA 启动 “Project GR00T”:这是英伟达的登月计划,要为通用机器人构建 AI 大脑。黄仁勋在 SAP 中心舞台上带着 10 台人形机器人一起亮相。

3)HOVER:我们团队训练了一个 150 万参数级别的基础模型,让人形机器人的马达能协调运作,就像我们小脑毫秒级别的“潜意识处理”那样。

4)DrEureka:我们团队把机器狗训练到能在瑜伽球上平衡并行走,全程只在模拟环境中完成,然后零样本迁移到真实硬件。整个过程中,LLM 自动写奖励函数、调参,我们则可以一边看 Netflix,一边等结果。

5)pi0(创业公司 Physical Intelligence):研发出“视觉-语言-动作(VLA)”模型,可执行多步复杂任务,比如叠衣服。依靠 ALOHA 这种廉价方案做大规模数据收集。

6)OpenVLA(斯坦福):开源 VLA 模型,用全球各大实验室分享的机器人运动轨迹数据集(Open X-Embodiment,OXE)来训练。

第 3 章:计算硬件

1)向上扩展:NVIDIA 发布 Blackwell 架构新巨兽,DGX GB200 在一个机架里就突破 1 Exaflop 的算力。

2)向下延伸:Jetson Nano Super,售价 249 美元,拥有 67 TOPS AI 算力,专为在机器人等边缘设备上运行小型 LLM 打造。英伟达的“树莓派”时刻来了!

3)Google Willow Chip:量子计算如同在“多元宇宙”里做 GPU 运算。在 5 分钟内完成随机电路采样(RCS),而普通电脑需要 10^25 年(1 后面 25 个零)。

第 4 章:视频生成 & 世界建模

1)Sora:2 月公布时惊艳全球,12 月才发布,等太久导致热度降低。它是首个高分辨率、长视频生成模型,就靠降噪和梯度魔法就学会了复杂渲染和直觉物理。

2)Veo:OpenAI 一直跳票,谷歌凭此强势反击,带来更精准的物理和细粒度的物体交互。

3)行动驱动的世界模型: • GameNGen:你可以在扩散模型内部跑 DOOM; • Oasis:你也可以在扩散模型内部跑 Minecraft; • GENIE-2:能在扩散模型中用手柄操控更多游戏。

4)World Labs(由李飞飞领衔):展示了强几何一致性的 3D 生成基础模型,演示效果惊艳。

第 5 章:LLM(大型语言模型)

能力前沿

1)Claude Sonnet-3.5:几乎没人料到 Anthropic 会登顶,但这款强力模型确实打破了预期。

2)Gemini 1.5 pro,10M 上下文长度:能只靠上下文就学会英文到卡拉芒语(新几内亚仅 200 人使用)的翻译:只用了 500 页教程、一本词典和 400 条平行语料。学习过程在神经激活中即时完成,而不是通过慢速梯度下降。

3)o1(项目代号“Strawberry”):普及了推理时的规模化,把“计算”这一苦口婆心的“痛点”推向普遍部署。正应了 Sutton 的“痛苦教训”:能无限扩展的只有两样——“学习”和“搜索”。现在轮到“搜索”上场了。

4)o3:强化学习的新回归。给我一个奖励函数,我就能“撼动世界”。o3 的核心在于,从单点的 RL 超级智能(如 AlphaGo)扩展到涵盖更广泛的有用问题(数学、编程等)。

5)真正的 AGI 测试:完成以下序列:

4o -> o1 -> o3 -> (?)

>> 人机交互是被严重低估的话题。LLM 已经远远领先于现有的 UI/UX 设计,而好的交互才能真正发挥模型潜能。

6)实时语音模型崛起,如 GPT-4o(高级语音模式)。它把传统的 3 步(语音识别->LLM 回复->文本转语音)合并为单步。

7)NotebookLM:对 LLM 交互方式的绝佳再想象。可把任何内容“播客化”。无需写提示词,也不用读文字,只要上传一个文件即可实时收听生成过程。

开源社区

8)llm.c:Andrej Karpathy 用纯 C 语言执行推理,没 Python、没框架、没依赖,就是裸奔数学和底层硬件对话。他的代码堪称“诗”。

9)Llama-3:把 GPT-4 的能力压缩进每个人的掌心。

10)DeepSeek:今年开源社区最大黑马。资源限制反而迫使他们走出了一条华丽的创新之路。

第 6 章:大模型赋能科学(AI4Science)

1)诺贝尔物理学奖:人人都是物理学家?AI 博士们注意,改个名就行:机器学习改叫“统计力学”,你就具备角逐最高奖项的资格了,笑。

2)诺贝尔化学奖:再说一次“诺贝尔”试试看……开个玩笑,恭喜 Demis 和 AlphaFold 团队,百年突破。先把 AI 搞定,再用 AI 搞定其他一切!

3)Neuralink:有脊髓损伤的患者如今能用大脑直接操控鼠标来浏览网页、直播、玩文明 6,甚至在 Switch 上玩马里奥赛车。Neuralink 将生物电信号映射到人工神经脉冲,再把像素位置转成鼠标行为。真的被低估了。

最后感想

如此多的 AI 进展,我在这条动态里也无法一一列举。距离 ChatGPT 首发已 2 年,Transformer 论文面世则已 7 年。各种炒作、承诺与恐惧并存。我只能尽力为大家提高“信噪比”。

就用威尔逊的一句话结束吧:

“人类真正的问题是:我们仍有旧石器时代的情感,中世纪的制度,却拥有如神般的技术。”

好消息是,我们能亲手打造这项技术,也能定义它在社会和文化中的作用。AI 注定是人类未来的一部分,只要我们用对方式,就能带来无与伦比的正面力量

以上就是Jim Fan2024年终推文:这是AI的疯狂一年的详细内容,更多请关注全栈开发网其它相关文章!
AI
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请将相关资料发送至 service@p2hp.com 进行投诉反馈,一经查实,立即处理!
-- -- 0

相关内容

OpenAI GPT-4o 上线图像生成功能
OpenAI GPT-4o 上线图像生成功能
OpenAI 宣布为 ChatGPT 推出图像生成功能:“将迄今最先进的图像生成器集成至 ...
2025-03-27 13:07:01
4个顶级的搜索引擎API,构建AI应用必备
4个顶级的搜索引擎API,构建AI应用必备
本文介绍四款Web搜索API:博查、微软Bing、GoogleSerpApi和Exa.ai...
2025-03-22 09:58:39
OpenAI 今天又发布了一批新功能,这次是三个音频模型API
OpenAI 今天又发布了一批新功能,这次是三个音频模型AP...
OpenAI 今天又发布了一批新功能,这次是三个音频模型API,个人觉得挺实用。新音频模型...
2025-03-22 09:41:44
AI画图(AI绘画):文生图提示词(prompt)教学
AI画图(AI绘画):文生图提示词(prompt)教学
AI画图(AI绘画):文生图提示词(prompt)教学 提 示 词 (Promp0 是 一...
2025-03-21 09:55:50
世界首个免费无限制 分布式 AI 算力平台
世界首个免费无限制 分布式 AI 算力平台
世界首个免费无限制 分布式 AI 算力平台基于来自全国各地 50 台家用电脑的 3090、...
2025-03-20 10:33:58
AI 编程技术与工具发展综述(2024 年 )
AI 编程技术与工具发展综述(2024 年 )
2024 年 8 月下旬,一款 AI 代码编辑器 ——Cursor 火爆全球,火到一位 8...
2025-03-20 10:26:43
全球首发!中国团队推出革命性通用AI Agent:Manus Manus(官网:https://manus.im/)是一款由中国团队开发的人工智能产品,被称为全球...
复刻Manus,无需邀请码,开源版Manus!OpenManus 复刻Manus,无需邀请码,开源版Manus! OpenManus 支持在电脑上完成很多任务,包括网...
通俗解读MCP和Agent原理,包你看完秒懂! 什么是MCP?模型上下文协议(Model Context Protocol,简称 MCP):是一个由...
OpenAI 生产环境最佳实践官方指南 这份指南全面介绍了如何将产品原型发布到生产环境的最佳实践。不论你是资深的机器学习工程师还是刚入门的技...
agent互联网时代来了,mcp协议相当于互联网时代的http协议 近期见到人就安利:agent互联网时代来了,mcp协议相当于互联网时代的http协议,打通了大模型、...
🧠什么是AI 在聊ChatGPT之前,应该先聊聊AI。我们先来界定下到底什么叫AI(Artificial Inte...
4个顶级的搜索引擎API,构建AI应用必备 本文介绍四款Web搜索API:博查、微软Bing、GoogleSerpApi和Exa.ai,各自具有...
人工智能如何增强软件工程,你需要知道的一切 通过这个指南,可以了解人工智能增强软件工程领域的快速发展,以及它如何帮助开发人员更快地开发软件。
AI 领域名词解读:SOTA SOTA(State of the Art)是一个经常被用于描述科技领域中表现最优秀的技术和解决方案...
中国AI硬件,正在占领CES 美国时间1月6日晚上,英伟达演讲会场外排起“几公里”的长队。无数观众们盼望着能快一点进入会场;快一点...
AI基础概念 本章介绍了企业AI应用可能涉及到的一些相关概念,帮助大家更好的理解 AI的相关操作。

最新文章

4个顶级的搜索引擎API,构建AI应用必备 本文介绍四款Web搜索API:博查、微软Bing、GoogleSerpApi和Exa.ai,各自具有...
AGI时代不可避免了,给8点建议 不管大家相不相信、愿不愿意接受,随着gpt、deepseek和manus这类产品的加速发展。以及机器...
四部门联合印发《人工智能生成合成内容标识办法》 为了促进人工智能健康发展,规范人工智能生成合成内容标识,保护公民、法人和其他组织合法权益,维护社会公...
很多普通人忽视了人工智能的一个影响就是:学习的革命 很多普通人忽视了人工智能的一个影响就是:学习的革命。人工智能可能会带来一个新的学习范式,与以往的学习...
世界首个免费无限制 分布式 AI 算力平台 世界首个免费无限制 分布式 AI 算力平台基于来自全国各地 50 台家用电脑的 3090、4080、...
别让AI淘汰你!2025普通人“打不过就加入”的5条铁律 别让AI淘汰你!2025普通人“打不过就加入”的5条铁律。当我们还在讨论AI带来的焦虑时,已经有人开...
分享10个AI导航网站,里面有各种各样的AI工具! 分享10个AI导航网站,里面有各种各样的AI工具!
什么是具身智能? 具身智能(Embodied Intelligence)是一个涉及人工智能、机器人学和认知科学的综合性...
谷歌推机器人控制模型Gemini Robotics,让机器人像人类一样思考行动 谷歌DeepMind推出了他们的秘密武器——Gemini Robotics! 这可不是你家扫地机器人...
什么是prompt工程? Prompt工程,又称提示工程(Prompt Engineering),是指设计和优化用于与生成式人...