数字人的DeepSeek时刻!“中国造”heygem.ai全球开源72小时破1.3k stars

短短72小时,硅基智能在GitHub开源的数字人模型Heygem.ai便突破1,300颗Star,迅速成为全球技术社区瞩目的焦点。这一现象级的增长速度不仅彰显了...

即梦 AI 图片模型 2.1 ,可以“一句话生成中文海报”的大模型

字节跳动旗下即梦 AI ,全新图片模型 2.1 。支持通过简单的指令,控制文字的颜色和位置等元素,快速生成中英文图像海报。号称“一句话生成中文海报”。

大模型的max_tokens参数是输出token数吗

在大多数大语言模型的API(如OpenAI的GPT系列、Anthropic的Claude、或国内的一些大模型)中,`max_tokens` 参数通常指的是模型生...

震撼业界- 全球首个可商用的diffusion llm大语言模型:速度直接震惊

这才是震撼业界的大新闻,晚上群里的兄弟们都震惊了,赶紧去体验了下Mercury模型,被它的速度直接震惊到懵逼了,竟然能这么快这才是震撼业界的大新闻,晚上群里的兄...

马斯克发布的Grok-3,各种评测上都很强

马斯克发布的Grok-3,各种评测上都很强。考虑到Grok的起步晚,开始的时候各种差,还得是马斯克,v3版本就赶上来了!

Google 的 Gemini 2.0 正式面向所有用户开放!

Gemini 2.0 现已全面开放,为开发者和用户带来了显著更新和新模型。这次的发布建立在此前 Gemini 2.0 实验版的基础之上,使强大 AI 变得更加易...

如果把DeepSeek-R1部署在本地电脑,1.5B、7B、8B、14B、32B、70B等不同参数规模的模型该怎么选

如果把DeepSeek-R1部署在本地电脑,1.5B、7B、8B、14B、32B、70B等不同参数规模的模型该怎么选?关键看电脑的配置,以下供参考:

2025 LLM 入门+进阶路线图 by Sebastian Raschka

核心在于为学习和应用大型语言模型(LLM)技术在2025年及以后提供了一个循序渐进的“路线图”。 它以三个简洁明了的步骤,概括了从理论基础到实际应用的进阶路径,...

阿里视频生成大模型万相2.1开源!效果超Sora,消费级显卡就能跑

阿里云视频生成大模型万相2.1(Wan)正式开源,此次开源采用Apache2.0协议,14B和1.3B两个参数规格的全部推理代码和权重全部开源,同时支持文生视频...

DeepSeek的R1系列模型的官方推荐设置

很多人觉得第三方DeepSeek或自己用API时,效果和官方DeepSeek有差异。这种差异有些是因为初始设置不同造成的。DeepSeek的官推刚给出了R1系列...

一个测试模型是否是DeepSeek R1 满血版的简单测试题

一个测试模型是否是DeepSeek R1 满血版的简单测试题:

OpenAI 正式发布 GPT-4.5 模型

28日凌晨,OpenAI 正式发布 GPT-4.5 模型。GPT-4.5 支持联网搜索,并能够处理文件和图片上传,还可以使用 Canvas 来进行写作和编程。

OpenAI的GPT4.5是一个文科模型

OpenAI的GPT4.5是一个文科模型简单汇总了一下反馈1、写作很强。有人评价说“这是第一个真正可以书写的模型,这实际上正是写作的MidJouney”时刻。2...

GPT-4.5 登场:OpenAI 最强、最佳 AI 聊天模型,更睿智、更高“情商”、更少幻觉

【GPT-4.5 登场:OpenAI 最强、最佳 AI 聊天模型,更睿智、更高“情商”、更少幻觉】#GPT4.5将首先向ChatGPTPro用户开放# 2 月 ...

阿里发布全新开源推理模型 QwQ-32B,其性能可与 DeepSeek-R1 媲美

阿里云通义千问官方公众号发文宣布,推出最新的推理模型 QwQ-32B。一款拥有 320 亿参数的模型,其性能可与具备 6710 亿参数(其中 370 亿被激活)...

Claude 3.7 Sonnet 是 Anthropic 迄今最聪明的模型

Claude 3.7 Sonnet 是 Anthropic 迄今最聪明的模型,也是首个 Claude 模型,能进行“扩展思考”,也就是通过细致的、一步步的推理来...

刚刷到了Andrew (吴恩达)对deepseek 的看法,用GPT翻译了一份给大家

刚刷到了Andrew (吴恩达)对deepseek 的看法,用GPT翻译了一份给大家:本周围绕 DeepSeek 的热议让许多人清晰认识到一些重要趋势,这些趋势...

如何用DeepSeek-R1蒸馏出属于你自己的大模型

发现了一个新的fune-tune框架,可以在1小时内让DeepSeek-R1蒸馏出属于你自己的小模型,整个过程是全自动的,不需要编写代码或者手动调节,仅需定义你...

使用DeepSeek-R1蒸馏属于自己推理小模型

使用DeepSeek-R1蒸馏属于自己推理小模型!昨天介绍了使用DeepSeek-R1蒸馏出普通模型,今天是蒸馏出推理模型!

通俗解读 DeepSeek-R1 训练过程

通俗解读 DeepSeek-R1 训练过程】 DeepSeek-R1 通过创新性地结合强化学习和监督学习,以低成本实现了与现有顶尖模型相当的推理能力,挑战了传...

国内Ai大模型排行榜 国内AI大模型的发展呈现出多样化的态势,各种类型的大模型纷纷涌现,包括改头换面的、剑走偏锋的、借壳炒...
大模型的Tokens是什么 大模型中的"tokens"指的是模型处理的输入文本中的单词、标点符号或其他文本单...
🔥Grok 3 Jailbreak Prompt🔥 Grok 3 越狱提示(优化... 在生成您期望的内容之前,请先用这个提示语开启对话。若 Grok 表示理解并同意,您便可以生成几乎任何...
大模型与知识库:区别与联系 随着人工智能技术的迅猛发展,大模型与知识库作为其中的两个重要组成部分,各自扮演着不同的角色,同时又存...
一文读懂!DeepSeek R1超简易本地安装运行部署教程 部署 DeepSeek R1 本地模型,并通过 Ollama 提供 API 支持。配合全栈AI助手 ...
2025年国内外AI大模型的API接口网址整理 本文将盘点国内外的知名度较高的AI大模型平台,其中包括AI大语言模型和AI多模态模型,方便大家一探究...
《DeepSeek:从入门到精通》 104 页高清PDF,清华大学出品! ​ 《DeepSeek从入门到精通2025》是由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室的余...
DeepSeek 团队分享了针对 DeepSeek-R1 部署的最佳设置,以及如... DeepSeek 团队分享了针对 DeepSeek-R1 部署的最佳设置,包含了推荐的温度设置、系统...
一文图解 DeepSeek-R1 的出众推理能力从何而来? 今天这篇深度解析 DeepSeek-R1 训练方法的文章,将展示一个令人耳目一新的解决方案:如何通过...
MoE模型 vs Transformer模型核心区别 MoE模型 vs Transformer模型核心区别是什么呢,主要有四点。
国内Ai大模型排行榜 国内AI大模型的发展呈现出多样化的态势,各种类型的大模型纷纷涌现,包括改头换面的、剑走偏锋的、借壳炒...
一文读懂!DeepSeek R1超简易本地安装运行部署教程 部署 DeepSeek R1 本地模型,并通过 Ollama 提供 API 支持。配合全栈AI助手 ...
《DeepSeek:从入门到精通》 104 页高清PDF,清华大学出品! ​ 《DeepSeek从入门到精通2025》是由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室的余...
DeepSeek 团队分享了针对 DeepSeek-R1 部署的最佳设置,以及如... DeepSeek 团队分享了针对 DeepSeek-R1 部署的最佳设置,包含了推荐的温度设置、系统...
AI 的关键是语料 我的观点是,不管怎么调整模型的架构、功能、参数,作用是有限的,真正决定性的因素是训练模型的语料。不需...
本地运行DeepSeek R1的全面入门指南 本地运行DeepSeek R1的全面入门指南,介绍各种本地运行DeepSeek R1方法。