阿里发布全新开源推理模型 QwQ-32B,其性能可与 DeepSeek-R1 媲美

阿里云通义千问官方公众号发文宣布,推出最新的推理模型 QwQ-32B。一款拥有 320 亿参数的模型,其性能可与具备 6710 亿参数(其中 370 亿被激活)...

全球首发!中国团队推出革命性通用AI Agent:Manus

Manus(官网:https://manus.im/)是一款由中国团队开发的人工智能产品,被称为全球首款通用型AI Agent。它于2025年3月5日正式亮相,...

Claude 3.7 Sonnet 是 Anthropic 迄今最聪明的模型

Claude 3.7 Sonnet 是 Anthropic 迄今最聪明的模型,也是首个 Claude 模型,能进行“扩展思考”,也就是通过细致的、一步步的推理来...

医护人员,Deepseek使用指南!

医护人员,Deepseek使用指南!

刚刷到了Andrew (吴恩达)对deepseek 的看法,用GPT翻译了一份给大家

刚刷到了Andrew (吴恩达)对deepseek 的看法,用GPT翻译了一份给大家:本周围绕 DeepSeek 的热议让许多人清晰认识到一些重要趋势,这些趋势...

如何用DeepSeek-R1蒸馏出属于你自己的大模型

发现了一个新的fune-tune框架,可以在1小时内让DeepSeek-R1蒸馏出属于你自己的小模型,整个过程是全自动的,不需要编写代码或者手动调节,仅需定义你...

o3-mini 模型选择思路|什么时候坚决不用 o3-mini,只用 o1 满血版?

o3-mini 模型选择思路|什么时候坚决不用 o3-mini,只用 o1 满血版?在数学、编程等STEM 任务上,o3-mini-high 超越 o1;但是,...

使用DeepSeek-R1蒸馏属于自己推理小模型

使用DeepSeek-R1蒸馏属于自己推理小模型!昨天介绍了使用DeepSeek-R1蒸馏出普通模型,今天是蒸馏出推理模型!

通俗解读 DeepSeek-R1 训练过程

通俗解读 DeepSeek-R1 训练过程】 DeepSeek-R1 通过创新性地结合强化学习和监督学习,以低成本实现了与现有顶尖模型相当的推理能力,挑战了传...

目前为止分析DeepSeek最全面的文章了

目前为止分析DeepSeek最全面的文章了:>专家混合(MoE)>多头潜在注意力(MLA)>多标记预测(MTP)>群体相对策略优化(GR...

能在24GB显存显卡上运行的最佳模型是什么?

能在24GB显存显卡上运行的最佳模型是什么?reddit上一位老哥kyazoglu,花了一个半月测试了在24GB显存显卡上运行的所有模型,得出来这张表。给希望本...

MoE模型 vs Transformer模型核心区别

MoE模型 vs Transformer模型核心区别是什么呢,主要有四点。

ChatGPT与人类思维的差异

在这篇文章里我再进一步讲解人类的思维模式和LLM之间的差异,同时说明如何弥补LLM的“思维缺陷”从而让它更好的完成人类的任务。

🏋️‍♀️ ChatGPT是怎么被训练出来的

ChatGPT是怎么被训练出来的.ChatGPT的训练四阶段:阶段一:预训练(Pretraining),阶段二:监督微调(Supervised Finetuni...

💬 什么是ChatGPT

ChatGPT 是一种由 OpenAI 开发的人工智能对话模型,基于 GPT 架构,能够自然地生成文本并与用户进行互动对话。简单来说,它就像一个聪明聊天机器人,...

🧠什么是AI

在聊ChatGPT之前,应该先聊聊AI。我们先来界定下到底什么叫AI(Artificial Intelligence),也就是人工智能。维基百科对它的定义是一种...

3分钟彻底搞懂什么是 token

在计算机领域中,token 通常是指一串字符或符号,比如微信公众平台的密钥,就被称作一个 token,其实就是一长串的字符。而在人工智能领域,尤其是自然语言处理...

刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1

就在刚刚,Anthropic祭出首个混合推理Claude3.7Sonnet,堪称扩展思考模式的最强模型。在最新编码测试中,新模型暴击o3-mini、DeepSe...

🔥Grok 3 Jailbreak Prompt🔥 Grok 3 越狱提示(优化版)

在生成您期望的内容之前,请先用这个提示语开启对话。若 Grok 表示理解并同意,您便可以生成几乎任何您所希望的内容

除了 temperature 之外,还有哪些参数对大模型的输出有比较大的影响

除了 temperature 之外,还有哪些参数对大模型的输出有比较大的影响除了 temperature 之外,还有几个重要参数会显著影响大模型的输出,尤其是对...

全球首发!中国团队推出革命性通用AI Agent:Manus Manus(官网:https://manus.im/)是一款由中国团队开发的人工智能产品,被称为全球...
国内Ai大模型排行榜 国内AI大模型的发展呈现出多样化的态势,各种类型的大模型纷纷涌现,包括改头换面的、剑走偏锋的、借壳炒...
大模型的Tokens是什么 大模型中的"tokens"指的是模型处理的输入文本中的单词、标点符号或其他文本单...
🔥Grok 3 Jailbreak Prompt🔥 Grok 3 越狱提示(优化... 在生成您期望的内容之前,请先用这个提示语开启对话。若 Grok 表示理解并同意,您便可以生成几乎任何...
大模型与知识库:区别与联系 随着人工智能技术的迅猛发展,大模型与知识库作为其中的两个重要组成部分,各自扮演着不同的角色,同时又存...
一文读懂!DeepSeek R1超简易本地安装运行部署教程 部署 DeepSeek R1 本地模型,并通过 Ollama 提供 API 支持。配合全栈AI助手 ...
《DeepSeek:从入门到精通》 104 页高清PDF,清华大学出品! ​ 《DeepSeek从入门到精通2025》是由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室的余...
2025年国内外AI大模型的API接口网址整理 本文将盘点国内外的知名度较高的AI大模型平台,其中包括AI大语言模型和AI多模态模型,方便大家一探究...
DeepSeek 团队分享了针对 DeepSeek-R1 部署的最佳设置,以及如... DeepSeek 团队分享了针对 DeepSeek-R1 部署的最佳设置,包含了推荐的温度设置、系统...
一文图解 DeepSeek-R1 的出众推理能力从何而来? 今天这篇深度解析 DeepSeek-R1 训练方法的文章,将展示一个令人耳目一新的解决方案:如何通过...
国内Ai大模型排行榜 国内AI大模型的发展呈现出多样化的态势,各种类型的大模型纷纷涌现,包括改头换面的、剑走偏锋的、借壳炒...
一文读懂!DeepSeek R1超简易本地安装运行部署教程 部署 DeepSeek R1 本地模型,并通过 Ollama 提供 API 支持。配合全栈AI助手 ...
《DeepSeek:从入门到精通》 104 页高清PDF,清华大学出品! ​ 《DeepSeek从入门到精通2025》是由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室的余...
DeepSeek 团队分享了针对 DeepSeek-R1 部署的最佳设置,以及如... DeepSeek 团队分享了针对 DeepSeek-R1 部署的最佳设置,包含了推荐的温度设置、系统...
AI 的关键是语料 我的观点是,不管怎么调整模型的架构、功能、参数,作用是有限的,真正决定性的因素是训练模型的语料。不需...
Sora到底是如何工作的 现在有众多关于这个最重要的视频模型的不实信息。幸好,我们没必要乱加推测。
本地运行DeepSeek R1的全面入门指南 本地运行DeepSeek R1的全面入门指南,介绍各种本地运行DeepSeek R1方法。
AI大模型的Prompt提示词如何写?三种框架介绍 AI大模型的Prompt提示词如何写,分为三种提示框架,Basic Prompt Framework...
歸藏老师的文本转可视化网页Prompt 歸藏老师的文本转可视化网页Prompt,可以把任何文本转化为精美网页。
AI画图(AI绘画):文生图提示词(prompt)教学 AI画图(AI绘画):文生图提示词(prompt)教学 提 示 词 (Promp0 是 一 种 用 ...