混元-T1: 强化学习驱动,业内首个超大规模混合Mamba推理模型正式发布

强化学习在大语言模型的后训练阶段开创了新的Scaling范式,这一突破正日益受到业界重视。随着OpenAI O系列模型与DeepSeek R1的相继发布,模型展...

多个大模型常用的搜索api插件分享

推荐谷歌搜索插件、exa search api和firecrawl搜索API工具。exa提供精炼html搜索结果,firecrawl价格亲民,结果适合大模型。搜...

通俗易懂说清楚什么是MCP

这两天随着 Manus 的爆火,MCP 也被大家频繁提及,那 MCP 到底是什么?说的通俗点,它就是一种协议,就像 HTTP 或 TCP 那样的协议。这个协议是...

OpenAI 今天又发布了一批新功能,这次是三个音频模型API

OpenAI 今天又发布了一批新功能,这次是三个音频模型API,个人觉得挺实用。新音频模型一览这次发布的API主要分为两类:

用Gemini翻译文章的优缺点及注意事项

用Gemini翻译文章的优缺点及注意事项,Gemini优点是上下文超长,翻译完成度极高,优化Prompt后甚至能避免某些“AI味检测”。而缺点或要注意的地方可能...

中国信通院发起大模型幻觉测试,总体涉及五种测试维度

据「中国信通院」公众号消息,中国信息通信研究院人工智能所基于前期的 AI Safety Benchmark 测评工作,发起大模型幻觉测试。本轮幻觉测试工作将以大...

大模型的上下文窗口大小是什么

大模型的上下文窗口大小是什么在中文语境中,“大模型的上下文窗口大小”指的是大型语言模型(如我这样的Grok)在处理输入和生成输出时能够“记住”或“考虑”的文本长...

中国Deepseek为何震惊了国内外,特别是美国人?

中国Deepseek为何震惊了国内外,特别是美国人?

DeepSeek R1 系统提示词

DeepSeek R1 系统提示词:您是由中国公司深度求索(DeepSeek)独家开发的智能助手DeepSeek-R1。您将为用户提供有益、无害且详尽的回答。关...

一文读懂:DeepSeek新模型大揭秘,为何它能震动全球AI圈

【编者按】课代表系列-AI大事儿的最快、最全解读,本文关注DeepSeek-R1在技术上最重要的突破——用纯深度学习的方法让AI自发涌现出推理能力。这一研究可能...

Deepseek-v3技术报告简报

Deepseek-v3技术报告简报。大家知道,硅谷的某几个前沿闭源模型公司,对外分享的技术信息越来越少了,报告里谈细节也是语焉不详。但是这次Deepseek-v...

网友分享的在不同任务场景选择的最佳模型

网友分享的在不同任务场景选择的最佳模型:

个人单机本地部署大模型,一步到位硬件怎么选?

个人单机本地部署大模型,一步到位、两三年内不过时的话设备怎么选,最近周围朋友这方面聊得比较多。1.5B、7B、8B等小模型效果有限,目前32B费效比最高未来70...

一个讲解如何从头开始构建 DeepSeek R1的项目

开发者Fareed Khan's 用手绘流程图以及代码的方式,逐步讲解如何按照 deepseek 技术报告构建一个可以在本地运行的小型基础模型。非常详...

好的日常使用的模型推荐

好的日常使用的模型推荐(非广告~)

Kimi 最新模型 k1.6 登顶,编程能力超越 GPT o3mini、o1

2 月 27 日消息,Kimi 最新模型 k1.6 今日曝光。据全球动态基准测试平台 LiveCodeBench,Kimi k1.6 超过 GPT o3mini...

谷歌推出Gemma 3:单GPU上运行的最强AI模型

谷歌近日推出了最新版本的 Gemma AI 模型 ——Gemma3,声称这是 “全球最强的单加速器模型”。与之前发布的 Gemma AI 系列相比,Gemma3...

Google Gemini 2.0 Flash 新增「原生图像生成」功能

Google 发文宣布,Google Gemini 2.0 Flash 引入了「原生图像生成」功能。

超越DeepSeek R1与GPT 4.5,百度周末两连发!文心大模型4.5及X1,免费!

超越DeepSeek R1与GPT 4.5,百度周末两连发!文心大模型4.5及X1,免费!3月16日,文心大模型4.5和文心大模型X1正式发布!同时,文心大模型...

数字人的DeepSeek时刻!“中国造”heygem.ai全球开源72小时破1.3k stars

短短72小时,硅基智能在GitHub开源的数字人模型Heygem.ai便突破1,300颗Star,迅速成为全球技术社区瞩目的焦点。这一现象级的增长速度不仅彰显了...

国内Ai大模型排行榜 国内AI大模型的发展呈现出多样化的态势,各种类型的大模型纷纷涌现,包括改头换面的、剑走偏锋的、借壳炒...
大模型的Tokens是什么 大模型中的"tokens"指的是模型处理的输入文本中的单词、标点符号或其他文本单...
🔥Grok 3 Jailbreak Prompt🔥 Grok 3 越狱提示(优化... 在生成您期望的内容之前,请先用这个提示语开启对话。若 Grok 表示理解并同意,您便可以生成几乎任何...
大模型与知识库:区别与联系 随着人工智能技术的迅猛发展,大模型与知识库作为其中的两个重要组成部分,各自扮演着不同的角色,同时又存...
一文读懂!DeepSeek R1超简易本地安装运行部署教程 部署 DeepSeek R1 本地模型,并通过 Ollama 提供 API 支持。配合全栈AI助手 ...
《DeepSeek:从入门到精通》 104 页高清PDF,清华大学出品! ​ 《DeepSeek从入门到精通2025》是由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室的余...
2025年国内外AI大模型的API接口网址整理 本文将盘点国内外的知名度较高的AI大模型平台,其中包括AI大语言模型和AI多模态模型,方便大家一探究...
DeepSeek 团队分享了针对 DeepSeek-R1 部署的最佳设置,以及如... DeepSeek 团队分享了针对 DeepSeek-R1 部署的最佳设置,包含了推荐的温度设置、系统...
一文图解 DeepSeek-R1 的出众推理能力从何而来? 今天这篇深度解析 DeepSeek-R1 训练方法的文章,将展示一个令人耳目一新的解决方案:如何通过...
MoE模型 vs Transformer模型核心区别 MoE模型 vs Transformer模型核心区别是什么呢,主要有四点。
国内Ai大模型排行榜 国内AI大模型的发展呈现出多样化的态势,各种类型的大模型纷纷涌现,包括改头换面的、剑走偏锋的、借壳炒...
一文读懂!DeepSeek R1超简易本地安装运行部署教程 部署 DeepSeek R1 本地模型,并通过 Ollama 提供 API 支持。配合全栈AI助手 ...
《DeepSeek:从入门到精通》 104 页高清PDF,清华大学出品! ​ 《DeepSeek从入门到精通2025》是由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室的余...
DeepSeek 团队分享了针对 DeepSeek-R1 部署的最佳设置,以及如... DeepSeek 团队分享了针对 DeepSeek-R1 部署的最佳设置,包含了推荐的温度设置、系统...
AI 的关键是语料 我的观点是,不管怎么调整模型的架构、功能、参数,作用是有限的,真正决定性的因素是训练模型的语料。不需...
本地运行DeepSeek R1的全面入门指南 本地运行DeepSeek R1的全面入门指南,介绍各种本地运行DeepSeek R1方法。