DeepSeek 团队分享了针对 DeepSeek-R1 部署的最佳设置,包含了推荐的温度设置、系统提示建议,以及相关的官方文档链接。
官方的 DeepSeek 部署使用的是与开源版本相同的模型——享受完整的 DeepSeek-R1 体验。
无需系统提示词(不需要设置额外的提示语来启动模型)
将温度设置为 0.6(温度通常用于控制模型生成回答时的随机性,较低的温度会使回答更稳定)
添加了文件上传和网页搜索的功能
发布了如何避免模型绕过思维的指南。
文件上传功能:新增了一种模板,用于支持文件上传。这种模板允许用户上传文件并通过指定的格式与模型进行交互。
模板如下:
python复制编辑file_template = """[file name]: {file_name}
[file content begin]
{file_content}
[file content end]
{question}"""
其中,`{file_name}`、`{file_content}` 和 `{question}` 是动态参数。
参数说明:
{file_name}:文件的名称
{file_content}:文件的具体内容
{question}:用户提出的问题
例如,用户上传一个名为“报告.docx”的文件,并问“这份报告的总结是什么?”系统会根据文件内容给出回答。
2.网页搜索功能:为Web搜索添加了一个专门的模板,支持中文和英文的查询。模板通过返回与用户查询相关的搜索结果,并允许用户引用上下文信息来生成更准确的回答。
对于中文查询,使用如下模板:
python复制编辑search_answer_zh_template = '''# 以下内容是基于用户发送的消息的搜索结果:
{search_results}
在我给你的搜索结果中,每个结果都是[webpage X begin]...[webpage X end]格式的,X代表每篇文章的数字索引。请在适当的情况下在句子末尾引用上下文。请按照引用编号[citation:X]的格式在答案中对应部分引用上下文。如果一句话源自多个上下文,请列出所有相关的引用编号,例如[citation:3][citation:5],切记不要将引用集中在最后返回引用编号,而是在答案对应部分列出。
'''
参数说明:
{search_results}:搜索到的相关网页内容
[webpage X begin]...[webpage X end]:搜索结果的标识,每篇文章都有一个编号
[citation:X]:引用编号,确保用户的回答与搜索结果相对应
这个模板可以帮助系统从多个网页结果中提取信息,并按引用的格式组织回答,确保答案的准确性和可追溯性。
英文网页搜索模板
以下是用于英文网页搜索的模板,帮助DeepSeek-R1根据英文查询从Web中搜索相关内容并生成回答。这个模板会返回多个搜索结果,并通过引用的方式,确保回答与搜索结果相关联。
python复制编辑search_answer_en_template = '''# The following is the search result based on the user's query:
{search_results}
In the search results I provided, each result is in the format of [webpage X begin]...[webpage X end], where X represents the index of each article. Please cite the context at the end of the sentence where applicable. Refer to the context by using citation format [citation:X]. If a statement is derived from multiple contexts, list all relevant citation numbers, such as [citation:3][citation:5]. Please avoid placing the citation at the end of the answer; instead, list them in the relevant sections of the answer.
'''
{search_results}:从Web搜索得到的相关内容。
[webpage X begin]...[webpage X end]:每篇文章的开始和结束标识,X代表文章的索引编号。
[citation:X]:用于标识引用的编号,确保答案与搜索的内容相关联。
搜索结果:系统通过Web搜索引擎返回与用户查询相关的结果,这些结果是文章的片段。
引用格式:在回答中引用这些搜索结果,以便于用户清楚地知道某个信息来源于哪个具体的网页。这种引用方式能够让系统生成的回答更加准确和可追溯。
假设用户询问:“What is the latest trend in artificial intelligence in healthcare?”
DeepSeek-R1会通过Web搜索返回多个相关的文章片段,然后根据这些片段生成回答,并按照引用格式标明出处,例如:
Answer: The latest trend in AI in healthcare is the use of deep learning for early disease detection, especially in fields like radiology and genomics. [citation:1][citation:3]
这种方式确保了生成的回答是基于最新的、可信的网页内容,并且对每个引用结果都进行了明确标注。
GitHub:https://github.com/deepseek-ai/DeepSeek-R1/pull/399/files
1. 增强提示语指导:
数学问题提示:
提交中加入了一个关于提示语使用的新建议,特别是针对数学问题的处理。推荐用户在给出问题时加上指令:“请逐步推理,并将最终答案放入 \boxed{} 中”。
目的:这个建议旨在帮助模型更好地理解问题,避免直接给出答案而忽略推理过程,从而提高输出的逻辑性和结构性。这一做法特别适用于数学类问题,可以确保模型在解答时充分展示推理步骤,并且将最终的答案以 \boxed{} 格式包裹起来,符合数学推导的标准表达方式。
2. 思维模式问题的解决:
问题描述:
提交中还讨论了一个模型输出中的问题:当DeepSeek-R1系列模型处理某些查询时,它们会跳过正常的思维过程,即跳过生成 \<think\> 标签的步骤。\<think\> 标签的作用是表明模型在回答之前进行的推理过程。这会导致模型直接给出答案,而不展示如何得出这个答案的推理过程。
解决方案:
提交中提到,为了确保模型的推理过程不被跳过,强烈建议在每次模型输出开始时加上 \<think\> 标签。这将强制模型展示其推理步骤,使得用户能清晰地看到模型是如何逐步得出结论的。
这个改进有助于避免模型直接给出结果,特别是在处理复杂问题时,确保所有的步骤和推理都有条理并且符合逻辑,提升了模型的透明度和用户的信任度。
3. 许可证信息的强调:
提交明确指出,DeepSeek-R1 仓库和相关模型权重采用了 MIT 许可证。
MIT 许可证允许用户:
商业使用:可以将该项目用于任何商业目的。
修改:可以对项目代码进行修改,并根据需要进行自定义调整。
分发:可以自由地分发修改后的版本。
模型蒸馏:用户可以使用该模型权重进行蒸馏训练,用于训练其他大型语言模型(LLM)。
这一声明确保了该项目在开源和商业化方面的开放性,鼓励用户根据自己的需求自由使用和修改模型。
4. 用户反馈与改进:
有用户反馈称,即使按照提交建议修改了模型的设置,仍然遇到了一些问题:
多语言处理问题:第三方模型(例如together.ai和hyperbolic.xyz)仍然存在问题,这些模型在接收到中文查询时,可能会返回英文答案,或者忽略用户的指令,自动开始解答数学问题或LeetCode问题。
反馈问题:用户表示,即使修改了提示语格式和指令,依旧无法解决这些问题。
用户进一步寻求对DeepSeek-R1模型的超参数调整的帮助,尤其是如何优化模型以处理不同语言输入时的准确性和指令执行的可靠性。
改进建议:在反馈中,用户提到希望能够有更多的超参数选项来微调模型的行为,尤其是在处理多语言查询和不同类型问题时的响应质量。
GitHub:https://github.com/deepseek-ai/DeepSeek-R1/commit/7ca5e1e7f75e12a1c561fffaa6aa686708f881ae
以上就是DeepSeek 团队分享了针对 DeepSeek-R1 部署的最佳设置,以及如何避免模型绕过思维的指南的详细内容,更多请关注全栈开发网其它相关文章!