o3-mini 模型选择思路|什么时候坚决不用 o3-mini,只用 o1 满血版?
在数学、编程等STEM 任务上,o3-mini-high 超越 o1;但是,在非 STEM 任务上,mini 系列的蒸馏模型,和o1 等满血模型,是没法比的。
O1 满血版,是“文科之王”:MMLU语言理解 benchmark,o1 得分 91.8分,稳居第一;人类专家的得分是89.8%;
而 o3-mini-high的 MMLU 只有 86.9 分;在openai 的 blog 文章中,o3-mini 都是对标o1 满血版的,除了general knowledge、非 STEM 任务这块。
推测:mini系列都是蒸馏版模型;优点是相对满血版模型,价格足够便宜(o3-mini 比 gpt-4o 还要便宜一半);缺点就是蒸馏模型的语言能力都相当“差”(用过 o1 这样的文科之王,就会“曾经沧海难为水”)。
结论:STEM 任务,用 o3-mini-high;非 STEM 任务,用 o1 满血版;二者的 plus 限额都是每周 50 次,合计有 100 次/周。
以上就是o3-mini 模型选择思路|什么时候坚决不用 o3-mini,只用 o1 满血版?的详细内容,更多请关注全栈开发网其它相关文章!
上一篇:ChatGPT与人类思维的差异
下一篇:没有了