Google 发文宣布,Google Gemini 2.0 Flash 引入了「原生图像生成」功能。
据官方介绍,Gemini 2.0 Flash 结合多模态输入、增强版推理以及自然语言理解来进行图像生成。
Gemini 2.0 Flash 支持文字理解并生成图像,并能够理解上下文保持角色和图像场景的一致性;同时 Gemini 2.0 Flash 还支持自然语言对话的理解,以及利用现实世界的内容和增强版推理来生成图像,Google 官方指出,这对绘制食谱等精准类的内容将会有很大帮助。
值得关注的是,Gemini 2.0 Flash 能够对长文本进行精准绘制。从官方发布的样张显示,Gemini 2.0 Flash 能够准确生成出正确的文字内容,减少生成出扭曲的「抽象」字体。
但据网友实测,目前 Gemini 2.0 Flash 对于过长的提示词文本依然没有能力处理好。Gemini 团队的研究员 Kaushik Shivakumar 也现身回复上述情况称,未来团队将会改进,目前如果需要输入较长的提示词,建议先让模型以文本形式思考,从而更好地生成图像。
Google 已将上述功能提供给 Google AI Studio 的开发者,开发者可以通过 Gemini API 进行体验测试。
以上就是Google Gemini 2.0 Flash 新增「原生图像生成」功能的详细内容,更多请关注全栈开发网其它相关文章!