最近 Google 的 Gemini 2.0 Flash 正式发布,已经能做到一句话改图了。
群友还发现字节去年发布的一句话改图模型 SeedEdit,也已经实装到了即梦和豆包里。
彻底实现了 P 图自由。
我们终于能做到言出法随,再也不需要 P 图大神了吗?
这两天我用 Gemini 2.0 Flash 和即梦「智能参考」、豆包的「图像生成」分别做了 10 组测试。
10 组测试的顺序都是一样的: Prompt + 原图,Gemini 2.0 Flash,即梦/豆包
最后总结一下:
Gemini 2.0 Flash 核心特点
1.对图像和指令的理解更强,在 Moss 测试、替换女生表情的测试方面,明显感觉到 Gemini 对指令的理解是更精准的。
2.图像的美学弱一些,从钢铁侠的上色能看出来,模型的绘图美学比较弱一些。
3.安全审查过于严格,连瘦脸都不行,这价值观实在太过了。
即梦/豆包 SeedEdit 核心特点
1.创造性更强,在钢铁侠、蒙娜丽莎机关枪、表情包3D化的案例中,都表现出了更强的创造力
2.局部控制能力强,比如蒙娜丽莎的姿势变化,眼球的变化,都体现出了很不错的控制力
3.有时候会画蛇添足,比如修改指令外的人物、去掉雪王的舌头,这里的进步空间还挺大
以上就是最近 Google 的 Gemini 2.0 Flash 正式发布,已经能做到一句话改图了。的详细内容,更多请关注全栈开发网其它相关文章!
上一篇:手写5种RAG高级方法