2026 年 4 月 21 日,OpenAI 悄悄上线了 ChatGPT Images 2.0。和第一代相比,这代几乎是重新做的——画质、理解能力、排版准确性都有质的变化。
我看到有人问:「ChatGPT 不是一直能画图吗?」是的。但 1.0 版本画的字基本是乱码,手部细节经常崩,复杂构图靠运气。2.0 把这些问题一个个修了。
我花了一周时间,用免费版和 Plus 版分别测试了大量场景。这篇文章把结果摊开给你看。
免费版 vs Plus 版:差别在哪?
| 功能 | 免费版 | Plus ($20/月) |
|---|---|---|
| 每天生成次数 | 约 10 次 | 约 50 次 |
| 图片分辨率 | 最高 1024×1024 | 最高 2048×2048 |
| DALL·E 集成 | 基础模型 | 完整模型 |
| 自定义风格 | 不支持 | 支持 |
| 商业使用权 | ✅ 有 | ✅ 有 |
最大的差异是次数。免费版一天 10 次,如果你只是偶尔玩一下,够了。频繁使用的话,Plus 的 50 次也不一定够——我有一天跑了 30 多次来测试不同 prompt。
5 个实测能用的场景
场景一:社交媒体配图
实测效果:★★★★★
给了一句话的描述:「一个穿着卫衣的程序员坐在三台显示器前,桌上放着一杯咖啡,暖色调,ins 风格」。
2.0 生成了一张细节相当到位的图——卫衣上的褶皱、显示器边缘的反光、咖啡杯的蒸汽,都处理得比以前好。最关键的是 文字显示正确了。屏幕上显示的代码虽然是瞎写的,但格式看起来像真的代码,不是之前那种乱码方块。
你可以直接拿来当博客封面图、推文配图。
场景二:PPT/文档插图
实测效果:★★★★☆
我让它生成「数据流从用户端经过 API 网关到达微服务集群」的示意图。2.0 理解了这个流程,用箭头和方框画了出来。虽然不能替代专业的架构图工具(draw.io 那种),但快速出个草案足够了。
技巧:加一句「简洁风格,白色背景,蓝色为主色调」,效果会好很多。
场景三:产品概念图
实测效果:★★★★☆
写了一个智能水杯的产品概念描述。2.0 生成的图已经接近渲染图水平——光影、材质质感都很到位。创业团队做 MVP 演示、投资人 Pitch Deck 都能用。
场景四:学习笔记配图
实测效果:★★★★★
学机器学习的时候,让 ChatGPT 用图解方式画「决策树分裂过程」。2.0 画出了一棵带分支和数据的树状图。虽然不是 100% 精确,但比干看文字理解快多了。
场景五:头像和 Logo 灵感
实测效果:★★★☆☆
试了 5 次才跑出一个能用的 Logo。2.0 在文字排版上进步巨大(终于不乱码了),但 Logo 设计的创意性一般,出来的东西偏保守。适合找灵感,不适合直接当最终方案。
翻车案例:这 4 个坑我帮你踩过了
坑 1:中文文字还是偶尔抽风
虽然说了进步巨大,但不是每次都行。我让它生成一张带有「生日快乐」字样的贺卡图,10 次里有 2 次中文字是错的——偏旁写对了但字不对。
对策:生成后记得检查文字部分。如果不对,重新跑一次,大概率就对了。
坑 2:人物面部一致性差
同一个角色的正面和侧面,看起来像两个人。如果你需要多张图用同一个角色(比如漫画),2.0 还做不到。
对策:目前无解。做连贯插画还是得用 Midjourney + 参考图。
坑 3:复杂构图容易崩
3 个以上的人物互动场景,2.0 容易搞混谁是谁。比如「两个人在下棋,第三个人在旁边看」,有时候多出来一只手或棋子位置错乱。
对策:场景越简单出图越稳。把人控制在 2 个以内。
坑 4:Prompt 太长反而变差
超过 200 个词的 prompt,2.0 可能忽略后半段的内容。优先把最重要的描述放在前面。
好的 prompt:「一只橘猫坐在窗台上,下午阳光照进来,暖色调」
差的 prompt:「一只橘猫坐在窗台上……(后面写了 300 字窗帘材质、窗框形状、远处建筑风格)」——最后出来的图可能没窗帘。
怎么开始?
直接在 ChatGPT 对话框里输入「画一张……」,或者上传参考图让 ChatGPT 基于它生成变体。
免费用户去 chat.openai.com 直接开玩,注意每天 10 次的配额就行。如果你有 ChatGPT Plus,直接用高级模型效果更好。
生成好图之后,可以搭配 img 转 base64 工具 直接把图片转成 Base64 格式,方便嵌入 HTML 或 Markdown 中使用,不用额外上传图床。