返回 Vibe
🎵 Vibe 2026-06-05 19:38

在 Codex 中用 gpt-image-2 画图:从配置到出图的完整教程

前言 Codex CLI 是 OpenAI 官方的命令行 AI 助手。你可能习惯用它写代码、改 bug,但你知道它还能直接帮你画图吗? 借助 BenszAP...

#Codex #OpenAI #Skills #Vibe Coding #画图
BenszConan 的头像

BenszConan

管理员

前言

Codex CLI 是 OpenAI 官方的命令行 AI 助手。你可能习惯用它写代码、改 bug,但你知道它还能直接帮你画图吗?

借助 BenszAPI 的 gpt-image-2 图片生成能力和 auto-draw-plot skill,你可以用自然语言描述需求,在 Codex 里一键出图。本文将手把手带你完成从配置到出图的全流程。


整体架构

先理解请求是怎么流转的:

你用自然语言描述需求(如"帮我画一只猫")
        │
        ▼
  Codex CLI 调用 auto-draw-plot skill
        │
        ▼
  skill 自动优化 prompt → 调用 BenszAPI 的 gpt-image-2
        │
        ▼
  AI 评估图片质量 → 不满意则优化 prompt 重新出图
        │
        ▼
  交付最终 PNG

你只需要用自然语言说出需求,skill 会自动完成 prompt 优化、出图、评估和迭代的完整闭环。


步骤一:选择套餐并获取 API Key

1 选择支持画图的套餐

BenszAPI 提供多个订阅套餐,画图功能(gpt-image-2)需要使用支持图片生成的套餐。以下是当前各套餐的画图能力对照:

套餐 生图能力 说明
G-Standard ❌ 不支持 基础文本套餐,不支持图片生成
G-Premium ✅ 支持 文本 + 图片,适合日常科研写作 + 偶尔生图
G-Ultra ✅ 支持 文本 + 图片,额度更充裕
G-Max ✅ 支持 文本 + 图片,个人使用基本用不完

💡 最低要求:需要至少 G-Premium 套餐才能使用画图功能。G-Standard 套餐只能进行文本对话,不能生成图片。

每个支持画图的套餐都包含两个分组:文本分组处理普通对话,图片分组处理画图请求。你的 API Key 会自动路由到正确的分组,无需手动切换。

2 注册并购买套餐

  1. 前往 BenszAPI 官网,注册账号
  2. 在定价页面选择一个支持画图的套餐(G-Premium 或以上)
  3. 完成支付后,套餐立即生效

3 创建 API Key

  1. 登录后进入 API 密钥管理 页面
  2. 点击 创建新密钥
  3. 复制生成的 API Key(形如 sk-... 的字符串)

⚠️ API Key 只在创建时显示一次,请妥善保存。不要分享给他人。

4 验证画图能力

购买套餐后,你的 API Key 会自动绑定对应的图片分组。如果你在画图时收到权限错误,请检查:

  • 是否购买的是 G-Premium 或以上套餐
  • API Key 是否已正确创建并关联到你的订阅
  • 如果仍有问题,请联系管理员

步骤二:配置 Codex CLI

1 安装 Codex CLI

如果还没安装 Codex CLI:

npm install -g @openai/codex

2 配置 BenszAPI 作为 Provider

打开 ~/.codex/config.toml,添加以下配置:

[provider]
name = "BenszAPI"
base_url = "https://api.benszresearch.com/v1"

3 配置 API 密钥

打开 ~/.codex/auth.json,填入你的 BenszAPI 密钥:

{
  "OPENAI_API_KEY": "你的BenszAPI密钥"
}

💡 这里的密钥是 BenszAPI 站点生成的 API Key,不是 OpenAI 官方的 Key。

4 验证配置

在终端启动 Codex,发送一条简单消息确认能正常对话:

codex

输入 "你好,请介绍一下你自己",如果收到正常回复,说明配置成功。


步骤三:使用 auto-draw-plot skill 画图

配置完成后,就可以用 auto-draw-plot skill 画图了。它是专为 Codex CLI 设计的画图工具,会自动完成 prompt 优化、出图、视觉评估和多轮迭代。

1 什么是 auto-draw-plot

auto-draw-plot 的工作流程是全自动的:

你描述需求 → AI 理解并拆解 → 生成高质量 prompt
→ 调用 gpt-image-2 出图 → AI 视觉评估 → 不满意则优化 prompt 再出图
→ 重复直到满意或达到最大轮数 → 交付最终 PNG

默认最多迭代 3 轮,每轮都会自动评估图片质量。所有中间文件保存在 .draw-plot/ 隐藏目录中,不会污染你的项目。

2 三种绘图模式

模式 用途 特点
general 通用绘图 默认模式,适合信息图、概念图、封面图
roadmap 技术路线图 3-5 阶段、箭头连接、白底 A4 可打印
schematic 原理图/机制图 分组大框、模块关系、学术蓝灰色调

3 使用示例

在 Codex 里直接输入以下格式的指令即可触发 skill:

通用绘图(默认模式):

请使用 auto-draw-plot skill,调用 gpt-image-2 模型生成一张展示图。
需求:展示上下游信号链,6 个节点,用箭头连接,突出关键蛋白。
约束:白底,16:9,PNG,文字清晰。

技术路线图

请使用 auto-draw-plot skill,调用 gpt-image-2 模型生成技术路线图。
模式:roadmap
需求:把这段研究内容整理成 3-5 个阶段,突出主链、风险控制和备选方案。

原理图/机制图

请使用 auto-draw-plot skill,调用 gpt-image-2 模型生成机制图。
模式:schematic
需求:展示输入层、模型处理层、验证层和输出层之间的关系。

4 写出好需求的小技巧

描述越具体,出图效果越好。以下要素可以帮助你获得更好的结果:

  • 主体:画什么?(一只猫、一个产品、一个场景)
  • 风格:什么视觉风格?(产品摄影、水彩画、扁平矢量、写实)
  • 构图:什么角度和布局?(正面、俯视、16:9、居中)
  • 色调:什么色彩倾向?(暖色调、冷色调、低饱和度、白底)
  • 文字:图中是否需要中文或英文文字?(需注明内容)

5 各模式的输出规范

general 模式

  • 画布:1600 × 900 px
  • 要求:主体清晰、构图稳定、色彩有层级
  • 禁止:水印、Logo、签名、乱码

roadmap 模式

  • 画布:2400 × 2263 px(A4 比例)
  • 要求:3-5 个阶段分区、阶段标题条清晰、主链粗实线箭头
  • 风格:白底、学术蓝灰、低饱和高对比、适合打印
  • 禁止:3D 效果、照片风、背景纹理

schematic 模式

  • 画布:3200 × 2000 px
  • 要求:分组大框 + 圆角节点、主链粗箭头 + 辅助细箭头
  • 风格:白底、学术蓝灰、关键术语忠实保留
  • 禁止:文字扭曲/弯曲/透视/手写体

6 模型自动选择

auto-draw-plot 会自动检测可用的图片模型:

优先级 模型 触发条件
1 gpt-image-2 Codex 配置中 BenszAPI base URL 为 *.benszresearch.com
2 Nano Banana / Gemini 作为回退,需要额外配置 Gemini 环境变量

正常使用 BenszAPI 配置的 Codex 会自动走 gpt-image-2 路径,无需手动干预。

7 适用的图片尺寸

gpt-image-2 支持灵活的尺寸设置:

常用预设 尺寸 适合场景
正方形 1024x1024 头像、图标、社交媒体
横屏 16:9 1536x864 封面图、Banner、PPT 插图
竖屏 9:16 864x1536 手机壁纸、海报
自定义 长边 ≤ 3840px,且为 16px 倍数 特殊比例需求

自定义尺寸的规则:

  • 宽高均为正整数,且是 16px 的倍数
  • 长边不超过短边的 3 倍
  • 总像素在 655,360 到 8,294,400 之间

步骤四:通过 API 直接调用(开发者模式)

如果你是开发者,想在自己的应用中集成图片生成能力,可以直接调用 BenszAPI 的 OpenAI 兼容 Images API。

1 生成图片

curl "https://api.benszresearch.com/v1/images/generations" \
  -H "Authorization: Bearer 你的BenszAPI密钥" \
  -H "Content-Type: application/json" \
  -d '{"model":"gpt-image-2","prompt":"A clean product photo of a red ceramic mug","size":"1024x1024","quality":"auto","response_format":"b64_json"}'

2 用 Python 调用并保存图片

import base64
import requests

API_BASE = "https://api.benszresearch.com/v1"
API_KEY = "你的BenszAPI密钥"

resp = requests.post(
    f"{API_BASE}/images/generations",
    headers={"Authorization": f"Bearer {API_KEY}"},
    json={
        "model": "gpt-image-2",
        "prompt": "A cozy reading corner with warm light",
        "size": "1024x1024",
        "response_format": "b64_json",
    },
    timeout=180,
)
resp.raise_for_status()
data = resp.json()["data"][0]["b64_json"]
with open("output.png", "wb") as f:
    f.write(base64.b64decode(data))
print("图片已保存为 output.png")

3 API 请求参数说明

参数 说明 推荐值
model 图片生成模型 gpt-image-2
prompt 图片描述 越具体越好
size 图片尺寸 1024x1024auto
quality 生成质量 auto / medium / high
response_format 返回格式 b64_json(Base64 编码)

常见问题

Q:为什么 Codex 说它不能画图?

A:请按顺序检查:

  1. 套餐是否支持画图:G-Standard 套餐不支持图片生成,需要升级到 G-Premium 或以上
  2. Codex 配置是否正确~/.codex/config.tomlbase_url 是否指向 https://api.benszresearch.com/v1
  3. API Key 是否有效~/.codex/auth.json 中的 API Key 是否正确且未过期

Q:图片生成会额外扣费吗?

A:图片生成按 BenszAPI 站点的正常计费规则执行。gpt-image-2 的 token 消耗与文本模型不同,具体费率请参考站点定价页面。

Q:gpt-image-2 和 DALL·E 3 有什么区别?

A:gpt-image-2 是 OpenAI 最新的图片生成模型,比 DALL·E 3 有更好的指令遵从度、更精准的文字渲染和更灵活的尺寸支持。它通过 Responses API 的 image_generation 工具调用。

Q:auto-draw-plot 生成的图不满意怎么办?

A:skill 默认会自动迭代 3 轮优化。如果仍不满意,可以:

  • 在需求中添加更具体的约束(如"文字必须水平"、"禁止 3D 效果")
  • 指定 mode: schematicmode: roadmap 获得更结构化的输出
  • 增加迭代轮数(告诉 AI max_rounds: 5

Q:图片中的中文文字不清晰怎么办?

A:在描述中明确要求"所有中文文字必须水平、清晰、完整,禁止旋转或倾斜"。auto-draw-plotroadmapschematic 模式已内置了中文文字清晰度的约束。


总结

场景 推荐方式
Codex 里画图 使用 auto-draw-plot skill,指定 general/roadmap/schematic 模式
自己的应用集成 调用 BenszAPI Images API

前提:至少购买 G-Premium 套餐才能使用画图功能。

三步走:选择支持画图的套餐 → 配置 Codex → 用 auto-draw-plot skill 画图。就是这么简单。


本文由 Bensz 发布于 Vibe 频道。如有问题,欢迎在评论区交流。

同频道推荐

查看全部 →

评论区

0 条评论
游客只能浏览内容;登录后即可参与评论。
还没有评论,欢迎发表第一条看法。