在 Codex 中用 gpt-image-2 画图:从配置到出图的完整教程
前言 Codex CLI 是 OpenAI 官方的命令行 AI 助手。你可能习惯用它写代码、改 bug,但你知道它还能直接帮你画图吗? 借助 BenszAP...
BenszConan
管理员
文章目录 ⌄
前言
Codex CLI 是 OpenAI 官方的命令行 AI 助手。你可能习惯用它写代码、改 bug,但你知道它还能直接帮你画图吗?
借助 BenszAPI 的 gpt-image-2 图片生成能力和 auto-draw-plot skill,你可以用自然语言描述需求,在 Codex 里一键出图。本文将手把手带你完成从配置到出图的全流程。
整体架构
先理解请求是怎么流转的:
你用自然语言描述需求(如"帮我画一只猫")
│
▼
Codex CLI 调用 auto-draw-plot skill
│
▼
skill 自动优化 prompt → 调用 BenszAPI 的 gpt-image-2
│
▼
AI 评估图片质量 → 不满意则优化 prompt 重新出图
│
▼
交付最终 PNG
你只需要用自然语言说出需求,skill 会自动完成 prompt 优化、出图、评估和迭代的完整闭环。
步骤一:选择套餐并获取 API Key
1 选择支持画图的套餐
BenszAPI 提供多个订阅套餐,画图功能(gpt-image-2)需要使用支持图片生成的套餐。以下是当前各套餐的画图能力对照:
| 套餐 | 生图能力 | 说明 |
|---|---|---|
| G-Standard | ❌ 不支持 | 基础文本套餐,不支持图片生成 |
| G-Premium | ✅ 支持 | 文本 + 图片,适合日常科研写作 + 偶尔生图 |
| G-Ultra | ✅ 支持 | 文本 + 图片,额度更充裕 |
| G-Max | ✅ 支持 | 文本 + 图片,个人使用基本用不完 |
💡 最低要求:需要至少 G-Premium 套餐才能使用画图功能。G-Standard 套餐只能进行文本对话,不能生成图片。
每个支持画图的套餐都包含两个分组:文本分组处理普通对话,图片分组处理画图请求。你的 API Key 会自动路由到正确的分组,无需手动切换。
2 注册并购买套餐
- 前往 BenszAPI 官网,注册账号
- 在定价页面选择一个支持画图的套餐(G-Premium 或以上)
- 完成支付后,套餐立即生效
3 创建 API Key
- 登录后进入 API 密钥管理 页面
- 点击 创建新密钥
- 复制生成的 API Key(形如
sk-...的字符串)
⚠️ API Key 只在创建时显示一次,请妥善保存。不要分享给他人。
4 验证画图能力
购买套餐后,你的 API Key 会自动绑定对应的图片分组。如果你在画图时收到权限错误,请检查:
- 是否购买的是 G-Premium 或以上套餐
- API Key 是否已正确创建并关联到你的订阅
- 如果仍有问题,请联系管理员
步骤二:配置 Codex CLI
1 安装 Codex CLI
如果还没安装 Codex CLI:
npm install -g @openai/codex
2 配置 BenszAPI 作为 Provider
打开 ~/.codex/config.toml,添加以下配置:
[provider]
name = "BenszAPI"
base_url = "https://api.benszresearch.com/v1"
3 配置 API 密钥
打开 ~/.codex/auth.json,填入你的 BenszAPI 密钥:
{
"OPENAI_API_KEY": "你的BenszAPI密钥"
}
💡 这里的密钥是 BenszAPI 站点生成的 API Key,不是 OpenAI 官方的 Key。
4 验证配置
在终端启动 Codex,发送一条简单消息确认能正常对话:
codex
输入 "你好,请介绍一下你自己",如果收到正常回复,说明配置成功。
步骤三:使用 auto-draw-plot skill 画图
配置完成后,就可以用 auto-draw-plot skill 画图了。它是专为 Codex CLI 设计的画图工具,会自动完成 prompt 优化、出图、视觉评估和多轮迭代。
1 什么是 auto-draw-plot
auto-draw-plot 的工作流程是全自动的:
你描述需求 → AI 理解并拆解 → 生成高质量 prompt
→ 调用 gpt-image-2 出图 → AI 视觉评估 → 不满意则优化 prompt 再出图
→ 重复直到满意或达到最大轮数 → 交付最终 PNG
默认最多迭代 3 轮,每轮都会自动评估图片质量。所有中间文件保存在 .draw-plot/ 隐藏目录中,不会污染你的项目。
2 三种绘图模式
| 模式 | 用途 | 特点 |
|---|---|---|
general |
通用绘图 | 默认模式,适合信息图、概念图、封面图 |
roadmap |
技术路线图 | 3-5 阶段、箭头连接、白底 A4 可打印 |
schematic |
原理图/机制图 | 分组大框、模块关系、学术蓝灰色调 |
3 使用示例
在 Codex 里直接输入以下格式的指令即可触发 skill:
通用绘图(默认模式):
请使用 auto-draw-plot skill,调用 gpt-image-2 模型生成一张展示图。
需求:展示上下游信号链,6 个节点,用箭头连接,突出关键蛋白。
约束:白底,16:9,PNG,文字清晰。
技术路线图:
请使用 auto-draw-plot skill,调用 gpt-image-2 模型生成技术路线图。
模式:roadmap
需求:把这段研究内容整理成 3-5 个阶段,突出主链、风险控制和备选方案。
原理图/机制图:
请使用 auto-draw-plot skill,调用 gpt-image-2 模型生成机制图。
模式:schematic
需求:展示输入层、模型处理层、验证层和输出层之间的关系。
4 写出好需求的小技巧
描述越具体,出图效果越好。以下要素可以帮助你获得更好的结果:
- 主体:画什么?(一只猫、一个产品、一个场景)
- 风格:什么视觉风格?(产品摄影、水彩画、扁平矢量、写实)
- 构图:什么角度和布局?(正面、俯视、16:9、居中)
- 色调:什么色彩倾向?(暖色调、冷色调、低饱和度、白底)
- 文字:图中是否需要中文或英文文字?(需注明内容)
5 各模式的输出规范
general 模式:
- 画布:1600 × 900 px
- 要求:主体清晰、构图稳定、色彩有层级
- 禁止:水印、Logo、签名、乱码
roadmap 模式:
- 画布:2400 × 2263 px(A4 比例)
- 要求:3-5 个阶段分区、阶段标题条清晰、主链粗实线箭头
- 风格:白底、学术蓝灰、低饱和高对比、适合打印
- 禁止:3D 效果、照片风、背景纹理
schematic 模式:
- 画布:3200 × 2000 px
- 要求:分组大框 + 圆角节点、主链粗箭头 + 辅助细箭头
- 风格:白底、学术蓝灰、关键术语忠实保留
- 禁止:文字扭曲/弯曲/透视/手写体
6 模型自动选择
auto-draw-plot 会自动检测可用的图片模型:
| 优先级 | 模型 | 触发条件 |
|---|---|---|
| 1 | gpt-image-2 |
Codex 配置中 BenszAPI base URL 为 *.benszresearch.com |
| 2 | Nano Banana / Gemini | 作为回退,需要额外配置 Gemini 环境变量 |
正常使用 BenszAPI 配置的 Codex 会自动走 gpt-image-2 路径,无需手动干预。
7 适用的图片尺寸
gpt-image-2 支持灵活的尺寸设置:
| 常用预设 | 尺寸 | 适合场景 |
|---|---|---|
| 正方形 | 1024x1024 |
头像、图标、社交媒体 |
| 横屏 16:9 | 1536x864 |
封面图、Banner、PPT 插图 |
| 竖屏 9:16 | 864x1536 |
手机壁纸、海报 |
| 自定义 | 长边 ≤ 3840px,且为 16px 倍数 | 特殊比例需求 |
自定义尺寸的规则:
- 宽高均为正整数,且是
16px的倍数 - 长边不超过短边的 3 倍
- 总像素在 655,360 到 8,294,400 之间
步骤四:通过 API 直接调用(开发者模式)
如果你是开发者,想在自己的应用中集成图片生成能力,可以直接调用 BenszAPI 的 OpenAI 兼容 Images API。
1 生成图片
curl "https://api.benszresearch.com/v1/images/generations" \
-H "Authorization: Bearer 你的BenszAPI密钥" \
-H "Content-Type: application/json" \
-d '{"model":"gpt-image-2","prompt":"A clean product photo of a red ceramic mug","size":"1024x1024","quality":"auto","response_format":"b64_json"}'
2 用 Python 调用并保存图片
import base64
import requests
API_BASE = "https://api.benszresearch.com/v1"
API_KEY = "你的BenszAPI密钥"
resp = requests.post(
f"{API_BASE}/images/generations",
headers={"Authorization": f"Bearer {API_KEY}"},
json={
"model": "gpt-image-2",
"prompt": "A cozy reading corner with warm light",
"size": "1024x1024",
"response_format": "b64_json",
},
timeout=180,
)
resp.raise_for_status()
data = resp.json()["data"][0]["b64_json"]
with open("output.png", "wb") as f:
f.write(base64.b64decode(data))
print("图片已保存为 output.png")
3 API 请求参数说明
| 参数 | 说明 | 推荐值 |
|---|---|---|
model |
图片生成模型 | gpt-image-2 |
prompt |
图片描述 | 越具体越好 |
size |
图片尺寸 | 1024x1024 或 auto |
quality |
生成质量 | auto / medium / high |
response_format |
返回格式 | b64_json(Base64 编码) |
常见问题
Q:为什么 Codex 说它不能画图?
A:请按顺序检查:
- 套餐是否支持画图:G-Standard 套餐不支持图片生成,需要升级到 G-Premium 或以上
- Codex 配置是否正确:
~/.codex/config.toml中base_url是否指向https://api.benszresearch.com/v1 - API Key 是否有效:
~/.codex/auth.json中的 API Key 是否正确且未过期
Q:图片生成会额外扣费吗?
A:图片生成按 BenszAPI 站点的正常计费规则执行。gpt-image-2 的 token 消耗与文本模型不同,具体费率请参考站点定价页面。
Q:gpt-image-2 和 DALL·E 3 有什么区别?
A:gpt-image-2 是 OpenAI 最新的图片生成模型,比 DALL·E 3 有更好的指令遵从度、更精准的文字渲染和更灵活的尺寸支持。它通过 Responses API 的 image_generation 工具调用。
Q:auto-draw-plot 生成的图不满意怎么办?
A:skill 默认会自动迭代 3 轮优化。如果仍不满意,可以:
- 在需求中添加更具体的约束(如"文字必须水平"、"禁止 3D 效果")
- 指定
mode: schematic或mode: roadmap获得更结构化的输出 - 增加迭代轮数(告诉 AI
max_rounds: 5)
Q:图片中的中文文字不清晰怎么办?
A:在描述中明确要求"所有中文文字必须水平、清晰、完整,禁止旋转或倾斜"。auto-draw-plot 的 roadmap 和 schematic 模式已内置了中文文字清晰度的约束。
总结
| 场景 | 推荐方式 |
|---|---|
| Codex 里画图 | 使用 auto-draw-plot skill,指定 general/roadmap/schematic 模式 |
| 自己的应用集成 | 调用 BenszAPI Images API |
前提:至少购买 G-Premium 套餐才能使用画图功能。
三步走:选择支持画图的套餐 → 配置 Codex → 用 auto-draw-plot skill 画图。就是这么简单。
本文由 Bensz 发布于 Vibe 频道。如有问题,欢迎在评论区交流。
评论区
0 条评论