Image to Editable PPT Skill

一个面向 Codex 的图片、PDF、图片版PPT 转可编辑 PowerPoint 的 skill。它先把输入归一化为逐页任务,再由 page subagent 重建为 .pptx:可读文字尽量恢复为原生文本框,简单几何尽量恢复为 PowerPoint 形状,复杂视觉元素保留为带来源记录的独立图片资产。
它适合把截图式或图片式幻灯片变成更容易二次编辑的 PPT,让文字、简单形状和视觉素材尽量分开调整。
[!WARNING] 目前该skill 采用了多智能体协作复原流程,有着复杂的流程控制,不是轻量转换器。AI 会执行“重建 → 自我验证 → 自我修复”的循环,并可能进行多轮迭代,直到它认为结果足够接近原图。在这个过程中,page subagent 可能会对每一页做很多轮尝试,因此整体上比较费 token。
推荐 ChatGPT Pro 用户使用;Plus 用户请谨慎使用。
复原一个 10 页 PPT 有可能消耗完你的 5 小时额度。单页PPT复原时间可能在10min以上,强烈建议先拿其中一页试效果,不要一上来就转换全部页的PPT。
如果没有强烈的可编辑需求,请不要使用这个 skill。
更轻量的做法是直接使用 gpt-image-2 的图像编辑能力:把你不满意的那一页 PPT 图片发给它,让它针对性修改,并返回修改后的图片。
[!TIP] 本 skill 不负责从文章、报告、大纲或想法直接生成全新 PPT。如果你要做的是“生成一份 PPT”,可以使用 codex-ppt-skill。
关于
codex-ppt和image-to-editable-ppt这两个技能的详细介绍,参见 skill_duo_intro.pdf。该 PPT 由codex-pptskill 生成,提示词为:“请分别阅读 Codex PPT和 Image to Editable PPT 这两个技能的内容,然后用 Codex PPT 帮我做一个PPT吧,20页,每个技能的介绍10页。”
转换效果示例
| 原图 | 转换后可编辑效果 |
|---|---|
![]() | ![]() |
![]() | ![]() |
![]() | ![]() |
特点
- 适用场景广泛,支持多种输入:单张图片、多张图片、多页 PDF、图片版PPT 到可编辑
.pptx。 - 采用多 agent 架构:Codex sub agent 并行重建每一个页面,加快多页任务的重建速度;主 agent 负责分派、质量检查、修复调度和最终组装。
- 全面复用 Codex 现有特性,包括 sub agent 和
$imagegen;采用纯视觉重建方案,无需第三方 OCR 或版面分析服务依赖。 - 多张图片按提供顺序生成页面;PDF 和
.pptx保留原页码顺序。 .pptx输入的页面备注会复制到输出对应页,备注内容不改动。- 根据具体页面情况决定是否通过
$imagegen/ gpt-image-2 做图片分层抽取;需要时用稀疏 asset sheet 合并前景素材,尽可能降低 gpt-image-2 调用次数。 - 支持复杂视觉页的混合策略:可编辑文字 + 简单形状 + 独立图片资产。
输入与输出契约
输出始终是 PowerPoint .pptx:
| 输入 | 输出 |
|---|---|
| 1 张图片 | 1 页 .pptx |
| 多张图片 | 多页 .pptx,每张图片 1 页,按提供顺序排列 |
| 多页 PDF | 多页 .pptx,PDF 第 N 页对应输出第 N 页 |
| 图片版PPT | 页数一致的 .pptx,原第 N 页对应输出第 N 页 |
只有 .pptx 输入会处理页面备注。备注由主 agent 按页原样复制到输出 PPTX:不翻译、不摘要、不改写,也不交给 page subagent 处理。
适用场景
- 把一张或多张 slide 图片重建成可调整文字和元素位置的 PPT。
- 把多张图片或多页 PDF 转成一个多页
.pptx。 - 把图片版PPT页面转换为更容易二次编辑的
.pptx,并保留原页面备注。 - 复刻单页视觉设计,同时保留文本可编辑性。
- 对比源图与输出页面,定位缺字、错位或资产缺失。
运行要求
- Codex 需要能分派 page subagent;如果不能创建 page subagent,skill 会停止并报告 blocker。
- 复杂背景修复、图标重绘、透明 asset sheet 和局部修复依赖
$imagegen/ built-inimage_gen。
已知问题
- 本 skill 针对 Codex 进行深度适配,目前不支持其他 agent。
- 本 skill 在 Codex 的会员体系(Plus / Max)下测试正常,第三方 API 接入方式的兼容性未测试。
- 本 skill有着相对复杂的流程控制,Token花费比较高。将一个图片PPT转换成可编辑PPT的成本,可能是生成图片PPT成本的2-3倍。
- 受限于模型基础理解能力和对 skill 的遵循能力,不保证 gpt-5.5 以下模型的使用效果。
- 部分图片元素和文字位置可能会有轻微偏移,不能保证 100% 复刻原始页面。
安装
推荐使用 skills CLI 安装到 Codex 的全局 skills 目录:
npx -y skills@latest add ningzimu/image-to-editable-ppt-skill \ --skill image-to-editable-ppt \ --agent codex \ --global
也可以直接在 Codex 对话里输入:
$skill-installer https://github.com/ningzimu/image-to-editable-ppt-skill
也可以从 GitHub Releases 下载 image-to-editable-ppt-skill-v*.zip,解压后把其中的 image-to-editable-ppt 文件夹放到 ~/.codex/skills/image-to-editable-ppt。
安装完成后,重启 Codex 让新 skill 生效。
使用方式
在 Codex 里可以用 $image-to-editable-ppt 显式选中这个技能。图片、PDF 和 .pptx 可以直接粘贴或附加到对话框,也可以提供本地路径:
$image-to-editable-ppt 把这张图片转成可编辑 PPT。 $image-to-editable-ppt 把这些图片转成一个可编辑 PPT。 $image-to-editable-ppt 把 /path/to/deck.pdf 转成可编辑 PPT。 $image-to-editable-ppt 把 /path/to/image-based.pptx 转成可编辑 PPT。
skill 通常会完成这些步骤:
- 创建独立任务目录,并把输入归一化为
pages/page_NNN/source.png。 - 每一页都分配给 page subagent,包括单页输入;多页输入按
max_concurrent_pages分批分派。 - 每页创建 manifest,重建可编辑文本、简单形状和图片资产。
- 用状态脚本记录 dispatch、page result、repair 和 accepted 状态。
- 主 agent 组装最终
.pptx,复制.pptx页面备注,并运行 deck validation。
输出结构
每次转换必须使用一个独立输出目录,所有中间文件和最终结果都保存在其中:
output/image-to-editable-ppt/{job-id}/ # 单次转换任务目录 ├── input/ # 原始输入文件副本 ├── deck_manifest.json # 整个 deck 的页面清单和输出配置 ├── page_jobs.json # 每页分派、修复和完成状态 ├── run_state.json # 当前任务的整体运行状态 ├── notes_manifest.json # PPTX 页面备注提取与映射记录 ├── final/ # 最终输出目录 │ ├── {origin}_edited.pptx # 最终可编辑 PPTX │ ├── validation.json # 最终 deck 校验结果 │ └── run_summary.json # 本次转换摘要 └── pages/ # 按页拆分的重建工作区 ├── page_001/ # 第 1 页工作目录 │ ├── source.png # 归一化后的页面源图 │ ├── page_request.json # 分派给 page subagent 的页面请求 │ ├── imagegen-jobs.json # 本页 imagegen 调用和结果记录 │ ├── assets/ # 本页拆出的独立图片资产 │ ├── page.pptx # 本页单页 PPTX │ ├── preview.png # 本页重建预览图 │ ├── split_assets_contact.png # 本页资产切分检查图 │ ├── manifest.json # 本页文本、形状和资产描述 │ ├── validation.json # 本页校验结果 │ └── page_result.json # 本页最终结果和限制记录 └── page_002/ # 后续页面工作目录 └── ...
边界
- 这个 skill 面向输入页面的可编辑重建,不是从零生成整套 PPT 内容。
- 每一页都必须通过 page subagent 重建;没有可用 subagent 时不会降级为主 agent 手工重建。
- 复杂视觉资产需要
$imagegen;如果缺少可用图片生成/编辑能力,相关页面会作为 blocker 处理。 - 对照片、插画、纹理、手绘装饰等复杂视觉元素,通常只能作为独立图片资产移动,不能保证内部对象可编辑。
- 对表格、图表、流程图等结构化区域,会优先保留可编辑语义,但低置信度时应保留为资产并在验证报告里说明。
- 视觉相似不等于可编辑。最终判断应同时看 PPTX 结构、文本覆盖、资产来源和预览/diff。
仓库结构
. ├── .github/ # GitHub 工作流和仓库检查配置 ├── skills/ # Codex skill 安装包目录 │ └── image-to-editable-ppt/ # 可安装的 image-to-editable-ppt skill │ ├── SKILL.md # skill 入口说明和执行规则 │ ├── requirements.txt # 本地脚本所需的 Python 依赖 │ ├── agents/ # Codex UI 展示用的 skill 元数据 │ ├── references/ # 页面重建、状态机、QA 等参考规范 │ └── scripts/ # 输入归一化、组装、校验等辅助脚本 ├── AGENTS.md # 仓库级协作和编辑规则 ├── CHANGELOG.md # 用户可见变更记录 ├── LICENSE # 开源许可证 ├── README.md # 中文说明文档 └── README_en.md # 英文说明文档
Star History
交流群
扫描二维码加入 Skill 交流群,分享使用经验、反馈问题,并获取更新通知。
许可证
MIT





