Star 历史趋势
数据来源: GitHub API · 生成自 Stargazers.cn
README.md

Image to Editable PPT Skill

English GitHub stars GitHub forks

Image to Editable PPT 项目概览

一个面向 Codex 的图片、PDF、图片版PPT 转可编辑 PowerPoint 的 skill。它先把输入归一化为逐页任务,再由 page subagent 重建为 .pptx:可读文字尽量恢复为原生文本框,简单几何尽量恢复为 PowerPoint 形状,复杂视觉元素保留为带来源记录的独立图片资产。

它适合把截图式或图片式幻灯片变成更容易二次编辑的 PPT,让文字、简单形状和视觉素材尽量分开调整。

[!WARNING] 目前该skill 采用了多智能体协作复原流程,有着复杂的流程控制,不是轻量转换器。AI 会执行“重建 → 自我验证 → 自我修复”的循环,并可能进行多轮迭代,直到它认为结果足够接近原图。在这个过程中,page subagent 可能会对每一页做很多轮尝试,因此整体上比较费 token。

推荐 ChatGPT Pro 用户使用;Plus 用户请谨慎使用。

复原一个 10 页 PPT 有可能消耗完你的 5 小时额度。单页PPT复原时间可能在10min以上,强烈建议先拿其中一页试效果,不要一上来就转换全部页的PPT。

如果没有强烈的可编辑需求,请不要使用这个 skill。

更轻量的做法是直接使用 gpt-image-2 的图像编辑能力:把你不满意的那一页 PPT 图片发给它,让它针对性修改,并返回修改后的图片。

[!TIP] 本 skill 不负责从文章、报告、大纲或想法直接生成全新 PPT。如果你要做的是“生成一份 PPT”,可以使用 codex-ppt-skill

关于 codex-pptimage-to-editable-ppt 这两个技能的详细介绍,参见 skill_duo_intro.pdf。该 PPT 由 codex-ppt skill 生成,提示词为:“请分别阅读 Codex PPT和 Image to Editable PPT 这两个技能的内容,然后用 Codex PPT 帮我做一个PPT吧,20页,每个技能的介绍10页。”

转换效果示例

原图转换后可编辑效果
市场概览原图市场概览转换后可编辑效果
项目进展汇报原图项目进展汇报转换后可编辑效果
肾癌 MDT 信息图原图肾癌 MDT 信息图转换后可编辑效果

特点

  • 适用场景广泛,支持多种输入:单张图片、多张图片、多页 PDF、图片版PPT 到可编辑 .pptx
  • 采用多 agent 架构:Codex sub agent 并行重建每一个页面,加快多页任务的重建速度;主 agent 负责分派、质量检查、修复调度和最终组装。
  • 全面复用 Codex 现有特性,包括 sub agent 和 $imagegen;采用纯视觉重建方案,无需第三方 OCR 或版面分析服务依赖。
  • 多张图片按提供顺序生成页面;PDF 和 .pptx 保留原页码顺序。
  • .pptx 输入的页面备注会复制到输出对应页,备注内容不改动。
  • 根据具体页面情况决定是否通过 $imagegen / gpt-image-2 做图片分层抽取;需要时用稀疏 asset sheet 合并前景素材,尽可能降低 gpt-image-2 调用次数。
  • 支持复杂视觉页的混合策略:可编辑文字 + 简单形状 + 独立图片资产。

输入与输出契约

输出始终是 PowerPoint .pptx

输入输出
1 张图片1 页 .pptx
多张图片多页 .pptx,每张图片 1 页,按提供顺序排列
多页 PDF多页 .pptx,PDF 第 N 页对应输出第 N 页
图片版PPT页数一致的 .pptx,原第 N 页对应输出第 N 页

只有 .pptx 输入会处理页面备注。备注由主 agent 按页原样复制到输出 PPTX:不翻译、不摘要、不改写,也不交给 page subagent 处理。

适用场景

  • 把一张或多张 slide 图片重建成可调整文字和元素位置的 PPT。
  • 把多张图片或多页 PDF 转成一个多页 .pptx
  • 把图片版PPT页面转换为更容易二次编辑的 .pptx,并保留原页面备注。
  • 复刻单页视觉设计,同时保留文本可编辑性。
  • 对比源图与输出页面,定位缺字、错位或资产缺失。

运行要求

  • Codex 需要能分派 page subagent;如果不能创建 page subagent,skill 会停止并报告 blocker。
  • 复杂背景修复、图标重绘、透明 asset sheet 和局部修复依赖 $imagegen / built-in image_gen

已知问题

  • 本 skill 针对 Codex 进行深度适配,目前不支持其他 agent
  • 本 skill 在 Codex 的会员体系(Plus / Max)下测试正常,第三方 API 接入方式的兼容性未测试
  • 本 skill有着相对复杂的流程控制,Token花费比较高。将一个图片PPT转换成可编辑PPT的成本,可能是生成图片PPT成本的2-3倍
  • 受限于模型基础理解能力和对 skill 的遵循能力,不保证 gpt-5.5 以下模型的使用效果
  • 部分图片元素和文字位置可能会有轻微偏移,不能保证 100% 复刻原始页面

安装

推荐使用 skills CLI 安装到 Codex 的全局 skills 目录:

npx -y skills@latest add ningzimu/image-to-editable-ppt-skill \ --skill image-to-editable-ppt \ --agent codex \ --global

也可以直接在 Codex 对话里输入:

$skill-installer https://github.com/ningzimu/image-to-editable-ppt-skill

也可以从 GitHub Releases 下载 image-to-editable-ppt-skill-v*.zip,解压后把其中的 image-to-editable-ppt 文件夹放到 ~/.codex/skills/image-to-editable-ppt

安装完成后,重启 Codex 让新 skill 生效。

使用方式

在 Codex 里可以用 $image-to-editable-ppt 显式选中这个技能。图片、PDF 和 .pptx 可以直接粘贴或附加到对话框,也可以提供本地路径:

$image-to-editable-ppt 把这张图片转成可编辑 PPT。 $image-to-editable-ppt 把这些图片转成一个可编辑 PPT。 $image-to-editable-ppt 把 /path/to/deck.pdf 转成可编辑 PPT。 $image-to-editable-ppt 把 /path/to/image-based.pptx 转成可编辑 PPT。

skill 通常会完成这些步骤:

  1. 创建独立任务目录,并把输入归一化为 pages/page_NNN/source.png
  2. 每一页都分配给 page subagent,包括单页输入;多页输入按 max_concurrent_pages 分批分派。
  3. 每页创建 manifest,重建可编辑文本、简单形状和图片资产。
  4. 用状态脚本记录 dispatch、page result、repair 和 accepted 状态。
  5. 主 agent 组装最终 .pptx,复制 .pptx 页面备注,并运行 deck validation。

输出结构

每次转换必须使用一个独立输出目录,所有中间文件和最终结果都保存在其中:

output/image-to-editable-ppt/{job-id}/ # 单次转换任务目录 ├── input/ # 原始输入文件副本 ├── deck_manifest.json # 整个 deck 的页面清单和输出配置 ├── page_jobs.json # 每页分派、修复和完成状态 ├── run_state.json # 当前任务的整体运行状态 ├── notes_manifest.json # PPTX 页面备注提取与映射记录 ├── final/ # 最终输出目录 │ ├── {origin}_edited.pptx # 最终可编辑 PPTX │ ├── validation.json # 最终 deck 校验结果 │ └── run_summary.json # 本次转换摘要 └── pages/ # 按页拆分的重建工作区 ├── page_001/ # 第 1 页工作目录 │ ├── source.png # 归一化后的页面源图 │ ├── page_request.json # 分派给 page subagent 的页面请求 │ ├── imagegen-jobs.json # 本页 imagegen 调用和结果记录 │ ├── assets/ # 本页拆出的独立图片资产 │ ├── page.pptx # 本页单页 PPTX │ ├── preview.png # 本页重建预览图 │ ├── split_assets_contact.png # 本页资产切分检查图 │ ├── manifest.json # 本页文本、形状和资产描述 │ ├── validation.json # 本页校验结果 │ └── page_result.json # 本页最终结果和限制记录 └── page_002/ # 后续页面工作目录 └── ...

边界

  • 这个 skill 面向输入页面的可编辑重建,不是从零生成整套 PPT 内容。
  • 每一页都必须通过 page subagent 重建;没有可用 subagent 时不会降级为主 agent 手工重建。
  • 复杂视觉资产需要 $imagegen;如果缺少可用图片生成/编辑能力,相关页面会作为 blocker 处理。
  • 对照片、插画、纹理、手绘装饰等复杂视觉元素,通常只能作为独立图片资产移动,不能保证内部对象可编辑。
  • 对表格、图表、流程图等结构化区域,会优先保留可编辑语义,但低置信度时应保留为资产并在验证报告里说明。
  • 视觉相似不等于可编辑。最终判断应同时看 PPTX 结构、文本覆盖、资产来源和预览/diff。

仓库结构

. ├── .github/ # GitHub 工作流和仓库检查配置 ├── skills/ # Codex skill 安装包目录 │ └── image-to-editable-ppt/ # 可安装的 image-to-editable-ppt skill │ ├── SKILL.md # skill 入口说明和执行规则 │ ├── requirements.txt # 本地脚本所需的 Python 依赖 │ ├── agents/ # Codex UI 展示用的 skill 元数据 │ ├── references/ # 页面重建、状态机、QA 等参考规范 │ └── scripts/ # 输入归一化、组装、校验等辅助脚本 ├── AGENTS.md # 仓库级协作和编辑规则 ├── CHANGELOG.md # 用户可见变更记录 ├── LICENSE # 开源许可证 ├── README.md # 中文说明文档 └── README_en.md # 英文说明文档

Star History

Star History Chart

交流群

扫描二维码加入 Skill 交流群,分享使用经验、反馈问题,并获取更新通知。

Image to Editable PPT Skill 交流群二维码

许可证

MIT

关于 About

Codex skill for converting slide images, PDFs, and image-based PPTX files into editable PowerPoint decks.
codexcodex-skilleditable-pptimage-to-pptimagegenmulti-agentpdf-to-pptxpowerpointpptxpresentation

语言 Languages

Python100.0%

提交活跃度 Commit Activity

代码提交热力图
过去 52 周的开发活跃度
24
Total Commits
峰值: 13次/周
Less
More

核心贡献者 Contributors