Star 历史趋势
数据来源: GitHub API · 生成自 Stargazers.cn
README.md

Codex 降智测试

用本地 Codex CLI 批量测试一道糖果数学题,并统计 reasoning tokens 与正确率。

example

用法

该脚本无任何第三方依赖,只需要您已安装并登录 Codex CLI

python codex_candy_eval.py -m gpt-5.5 -r high -n 5

一键运行

以下任选其一

wget -qO- "https://raw.githubusercontent.com/haowang02/codex-candy-eval/main/codex_candy_eval.py" | python3 - -m gpt-5.5 -r high -n 5
curl -fsSL "https://raw.githubusercontent.com/haowang02/codex-candy-eval/main/codex_candy_eval.py" | python3 - -m gpt-5.5 -r high -n 5

参数:

  • -m, --model:codex 模型名,省略则用本地默认
  • -r, --reasoning-effortlow/medium/high/xhigh(默认 medium
  • -n, --tests:测试次数(默认 1)

正确答案为 21,脚本直接判断回答中是否出现独立的 21

致谢

关于 About

Codex 降智测试

语言 Languages

Python100.0%

提交活跃度 Commit Activity

代码提交热力图
过去 52 周的开发活跃度
17
Total Commits
峰值: 13次/周
Less
More

核心贡献者 Contributors