Public
Star 历史趋势
数据来源: GitHub API · 生成自 Stargazers.cn
README.md
Codex 降智测试
用本地 Codex CLI 批量测试一道糖果数学题,并统计 reasoning tokens 与正确率。

用法
该脚本无任何第三方依赖,只需要您已安装并登录 Codex CLI
python codex_candy_eval.py -m gpt-5.5 -r high -n 5一键运行
以下任选其一
wget -qO- "https://raw.githubusercontent.com/haowang02/codex-candy-eval/main/codex_candy_eval.py" | python3 - -m gpt-5.5 -r high -n 5curl -fsSL "https://raw.githubusercontent.com/haowang02/codex-candy-eval/main/codex_candy_eval.py" | python3 - -m gpt-5.5 -r high -n 5参数:
-m, --model:codex 模型名,省略则用本地默认-r, --reasoning-effort:low/medium/high/xhigh(默认medium)-n, --tests:测试次数(默认 1)
正确答案为 21,脚本直接判断回答中是否出现独立的 21。
致谢
- LINUX DO - 新的理想型社区