日报:评测困境与 Proxy Metrics 替代方案 — 2026年2月18日
一、问题背景
今天与 Claude 讨论了此前在评测过程中遇到的一个关键困境:
在当前评测标准下,实验数据难以进行有效展示与对比。
问题的核心在于基线模型 Qwen2.5-Code-7B-Instruct 在 Verify 全集上的通过率仅为 1.6%。在这种前提下,如果仅评测 Verify 50 子集,从统计学角度来看,出现 0 个通过结果是完全符合预期的。
即使经过微调(例如使用 Random 500 或 TopQ 500),其理论期望值也仅为 1.5–2 个,通过率的置信区间高度重叠。因此:
- 很难观察到具有统计显著性的差异
- 若运行完整 Verify 50 集合,评测成本又不可控
这导致当前评测体系在小样本条件下缺乏区分能力。
二、替代方案:Proxy Metrics
针对上述问题,Claude 提出了采用代理指标(Proxy Metrics)的补救方案。
核心思路:
- 不再进行端到端的 SWE-bench 评测
- 改用 Held-out Trajectory Perplexity Loss 作为评估指标
- 无需 Scaffold,也不依赖完整的 SWE-bench 评测流程
- 单卡 A100 数小时内即可完成评估
该方案显著降低了评测成本,同时在统计层面具有更稳定的可比性。
三、当前进展
- 已完成基础评估代码生成
- 方案具备可行性
- 后续将继续推进落地与验证