日报:评测困境与 Proxy Metrics 替代方案 — 2026年2月18日


一、问题背景

今天与 Claude 讨论了此前在评测过程中遇到的一个关键困境:

在当前评测标准下,实验数据难以进行有效展示与对比。

问题的核心在于基线模型 Qwen2.5-Code-7B-Instruct 在 Verify 全集上的通过率仅为 1.6%。在这种前提下,如果仅评测 Verify 50 子集,从统计学角度来看,出现 0 个通过结果是完全符合预期的。

即使经过微调(例如使用 Random 500 或 TopQ 500),其理论期望值也仅为 1.5–2 个,通过率的置信区间高度重叠。因此:

  • 很难观察到具有统计显著性的差异
  • 若运行完整 Verify 50 集合,评测成本又不可控

这导致当前评测体系在小样本条件下缺乏区分能力。


二、替代方案:Proxy Metrics

针对上述问题,Claude 提出了采用代理指标(Proxy Metrics)的补救方案。

核心思路:

  1. 不再进行端到端的 SWE-bench 评测
  2. 改用 Held-out Trajectory Perplexity Loss 作为评估指标
  3. 无需 Scaffold,也不依赖完整的 SWE-bench 评测流程
  4. 单卡 A100 数小时内即可完成评估

该方案显著降低了评测成本,同时在统计层面具有更稳定的可比性。


三、当前进展

  • 已完成基础评估代码生成
  • 方案具备可行性
  • 后续将继续推进落地与验证