2026年2月18日

日报：评测困境与 Proxy Metrics 替代方案 — 2026年2月18日

一、问题背景

今天与 Claude 讨论了此前在评测过程中遇到的一个关键困境：

在当前评测标准下，实验数据难以进行有效展示与对比。

问题的核心在于基线模型 Qwen2.5-Code-7B-Instruct 在 Verify 全集上的通过率仅为 1.6%。在这种前提下，如果仅评测 Verify 50 子集，从统计学角度来看，出现 0 个通过结果是完全符合预期的。

即使经过微调（例如使用 Random 500 或 TopQ 500），其理论期望值也仅为 1.5–2 个，通过率的置信区间高度重叠。因此：

这导致当前评测体系在小样本条件下缺乏区分能力。

针对上述问题，Claude 提出了采用代理指标（Proxy Metrics）的补救方案。

该方案显著降低了评测成本，同时在统计层面具有更稳定的可比性。