日报:从实验结果反推评分体系缺陷 — 重构 Agent 轨迹质量评估框架 — 2026年2月24日
今日背景
今天的核心工作是复盘第一轮实验结果,并据此重构评分体系。前期我们在 Qwen2.5-Coder-7B-Instruct 上完成了 11 组 LoRA 微调实验(覆盖 Random/TopQ/ShortHQ/SuccessOnly/Ablation 等策略),困惑度评测结果已经出炉。数据讲了一个很直白的故事:质量筛选在当前规模下效果不显著,而问题的根源之一就出在评分体系本身。
1. 第一轮实验:关键发现
数据量 >> 质量策略
最显著的性能差距来自数据量倍增,而非精心筛选:
- Random-500 → Random-1000:Gold Loss 从 0.469 降至 0.407(↓ 13.2%)
- Random-500 → TopQ-500:Gold Loss 从 0.469 降至 0.466(仅 ↓ 0.6%)
统计检验也印证了这一点:TopQ-500 vs Random-500 的 Mann-Whitney U 检验 p=0.27,不显著。这意味着在 500 条规模下,质量筛选的收益几乎被噪声淹没。
消融:Step Efficiency 最关键,Truncation Ratio 最弱
以 TopQ-500 为基准,逐一去除单个维度后的 Gold Loss 变化:
| 去除维度 | Gold Loss | Δ |
|---|---|---|
| Step Efficiency | 0.4679 | +0.0022 |
| Outcome Success | 0.4677 | +0.0020 |
| Observation Noise | 0.4672 | +0.0015 |
| Action Diversity | 0.4671 | +0.0014 |
| Truncation Ratio | 0.4664 | +0.0007 |
差异虽小(0.001–0.002 量级),但排序稳定,指向了一个更深层的问题 —— 这五个维度本身就不在同一抽象层级上。
2. 问题诊断:为什么现有评分体系不够好
现有的 5 维评分(Truncation Ratio / Outcome Success / Step Efficiency / Observation Noise / Action Diversity)存在分类学缺陷:
- Truncation Ratio 衡量的是数据完整性,属于元信息层,不应该与行为质量放在同一级别打分。
- Outcome Success 是结果层的度量(最终成功与否),而 Step Efficiency 和 Observation Noise 是过程层的度量。
- 将这些混在同一个加权公式里,Reviewer 会质疑分类的理论依据。
这解释了为什么消融实验中 Truncation Ratio 的影响最小 —— 它本来就不该是一个评分维度,而应该是一道前置过滤门槛。
3. 重构方案:Gate Conditions + 三维分层
第一层:前置过滤(Gate Conditions)
将不属于「行为质量」范畴的指标提升为入场门槛,不参与最终评分:
- Completeness Gate:截断比 < 阈值(如 0.9)的轨迹直接丢弃。原始数据中绝大部分为 1.0,此步主要清理边缘脏数据。
- Format Validity Gate:校验 thought-action-observation 交替结构的格式完整性,严重损坏的轨迹剔除。
第二层:三大评估维度
在通过 Gate 的轨迹中,按统一的抽象层级进行评分:
A. Correctness(正确性)— 30%
- Resolution Outcome:是否最终解决任务(binary)
- Test Awareness:是否运行了测试套件进行验证
- Patch Precision:代码修改是否精准(diff 行数/文件数的归一化度量)
B. Efficiency(效率)— 40% 第一轮消融已经表明这是最关键的维度,因此拆解得最细:
- 赘余命令统计(重复执行同类指令)
- 无效探索识别(
ls/cat是否对后续 patch 有贡献) - 错误恢复代价(syntax error → 修复的循环次数)
- 步数冗余比(相对同任务中位步数的比值)
C. Style Quality(风格质量)— 30%
- Observation 洁净度(traceback/warning token 占比)
- 推理连贯性(连续 thought 的 cosine similarity 异常检测)
- 信息利用率(observation 中的关键线索是否在后续被引用)
这套体系确保了所有维度都在「Agent 行为质量」这一统一抽象层级上,避免了 Reviewer 对分类学依据的质疑。
4. 下一轮实验设计
基于新评分体系,第二轮实验将大幅扩展规模和深度:
- Scaling Curve:Random / TopQ 各覆盖 500 / 1000 / 2000 / 5000 四个数据点,绘制完整的 scaling 曲线,观察质量筛选的收益是否随数据量增大而显现。
- 大维度消融:逐一剔除 / 仅保留 Correctness、Efficiency、Style Quality,双向验证。
- 策略对比:加入 Curriculum Learning(先 TopQ 优质数据,再逐步混入中等质量数据),以及 BottomQ 作为 sanity check。
预计将产生 20+ 组微调实验,训练成本高昂,但为了论文结论的 robustness 不可跳过。
5. 产品同步:KitaApp MVP 1.0 完工
KitaApp 的 MVP 1.0 已达到里程碑,具备完整业务闭环:
- 核心功能:邀请码入组、实时公告(含 Ja-Nein 投票)、媒体安全分享、在线请假。
- 合规设计:单园独立 Docker 部署、SecureStore 令牌托管、内存级图片缓存。
- 国际化:德语(默认)与英语。
由于科研实验进入密集期,App 的部署与测试将暂时搁置。
今日小结
第一轮实验最大的价值不在于证明了什么,而在于暴露了评分体系的结构性缺陷。当你的度量工具本身缺乏理论一致性时,实验结果再多也只是在噪声中打转。修好尺子,才能量对长度。
Next Steps:
- 实现新评分体系的代码(重点:Efficiency 子维度的前向检查算法)。
- 准备第二轮实验的 Scaling Curve 数据集抽样。