日报:从实验结果反推评分体系缺陷 — 重构 Agent 轨迹质量评估框架 — 2026年2月24日


今日背景

今天的核心工作是复盘第一轮实验结果,并据此重构评分体系。前期我们在 Qwen2.5-Coder-7B-Instruct 上完成了 11 组 LoRA 微调实验(覆盖 Random/TopQ/ShortHQ/SuccessOnly/Ablation 等策略),困惑度评测结果已经出炉。数据讲了一个很直白的故事:质量筛选在当前规模下效果不显著,而问题的根源之一就出在评分体系本身。


1. 第一轮实验:关键发现

数据量 >> 质量策略

最显著的性能差距来自数据量倍增,而非精心筛选:

  • Random-500 → Random-1000:Gold Loss 从 0.469 降至 0.407(↓ 13.2%
  • Random-500 → TopQ-500:Gold Loss 从 0.469 降至 0.466(仅 ↓ 0.6%)

统计检验也印证了这一点:TopQ-500 vs Random-500 的 Mann-Whitney U 检验 p=0.27,不显著。这意味着在 500 条规模下,质量筛选的收益几乎被噪声淹没。

消融:Step Efficiency 最关键,Truncation Ratio 最弱

以 TopQ-500 为基准,逐一去除单个维度后的 Gold Loss 变化:

去除维度Gold LossΔ
Step Efficiency0.4679+0.0022
Outcome Success0.4677+0.0020
Observation Noise0.4672+0.0015
Action Diversity0.4671+0.0014
Truncation Ratio0.4664+0.0007

差异虽小(0.001–0.002 量级),但排序稳定,指向了一个更深层的问题 —— 这五个维度本身就不在同一抽象层级上


2. 问题诊断:为什么现有评分体系不够好

现有的 5 维评分(Truncation Ratio / Outcome Success / Step Efficiency / Observation Noise / Action Diversity)存在分类学缺陷:

  • Truncation Ratio 衡量的是数据完整性,属于元信息层,不应该与行为质量放在同一级别打分。
  • Outcome Success结果层的度量(最终成功与否),而 Step Efficiency 和 Observation Noise 是过程层的度量。
  • 将这些混在同一个加权公式里,Reviewer 会质疑分类的理论依据。

这解释了为什么消融实验中 Truncation Ratio 的影响最小 —— 它本来就不该是一个评分维度,而应该是一道前置过滤门槛。


3. 重构方案:Gate Conditions + 三维分层

第一层:前置过滤(Gate Conditions)

将不属于「行为质量」范畴的指标提升为入场门槛,不参与最终评分:

  • Completeness Gate:截断比 < 阈值(如 0.9)的轨迹直接丢弃。原始数据中绝大部分为 1.0,此步主要清理边缘脏数据。
  • Format Validity Gate:校验 thought-action-observation 交替结构的格式完整性,严重损坏的轨迹剔除。

第二层:三大评估维度

在通过 Gate 的轨迹中,按统一的抽象层级进行评分:

A. Correctness(正确性)— 30%

  • Resolution Outcome:是否最终解决任务(binary)
  • Test Awareness:是否运行了测试套件进行验证
  • Patch Precision:代码修改是否精准(diff 行数/文件数的归一化度量)

B. Efficiency(效率)— 40% 第一轮消融已经表明这是最关键的维度,因此拆解得最细:

  • 赘余命令统计(重复执行同类指令)
  • 无效探索识别(ls/cat 是否对后续 patch 有贡献)
  • 错误恢复代价(syntax error → 修复的循环次数)
  • 步数冗余比(相对同任务中位步数的比值)

C. Style Quality(风格质量)— 30%

  • Observation 洁净度(traceback/warning token 占比)
  • 推理连贯性(连续 thought 的 cosine similarity 异常检测)
  • 信息利用率(observation 中的关键线索是否在后续被引用)

这套体系确保了所有维度都在「Agent 行为质量」这一统一抽象层级上,避免了 Reviewer 对分类学依据的质疑。


4. 下一轮实验设计

基于新评分体系,第二轮实验将大幅扩展规模和深度:

  1. Scaling Curve:Random / TopQ 各覆盖 500 / 1000 / 2000 / 5000 四个数据点,绘制完整的 scaling 曲线,观察质量筛选的收益是否随数据量增大而显现。
  2. 大维度消融:逐一剔除 / 仅保留 Correctness、Efficiency、Style Quality,双向验证。
  3. 策略对比:加入 Curriculum Learning(先 TopQ 优质数据,再逐步混入中等质量数据),以及 BottomQ 作为 sanity check。

预计将产生 20+ 组微调实验,训练成本高昂,但为了论文结论的 robustness 不可跳过。


5. 产品同步:KitaApp MVP 1.0 完工

KitaApp 的 MVP 1.0 已达到里程碑,具备完整业务闭环:

  • 核心功能:邀请码入组、实时公告(含 Ja-Nein 投票)、媒体安全分享、在线请假。
  • 合规设计:单园独立 Docker 部署、SecureStore 令牌托管、内存级图片缓存。
  • 国际化:德语(默认)与英语。

由于科研实验进入密集期,App 的部署与测试将暂时搁置。


今日小结

第一轮实验最大的价值不在于证明了什么,而在于暴露了评分体系的结构性缺陷。当你的度量工具本身缺乏理论一致性时,实验结果再多也只是在噪声中打转。修好尺子,才能量对长度。

Next Steps

  • 实现新评分体系的代码(重点:Efficiency 子维度的前向检查算法)。
  • 准备第二轮实验的 Scaling Curve 数据集抽样。