2026年2月24日

日报：从实验结果反推评分体系缺陷 — 重构 Agent 轨迹质量评估框架 — 2026年2月24日

今日背景

今天的核心工作是复盘第一轮实验结果，并据此重构评分体系。前期我们在 Qwen2.5-Coder-7B-Instruct 上完成了 11 组 LoRA 微调实验（覆盖 Random/TopQ/ShortHQ/SuccessOnly/Ablation 等策略），困惑度评测结果已经出炉。数据讲了一个很直白的故事：质量筛选在当前规模下效果不显著，而问题的根源之一就出在评分体系本身。

1. 第一轮实验：关键发现

数据量 >> 质量策略

最显著的性能差距来自数据量倍增，而非精心筛选：

Random-500 → Random-1000：Gold Loss 从 0.469 降至 0.407（↓ 13.2%）
Random-500 → TopQ-500：Gold Loss 从 0.469 降至 0.466（仅 ↓ 0.6%）

统计检验也印证了这一点：TopQ-500 vs Random-500 的 Mann-Whitney U 检验 p=0.27，不显著。这意味着在 500 条规模下，质量筛选的收益几乎被噪声淹没。

消融：Step Efficiency 最关键，Truncation Ratio 最弱

以 TopQ-500 为基准，逐一去除单个维度后的 Gold Loss 变化：

去除维度	Gold Loss	Δ
Step Efficiency	0.4679	+0.0022
Outcome Success	0.4677	+0.0020
Observation Noise	0.4672	+0.0015
Action Diversity	0.4671	+0.0014
Truncation Ratio	0.4664	+0.0007

差异虽小（0.001–0.002 量级），但排序稳定，指向了一个更深层的问题 —— 这五个维度本身就不在同一抽象层级上。

2. 问题诊断：为什么现有评分体系不够好

现有的 5 维评分（Truncation Ratio / Outcome Success / Step Efficiency / Observation Noise / Action Diversity）存在分类学缺陷：

Truncation Ratio 衡量的是数据完整性，属于元信息层，不应该与行为质量放在同一级别打分。
Outcome Success 是结果层的度量（最终成功与否），而 Step Efficiency 和 Observation Noise 是过程层的度量。
将这些混在同一个加权公式里，Reviewer 会质疑分类的理论依据。

这解释了为什么消融实验中 Truncation Ratio 的影响最小 —— 它本来就不该是一个评分维度，而应该是一道前置过滤门槛。

3. 重构方案：Gate Conditions + 三维分层

第一层：前置过滤（Gate Conditions）

将不属于「行为质量」范畴的指标提升为入场门槛，不参与最终评分：

Completeness Gate：截断比 < 阈值（如 0.9）的轨迹直接丢弃。原始数据中绝大部分为 1.0，此步主要清理边缘脏数据。
Format Validity Gate：校验 thought-action-observation 交替结构的格式完整性，严重损坏的轨迹剔除。

第二层：三大评估维度

在通过 Gate 的轨迹中，按统一的抽象层级进行评分：

A. Correctness（正确性）— 30%

Resolution Outcome：是否最终解决任务（binary）
Test Awareness：是否运行了测试套件进行验证
Patch Precision：代码修改是否精准（diff 行数/文件数的归一化度量）

B. Efficiency（效率）— 40% 第一轮消融已经表明这是最关键的维度，因此拆解得最细：

赘余命令统计（重复执行同类指令）
无效探索识别（ls/cat 是否对后续 patch 有贡献）
错误恢复代价（syntax error → 修复的循环次数）
步数冗余比（相对同任务中位步数的比值）

C. Style Quality（风格质量）— 30%

Observation 洁净度（traceback/warning token 占比）
推理连贯性（连续 thought 的 cosine similarity 异常检测）
信息利用率（observation 中的关键线索是否在后续被引用）

这套体系确保了所有维度都在「Agent 行为质量」这一统一抽象层级上，避免了 Reviewer 对分类学依据的质疑。

4. 下一轮实验设计

基于新评分体系，第二轮实验将大幅扩展规模和深度：

Scaling Curve：Random / TopQ 各覆盖 500 / 1000 / 2000 / 5000 四个数据点，绘制完整的 scaling 曲线，观察质量筛选的收益是否随数据量增大而显现。
大维度消融：逐一剔除 / 仅保留 Correctness、Efficiency、Style Quality，双向验证。
策略对比：加入 Curriculum Learning（先 TopQ 优质数据，再逐步混入中等质量数据），以及 BottomQ 作为 sanity check。

预计将产生 20+ 组微调实验，训练成本高昂，但为了论文结论的 robustness 不可跳过。

5. 产品同步：KitaApp MVP 1.0 完工

KitaApp 的 MVP 1.0 已达到里程碑，具备完整业务闭环：

核心功能：邀请码入组、实时公告（含 Ja-Nein 投票）、媒体安全分享、在线请假。
合规设计：单园独立 Docker 部署、SecureStore 令牌托管、内存级图片缓存。
国际化：德语（默认）与英语。

由于科研实验进入密集期，App 的部署与测试将暂时搁置。

今日小结

第一轮实验最大的价值不在于证明了什么，而在于暴露了评分体系的结构性缺陷。当你的度量工具本身缺乏理论一致性时，实验结果再多也只是在噪声中打转。修好尺子，才能量对长度。

Next Steps：

实现新评分体系的代码（重点：Efficiency 子维度的前向检查算法）。
准备第二轮实验的 Scaling Curve 数据集抽样。