2026年3月28日

日报：ICIC 论文审稿回复 · 补充实验推进中 — 2026年3月28日

审稿意见回复

前天收到了 ICIC 论文的审稿反馈，四位审稿人提出了十项意见。按严重程度排序，最关键的三个问题是：

致命 — Proxy metric 缺乏下游验证（R1-R4 均提出）：论文只用 CE loss 衡量微调效果，缺少对下游生成质量的直接验证
高 — 实验规模偏小（R1-R3）：目前只做了 500–1000 条，规模不够说服力
高 — 缺少外部 baseline 对比（R1-R3）：没有和 IFD/DEITA 等方法做比较

其余问题包括统计可视化不充分、结论措辞过于绝对、术语不统一等，相对好处理。

截止日期是 4 月 1 日，我制定了 6 天的修改计划。

补充实验设计

针对审稿人的核心质疑，设计了三组补充实验：

实验 A：First-Action Evaluation

绕开 SWE-bench 完整 pipeline（7B 模型 resolve rate 接近 0），改为只评估模型生成的第一步 action 是否与 ground truth 匹配。从 test split 抽取 50–100 个 instance，对 baseline、random_500、topq_500、random_1000 等 checkpoint 做推理，用三个层级的指标评估：

指标	含义
Action Type Match	动作类型是否正确（如 find_file vs open_file）
Target File Match	是否定位到正确文件
Exact Match / ROUGE-L	内容精确匹配度

最后计算 CE loss 与 action-level 指标的 Spearman 相关系数，期望 ρ > 0.7，以此证明 loss 下降确实反映了生成质量的提升。

实验 B：2000-scale 扩展

将实验规模从 1000 扩大到 2000，核心对比 Random-2000 vs TopQ-1000。验证在更大规模下 quality filtering 是否开始产生显著差异——如果是，就找到了 crossover point；如果否，说明 quantity dominance 的结论可以扩展到 2000。

实验 C：B2-only Baseline

对比 composite score 和单独使用 B2（error-retry rate）的筛选效果，验证多维评分是否真的优于单指标。

当前进展

截图是 W&B 上三组实验的训练状态。exp15_TopQ-2000 和 exp16_B2Only-Top500 已完成，exp14_Random-2000 仍在运行中，三组均使用 Qwen2.5 模型。

W&B 实验面板 — 三组补充实验的训练状态，TopQ-2000 与 B2Only-Top500 已完成，Random-2000 运行中

✅ ABC 三组实验的模型均已训练完毕
✅ 实验 A 已完成并通过交叉验证
✅ 实验 BC 模型训练完成
⬜ 对模型做 perplexity 评价（今晚 + 明早）
⬜ 确认 First-Action Evaluation 的 first step 是否正确
⬜ 论文改写（结构调整、措辞修改、可视化升级）
⬜ 4 月 1 日前提交修改版