日报:ICIC 论文审稿回复 · 补充实验推进中 — 2026年3月28日


审稿意见回复

前天收到了 ICIC 论文的审稿反馈,四位审稿人提出了十项意见。按严重程度排序,最关键的三个问题是:

  1. 致命 — Proxy metric 缺乏下游验证(R1-R4 均提出):论文只用 CE loss 衡量微调效果,缺少对下游生成质量的直接验证
  2. 高 — 实验规模偏小(R1-R3):目前只做了 500–1000 条,规模不够说服力
  3. 高 — 缺少外部 baseline 对比(R1-R3):没有和 IFD/DEITA 等方法做比较

其余问题包括统计可视化不充分、结论措辞过于绝对、术语不统一等,相对好处理。

截止日期是 4 月 1 日,我制定了 6 天的修改计划。


补充实验设计

针对审稿人的核心质疑,设计了三组补充实验:

实验 A:First-Action Evaluation

绕开 SWE-bench 完整 pipeline(7B 模型 resolve rate 接近 0),改为只评估模型生成的第一步 action 是否与 ground truth 匹配。从 test split 抽取 50–100 个 instance,对 baseline、random_500、topq_500、random_1000 等 checkpoint 做推理,用三个层级的指标评估:

指标含义
Action Type Match动作类型是否正确(如 find_file vs open_file)
Target File Match是否定位到正确文件
Exact Match / ROUGE-L内容精确匹配度

最后计算 CE loss 与 action-level 指标的 Spearman 相关系数,期望 ρ > 0.7,以此证明 loss 下降确实反映了生成质量的提升。

实验 B:2000-scale 扩展

将实验规模从 1000 扩大到 2000,核心对比 Random-2000 vs TopQ-1000。验证在更大规模下 quality filtering 是否开始产生显著差异——如果是,就找到了 crossover point;如果否,说明 quantity dominance 的结论可以扩展到 2000。

实验 C:B2-only Baseline

对比 composite score 和单独使用 B2(error-retry rate)的筛选效果,验证多维评分是否真的优于单指标。


当前进展

截图是 W&B 上三组实验的训练状态。exp15_TopQ-2000 和 exp16_B2Only-Top500 已完成,exp14_Random-2000 仍在运行中,三组均使用 Qwen2.5 模型。

W&B 实验面板 — 三组补充实验的训练状态,TopQ-2000 与 B2Only-Top500 已完成,Random-2000 运行中

  • ✅ ABC 三组实验的模型均已训练完毕
  • ✅ 实验 A 已完成并通过交叉验证
  • ✅ 实验 BC 模型训练完成
  • ⬜ 对模型做 perplexity 评价(今晚 + 明早)
  • ⬜ 确认 First-Action Evaluation 的 first step 是否正确
  • ⬜ 论文改写(结构调整、措辞修改、可视化升级)
  • ⬜ 4 月 1 日前提交修改版