日报:ICIC 论文审稿回复 · 补充实验推进中 — 2026年3月28日
审稿意见回复
前天收到了 ICIC 论文的审稿反馈,四位审稿人提出了十项意见。按严重程度排序,最关键的三个问题是:
- 致命 — Proxy metric 缺乏下游验证(R1-R4 均提出):论文只用 CE loss 衡量微调效果,缺少对下游生成质量的直接验证
- 高 — 实验规模偏小(R1-R3):目前只做了 500–1000 条,规模不够说服力
- 高 — 缺少外部 baseline 对比(R1-R3):没有和 IFD/DEITA 等方法做比较
其余问题包括统计可视化不充分、结论措辞过于绝对、术语不统一等,相对好处理。
截止日期是 4 月 1 日,我制定了 6 天的修改计划。
补充实验设计
针对审稿人的核心质疑,设计了三组补充实验:
实验 A:First-Action Evaluation
绕开 SWE-bench 完整 pipeline(7B 模型 resolve rate 接近 0),改为只评估模型生成的第一步 action 是否与 ground truth 匹配。从 test split 抽取 50–100 个 instance,对 baseline、random_500、topq_500、random_1000 等 checkpoint 做推理,用三个层级的指标评估:
| 指标 | 含义 |
|---|---|
| Action Type Match | 动作类型是否正确(如 find_file vs open_file) |
| Target File Match | 是否定位到正确文件 |
| Exact Match / ROUGE-L | 内容精确匹配度 |
最后计算 CE loss 与 action-level 指标的 Spearman 相关系数,期望 ρ > 0.7,以此证明 loss 下降确实反映了生成质量的提升。
实验 B:2000-scale 扩展
将实验规模从 1000 扩大到 2000,核心对比 Random-2000 vs TopQ-1000。验证在更大规模下 quality filtering 是否开始产生显著差异——如果是,就找到了 crossover point;如果否,说明 quantity dominance 的结论可以扩展到 2000。
实验 C:B2-only Baseline
对比 composite score 和单独使用 B2(error-retry rate)的筛选效果,验证多维评分是否真的优于单指标。
当前进展
截图是 W&B 上三组实验的训练状态。exp15_TopQ-2000 和 exp16_B2Only-Top500 已完成,exp14_Random-2000 仍在运行中,三组均使用 Qwen2.5 模型。

- ✅ ABC 三组实验的模型均已训练完毕
- ✅ 实验 A 已完成并通过交叉验证
- ✅ 实验 BC 模型训练完成
- ⬜ 对模型做 perplexity 评价(今晚 + 明早)
- ⬜ 确认 First-Action Evaluation 的 first step 是否正确
- ⬜ 论文改写(结构调整、措辞修改、可视化升级)
- ⬜ 4 月 1 日前提交修改版