日报:ICIC 论文定稿 · 实验结果可视化完成 — 2026年3月13日


论文定稿

今天终于把论文写完了。用于投稿 ICIC 的论文版本已经生成,经过了几天的修改和格式排版,我准备在这两天就正式投稿了,希望一切能够顺利吧。

整篇论文围绕 数据筛选策略对 SWE-agent LoRA 微调效果的影响 展开,核心实验结果已全部跑完并写入正文。下面是论文中几个关键结果的截图:

论文第12页:假设验证与 Scaling 分析结果


核心实验发现

论文中最重要的几个结论:

H1: Gate Effect(质量门控)

ResolvedOnly 筛选(仅保留 resolved 的轨迹)相比全量随机采样,在 500 条规模下差异不显著。说明单纯的”是否解决”二元筛选并不足以显著提升微调质量。

H2: Score Effect(评分排序)

TopQ-500 vs BottomQ-500 的 sanity check 显示出统计显著的质量差异,验证了 composite score 评分体系的有效性。评分排序确实能区分出”好数据”和”坏数据”。

H3: Scaling Effect(数据量扩展)

这是本研究中最稳健的发现。将训练集规模从 500 翻倍到 1000 后,三种策略均呈现出高度一致的 ~12.7% 相对 loss 下降,绝对 loss 降幅约 Δ ≈ −0.060,是 500 条规模下质量筛选效果(Δ ≈ −0.003)的约 26 倍

策略Loss @500Loss @1000Δ Loss相对降幅
Random0.47370.4140−0.059712.6%
TopQ0.47040.4106−0.059812.7%
ResolvedOnly0.47860.4175−0.061112.8%

投稿准备

  • ✅ 论文正文与所有图表已定稿
  • ✅ 格式符合 ICIC 2026 投稿要求
  • ⬜ 最终通读检查
  • ⬜ 提交至投稿系统

近日计划

  • 完成论文最终通读和细节校对
  • 正式提交 ICIC 2026 投稿
  • 整理实验代码和数据,为后续可能的 revision 做准备