日报:实验评测完成与结果概览 — 2026年2月22日
进展概况
经过一系列持续运行,本阶段的 Perplexity 评测已全面完成,各实验组的结果均已生成。目前尚未进行系统性的结果分析,但整体来看实验部分已大体收尾。
评测结果概览
下图展示了各模型在三种测试集(Gold 高质量、Random 随机、Low-Q 低质量)上的**平均交叉熵损失(Mean Cross-Entropy Loss)**对比:

从图中可以观察到以下几点规律:
- Baseline(无 SFT) 的损失值最高,尤其是 Low-Q 测试集上约达 1.18,表明未经微调的模型对测试分布拟合最差
- 所有经过 SFT 的模型损失值均大幅下降,集中在 0.45–0.60 区间,说明微调有效提升了模型对目标分布的拟合能力
- Gold(高质量数据)测试集上的损失普遍低于 Random 和 Low-Q,这与预期一致——模型在高质量数据上拟合更好
- 各消融实验组(Ablation-TruncRatio、Ablation-Outcome、Ablation-StepEff、Ablation-ObsNoise、Ablation-ActDiv)之间差异较小,有待进一步分析具体贡献
后续工作安排
实验部分基本完成,接下来的重点转向论文撰写与发表策略:
- 确定论文的可行性:结合评测结果,评估研究贡献是否充分,判断是否满足目标会议的创新性门槛
- 制定发表计划:综合论文质量、时间成本与现实条件,选择最合适的投稿目标
小结
实验部分大体上已经做完,如后续需要补充结果或进行额外对比,可随时优化。当前首要任务是梳理结果、完成论文写作,推进整个研究到收尾阶段。