2026年2月22日

日报：实验评测完成与结果概览 — 2026年2月22日

进展概况

经过一系列持续运行，本阶段的 Perplexity 评测已全面完成，各实验组的结果均已生成。目前尚未进行系统性的结果分析，但整体来看实验部分已大体收尾。

下图展示了各模型在三种测试集（Gold 高质量、Random 随机、Low-Q 低质量）上的**平均交叉熵损失（Mean Cross-Entropy Loss）**对比：

Perplexity 评测：各模型与测试集间的损失对比

从图中可以观察到以下几点规律：

Baseline（无 SFT） 的损失值最高，尤其是 Low-Q 测试集上约达 1.18，表明未经微调的模型对测试分布拟合最差
所有经过 SFT 的模型损失值均大幅下降，集中在 0.45–0.60 区间，说明微调有效提升了模型对目标分布的拟合能力
Gold（高质量数据）测试集上的损失普遍低于 Random 和 Low-Q，这与预期一致——模型在高质量数据上拟合更好
各消融实验组（Ablation-TruncRatio、Ablation-Outcome、Ablation-StepEff、Ablation-ObsNoise、Ablation-ActDiv）之间差异较小，有待进一步分析具体贡献

实验部分基本完成，接下来的重点转向论文撰写与发表策略：

实验部分大体上已经做完，如后续需要补充结果或进行额外对比，可随时优化。当前首要任务是梳理结果、完成论文写作，推进整个研究到收尾阶段。