日报:LoRA 微调测试与 baseline 参数确认 — 2026年2月15日
1️⃣ LoRA 微调模型测试
今天对 LoRA 微调模型进行了测试,但过程并不顺利。
由于在 config 中只设置了基础模型的部分参数,而未完整配置推理相关参数,导致:
- 推理持续约 5 个小时
- 资源消耗较高
- 最终结果表现不理想
问题主要来源于评测端对于超时以及最大输出长度未做限制。
2️⃣ 基线模型复测
随后重新测试了一个已知具有通过率的基线模型,并对不同 temperature 参数进行了对比:
- temperature = 0.3
- temperature = 0.4
结果如下:
- 在 0.3 时,通过率约为 10%
- 在 0.4 时,整体表现不如 0.3 稳定
因此,后续评测将统一采用 temperature = 0.3 作为当前实验基准。
3️⃣ 思考与总结
目前仍然对实验结果存在一定担忧。
但今天至少完成了:
- 排查并确认配置问题
- 通过对比实验确定了更合理的 temperature 参数
- 保障了评测流程按逻辑继续推进
即使暂时没有突破性的结果,实验仍在稳步前进。