日报:LoRA 微调测试与 baseline 参数确认 — 2026年2月15日


1️⃣ LoRA 微调模型测试

今天对 LoRA 微调模型进行了测试,但过程并不顺利。

由于在 config 中只设置了基础模型的部分参数,而未完整配置推理相关参数,导致:

  • 推理持续约 5 个小时
  • 资源消耗较高
  • 最终结果表现不理想

问题主要来源于评测端对于超时以及最大输出长度未做限制。


2️⃣ 基线模型复测

随后重新测试了一个已知具有通过率的基线模型,并对不同 temperature 参数进行了对比:

  • temperature = 0.3
  • temperature = 0.4

结果如下:

  • 0.3 时,通过率约为 10%
  • 0.4 时,整体表现不如 0.3 稳定

因此,后续评测将统一采用 temperature = 0.3 作为当前实验基准。


3️⃣ 思考与总结

目前仍然对实验结果存在一定担忧。

但今天至少完成了:

  • 排查并确认配置问题
  • 通过对比实验确定了更合理的 temperature 参数
  • 保障了评测流程按逻辑继续推进

即使暂时没有突破性的结果,实验仍在稳步前进。