2026年2月11日

日报：OOM 排查与 H200 切换、模型评测调试 — 2026年2月11日

一、实验训练进展

此前的训练任务已全部结束，整体流程运行稳定。

今日重点推进第七个实验。训练过程中持续出现显存溢出（OOM）问题。
分别在 H100 与 A100 80G 上进行了多轮测试，均无法正常运行。

初步怀疑为数据预处理阶段的截断（truncation）逻辑问题。
进一步分析后确认，核心原因在于：

最终确认：问题并非代码逻辑错误，而是序列长度分布与显存上限之间的硬性冲突。

最终策略：

H200 在显存与带宽方面具有明显优势，训练过程顺畅。
整体耗时约 2.5 小时，目前已完成全部实验运行。

模型加载与运行逻辑已基本完成。
部分接口与配置细节仍需优化，相关问题已在文档中详细记录。

在基底模型结合 OpenHands 进行对话评测时，模型出现重复输出（looping）现象。

目前猜测为 tool call 调度问题

需要进一步隔离测试与排查。

推理流程已打通，但评测端代码可能仍需调整。

下一步重点：

在回顾项目进展时发现：

项目复杂度提升后，仅依赖记忆难以维持清晰结构。

从今日起：

目标是构建可追溯、可复现、可审计的开发体系。

当项目规模扩大、实验数量增加时，
详尽记录不再是加分项，而是基础设施。

这是一次重要的自我提升与改进。