日报:OOM 排查与 H200 切换、模型评测调试 — 2026年2月11日


一、实验训练进展

1. 已完成任务

此前的训练任务已全部结束,整体流程运行稳定。

2. 第七个实验 — OOM 问题排查

今日重点推进第七个实验。训练过程中持续出现显存溢出(OOM)问题。
分别在 H100 与 A100 80G 上进行了多轮测试,均无法正常运行。

3. 问题定位分析

初步怀疑为数据预处理阶段的截断(truncation)逻辑问题。
进一步分析后确认,核心原因在于:

  • 数据序列平均长度过长
  • 部分样本接近最大 token 上限
  • 动态 padding 机制下 batch 会对齐至最长序列
  • 80G 显存刚好超出阈值
  • 反向传播阶段显存消耗进一步放大

最终确认:问题并非代码逻辑错误,而是序列长度分布与显存上限之间的硬性冲突。

4. 解决方案与结果

最终策略:

  • 保持原代码结构不变
  • 切换至 H200 进行训练

H200 在显存与带宽方面具有明显优势,训练过程顺畅。
整体耗时约 2.5 小时,目前已完成全部实验运行。


二、模型与评测进展

1. 模型端

模型加载与运行逻辑已基本完成。
部分接口与配置细节仍需优化,相关问题已在文档中详细记录。

2. 工具调用问题(OpenHands 架构)

在基底模型结合 OpenHands 进行对话评测时,模型出现重复输出(looping)现象。

目前猜测为 tool call 调度问题

需要进一步隔离测试与排查。

3. 后续计划

推理流程已打通,但评测端代码可能仍需调整。

下一步重点:

  • 验证scafflod正确性

三、开发反思与改进

1. 文档与版本记录的重要性

在回顾项目进展时发现:

  • 关键资料分散
  • 实验版本缺乏清晰记录
  • 调用逻辑回溯成本较高

项目复杂度提升后,仅依赖记忆难以维持清晰结构。

2. 规范化管理策略

从今日起:

  • 为文件夹添加版本说明
  • 使用详细 commit 描述
  • 为关键实验建立结构化记录

目标是构建可追溯、可复现、可审计的开发体系。

3. 总结

当项目规模扩大、实验数量增加时,
详尽记录不再是加分项,而是基础设施。

这是一次重要的自我提升与改进。