日报:OOM 排查与 H200 切换、模型评测调试 — 2026年2月11日
一、实验训练进展
1. 已完成任务
此前的训练任务已全部结束,整体流程运行稳定。
2. 第七个实验 — OOM 问题排查
今日重点推进第七个实验。训练过程中持续出现显存溢出(OOM)问题。
分别在 H100 与 A100 80G 上进行了多轮测试,均无法正常运行。
3. 问题定位分析
初步怀疑为数据预处理阶段的截断(truncation)逻辑问题。
进一步分析后确认,核心原因在于:
- 数据序列平均长度过长
- 部分样本接近最大 token 上限
- 动态 padding 机制下 batch 会对齐至最长序列
- 80G 显存刚好超出阈值
- 反向传播阶段显存消耗进一步放大
最终确认:问题并非代码逻辑错误,而是序列长度分布与显存上限之间的硬性冲突。
4. 解决方案与结果
最终策略:
- 保持原代码结构不变
- 切换至 H200 进行训练
H200 在显存与带宽方面具有明显优势,训练过程顺畅。
整体耗时约 2.5 小时,目前已完成全部实验运行。
二、模型与评测进展
1. 模型端
模型加载与运行逻辑已基本完成。
部分接口与配置细节仍需优化,相关问题已在文档中详细记录。
2. 工具调用问题(OpenHands 架构)
在基底模型结合 OpenHands 进行对话评测时,模型出现重复输出(looping)现象。
目前猜测为 tool call 调度问题
需要进一步隔离测试与排查。
3. 后续计划
推理流程已打通,但评测端代码可能仍需调整。
下一步重点:
- 验证scafflod正确性
三、开发反思与改进
1. 文档与版本记录的重要性
在回顾项目进展时发现:
- 关键资料分散
- 实验版本缺乏清晰记录
- 调用逻辑回溯成本较高
项目复杂度提升后,仅依赖记忆难以维持清晰结构。
2. 规范化管理策略
从今日起:
- 为文件夹添加版本说明
- 使用详细 commit 描述
- 为关键实验建立结构化记录
目标是构建可追溯、可复现、可审计的开发体系。
3. 总结
当项目规模扩大、实验数量增加时,
详尽记录不再是加分项,而是基础设施。
这是一次重要的自我提升与改进。