日报:训练流程稳定化与评测架构搭建 — 2026年2月8日


训练流程推进与评测架构搭建

今天是一个训练时间很长、但关键问题逐步被解决的一天。整体节奏可以概括为:
上午修 Bug → 下午调整算力策略 → 晚上打通关键流程


一、训练过程回顾(Morning → Evening)

1. 早晨:set1 训练 Bug 修复

昨天在 set1 的第 11 步训练过程中持续报错,导致流程无法继续。
今天上午通过对配置和运行参数进行多轮调整,最终成功修复了该问题,训练得以继续推进。


2. 算力策略调整:放弃 Spot 实例

在今天下午之前,我一直使用的是 RunPod 的 Spot 实例(可被打断)

  • 虽然单价更低,但
  • 一旦被打断,后续的恢复、环境重建和配置衔接成本极高
  • 实际上对整体进度和精力消耗非常不友好

综合时间成本后,我决定改用 普通(不可打断)GPU 实例
虽然价格贵了大约 $0.5 / 小时,但稳定性和效率明显更高,从长期看反而更省时间。


3. 配置与代码层面的 Bug 修复

在此前修改 config 的过程中,
由于 代码复制 / 配置同步机制存在问题,引入了一些隐性 Bug。

  • 这些问题在今天已全部定位并修复
  • 当前训练机制整体已经跑通
  • 后续主要是长时间运行与断点恢复问题,而非逻辑性错误

二、训练进度与断点处理

1. 当前训练状态

  • 从早晨到下午两三点,我一直在 远程监控训练进度
  • 第一个 set 已顺利跑完
  • 第二个 set 预计需要约 9 小时

2. 中途断点与环境升级

  • 晚上发现:
    • 第一个 set 正常完成
    • 第二个 set 在 约第 110 条数据处中断
  • 排查后确认:
    • 需要将 PyTorch 升级至 2.6

升级过程中出现了一定的不兼容问题,但通过:

  • 多次尝试
  • 卸载了 两个存在冲突的插件

最终成功在 PyTorch 2.6 环境 下:

  • 正确加载环境
  • 成功提取 checkpoint

3. 当前判断

  • 目前整个流程已经完全跑通
  • 预计还需要 约 50 小时 GPU 时间 即可完成全部训练
  • 即使后续再出现中断,只要 checkpoint 正常,均可无损续跑

下图是当前的训练监控截图:exp1exp2 都因中途断点或环境调整重跑了几次,目前多条 run 的 loss、learning rate、grad_norm 等曲线已能正常推进;希望约两天内可以全部顺利跑完。

训练进程监控:exp1 / exp2 多次重跑,约 2 天内完成


三、评测端设计与整体架构规划

1. 评测端实现

  • 今天完成了 评测端核心代码的生成
  • 计划采用 OpenHands 架构 作为评测 scaffold

2. 架构取舍

最初的方案是:

  • Model 端 + 评测端 长期常开

但经过评估发现:

  • GPU 服务器长期占用成本过高
  • 性价比不合理

最终决定:

  • 按需启动
  • 推理与评测阶段分离执行

3. 评测轮次策略

  • 理论上 3-run(多随机种子)结果更可靠
  • 但 GPU 消耗非常大

当前策略:

  • 先跑 1-run
  • 如果效果显著,再单独补充 3-run 做稳定性验证

四、后续计划

  • ✅ 本地代码已基本完成
  • 🔜 明天计划:
    1. 模型端 & 服务器端 分别进行小规模训练测试
    2. 检查 SSH 连通性
    3. 确保评测端可以稳定控制模型端执行推理
  • 🎯 理想目标:
    • 整个自动化流程(推理 + 评测)
    • 在 10 小时内完成一次完整闭环

当前并不追求速度,核心目标是彻底把流程跑稳、跑通
等训练结果产出后,再进入下一阶段的分析与实验设计。


五、AI Agent 使用情况总结

1. Claude

  • 当前主要使用 Claude Opus 4.6
  • 在研究规划、代码生成和系统性思考方面非常强
  • 但:
    • 各类额度限制
    • Token 总量上限
      确实在高强度使用场景下比较令人头疼

2. Codex

  • 同时测试了 Codex 5.3
  • 整体感觉:
    • 稳定性和可靠性暂时不如 Claude
    • 可能还没有完全摸清其最佳使用方式
  • 优点是:
    • 额度相对友好
    • 如果后续进行 App 或工程类开发,可能会继续尝试

3. 其他工具

  • Cursor Pro
    • 主要用于轻量辅助
    • 在额度有限的情况下,配合 auto 解决一些小问题
  • ChatGPT 5.2
    • 更适合日常快速提问
    • 用于确认细节或做即时判断

总结

虽然今天训练时间漫长、问题频发,但关键流程已经完全打通
从系统稳定性、训练可续性到评测架构,整体已经进入一个可控、可扩展的阶段

总体评价:
👉 进展扎实,方向正确,是值得的一天。