2026年2月8日

日报：训练流程稳定化与评测架构搭建 — 2026年2月8日

训练流程推进与评测架构搭建

今天是一个训练时间很长、但关键问题逐步被解决的一天。整体节奏可以概括为：
上午修 Bug → 下午调整算力策略 → 晚上打通关键流程。

一、训练过程回顾（Morning → Evening）

1. 早晨：set1 训练 Bug 修复

昨天在 set1 的第 11 步训练过程中持续报错，导致流程无法继续。
今天上午通过对配置和运行参数进行多轮调整，最终成功修复了该问题，训练得以继续推进。

2. 算力策略调整：放弃 Spot 实例

在今天下午之前，我一直使用的是 RunPod 的 Spot 实例（可被打断）：

虽然单价更低，但
一旦被打断，后续的恢复、环境重建和配置衔接成本极高
实际上对整体进度和精力消耗非常不友好

综合时间成本后，我决定改用 普通（不可打断）GPU 实例，
虽然价格贵了大约 $0.5 / 小时，但稳定性和效率明显更高，从长期看反而更省时间。

3. 配置与代码层面的 Bug 修复

在此前修改 config 的过程中，
由于 代码复制 / 配置同步机制存在问题，引入了一些隐性 Bug。

这些问题在今天已全部定位并修复
当前训练机制整体已经跑通
后续主要是长时间运行与断点恢复问题，而非逻辑性错误

二、训练进度与断点处理

1. 当前训练状态

从早晨到下午两三点，我一直在 远程监控训练进度
第一个 set 已顺利跑完
第二个 set 预计需要约 9 小时

2. 中途断点与环境升级

晚上发现：
- 第一个 set 正常完成
- 第二个 set 在 约第 110 条数据处中断
排查后确认：
- 需要将 PyTorch 升级至 2.6

升级过程中出现了一定的不兼容问题，但通过：

多次尝试
卸载了 两个存在冲突的插件

最终成功在 PyTorch 2.6 环境 下：

正确加载环境
成功提取 checkpoint

3. 当前判断

目前整个流程已经完全跑通
预计还需要 约 50 小时 GPU 时间 即可完成全部训练
即使后续再出现中断，只要 checkpoint 正常，均可无损续跑

下图是当前的训练监控截图：exp1 和 exp2 都因中途断点或环境调整重跑了几次，目前多条 run 的 loss、learning rate、grad_norm 等曲线已能正常推进；希望约两天内可以全部顺利跑完。

训练进程监控：exp1 / exp2 多次重跑，约 2 天内完成

三、评测端设计与整体架构规划

1. 评测端实现

今天完成了 评测端核心代码的生成
计划采用 OpenHands 架构 作为评测 scaffold

2. 架构取舍

最初的方案是：

Model 端 + 评测端 长期常开

但经过评估发现：

GPU 服务器长期占用成本过高
性价比不合理

最终决定：

按需启动
推理与评测阶段分离执行

3. 评测轮次策略

理论上 3-run（多随机种子）结果更可靠
但 GPU 消耗非常大

当前策略：

先跑 1-run
如果效果显著，再单独补充 3-run 做稳定性验证

四、后续计划

✅ 本地代码已基本完成
🔜 明天计划：
1. 在 模型端 & 服务器端 分别进行小规模训练测试
2. 检查 SSH 连通性
3. 确保评测端可以稳定控制模型端执行推理
🎯 理想目标：
- 整个自动化流程（推理 + 评测）
- 在 10 小时内完成一次完整闭环

当前并不追求速度，核心目标是彻底把流程跑稳、跑通。
等训练结果产出后，再进入下一阶段的分析与实验设计。

五、AI Agent 使用情况总结

1. Claude

当前主要使用 Claude Opus 4.6
在研究规划、代码生成和系统性思考方面非常强
但：
- 各类额度限制
- Token 总量上限
  确实在高强度使用场景下比较令人头疼

2. Codex

同时测试了 Codex 5.3
整体感觉：
- 稳定性和可靠性暂时不如 Claude
- 可能还没有完全摸清其最佳使用方式
优点是：
- 额度相对友好
- 如果后续进行 App 或工程类开发，可能会继续尝试

3. 其他工具

Cursor Pro
- 主要用于轻量辅助
- 在额度有限的情况下，配合 auto 解决一些小问题
ChatGPT 5.2
- 更适合日常快速提问
- 用于确认细节或做即时判断

总结

虽然今天训练时间漫长、问题频发，但关键流程已经完全打通。
从系统稳定性、训练可续性到评测架构，整体已经进入一个可控、可扩展的阶段。

总体评价：
👉 进展扎实，方向正确，是值得的一天。