2026年2月13日

日报：模型端调试与 OpenHands 架构迁移 — 2026年2月13日

一、今日重点：模型端调试与架构迁移

今天主要集中在模型端测试与 OpenHands 架构重构。

在模型端方面，我重新配置了 Tool 加载逻辑，并与服务器评测端设置完成对齐，最终成功跑通完整流程。在当前配置下确认：

ToolCall 是必须启用的。

同时发现原使用的 OpenHands V1.0.0 架构存在结构性问题，不适合作为稳定评测基线，因此决定迁移至更稳定版本。

问题表现：

修复措施：

效果：

发现评测端未设置最大输出限制，导致：

后续需增加：

在 SWE-bench Verified 评测中发现：

结论：

工具调用格式对 OpenHands 行为影响显著。

对于 Qwen2.5-Coder-7B-Instruct + OpenHands + SWE-bench Verified：

建议显式设置：

native_tool_calling: true

原因：

选择原因：

关键评测配置：

enable_history_truncation = false
enable_default_condenser = true
condenser.type = noop
enable_condensation_request = false

✅ 架构迁移完成

✅ ToolCall 流程跑通

✅ 推理与评测链路打通

在新架构中完整测试原始流程，验证是否能够稳定跑通 SWE-bench Verified 评测。