-
日报:从实验结果反推评分体系缺陷 — 重构 Agent 轨迹质量评估框架 — 2026年2月24日
-
日报:面向德国 DSGVO 的幼儿园 SaaS 架构设计 — 物理隔离、零信任与端到端加密 — 2026年2月23日
-
日报:实验评测完成与结果概览 — 2026年2月22日
-
日报:Perplexity 评测启动与投稿方向讨论 — 2026年2月21日
-
语言是内在的工具
-
日报:评测困境与 Proxy Metrics 替代方案 — 2026年2月18日
-
日报:LoRA 微调测试与 baseline 参数确认 — 2026年2月15日
-
日报:身体不适与 OpenHands 0.54.0 初步测试 — 2026年2月14日
-
日报:模型端调试与 OpenHands 架构迁移 — 2026年2月13日
-
日报:关于AI 安全的思考 — 2026年2月12日
-
日报:OOM 排查与 H200 切换、模型评测调试 — 2026年2月11日
-
日报:训练收尾、调试验证与 Qwen 基线测试 — 2026年2月10日
-
日报:训练中断恢复与评测端验证推进 — 2026年2月9日
-
日报:训练流程稳定化与评测架构搭建 — 2026年2月8日
-
日报:多子集预处理与云端训练稳定化 — 2026年2月7日
-
日报:研究进展与工作流演进 — 2026年2月6日
-
日报:Claude Opus 4.6 与 Trajectory 质量研究 — 2026年2月5日
-
日报:研究方向反思与工具探索——2026年2月4日
-
日报:幼儿园 App 与模型评测——2026年2月3日
-
日报:SWE-agent 评测复盘——2026年2月2日
-
跑步、思考,与一个还未成型的未来
-
日报:vLLM 与 SWE Agent——2026年2月1日