日报:Claude Opus 4.6 与 Trajectory 质量研究 — 2026年2月5日
Claude 发布专业法律模块的一点观察与个人研究记录
今天,Claude 正式发布了一个面向律所及法律专业领域的高级模块。
这一消息在资本市场层面引发了不小的震动,甚至被认为是当日美股下跌的重要诱因之一。
从侧面也能看出,大模型对传统高利润、强专业壁垒行业的冲击,已经开始被市场认真对待。
在这一背景下,我也第一时间尝试了 Claude 新推出的模型 —— Opus 4.6。
对 Opus 4.6 的初步体验
从个人使用体验来看,Opus 4.6 的整体表现非常亮眼,尤其是在以下方面:
- 对复杂研究问题的拆解能力明显增强
- 对约束条件、现实成本的理解更加贴近真实研究环境
- 在多轮对话中,能够持续保持研究逻辑的一致性
我尝试与它讨论了一个偏研究向、偏工程实践的课题,并在多轮交互中逐步收敛出了一份相对可行、且成本可控的研究方案。
拟开展的研究方向概述
该研究主要围绕当前代码智能体(Code Agent)领域中一个被频繁忽视、但极其关键的问题展开 —— trajectory 数据的质量。
研究核心
对 OpenHands 中产生的大规模 trajectory 数据进行系统性的质量评估与筛选。
研究目标
- 提出一种可操作、可复现的 trajectory 质量评估方法
- 实现 自动化的轨迹评分与筛选机制
- 构建一个高质量 trajectory 子集,用于后续模型训练或微调
验证方式
- 在 7B 规模模型的条件下进行实验验证
- 对比以下两种训练数据来源的效果差异:
- 随机采样、未经过滤的原始 trajectory 数据
- 经质量评估与筛选后的高质量子集
- 目标是验证:
在相同模型规模与训练预算下,高质量数据子集是否能显著优于随机未过滤数据
后续计划
在后续的记录中,我也会一并附上这份由 Claude 协助生成并反复迭代后的训练计划,作为该研究的具体执行方案。
某种意义上,这次体验让我更加确信:
大模型已经不只是“写代码的工具”,而正在逐步成为可以参与研究设计本身的协作者。