日报:Claude Opus 4.6 与 Trajectory 质量研究 — 2026年2月5日


Claude 发布专业法律模块的一点观察与个人研究记录

今天,Claude 正式发布了一个面向律所及法律专业领域的高级模块
这一消息在资本市场层面引发了不小的震动,甚至被认为是当日美股下跌的重要诱因之一。
从侧面也能看出,大模型对传统高利润、强专业壁垒行业的冲击,已经开始被市场认真对待

在这一背景下,我也第一时间尝试了 Claude 新推出的模型 —— Opus 4.6

对 Opus 4.6 的初步体验

从个人使用体验来看,Opus 4.6 的整体表现非常亮眼,尤其是在以下方面:

  • 对复杂研究问题的拆解能力明显增强
  • 对约束条件、现实成本的理解更加贴近真实研究环境
  • 在多轮对话中,能够持续保持研究逻辑的一致性

我尝试与它讨论了一个偏研究向、偏工程实践的课题,并在多轮交互中逐步收敛出了一份相对可行、且成本可控的研究方案

拟开展的研究方向概述

该研究主要围绕当前代码智能体(Code Agent)领域中一个被频繁忽视、但极其关键的问题展开 —— trajectory 数据的质量

研究核心

OpenHands 中产生的大规模 trajectory 数据进行系统性的质量评估与筛选。

研究目标

  • 提出一种可操作、可复现的 trajectory 质量评估方法
  • 实现 自动化的轨迹评分与筛选机制
  • 构建一个高质量 trajectory 子集,用于后续模型训练或微调

验证方式

  • 7B 规模模型的条件下进行实验验证
  • 对比以下两种训练数据来源的效果差异:
    • 随机采样、未经过滤的原始 trajectory 数据
    • 经质量评估与筛选后的高质量子集
  • 目标是验证:
    在相同模型规模与训练预算下,高质量数据子集是否能显著优于随机未过滤数据

后续计划

在后续的记录中,我也会一并附上这份由 Claude 协助生成并反复迭代后的训练计划,作为该研究的具体执行方案。

某种意义上,这次体验让我更加确信:
大模型已经不只是“写代码的工具”,而正在逐步成为可以参与研究设计本身的协作者。