一分彩APP官方网站下载

发布日期：2026-03-09 12:19:25 点击次数：64

一分彩 AI代理的限度工程

Anthropic 给 Opus 4.5 一个高层级请示，让它构建一个坐褥级 Web 专揽。它失败了。不是因为模子不好。而是因为它试图一次性完成统共事情（承认吧，你也会这么作念），在坎坷文窗口中留住了半杀青的功能，过早地宣秘书捷。他们栽植了脚手架，添加了进程追踪和增量责任流：吞并个模子脱手请托了。他们把这篇著述定名为"针对历久运行 Agent 的灵验 Harness"。

TL;DR: Harness > 模子这个说法正确但不好意思满。让它的机制起作用的是渐进式败露（progressive disclosure）：只在模子需要时展示它需要的内容。相同的模子，仅通过切换到更好的脚手架，CORE-Bench 得分就跃升了 36 分。我经过 8 个月和 5 个坐褥级专揽后的框架：契约胜于直观，不休胜于器具，每个季度简化一次。附可径直复制的模板。

这个词随后无处不在。OpenAI 发布了 "Harness 工程"。LangChain 只修改了 harness，就把他们的编码代理从 52.8% 普及到了 66.5%。Mitchell Hashimoto 和 Martin Fowler 也写了相干著述。SWE-bench Pro 在大鸿沟上确认了这小数：相同的模子，不同的脚手架，不同的效果。

我看了看我的 CLAUDE.md、我的请示契约（prompt contracts）、我的 CLI 封装，坚韧到这恰是我在 8 个月里在 5 个坐褥级专揽中一直在作念的事情。我只是莫得一个词来定名它。Harness。等于这个。

是以是的，Harness 比模子更紧迫。这部分仍是细目了。

但知说念"harness 很紧迫"就像知说念"健康饮食和磨练"。要是你不着实去作念，这等于毫无须处的，而且这将会催生出一通盘过度复杂的框架产业，这些框架皆偏离了要点。

我花了八个月时代，把书里提到的每一个失误皆犯了一遍。这些是存活下来的警告。

1、每个东说念主皆会犯的3个失误

我知说念，因为我三个皆犯了。

失误 1：堆砌器具而不是编写契约

当我脱手构建 OpenClaw（我的多模子 AI agent）时，我衔接了 12 个 MCP 器具。搜索、记挂、信用搜检、RSS 监控、Discord 告警、cron 景色、用户查询、备份考证。嗅觉很全面。很专科。

Agent 花在决定调用哪个器具上的时代，比责罚执行问题的时代还多。

对于一个粗略的"今天早上有什么需要我注释的吗？"查询，它会按司法触发 4-5 个器具调用，有时会以稍有不同的参数两次调用吞并个端点，因为形容空泛到相通。有一天早上，它调用了 check_users，然后调用了 check_credits，然后又用不同的过滤器调用了 check_users，然后给我一个在段落之间相互矛盾的回答。

我删掉了 8 个器具。将 12 个替换为 4 个，这 4 个器具的精准形容被写成契约。不是"查询信用数据"，而是"查找现时信用余额偏离预期逾越 10% 的用户，用偏离幅度象征额外，并按严重程度排序。"底层的代码调换。模子调换。唯独转变的是形容。

器具调用减少了 40%。输出不再格格不入。器具形容一直皆是问题地点。

我围绕这个原则构建了好意思满的请示契约框架，这成为我通盘责任经过中影响最大的单一转变。你不再与 agent 分享代码。你分享的是意图、不休和预期步履。形容等于契约。

失误 2：在粗略决策可行时选择复杂性

47，000 个 token。这是 Phil Schmid 测量的以圭表神色集成 6 个 MCP 劳动器的资本。只是是 schema 界说。在你的 agent 以至脱手念念考你的执行问题之前，它就要咀嚼掉四万七千个 token 的 JSON 器具形容。

Manus 通过 CLI 封装来清晰 MCP 器具责罚了这个问题。调换的功能。大约 400 个 token。

我在 2025 年底构建我的第一个 MCP 劳动器时，并不知说念这些数字。每个东说念主皆在构建它们。左券是新的，很闪亮，嗅觉像是正确的综合。是以我也构建了一个。自界说 OAuth 经过、token 刷新处理、多源数据团聚，应有尽有。

十六次提交。四个小时调试一个会话半途逾期的 auth token。我在坎昆的货仓房间里，离泳池唯有十米远，却在看日记救助而不是拍浮。最终发布了，AG庄闲游戏APP面前运行得很好。但其后我也为其他劳动构建了作念相同事情的 CLI。CLI 需要一个 bash 剧本和一个 JSON 输出。第一次就到手了。

很酷。

Vercel 在大鸿沟上进行了相同的实验。从全面的器具库脱手：搜索、代码、文献、API 器具。你想要的每一个功能。Agents 稠浊了，作念了冗余调用，走了不必要的才略。他们削减到本色，给 agent 径直的 bash 看望权限。到手率提高到 100%，速率提高了 3.5 倍。

我写了对于为什么对于大大皆 agent 栽植来说 CLI 比 MCP 更好的著述，反应很豪恣。正本好多构建者皆有相同的怀疑，但在通盘生态系统皆在鼓吹 MCP 看成畴当年，说出来嗅觉很奇怪。

MCP 有它的位置。但领先伸手选择复杂责罚决策的本能，恰是 harness 在变得有用之前变得痴肥的原因。

失误 3：从不删除任何东西

这个问题很狡猾，因为它嗅觉是不负背负的。你构建了一个能用的东西。它在坐褥环境中。删除它嗅觉就像从高速公路上移除护栏。

然则模子在立异。而你的 harness 不知说念这小数。

上个月我从 OpenClaw 中删除了通盘记挂子系统。外部坎坷文检索、embedding 查找、对话历史注入。它花了两周时代构建，四个月时代崇尚。我在一个星期四删除了它。到星期五，数字告诉了故事：

每次查询的反馈蔓延下跌了 2.3 秒。Agent 罢手了幻觉"记取的"坎坷文——这些执行上是两个月前的失够数据。用户对支合手互动的惬意度提高了，因为 agent 回复的是东说念主们执行说的话，而不是记挂系统以为相干的内容。

模子（Kimi K2.5）仍是弥散好地崇尚会话内的坎坷文，外部记挂层执行上让事情变得更糟。我正在为裁汰我的居品质能的基础设施付费。

Manus，可能是面前在坐褥环境中经过最充分实战测试的自主 agent，以费劲的神色五次学到了这小数。他们在六个月内重写了通盘 harness 五次。不是因为模子转变了。因为每次重写皆剥离了复杂性。

他们的开动版块使用了一个 todo.md 文献，一分彩appagent 在每一步皆重写它以追踪进程。大约 30% 的统共 token 用于更新该文献。他们将其替换为一个子代理权术器（sub-agent planner），该权术器复返一个结构化对象，仅在需要时注入它。

他们将器具从几十个动态 MCP schema 削减到少于 20 个原子函数：bash、文献系统、代码实行。MCP 器具以至不在坎坷文窗口中了。它们通过 CLI 清晰，agent 通过 bash 调用它们。

Peak Ji，他们的首席科学家，骨鲠在喉地说："跟着模子变强，咱们不应该构建更多的脚手架，咱们应该让路模子的路。"

Anthropic 说了相同的话："跟着模子才能提高，你的模子也曾需要的器具面前可能正在截止它们。"

要是你的 harness 在三个月内莫得减轻，它可能仍是太大了。

2、让这一切起作用的一个花式

统共三个失误皆有调换的根底原因：过早、过万古期地给模子提供过多信息。当它需要 4 个器具时给了 12 个。当 bash 剧本就行时给了 MCP 支拨。记挂系统注入了失足的坎坷文，而模子仍是特等了它。

{jz:field.toptypename/}

责罚决策有一个名字。渐进式败露（progressive disclosure）。只在模子需要时向它展示它需要的内容。荫藏其他统共东西。

Cursor 作念得很激进。他们的动态坎坷文发现系统在职何给定才略过滤掉大约 47% 的可用 token。不是有时的，而是通过架构杀青的。模子只看到与这个特定任务、这个特定时候相干的内容。

Claude Code 通过手段（skills）来杀青这小数。你创建一个 skills/ 目次，Claude 在会话脱手时只看到手段称号和节略形容。唯有当它决定需要时才加载好意思满内容。LLM 的懒加载。

Manus 通过分层操作空间（layered action space）来杀青这小数。第 1 层：20 个原子器具，永远可见。第 2 层：通过 bash 调用的沙盒实用门径，永远不会羞辱坎坷文。第 3 层：agent 为复杂的链编写我方的剧本，而不是进行三次单独的 LLM 走动。

基准测试的影响是着实的。相同的模子，Claude Opus 4.5，在使用通用脚手架的情况下在 CORE-Bench 上得分为 42%。使用 Claude Code 看成 harness，得分为 78%。这不单是是渐进式败露，Claude Code 还带来了更好的器具经管、环境栽植和压缩。但运行测试的究诘东说念主员骨鲠在喉：脚手架险些使分数翻倍。模子莫得转变。

底下的三个支合手是我在实践中如何专揽渐进式败露的方法。器具、设立、崇尚。

3、框架：契约、不休、计帐

不是 47 层架构图。不是有 41 个手段界说和 11 个子代理的 GitHub 仓库。三件执行接收住坐褥环境锤真金不怕火的东西。

支合手 1：契约胜于直观

你看到了 OpenClaw 器具形容发生的事情。它起作用的原因是机械的：模子对你的形容进行 token 级别的花式匹配，以决定器具是否与现时查询相干。空泛的形容匹配统共内容。精准的形容只匹配你想要的内容。

我面前用于统共器具界说的模板，我忽视你今晚对你的三个最常用的器具也这么作念：

name: [tool_name] description: [WHAT specifically it returns， not vague nouns but the actual shape of useful output]. Call this when [specific trigger conditions]. Do NOT call when [common misuse case]. Expected output: [format and key fields].

"不要调用当"（Do NOT call when）这一排是转变一切的要津。莫得它，模子将每个器具皆视为"可能"。有了它，模子就有了一个契约。

支合手 2：不休胜于器具

每次你猜测"我需要一个新器具来责罚这个问题"时，停驻来。先问：CLAUDE.md 中的一排能责罚它吗？

与其用一个 linter MCP 劳动器，不如用一个不休："每次提交前运行测试。"与其用一个立场搜检 agent，不如用一个不休："撤职 CONVENTIONS.md 中的商定。"与其用一个权术器具，不如用一个不休："在触碰代码前老是先写 plan.md。"

CLAUDE.md 中的不休在运行时资本为零 token，并加多了零故障面。一个器具每次调用时皆会蓦地 token，加多一个模子可能出错的决策点，而况需要崇尚。一朝你看到它，数学就很彰着了。

一个我执行上用作跨名堂基础的初学 CLAUDE.md。不是单体，而是指向故意文献的导航层：

Senior engineer. You plan before you code. You test before you push. 1. Read this file + any progress.md at session start 2. Plan first. Write plan.md before implementation. 3. One feature at a time. Commit after each. 4. Run existing tests before AND after changes 5. Update progress.md before session ends ## Constraints - Never overwrite files without showing a diff first - If a task needs more than 3 files changed， break it down - When unsure， ask. Don't guess at business logic. - Keep commits small and descriptive ## Project specifics [Your stack， conventions， key files here] See CONVENTIONS.md for code style rules.

二十行告诉 agent 如何责任，而不是知说念什么。Anthropic 我方的历久运行 agent harness 在雷同的中枢之上使用进程文献、功能列表和结构化的 git 提交。OpenAI 的 Codex 团队以费劲的神色学到了浩荡的 AGENTS.md 会失败。他们的忽视："给 Codex 一张舆图，而不是 1，000 页的评释书。"

要津是将渐进式败露专揽于设立：一个节略的 CLAUDE.md，指向 agent 在需要时读取的详确文献。不是它浏览和忽略的 500 行单体。不是什么皆不说的 10 行存根。一个导航层。

支合手 3：季度计帐

每三个月，我坐下来扫视我的 harness，问五个问题：

哪些器具在 30 天内未被 agent 调用过？删除它们。

哪些 CLAUDE.md 规矩的存在是因为旧模子愚蠢？移除它们。

哪些护栏面前由模子原生处理？剥离它们。

坎坷文注入仍然必要吗，照旧模子的检索才能仍是弥散好？测试不带它的情况。

两个器具不错合并为一个，并带有更好的形容吗？作念这件事。

上个季度在 OpenClaw 上：我删除了一个 6 周内未触发的重试不同模子的回退机制（Kimi K2.5 仍是变得弥散融会）。我移除了三条对于 JSON 体式的 CLAUDE.md 规矩，模子面前原生处理这些规矩。我将两个监控器具合并为一个，并带有更具体的契约。

净效果：行为部分减少了 30%。零功能丢失。更快的反馈。更少需要崇尚。

Manus 合手续运行这个过程。Peak Ji 的测试：对你的 agent 评估套件运行一个更强的模子。要是性能莫得提高，你的 harness 等于在牵扯它。仅这个问题就能告诉你一切：你是在构建脚手架照旧在构建笼子。

4、这对你今晚意味着什么

十五分钟。这等于你着实脱手所需的一说念时代。

重写你的三个最常用器具的形容。找到你的 agent 调用最多的器具。怒放它们的形容。要是它们说的是器具作念什么，而不是何时调用它和预期什么，用上头的契约模板重写它们。每个器具五分钟。影响是立竿见影的，agent 罢手推测并脱手撤职指示。

然后将你的 CLAUDE.md 构建为导航层。要是你还莫得，粘贴上头的初学模板并填写你的堆栈细节。要是你仍是有了，搜检：它是单体照旧舆图？将详确规矩移动到单独的文献（CONVENTIONS.md、ARCHITECTURE.md），并将你的 CLAUDE.md 保合手在 20-40 行左右。Agent 每次会话皆读取 CLAUDE.md。它应该找到主见，而不是百科全书。

然后删除一件事。一个器具。一个 CLAUDE.md 规矩。一个中间件钩子。选一个你一个月没碰过的东西。删除它。运行你的平淡责任经过。要是什么皆没坏，它就不应该在那处。要是某些东西坏了，恭喜，你刚刚了解了你的 harness 中着实紧迫的东西。这比某东说念主在 X 上发布的任何架构图皆更有价值

Harness 工程正在流行。给它六个月。会有课程。认证。GitHub 仓库，有 41 个手段界说、11 个子代理，和一个比大大皆代码库皆长的 README。三千颗星，零坐褥部署。

与此同期，着实请托 agent 的构建者将不绝作念这个词存在之前他们一直在作念的事情。编写明晰的指示。选择粗略的器具。删除罢手责任的东西。

Harness 不是一份新责任。它是吞并份责任，只是名字更好了。

和单双

一分彩 AI代理的限度工程

和单双

热点资讯

一分彩app官方下载年青东谈主废弃宜家，却对这个“线下拼多

一分彩app官方最新版下载斯诺克内行赛：丁俊晖无缘八强

一分彩app官方下载轰17+18!联手詹姆斯真好，东契奇说

一分彩app官方下载前国足主帅米卢到访海港老师场，与穆斯卡

一分彩app下载澳网女单签表：王欣瑜首轮战经验赛选手，张帅