<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Translation on Tony老师的博客</title><link>https://blog.tanteng.space/tags/translation/</link><description>Recent content in Translation on Tony老师的博客</description><generator>Hugo</generator><language>zh</language><lastBuildDate>Mon, 11 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://blog.tanteng.space/tags/translation/index.xml" rel="self" type="application/rss+xml"/><item><title>深度拆解：AI Agent Harness 的构造【译】</title><link>https://blog.tanteng.space/2026/05/ai-agent-harness-deep-dive/</link><pubDate>Mon, 11 May 2026 00:00:00 +0000</pubDate><guid>https://blog.tanteng.space/2026/05/ai-agent-harness-deep-dive/</guid><description>&lt;p>本文将深入探讨 Anthropic、OpenAI、Perplexity 和 LangChain 究竟在开发什么。我们将聊聊编排循环、工具、记忆、上下文管理，以及那些将&amp;quot;无状态&amp;quot;的大语言模型（LLM）转变为全能智能体（Agent）的底层机制。&lt;/p>
&lt;p>你可能已经开发过聊天机器人，甚至可能用一些工具搭建了一个 ReAct 循环（ReAct：Reason + Act，一种让模型在行动前先进行推理的模式）。跑 Demo 的时候看着挺好，但一旦投入生产环境，系统就会开始掉链子：模型会忘记三步前做了什么，工具调用悄悄报错，上下文窗口（Context Window）里塞满了毫无意义的垃圾信息。&lt;/p>
&lt;p>问题其实并不在模型本身，而在模型外围的基础设施。&lt;/p>
&lt;p>LangChain 证明了这一点：他们仅仅通过改变包裹大语言模型的底层架构——模型没变，参数没变——就让系统在 TerminalBench 2.0（一个衡量 AI 智能体处理命令行任务能力的权威基准测试）上的排名从 30 名开外飙升到了第 5 名。另一项研究则通过让大语言模型自己去优化这套架构，实现了 76.4% 的通过率，甚至超过了人类精心设计的系统。&lt;/p>
&lt;p>现在，这套基础设施有了一个正式的名字：AI Agent Harness。&lt;/p></description></item></channel></rss>