<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Transformer on Tony老师的博客</title><link>https://blog.tanteng.space/tags/transformer/</link><description>Recent content in Transformer on Tony老师的博客</description><generator>Hugo</generator><language>zh</language><lastBuildDate>Fri, 03 Apr 2026 00:00:00 +0800</lastBuildDate><atom:link href="https://blog.tanteng.space/tags/transformer/index.xml" rel="self" type="application/rss+xml"/><item><title>一图看懂 Transformer 架构原理</title><link>https://blog.tanteng.space/posts/transformer-architecture-explained/</link><pubDate>Fri, 03 Apr 2026 00:00:00 +0800</pubDate><guid>https://blog.tanteng.space/posts/transformer-architecture-explained/</guid><description>&lt;p>Transformer 是当今大语言模型（GPT、BERT、T5 等）的基础架构，由 Google 在 2017 年论文 &lt;em>&amp;ldquo;Attention Is All You Need&amp;rdquo;&lt;/em> 中提出。它彻底抛弃了 RNN 的递归结构，仅依靠&lt;strong>注意力机制&lt;/strong>实现序列建模，在效果和效率上都带来了革命性突破。&lt;/p>
&lt;p>本文通过一张架构图 + 核心公式 + 基础概念解释，帮你快速建立对 Transformer 的整体理解。&lt;/p></description></item></channel></rss>