向量查询之跨语言语义搜索原理

二月 28, 2026 | AI

用知识的摘要进行向量化查询的方式，找到相关知识。一篇英文的知识，也能找到相似的中文知识，这是为什么？

这是一个非常深刻且触及了现代自然语言处理（NLP）核心原理的问题。简单来说，之所以英文的摘要能搜索到中文的知识，是因为在向量化的世界里，语言不再是隔阂，“含义”（Semantics）才是坐标。

这种技术通常被称为跨语言语义检索（Cross-lingual Semantic Search）。其背后的原理可以拆解为以下几个关键层面：

1. 核心机制：将"词"转化为"概念坐标"

传统的搜索是基于关键词匹配（Keyword Matching）。如果你的搜索词是 “Apple”，计算机就在数据库里找 “Apple” 这个词。在这种模式下，“Apple” 和 “苹果” 是完全不同的字符，无法匹配。

但在向量化（Vectorization/Embedding）的过程中，计算机使用的模型（如 BERT, RoBERTa, 或 OpenAI 的 text-embedding-3 等）将文字转化为了高维向量（一串数字）。

在这个高维空间里：

类比：想象一个按"主题"排列的巨大图书馆。虽然一本是英文书，一本是中文书，但因为它们都是讲"量子物理"的，所以图书管理员（向量模型）把它们放在了同一个书架上。

当你把英文摘要向量化时，你其实是在告诉计算机：“请给我在这个书架位置附近的所有书。“计算机自然会把旁边的中文书也拿给你。

这种"跨语言"的能力不是凭空而来的，而是通过多语言模型（Multilingual Models）训练得到的。

在训练这些模型时，科学家使用了大量的平行语料（即同一段话的多种语言版本，例如联合国会议记录、双语新闻、维基百科等）。

输入： “The cat sits on the mat” (英) 和 “猫坐在垫子上” (中)
目标：强迫模型调整参数，使得这两句话生成的向量 $V_{en}$ 和 $V_{zh}$ 之间的距离尽可能小（即 $V_{en} \approx V_{zh}$）

经过亿万次的训练，模型构建了一个共享的语义空间。在这个空间里，语言的外壳被剥离，只剩下意思的核心。

你提到的策略是"用知识的摘要进行向量化查询”，这是一个非常高明的优化手段（通常被称为 Dense Passage Retrieval 或者是 RAG 中的优化策略）。

一篇长文章可能包含很多废话、客套话或无关细节。如果直接向量化整篇文章，向量的"重心"可能会偏移。

摘要提炼了核心思想。

查询语句（Query）通常很短，而知识库里的文章很长。将文章浓缩为摘要后，摘要的信息密度与查询语句更匹配，向量相似度的计算会更精准。

当我们计算"相似度"时，通常使用余弦相似度（Cosine Similarity）。

假设：

计算机计算的是这两个向量夹角的余弦值：

$$\text{similarity} = \cos(\theta) = \frac{\mathbf{A} \cdot \mathbf{B}}{|\mathbf{A}| |\mathbf{B}|}$$

如果模型训练得好，即使 $\mathbf{A}$ 源自英文，$\mathbf{B}$ 源自中文，只要含义相同，它们的夹角 $\theta$ 就会非常小，余弦值接近 1。

英文摘要能找到中文知识，是因为：

这就是为什么在 AI 眼里，语言的巴别塔（Tower of Babel）已经倒塌，剩下的只有纯粹的"含义"。