向量查询之跨语言语义搜索原理
| AI用知识的摘要进行向量化查询的方式,找到相关知识。一篇英文的知识,也能找到相似的中文知识,这是为什么?
这是一个非常深刻且触及了现代自然语言处理(NLP)核心原理的问题。简单来说,之所以英文的摘要能搜索到中文的知识,是因为在向量化的世界里,语言不再是隔阂,“含义”(Semantics)才是坐标。
这种技术通常被称为跨语言语义检索(Cross-lingual Semantic Search)。其背后的原理可以拆解为以下几个关键层面:
1. 核心机制:将"词"转化为"概念坐标"
传统的搜索是基于关键词匹配(Keyword Matching)。如果你的搜索词是 “Apple”,计算机就在数据库里找 “Apple” 这个词。在这种模式下,“Apple” 和 “苹果” 是完全不同的字符,无法匹配。
但在向量化(Vectorization/Embedding)的过程中,计算机使用的模型(如 BERT, RoBERTa, 或 OpenAI 的 text-embedding-3 等)将文字转化为了高维向量(一串数字)。
在这个高维空间里:
- 向量不代表字符的形状,而代表含义
- 模型经过海量数据的训练,它"学会"了:英文的 “Love” 和中文的 “爱” 在语义上是等价的
- 因此,尽管它们的写法完全不同,但在向量空间中,它们的数学坐标是非常接近的
类比: 想象一个按"主题"排列的巨大图书馆。虽然一本是英文书,一本是中文书,但因为它们都是讲"量子物理"的,所以图书管理员(向量模型)把它们放在了同一个书架上。
当你把英文摘要向量化时,你其实是在告诉计算机:“请给我在这个书架位置附近的所有书。“计算机自然会把旁边的中文书也拿给你。
2. 训练过程:平行语料库(Parallel Corpora)
这种"跨语言"的能力不是凭空而来的,而是通过多语言模型(Multilingual Models)训练得到的。
在训练这些模型时,科学家使用了大量的平行语料(即同一段话的多种语言版本,例如联合国会议记录、双语新闻、维基百科等)。
- 输入: “The cat sits on the mat” (英) 和 “猫坐在垫子上” (中)
- 目标: 强迫模型调整参数,使得这两句话生成的向量 $V_{en}$ 和 $V_{zh}$ 之间的距离尽可能小(即 $V_{en} \approx V_{zh}$)
经过亿万次的训练,模型构建了一个共享的语义空间。在这个空间里,语言的外壳被剥离,只剩下意思的核心。
3. 为什么"用摘要"效果更好?
你提到的策略是"用知识的摘要进行向量化查询”,这是一个非常高明的优化手段(通常被称为 Dense Passage Retrieval 或者是 RAG 中的优化策略)。
去噪(Noise Reduction)
一篇长文章可能包含很多废话、客套话或无关细节。如果直接向量化整篇文章,向量的"重心"可能会偏移。
聚焦(Focus)
摘要提炼了核心思想。
密度匹配(Density Matching)
查询语句(Query)通常很短,而知识库里的文章很长。将文章浓缩为摘要后,摘要的信息密度与查询语句更匹配,向量相似度的计算会更精准。
4. 数学视角的解释
当我们计算"相似度"时,通常使用余弦相似度(Cosine Similarity)。
假设:
- 你的英文摘要向量是 $\mathbf{A}$
- 数据库里的某条中文知识向量是 $\mathbf{B}$
计算机计算的是这两个向量夹角的余弦值:
$$\text{similarity} = \cos(\theta) = \frac{\mathbf{A} \cdot \mathbf{B}}{|\mathbf{A}| |\mathbf{B}|}$$
如果模型训练得好,即使 $\mathbf{A}$ 源自英文,$\mathbf{B}$ 源自中文,只要含义相同,它们的夹角 $\theta$ 就会非常小,余弦值接近 1。
总结
英文摘要能找到中文知识,是因为:
- 向量化将文字转化为了数学意义上的"概念”
- 多语言模型通过平行语料训练,将不同语言的同一概念映射到了同一个几何位置
- 摘要去除了噪音,让语义坐标更加精准
这就是为什么在 AI 眼里,语言的巴别塔(Tower of Babel)已经倒塌,剩下的只有纯粹的"含义"。