Dot Product and Similarity

概念界定

内积是一种把两个向量映射为标量的运算，可用于刻画两个向量在方向和尺度上的匹配程度。相似度度量则进一步用几何关系近似表示对象之间的相关性或语义接近程度。

大模型中有两类典型问题都依赖相似度：一类是 Attention 中 query 与 key 的匹配，另一类是 RAG 和 embedding 检索中文本向量之间的匹配。理解内积和余弦相似度，可以帮助区分“向量几何接近”和“语义真正相同”之间的差别。

两个向量：

x = [x_1, x_2, ..., x_d]
y = [y_1, y_2, ..., y_d]

内积定义为：

x · y = Σ_i x_i y_i

几何形式：

x · y = ||x|| ||y|| cos(θ)

余弦相似度定义为：

cos(x, y) = (x · y) / (||x|| ||y||)

内积既受方向影响，也受长度影响。两个方向接近且长度较大的向量会有较大内积。余弦相似度则通过除以范数去掉长度影响，更强调方向是否一致。

Attention score：

score(i, j) = q_i · k_j / sqrt(d_head)

其中 q_i 表示第 i 个 token 的 query，k_j 表示第 j 个 token 的 key。点积越大，说明当前 query 与该 key 越匹配。

向量检索：

query_embedding:    [D]
document_embedding: [D]
similarity = cos(query_embedding, document_embedding)

RAG 系统会优先取相似度较高的文档片段。