The Linear Representation Hypothesis and the Geometry of Large Language Models

本文是关于文章 The Linear Representation Hypothesis and the Geometry of Large Language Models 的笔记.

这篇文章的思想比较直白, 无外乎以下三点.

  • 每个概念(的出现与否)都被表达为(上下文/词)向量在一个子空间上的投影的取值.
  • 进一步地, 通过对这样的子空间使用线性的探针, 可以测量概念的出现.
  • 最后, 通过在该子空间上使用线性的一些操作, 可以干预概念的取值.

回顾自回归 LLM 预测下文的方式.

LLM 首先将上文 映射到嵌入向量

LLM 还将每个词(token) 表达为反嵌入向量

LLM 预测的则是上文 时下文 的概率, 即

概念变量 则是一个隐变量, 其被上文决定, 并干预模型的输出:

我们可以对生成一个集合. 例如 是对于男女二元性别这个概念生成的集合

概念变量的表征才是我们实际能观测和干预的东西. 如果表征空间中的向量满足

// TODO