The Linear Representation Hypothesis and the Geometry of Large Language Models
本文是关于文章 The Linear Representation Hypothesis and the Geometry of Large Language Models 的笔记.
这篇文章的思想比较直白, 无外乎以下三点.
- 每个概念(的出现与否)都被表达为(上下文/词)向量在一个子空间上的投影的取值.
- 进一步地, 通过对这样的子空间使用线性的探针, 可以测量概念的出现.
- 最后, 通过在该子空间上使用线性的一些操作, 可以干预概念的取值.
回顾自回归 LLM 预测下文的方式.
LLM 首先将上文
LLM 还将每个词(token)
LLM 预测的则是上文
概念变量
我们可以对
概念变量的表征才是我们实际能观测和干预的东西. 如果表征空间
// TODO