斯坦福大学教授Christopher Manning在自然语言处理NLP领域里曾经建议过一种奇特的词向量表达方式,一个词具有多个含义的时候,表达成多个向量的线性叠加。每一个向量代表在一种语境里的一个独特含义。
例如,“pike” 既可以是武器,又可以是鱼,又可以是通行费,那么它的数学表达方法,也就是它的向量,是这三种不同含义的加权和:

其中不同的 alpha 取决于各个含义在语料库中的频率。所以一个单词在多维空间可以出现很多次,其中每一次出现,代表一个独特的含义,然后和关联词汇聚在一起形成一个Cluster。
投影在二维空间里就看上去像是这样,比如Jaguar出现三次,一个是汽车,一次是计算机硬件,还有一次是计算机软件。每一次出现都和它语境相关的单词共同出现,这样我们就可以用数学的方法从上下文判断这个单词在这里到底是什么含义。

这种方法并非当前主流的Word Embedding,目前主流的方法汇聚同一个单词的多个含义,放在同一个多维空间位置,通过针对不同的维度组合的投影方式来判断其具体含义。但是Manning的方法具有一些有趣的特性。
首先,它的公式貌似与量子力学中的粒子状态异曲同工,电子的位置可以被描述为不同状态的线性叠加,比如电子在不同位置的概率波:

相应的,这种词向量和量子力学具有同样的观察(Observation)与塌缩(Collapse)现象:
在词向量中,当你在上下文中使用 “pike”,你会从词向量的叠加状态中“提取”出一个具体的含义。例如:
• “He caught a pike” → 这里的 “pike” 可能指鱼 🐟
• “He stepped on a pike” → 这里的 “pike” 可能指长矛 🏹
在量子力学中,电子的位置只有在被测量时才会“塌缩”到某个确定的位置,而在测量之前它是多个可能位置的叠加。
再次,稀疏编码(Sparse Coding)与测量问题的相似性:
• 在词向量中,稀疏编码(Sparse Coding)的思想表明,可以通过合适的方法将词的不同含义分解出来,就像测量后得到了某个特定的意义。
• 在量子测量中,海森堡测不准原理表明,粒子的位置和动量不能同时被精确测量,它们之间的关系类似于词向量中不同含义的权衡(trade-off)。
不同之处:
词向量是概率性但可观测的,而量子态是概率性的但不可直接观测:
在 NLP(自然语言处理)中,我们可以计算词向量,并用降维或聚类的方法来找到不同的含义。
在量子力学中,粒子的状态只能通过测量来获取,但测量会影响它的原始状态。
虽然这个词向量叠加和量子力学中的量子态叠加有数学相似性。但是词向量的叠加是基于大规模文本数据的统计关系,而量子叠加是基于物理定律的概率描述。不过,这种类比有助于启发语言学家和计算机科学家创造崭新的数学方法来进行取得了不起的科研成果。
数学表达方式的选择往往决定了一个领域能否取得根本性的突破。从物理学到自然语言处理(NLP),许多重大进展都源于找到更精确、更通用的数学工具来描述复杂的现象。
理查德·费曼(Richard Feynman) 提出的路径积分(Path Integral) 彻底改变了人们对量子电动力学(QED)的理解。费曼发现,电子的运动可以被描述为从一个点到另一个点的所有可能路径的总和,每条路径都带有一个相应的振幅。这种数学框架不仅简化了计算,也赋予了量子力学更直观的几何解释,为后来的标准模型奠定了基础。
类似地,在 NLP 领域,找到合适的数学表达方式同样至关重要。Tomas Mikolov 在 2013 年提出的 Word2Vec 便是一个典型的例子。Mikolov 及其Google Brain团队设计了一种高效的神经网络模型,使得单词可以被嵌入到高维向量空间(Word Embeddings) 中,并且在这个空间中,语义相近的单词会被映射到相近的位置。这一发现彻底改变了 NLP 领域,使得计算机可以基于几何距离度量词语之间的关系,而不依赖于传统的手工规则或统计方法。更重要的是,Mikolov 还发现了向量运算的语义规律,比如:

这一现象表明,单词之间的关系可以被简单的数学运算表达出来,为后来深度学习时代的 NLP 发展奠定了基础。真是美妙绝伦!
这种数学思想也体现在 Christopher Manning 提出的多义词向量的线性叠加(Superposition of Word Senses) 上。正如费曼的路径积分方法允许所有可能路径的叠加,Manning 认为,一个单词的不同含义可以表示为多个向量的加权和,使得它在不同的上下文中自然地“塌缩”到正确的含义。这种方法不仅在理论上优雅,也在上下文感知的 NLP 任务(Context-Aware NLP Tasks) 中展现出更强的表现力。
数学不仅仅是一个工具,更是一种思维方式。无论是在物理学中解析电子的运动,还是在计算机科学中捕捉语言的结构,找到正确的数学表达方式往往意味着对世界有了更深刻的理解。未来,在 AI 和 NLP 领域,或许我们还能借鉴更多物理学的数学框架,比如群论(Group Theory)、拓扑学(Topology)或测度论(Measure Theory),来进一步推动人工智能语言处理能力的演进。
