在大模型(如 LLM、多模态模型等)中,向量(Vector) 是核心数据结构,用于将文本、图像、音频等非结构化信息转化为可计算的数值形式,是模型理解和处理数据的基础。以下从定义、核心作用、类型及特点展开说明:
一、大模型中向量的定义
大模型中的向量是由一组有序数值构成的数组,用于编码原始数据(如文本、图像)的语义、特征或上下文信息。
(1)从数学角度:是 n 维空间中的一个点,每个维度对应一个特征值,维度数量(向量长度)通常为模型预设的固定值(如 768 维、1024 维、7680 维等)。
(2) 从语义角度:向量的数值分布隐含了原始数据的含义,例如 “猫” 和 “狗” 的向量在空间中距离较近(均为动物),而与 “汽车” 的向量距离较远。
二、向量的主要作用包括:
原始数据(文本、图像等)无法直接被模型计算。向量的核心作用就是将将非结构化数据转化为可计算形式。
1、语义编码:通过模型的 “编码器”(如 Transformer 的嵌入层、图像的卷积层)将原始数据转化为向量。通过训练,向量能够捕捉数据的内在规律。向量之间的数学运算(如余弦相似度、欧氏距离)可用于衡量原始数据的语义关联(例如 “相似性匹配”“聚类”);例如,词向量可以将相似的词(如“猫”和“狗”)在向量空间中表示为距离较近的点,而句向量可以将语义相近的句子(如“今天天气好”和“阳光明媚”)表示为相似的向量。这种特性使得大模型能够理解数据的语义信息。
2、模型处理的核心:大模型(如GPT、BERT)内部通过向量进行信息传递和变换。输入文本首先被转换为向量序列,然后模型通过自注意力机制(Transformer)更新这些向量表示,从而实现对输入数据的理解和处理。
三、大模型中常见的向量类型
根据编码的数据类型和场景,向量可分为以下几类:
向量类型 | 定义 | 示例场景 |
文本向量(Text Embedding) | 编码文本(词、句子、段落)语义的向量 | - 词向量(Word Embedding):如 “苹果” 的向量 |
图像向量(Image Embedding) | 编码图像视觉特征的向量 | 一张猫的图片被编码为 1024 维向量,用于图像检索 |
多模态向量 | 编码跨模态数据(如图文对)的统一向量 | 同一向量同时包含 “猫的图片” 和 “这是一只猫” 的语义,支持跨模态匹配 |
上下文向量 | 编码上下文信息的动态向量 | 在对话模型中,根据前文生成的 “回复向量”,包含历史对话的上下文 |
四、关键特点
- 高维度:大模型的向量维度通常较高(数百到数千维),以容纳更丰富的特征(例如 GPT-3 的词向量为 12288 维,BERT-base 为 768 维)。
- 稠密性:与传统稀疏向量(如 One-Hot 编码,大部分维度为 0)不同,大模型向量是 “稠密的”,每个维度都有非零值,更高效地利用空间编码信息。
- 语义相关性:向量的空间距离直接反映语义相似度(例如余弦相似度越高,语义越接近),这是 “向量检索”“语义匹配” 的核心原理。
- 模型依赖性:同一数据在不同模型中生成的向量可能不同(例如 “苹果” 在 BERT 和 GPT 中的向量编码逻辑有差异),但核心目标一致 —— 捕捉语义特征。
五、向量在大模型中有多种应用场景:
1. 文本表示与理解:
(1)词嵌入(如Word2Vec、GloVe)将词语映射为向量,用于文本分类、情感分析等任务。
(2)句向量(如BERT的CLS向量)将整句编码为向量,用于语义相似度计算、问答系统等。
(3)文档向量用于长文本的摘要表示,适用于新闻聚类或推荐。
2. 搜索与推荐:
(1)语义搜索将用户查询和文档转换为向量,通过余弦相似度匹配结果。
(2) 个性化推荐将用户行为和物品信息编码为向量,计算匹配度以提供个性化推荐。
3. 生成式任务:
(1)文本生成中,大模型在解码时基于向量生成下一个词。
(2) 跨模态生成(如DALL-E的图像生成文本或文本生成图像)依赖于跨模态向量对齐。
4. 多模态任务:
(1)统一向量空间将文本、图像、音频映射到同一空间,实现跨模态检索(如用文本搜图)。
(2)视频理解中将视频帧和语音转换为向量后融合,用于内容分析或标签生成。
5. 模型优化与解释:
使用降维技术(如t-SNE)将高维向量投影到2D/3D空间,以便分析模型是否学到有效模式。