大语言模型术语记录
文章目录
记录一些大语言模型相关的术语,方便查阅。按照首字母排序、分类。
A
B
C
D
E
F
G
GEMM 通用矩阵乘法
术语 | 全拼 | 中文翻译 |
---|---|---|
GEMM | General Matrix Multiplication | 通用矩阵乘法 |
是什么:GEMM 是一种基础且核心的矩阵运算操作,它描述了一般形式下两个矩阵相乘的过程。
实现方式
在数学库中,GEMM 通常有多种实现方式,以适应不同的硬件平台和计算需求。常见的实现方式有:
基于 CPU 的实现:利用 CPU 的多核特性和指令集(如 SIMD 指令集)进行并行计算,以提高矩阵乘法的速度。例如,通过将矩阵分块,将大矩阵的乘法分解为多个小矩阵的乘法,然后利用 CPU 的多个核心同时处理这些小矩阵的乘法,从而加速整个计算过程。
基于 GPU 的实现:GPU 具有大量的计算核心,适合进行大规模的并行计算。在 GPU 上实现 GEMM 时,通常会使用 CUDA(NVIDIA 的并行计算平台)或 OpenCL 等编程框架,将矩阵乘法任务分配到 GPU 的各个计算核心上同时执行,以充分发挥 GPU 的计算能力。
优化意义
GEMM 的优化对于提高整个计算系统的性能至关重要。由于在深度学习和科学计算等领域中,矩阵乘法的计算量巨大,其性能瓶颈往往会影响到整个系统的运行效率。通过对 GEMM 算法进行优化,如采用更高效的算法、合理利用硬件资源、优化内存访问模式等,可以显著减少计算时间,提高计算效率,从而加速模型的训练和推理过程,或者更快速地解决科学计算问题。许多数学库,如 BLAS(Basic Linear Algebra Subprograms)中的 SGEMM(单精度 GEMM)和 DGEMM(双精度 GEMM)等,都对 GEMM 进行了高度优化,以满足不同应用场景的需求。
H
I
J
K
L
M
MHA 多头注意力
术语 | 全拼 | 中文翻译 |
---|---|---|
MHA | Multi-Head Attention | 多头注意力 |
多头注意力机制(Multi-Head Attention)是深度学习中一种重要的注意力机制,广泛应用于Transformer模型中。它通过并行计算多个注意力头,能够捕捉输入数据的多样性和不同层次的依赖关系,从而提升模型的表达能力和学习能力。
核心原理
多头注意力机制的核心思想是将输入特征(查询Query、键Key和值Value)分割为多个子空间,每个子空间独立计算注意力。每个头的输出会被拼接并通过线性变换生成最终结果。这种设计允许模型从不同角度关注输入数据的特征。
具体步骤如下:
输入变换:通过线性变换生成查询、键和值矩阵。
分头处理:将查询、键和值矩阵分割为多个头,每个头独立计算注意力。
注意力计算:每个头执行缩放点积注意力(Scaled Dot-Product Attention),计算注意力权重并加权值矩阵。
拼接与融合:将所有头的输出拼接,并通过线性变换生成最终输出。
MLA 多头潜在注意力
术语 | 全拼 | 中文翻译 |
---|---|---|
MLA | Multi-Head Latent Attention | 多头潜在注意力 |
是什么:MLA 是一种用于处理大规模语言模型的注意力机制。它通过将输入序列分成多个头,每个头都执行独立的注意力计算,从而提高模型的并行性和计算效率。MLA 的核心思想是,将输入序列分成多个头,每个头都执行独立的注意力计算,然后将这些头的结果合并起来,得到最终的输出。这种注意力机制可以有效地处理大规模的输入序列,同时保持计算效率。
MTP 多词元预测
术语 | 全拼 | 中文翻译 |
---|---|---|
MTP | Multi-Token Prediction | 多词元预测 |
是什么:核心思路是,让模型在训练时,一次性预测多个未来token,而不是仅仅预测下一个token。
论文: [2404.19737] Better & Faster Large Language Models via Multi-token Prediction
N
O
P
Q
R
RAG
术语 | 全拼 | 中文翻译 |
---|---|---|
RAG | Retrieval-Augmented Generation | 检索增强生成 |
一种让模型变得更聪明、更准确的技术。当模型遇到一个问题时,它不只依赖自己“记住”的知识来回答,而是会先像搜索引擎一样去一个知识库(比如维基百科、公司内部文档)里查找相关的最新信息,然后结合这些检索到的信息来生成答案。这大大减少了模型“胡说八道”的概率,并能回答它训练数据中没有的新知识。
RL/RLHF
术语 | 全拼 | 中文翻译 |
---|---|---|
RL | Reinforcement Learning | 强化学习 |
RLHF | Reinforcement Learning from Human Feedback | 从人类反馈中强化学习 |
是什么:这是继 SFT 之后的又一个关键训练阶段,通常指 RLHF (Reinforcement Learning from Human Feedback)。在这个阶段,模型会生成多个不同的回答,然后由人类(或一个“奖励模型”)来评价哪个更好。模型会根据这些反馈进行调整,学习如何生成更符合人类偏好的回答。这就像一个学生写了多版答案,老师给高分的那版,学生就会学习那种写法。 为什么:因为 SFT 训练出来的模型,虽然学会了如何回答问题,但它的回答可能不符合人类偏好,比如,它可能会说一些“废话”(比如,它可能会说“我不知道”,而不是给出一个更准确的答案)。所以,我们需要一个“奖励模型”来评价模型的回答,然后让模型学习如何生成更符合人类偏好的回答。
S
SFT
术语 | 全拼 | 中文翻译 |
---|---|---|
SFT | Supervised Fine-Tuning | 监督微调 |
是什么:这是训练语言模型的一个关键阶段。在模型已经通过海量数据(预训练)学会了语言的基础知识后,我们用“指令-回答”对(Instruction, Response)的格式化数据来专门训练它,教它如何听从指令、如何与人对话。这就像一个博览群书的学者(预训练完成),现在要专门学习如何当一个“任务助理”。 为什么:因为模型需要学会如何听从指令、如何与人对话,所以需要专门训练它。就像一个学生,需要专门学习如何当一个“任务助理”。 怎么做:好的 SFT 数据集,能提供一个坚实的起点,通过示范教导模型期望的基线行为。SFT 的训练数据来源有:1)黄金标准的“人工示范”,2)过滤现有数据集;3)模型生成数据集与人工审查/编辑。
参考资料:
T
U
V
W
X
Y
Z
文章作者 疯魔慕薇
上次更新 2025-08-30