记录一些大语言模型相关的术语，方便查阅。按照首字母排序、分类。

A

B

C

D

E

F

G

GEMM 通用矩阵乘法

术语	全拼	中文翻译
GEMM	General Matrix Multiplication	通用矩阵乘法

是什么：GEMM 是一种基础且核心的矩阵运算操作，它描述了一般形式下两个矩阵相乘的过程。

实现方式
在数学库中，GEMM 通常有多种实现方式，以适应不同的硬件平台和计算需求。常见的实现方式有：
基于 CPU 的实现：利用 CPU 的多核特性和指令集（如 SIMD 指令集）进行并行计算，以提高矩阵乘法的速度。例如，通过将矩阵分块，将大矩阵的乘法分解为多个小矩阵的乘法，然后利用 CPU 的多个核心同时处理这些小矩阵的乘法，从而加速整个计算过程。
基于 GPU 的实现：GPU 具有大量的计算核心，适合进行大规模的并行计算。在 GPU 上实现 GEMM 时，通常会使用 CUDA（NVIDIA 的并行计算平台）或 OpenCL 等编程框架，将矩阵乘法任务分配到 GPU 的各个计算核心上同时执行，以充分发挥 GPU 的计算能力。
优化意义
GEMM 的优化对于提高整个计算系统的性能至关重要。由于在深度学习和科学计算等领域中，矩阵乘法的计算量巨大，其性能瓶颈往往会影响到整个系统的运行效率。通过对 GEMM 算法进行优化，如采用更高效的算法、合理利用硬件资源、优化内存访问模式等，可以显著减少计算时间，提高计算效率，从而加速模型的训练和推理过程，或者更快速地解决科学计算问题。许多数学库，如 BLAS（Basic Linear Algebra Subprograms）中的 SGEMM（单精度 GEMM）和 DGEMM（双精度 GEMM）等，都对 GEMM 进行了高度优化，以满足不同应用场景的需求。
引用自: https://www.cnblogs.com/shaohef/p/18826890

H

I

J

K

L

M

MHA 多头注意力

术语	全拼	中文翻译
MHA	Multi-Head Attention	多头注意力

多头注意力机制（Multi-Head Attention）是深度学习中一种重要的注意力机制，广泛应用于Transformer模型中。它通过并行计算多个注意力头，能够捕捉输入数据的多样性和不同层次的依赖关系，从而提升模型的表达能力和学习能力。

核心原理
多头注意力机制的核心思想是将输入特征（查询Query、键Key和值Value）分割为多个子空间，每个子空间独立计算注意力。每个头的输出会被拼接并通过线性变换生成最终结果。这种设计允许模型从不同角度关注输入数据的特征。
具体步骤如下：
输入变换：通过线性变换生成查询、键和值矩阵。
分头处理：将查询、键和值矩阵分割为多个头，每个头独立计算注意力。
注意力计算：每个头执行缩放点积注意力（Scaled Dot-Product Attention），计算注意力权重并加权值矩阵。
拼接与融合：将所有头的输出拼接，并通过线性变换生成最终输出。

MLA 多头潜在注意力

术语	全拼	中文翻译
MLA	Multi-Head Latent Attention	多头潜在注意力

是什么：MLA 是一种用于处理大规模语言模型的注意力机制。它通过将输入序列分成多个头，每个头都执行独立的注意力计算，从而提高模型的并行性和计算效率。MLA 的核心思想是，将输入序列分成多个头，每个头都执行独立的注意力计算，然后将这些头的结果合并起来，得到最终的输出。这种注意力机制可以有效地处理大规模的输入序列，同时保持计算效率。

MTP 多词元预测

术语	全拼	中文翻译
MTP	Multi-Token Prediction	多词元预测

是什么：核心思路是，让模型在训练时，一次性预测多个未来token，而不是仅仅预测下一个token。

论文： [2404.19737] Better & Faster Large Language Models via Multi-token Prediction

N

O

P

Q

R

RAG

术语	全拼	中文翻译
RAG	Retrieval-Augmented Generation	检索增强生成

一种让模型变得更聪明、更准确的技术。当模型遇到一个问题时，它不只依赖自己“记住”的知识来回答，而是会先像搜索引擎一样去一个知识库（比如维基百科、公司内部文档）里查找相关的最新信息，然后结合这些检索到的信息来生成答案。这大大减少了模型“胡说八道”的概率，并能回答它训练数据中没有的新知识。

RL/RLHF

术语	全拼	中文翻译
RL	Reinforcement Learning	强化学习
RLHF	Reinforcement Learning from Human Feedback	从人类反馈中强化学习

是什么：这是继 SFT 之后的又一个关键训练阶段，通常指 RLHF (Reinforcement Learning from Human Feedback)。在这个阶段，模型会生成多个不同的回答，然后由人类（或一个“奖励模型”）来评价哪个更好。模型会根据这些反馈进行调整，学习如何生成更符合人类偏好的回答。这就像一个学生写了多版答案，老师给高分的那版，学生就会学习那种写法。 为什么：因为 SFT 训练出来的模型，虽然学会了如何回答问题，但它的回答可能不符合人类偏好，比如，它可能会说一些“废话”（比如，它可能会说“我不知道”，而不是给出一个更准确的答案）。所以，我们需要一个“奖励模型”来评价模型的回答，然后让模型学习如何生成更符合人类偏好的回答。

S

SFT

术语	全拼	中文翻译
SFT	Supervised Fine-Tuning	监督微调

是什么：这是训练语言模型的一个关键阶段。在模型已经通过海量数据（预训练）学会了语言的基础知识后，我们用“指令-回答”对（Instruction, Response）的格式化数据来专门训练它，教它如何听从指令、如何与人对话。这就像一个博览群书的学者（预训练完成），现在要专门学习如何当一个“任务助理”。 为什么：因为模型需要学会如何听从指令、如何与人对话，所以需要专门训练它。就像一个学生，需要专门学习如何当一个“任务助理”。 怎么做：好的 SFT 数据集，能提供一个坚实的起点，通过示范教导模型期望的基线行为。SFT 的训练数据来源有：1）黄金标准的“人工示范”，2）过滤现有数据集；3）模型生成数据集与人工审查/编辑。

大语言模型术语记录

文章目录

A

B

C

D

E

F

G

GEMM 通用矩阵乘法

实现方式

优化意义

H

I

J

K

L

M

MHA 多头注意力

核心原理

MLA 多头潜在注意力

MTP 多词元预测

N

O

P

Q

R

RAG

RL/RLHF

S

SFT

T

U

V

W

X

Y

Z