AI相关名词大全

[!tips] 说明
本文档整理了AI领域常见的专业术语，使用通俗易懂的语言进行解释，帮助初学者快速理解核心概念。

1. 名词分类导航

领域	核心概念
🤖 大模型核心	LLM · SLM · AIGC · GPT · RAG · LMM · Hallucination · Reasoning Model
🏗️ 模型架构	Transformer · MoE · Diffusion · GAN · ViT · SSM
🔧 训练技术	Fine-tuning · SFT · RLHF · LoRA · Embedding · Synthetic Data
🤖 智能体Agent	Agent · CoT · ReAct · Function Calling · 短期记忆 · 长期记忆 · System Prompt
💻 应用基建	GPU · Token · Context Window · Vector DB · MCP · Rate Limits · TPS
📊 评估指标	SOTA · Benchmark · PPL · BLEU · ROUGE · F1 Score · Pass@k · TTFT

2. 大模型与生成式AI核心

2.1. LLM（Large Language Model）- 大语言模型

通俗解释：一种”读过”海量文本的超级大脑，参数量通常在十亿级以上。它不仅能理解你说的每句话，还能推理、创作、写代码。

类比：就像一个博览群书的学者，几乎读过互联网上所有的文字资料。

2.2. SLM（Small Language Model）- 小语言模型

通俗解释：参数量较小（1B-7B）的模型，可以在笔记本或手机本地运行。

类比：就像LLM的”轻量版”，虽然知识面不如LLM广，但反应快、隐私好、不费网。

优势：隐私保护、低延迟、无需联网

应用：手机助手、本地文档检索

2.3. AIGC（AI Generated Content）- 人工智能生成内容

通俗解释：用AI自动创作内容，比如写文章、画图、作曲、剪视频、写代码等。

类比：就像一个全能的创作助手，你说要什么，它就能变出什么。

2.4. GPT（Generative Pre-trained Transformer）- 生成式预训练Transformer

通俗解释：OpenAI提出的一种模型训练方法，名字包含三个关键信息：

生成式：能写东西、创作内容
预训练：先在海量数据中”预习”通用知识
Transformer架构：使用的技术框架

类比：就像学生先上通识课（预训练），再学专业课程（微调）。

2.5. RAG（Retrieval-Augmented Generation）- 检索增强生成

通俗解释：大模型在回答问题前，先去外部知识库（如企业文档）”翻书”找资料，再结合这些资料来回答。

类比：就像开卷考试，你先去图书馆查相关资料，然后基于这些资料来答题，而不是完全凭记忆。

核心优势：

有效减少”瞎编”现象（解决幻觉问题）
可以使用最新的、企业私有的数据
答案可以追溯来源（Grounding）
[!tip] 在公司中，RAG 不仅解决了幻觉，还解决了数据安全问题。通过 RAG，我们可以实现“权限隔离”——即 AI 只能根据当前用户有权阅读的文档来回答问题。

参考资料：

2.6. LMM（Large Multimodal Model）- 多模态大模型

通俗解释：不仅能读文字，还能看图片、听声音、看视频的大模型。

类比：就像一个全能的艺术家，既能写文章，又能画画，还能作曲。

代表模型：GPT-4o、Gemini、Claude 等

关于模态（Modality）：数据的存在形式，如文本、图像、音频、视频。LMM就是能打通这些形式的模型。

[!tip] 说明
关于 Agent（AI智能体） 及其相关技术（CoT、ReAct、Function Calling、记忆机制等），详见 第6章 AI Agent 智能体体系。

2.7. Hallucination - 幻觉

通俗解释：AI一本正经地胡说八道。它说的话听起来很有道理，但事实是错的。

类比：就像学生考试时不会做，但为了让卷面好看，就编造了一个看似合理的答案。

应对方法：

使用RAG技术（基于真实资料回答）
降低温度参数（让回答更保守）
要求AI提供信息来源（Grounding）

什么是Grounding：让AI的回答建立在真实世界的信息或给定的数据之上，是解决幻觉的核心手段。

2.8. Reasoning Model - 推理模型

通俗解释：一种新型大模型（如OpenAI o1），在回答前会进行”长时间思考”。

类比：就像遇到难题时，不是马上回答，而是先默默思考几分钟，理清思路后再给出答案。

擅长：极高难度的数学和代码问题

3. 关键模型架构

3.1. Transformer - Transformer架构

通俗解释：现代AI的基石技术。它的核心是”注意力机制”（Self-Attention），让模型能够同时关注一句话中的所有词，而不是一个一个按顺序读。

类比：就像你看一幅画时，可以同时关注画中的多个元素，而不是必须从左到右扫描。

革命性意义：

解决了并行计算问题
让训练超大模型成为可能
成为GPT、BERT等所有现代大模型的基础

3.2. ViT（Vision Transformer）- 视觉Transformer

通俗解释：把处理文字的Transformer架构，跨界应用到处理图片上。

类比：就像原本教语言的老师，发现他的教学方法也能教画画。

3.3. GAN（Generative Adversarial Network）- 生成对抗网络

通俗解释：让两个AI网络互相博弈——一个”造假者”试图生成逼真的图片，另一个”鉴宝师”负责鉴别真假。造假者为了骗过鉴宝师，不断精进技术。

类比：就像假钞制造者和警察的猫鼠游戏，最终假钞做得越来越逼真。

应用：早期AI绘画的主流技术。

3.4. MoE（Mixture of Experts）- 混合专家模型

通俗解释：把大模型拆成许多小”专家”，每个专家只擅长某类问题。每次提问时，只激活相关的几个专家来回答。

类比：就像医院分科室，看心脏问题挂心内科，看皮肤问题挂皮肤科，而不是让所有医生都来看病。

核心优势：在参数量极大的情况下（如万亿参数），保持较低的推理成本。

参考资料：

3.5. Diffusion Model - 扩散模型

通俗解释：目前最主流的AI绘画技术（如Stable Diffusion、Midjourney）。它学习的是”如何把满是噪点的图像还原成清晰图像”的过程。

类比：就像看着一张被涂得乱七八糟的画，一步步擦掉污渍，最终还原出清晰的画作。

3.6. SSM（State Space Model）- 状态空间模型

通俗解释：挑战Transformer的新架构（如Mamba），在处理超长文本时速度更快、占用的显存更少。

类比：就像Transformer的高速公路，SSM是新修的更高效的铁路线。

4. 训练与微调关键技术

4.1. Fine-tuning - 微调

Fine-tuning 是在预训练好的模型基础上，用特定领域数据再训练的统称。

通俗解释：就像一个通识很好的大学生，再经过几个月的专业培训，变成某个领域的专家。

两种主要方法：

SFT（有监督微调）：用高质量问答数据教模型听懂指令
RLHF（基于人类反馈的强化学习）：通过人类打分让AI对齐价值观

4.2. Pre-training - 预训练

通俗解释：模型训练的第一阶段。让AI在海量通用数据中”通读群书”，学会语言的基本规律和世界知识。

类比：就像大学生上通识课，学语文、数学、历史、物理等各种基础知识。

特点：成本最高，耗时最长。

4.3. SFT（Supervised Fine-Tuning）- 有监督微调

通俗解释：模型训练的第二阶段。使用人工精心准备的高质量问答数据，教模型如何”听懂指令”并按人类的格式回答。

类比：就像通识课后，开始上专业选修课，学习具体的职业技能。

4.4. RLHF（Reinforcement Learning from Human Feedback）- 基于人类反馈的强化学习

通俗解释：模型训练的第三阶段。通过人类对AI的回答打分（好/不好），让AI逐渐学会人类的价值观和偏好。

类比：就像学生作业完成后，老师给出反馈和评分，学生根据反馈不断改进。

三个步骤：

收集人类对AI回答的偏好数据（哪个回答更好）
训练一个”奖励模型”来预测人类偏好
用强化学习让AI优化，争取得到更高奖励

意义：是ChatGPT成功的关键技术，让AI更安全、更有用。

4.5. LoRA（Low-Rank Adaptation）- 低秩自适应

通俗解释：一种高效的微调技术。不需要改动整个大模型，只在模型旁边”挂载”少量参数进行训练。

类比：就像给汽车加装一个性能套件，而不是重新设计整辆汽车。

核心优势：

大幅降低训练成本
普通人用消费级显卡也能微调大模型
可以为不同任务训练不同的LoRA模块

参考资料：

4.6. Zero-shot / Few-shot Learning - 零样本 / 少样本学习

通俗解释：

Zero-shot：AI完全没见过某个任务，但能触类旁通完成
Few-shot：AI只看了几个例子，就能学会做新任务

类比：

Zero-shot：你从没做过川菜，但根据做菜的基本原理，居然做出了味道还不错的麻婆豆腐
Few-shot：你只看了三次做菜视频，就能做出那道菜了

4.7. Embedding - 嵌入（向量化）

通俗解释：把文字、图片等转化为计算机能理解的”数字列表”（向量）。含义越相近的内容，它们的数字”距离”越近。

类比：

“猫”和”狗”的数字距离很近（都是宠物）
“猫”和”汽车”的数字距离很远（完全不相关）

应用：是RAG、搜索引擎、推荐系统等技术的基础。

参考资料：

4.8. Synthetic Data - 合成数据

通俗解释：由高智商AI生成的优质数据，用来训练下一代小模型。

类比：就像名师出的模拟题，质量很高，可以用来训练学生。

意义：解决真实世界高质量数据枯竭的问题。

5. 硬件与应用基建

5.1. GPU（Graphics Processing Unit）- 图形处理器

通俗解释：AI算力的核心硬件，擅长同时处理很多计算任务。

类比：就像计算器的超级加强版，特别适合”算力密集型”工作。

代表产品：NVIDIA H100、A100

5.2. VRAM（Video Random Access Memory）- 显存

通俗解释：显卡的内存。

类比：就像电脑的内存条，容量越大，能同时运行的程序越多。

重要性：运行大模型最核心的瓶颈。显存越大，能跑的模型越大、上下文越长。

5.3. TPU（Tensor Processing Unit）- 张量处理器

通俗解释：Google自研的AI专用芯片，专为深度学习优化。

5.4. NPU（Neural Processing Unit）- 神经网络处理器

通俗解释：手机、电脑等设备上的AI芯片，功耗低，适合跑本地小模型。

类比：就像手机里的小型AI计算单元，让你不需要联网也能用AI功能。

5.5. CUDA（Compute Unified Device Architecture）- 统一计算设备架构

通俗解释：NVIDIA推出的并行计算平台和编程模型。

重要性：几乎所有主流AI软件都基于CUDA开发，是NVIDIA的护城河。

5.6. Quantization - 量化

通俗解释：通过降低数字精度（如从16位浮点数变成4位整数）来压缩模型体积。

类比：就像把高清图片压缩成标清，虽然损失了一些细节，但文件小了很多，更容易存储和传输。

好处：让大模型能在显存较小的设备上运行。

5.7. FLOPS - 每秒浮点运算次数

通俗解释：衡量算力大小的单位。

类比：就像CPU的主频，FLOPS越高，计算能力越强。

5.8. Inference - 推理

通俗解释：模型训练好后的使用过程。输入问题，模型计算并输出答案。

类比：

训练 = 学生学习阶段
推理 = 学生参加考试/实际工作

5.9. Token - 词元

通俗解释：AI读写文本的最小单位。

换算关系：

1个汉字 ≈ 1-2个Token
1个英文单词 ≈ 0.75个Token

[!tip] 中文优化
不同的模型（Tokenizer）效率不同：国产大模型（如 DeepSeek、通义千问、智谱等）针对中文优化后，1个汉字通常仅占 0.5-0.7 个 Token，使用成本更低。

计费：大多数AI API按Token数量收费。

5.10. Context Window - 上下文窗口

通俗解释：模型短期记忆的容量，决定了一次能”读”多少内容。

类比：就像人的短期记忆，一次能记住多少页书的内容。

常见大小：

4k ≈ 3页中文文档
128k ≈ 300页中文文档（一本薄书）

5.11. KV Cache - 键值缓存

通俗解释：一种让AI推理更快的”记忆缓存”技术。在生成文本时，模型会把之前计算过的结果”记”下来，避免重复计算。

类比：就像做数学题时，把中间步骤的结果记在草稿纸上，下次用到时直接抄，不用重新算一遍。

核心原理：

Transformer 模型生成每个 Token 时都需要”看”之前所有的 Token
KV Cache 把之前 Token 的计算结果（Key 和 Value 矩阵）缓存起来
生成新 Token 时，只需要计算新 Token 的部分，之前的部分直接从缓存读取

核心优势：

大幅加速推理：避免了重复计算，生成速度可提升数倍
降低显存占用：虽然需要额外显存存缓存，但总体效率更高
支持更长上下文：是让长文本生成变得实用的关键技术

应用场景：

所有现代大模型的推理服务都默认使用 KV Cache
流式输出（打字机效果）必须依赖 KV Cache

与 Context Window 的关系：Context Window 越大，KV Cache 占用的显存就越多。

5.12. Needle In A Haystack - 大海捞针测试

通俗解释：一种专门测试模型长文本记忆能力的基准测试。把一句关键信息（”针”）藏在超长文本（”干草堆”）中，看模型能不能准确找到。

[!tip] 简单理解
就像在一本 10 万字的小说里藏了一句”秘密密码是 123456”，然后问 AI：”密码是什么？”看它能不能找出来。

测试方法：

准备一段超长文本（如 32k、128k tokens）
在文本的不同位置（开头、中间、结尾）插入特定信息
问模型与该信息相关的问题
检查模型能否准确回答

测试维度：

深度：信息在文本的哪个位置（越靠越越难）
长度：文本总长度（越长越难）
干扰：周围内容的相似度（越相似越难）

意义：

是评估模型长文本能力的核心指标
直接反映模型的”大海捞针”能力
比 Context Window 数值更能体现实际效果

参考资料：

Needle In A Haystack (gregkamradt.com)

5.13. Temperature - 温度系数

Temperature 是API中的一个参数，用于控制AI生成文本的随机性和创造性。

通俗解释：就像调节AI的”性格”——是严谨保守，还是发散创新。

[!tip] 简单理解
温度越低，AI越像”标准答案机器”；温度越高，AI越像”创意写作高手”，但也更容易胡说。

参数范围与效果：

温度值	效果	适用场景	建议值
低（0-0.3）	回答严谨、固定、可预测	代码生成、事实性问答、数学计算	0.1-0.2
中（0.4-0.7）	平衡型，有一定创造性	一般对话、内容创作	0.5-0.7
高（0.8-1.0）	回答有创意、多样化	创意写作、头脑风暴、诗歌小说	0.8-0.9

核心原理：温度控制的是概率分布的”陡峭程度”。温度越低，高概率词越占优势；温度越高，所有词的选择机会越平均。

参考资料：

5.14. Top-p（Nucleus Sampling）- 核采样

通俗解释：一种控制AI生成”确定性”的参数。它让AI只从累计概率达到 p 的词中选择。

类比：就像点菜时，你只看菜单上”最受欢迎的前 90% 的菜”，剩下的冷门菜直接忽略。

[!tip] 简单理解
Top-p = 只考虑”最有可能的那些词”，把不太可能的词直接排除。

参数范围：0.0 - 1.0（常用值 0.8 - 0.95）

工作原理：

模型预测下一个词，给每个词一个概率
按概率从高到低排序，累加概率
当累计概率达到 p（如 0.9）时，停止
只从这些词中随机选择

与 Temperature 的配合：

通常 Top-p 和 Temperature 会配合使用
Top-p 控制候选词的范围
Temperature 控制选择方式（更倾向高概率词还是更平均）

示例：

假设下一个词的概率分布：
- "苹果" 40%
- "香蕉" 30%
- "橙子" 15%
- "葡萄" 10%
- "西瓜" 5%

Top-p = 0.9 时：
累计概率：40% → 70% → 85% → 95%（超过0.9，停止）
候选词："苹果"、"香蕉"、"橙子"、"葡萄"
从这4个词中选择

5.15. Top-k - Top-k采样

通俗解释：另一种控制AI生成”确定性”的参数。它让AI只从概率最高的 k 个词中选择。

类比：就像考试时，你只考虑最可能的前3个答案，其他的答案直接忽略。

[!tip] 简单理解
Top-k = 只考虑”概率最高的前k个词”，固定数量。

参数范围：通常为 1 - 100（常用值 40 - 50）

工作原理：

模型预测下一个词，给每个词一个概率
按概率从高到低排序
只保留前 k 个词
从这 k 个词中随机选择

与 Top-p 的区别：

维度	Top-p	Top-k
选择方式	累计概率达到阈值	固定取前 k 个
候选数量	动态变化	固定数量
参数示例	p=0.9，可能有 5 个或 50 个候选	k=50，永远 50 个候选
适用场景	更精细控制	更简单直接

配合使用：

通常 Top-k 和 Top-p 二选一，不要同时使用
现代 API（如 OpenAI）更推荐用 Top-p

5.16. Prompt Engineering - 提示词工程

通俗解释：通过设计精妙的指令（”咒语”）来引导AI输出更高质量结果的技术。

注：CoT（思维链）也是提示词工程的一种高级形式。

5.17. Vector Database - 向量数据库

通俗解释：专门存储Embedding（向量）数据的数据库。

类比：就像专门存储”数字指纹”的仓库，可以快速找到”相似”的内容。

作用：是实现RAG（知识库问答）的关键基础设施。

代表产品：Pinecone、Milvus、Chroma

5.18. Rate Limits - 速率限制

通俗解释：API服务商为防止滥用设置的”速度限制墙”。

[!tip] 简单理解
就像高速公路收费站，限制每分钟通过多少辆车，防止拥堵。

五种常见维度：

缩写	全称	含义	类比
RPM	Requests Per Minute	每分钟请求数	限流：每分钟只能进N个人
RPD	Requests Per Day	每日请求数	日限额：每天只能办N件事
TPM	Tokens Per Minute	每分钟Token数	字数限：每分钟只能说N个字
TPD	Tokens Per Day	每日Token数	日字数限：每天只能说N个字
IPM	Images Per Minute	每分钟图片数	图片限：每分钟只能生成N张图

触发机制：任一维度达到限制即触发，取最先触发者为准。

举例：如果RPM限制为60，TPM限制为90,000，你一分钟内发了60个请求，每个只有100个token（共6,000个token），那么会触发RPM限制，尽管TPM还没用完。

重置方式：

RPM/TPM/IPM：每分钟自动重置
RPD/TPD：每日午夜重置（具体时区看服务商，太平洋时间或北京时间）

参考资料：

5.19. RPM（Requests Per Minute）- 每分钟请求数

通俗解释：速率限制的一种指标，限制用户每分钟最多能发送多少个请求。

类比：就像每分钟只能打10个电话，打完了得等下一分钟。

重置方式：每分钟自动重置。例如10:30:15触发限制，等到10:31:00即可继续。

5.20. RPD（Requests Per Day）- 每日请求数

通俗解释：速率限制的一种指标，限制用户每天最多能发送多少个请求。

类比：就像图书馆每天只允许你借10本书，借完了只能等第二天。

重置时间：通常在每日午夜重置（不同时区），例如太平洋时间午夜即北京时间下午4点。

5.21. TPM（Tokens Per Minute）- 每分钟Token数

通俗解释：速率限制的一种指标，限制用户每分钟最多能消耗多少个Token（包含输入和输出）。

类比：就像每分钟只能说1000个字，说快了说慢了都会影响可用字数。

重要特点：与RPM双重限制，先触发的哪个就生效。

5.22. TPD（Tokens Per Day）- 每日Token数

通俗解释：速率限制的一种指标，限制用户每天最多能消耗多少个Token。

类比：就像手机每月的流量套餐，用完了要么等下个月，要么付费扩容。

5.23. TPS（Tokens Per Second）- 每秒生成Token数

通俗解释：衡量大模型生成速度的性能指标，表示模型每秒能产生多少个Token。

[!tip] 简单理解
就像打字速度（每分钟打多少字），TPS是AI的”说话速度”——每秒能说多少个字。

数值参考：

30-50 TPS：普通速度，适合大多数应用
50-100 TPS：高速生成，用户体验流畅
100+ TPS：极快速度，需要强大的硬件支持

影响因素：

模型大小（SLM 比 LLM 快）
硬件配置（GPU性能、显存带宽）
量化程度（4bit量化比16bit快）
批处理策略（同时处理多个请求）

应用场景：

实时对话系统：需要高TPS保证响应速度
长文本生成：TPS越高，等待时间越短

5.24. MCP（Model Context Protocol）- 模型上下文协议

通俗解释：Anthropic推出的开放标准协议，定义了AI模型与外部数据源、工具之间交换信息的统一方式。

[!tip] 简单理解
就像USB接口，让AI能连接各种工具和数据源，而不需要为每个工具单独写适配器。

类比：

以前：每个工具（数据库、文件系统、API）都要单独写接口代码，像给每种电器配不同的插头
现在有了MCP：像有了USB统一接口，一套协议解决所有工具的连接问题

核心价值：

标准化：无需为每个工具写复杂的适配器
可扩展：社区可以贡献各种MCP服务器
安全：统一的权限控制和数据访问机制

工作原理：

MCP Client：AI应用（如Claude Code）
MCP Server：提供特定能力的服务（如文件系统、数据库、API）
MCP Protocol：定义两者如何通信的标准

参考资料：

6. AI Agent 智能体体系

[!info] 本章说明
AI Agent 是当前AI应用的核心方向，它不仅能对话，还能自主完成复杂任务。本章介绍Agent的核心技术和相关概念。

6.1. Agent（AI智能体）

通俗解释：不仅能对话，还能自主完成任务的AI。它可以感知环境、规划步骤、使用工具（如搜索网页、运行代码）。

类比：就像一个不仅能聊天，还能帮你订机票、查资料、写程序的智能助手。

核心能力：

感知：理解用户意图和环境状态
规划：将复杂任务拆解为可执行步骤
行动：调用工具（API、搜索、代码执行等）完成任务
记忆：利用短期和长期记忆积累经验
反思：评估行动结果并调整策略

与普通Chatbot的区别：

Chatbot：被动回答问题，单次对话结束即止
Agent：主动解决问题，多轮交互直到任务完成

6.2. CoT（Chain of Thought）- 思维链

通俗解释：一种提示词技巧，让AI”一步步思考”而不是直接给答案。就像做数学题要写出解题过程一样。

类比：就像老师教学生”把过程写出来”，而不是只写答案。

效果：显著提高解决复杂数学、逻辑问题的准确率。

在Agent中的应用：Agent 在规划任务时，默认使用 CoT 来分解问题和推理下一步行动。

参考资料：

6.3. ReAct - 推理与行动框架

通俗解释：一种让AI交替进行”思考”和”行动”的框架。AI 先推理（Reasoning）该做什么，然后执行行动（Action），再观察结果，循环往复直到完成任务。

类比：就像下棋时，你先思考怎么走，然后走一步，再看对方怎么应对，接着思考下一步。

核心模式：

Thought（思考）→ Action（行动）→ Observation（观察）→ Thought（思考）→ ...

与传统CoT的区别：

CoT：只思考，不行动，适合纯推理任务
ReAct：思考 + 行动 + 观察，适合需要与外界交互的复杂任务

应用场景：

多步骤问题求解
需要查询外部信息的任务
工具调用和API操作

参考资料：

ReAct: Synergizing Reasoning and Acting in Language Models (论文)

6.4. Function Calling - 函数调用

通俗解释：让AI能够”调用”外部函数或API的能力。AI可以根据对话内容，自动判断何时需要调用某个函数，并生成正确的函数参数。

类比：就像你让助理”帮我查明天天气”，助理知道要打开天气APP，输入你的城市，然后把结果告诉你。

工作流程：

用户发送请求
AI分析请求，判断需要调用哪个函数
AI生成函数调用参数（JSON格式）
系统执行函数，返回结果
AI基于函数结果生成最终回答

在Agent中的核心地位：Function Calling 是 Agent 使用工具（Tool Use）的技术基础。

典型应用：

查询数据库、API接口
执行代码、运行脚本
操作文件系统、发送邮件

参考资料：

6.5. Short-term Memory - 短期记忆

通俗解释：AI Agent 在当前对话中记住的信息，利用 Context Window 来维护对话上下文。

类比：就像人的短期记忆，能记住刚才说了什么，但随着对话越长，越早的信息可能被”遗忘”。

技术实现：

基于 Context Window（上下文窗口）存储
将对话历史（用户消息、AI回复、工具调用结果）持续追加到上下文中
当达到窗口上限时，需要丢弃早期信息或进行摘要压缩

限制与挑战：

容量有限：Context Window 大小限制了短期记忆的容量
成本问题：上下文越长，每次推理的Token消耗越大
信息衰减：超长上下文中，早期信息的关注度可能降低

与Context Window的关系：短期记忆的容量 = Context Window 的大小。

6.6. Long-term Memory - 长期记忆

通俗解释：AI Agent 跨会话持久存储的信息，通常使用 Vector Database（向量数据库）或 RAG 技术来实现。

类比：就像人的长期记忆，即使过了一周再聊，你依然记得之前的重要信息。

技术实现：

Vector Database：将历史对话、文档知识转化为向量存储
RAG（检索增强生成）：需要时从向量数据库中检索相关信息
记忆策略：自动判断哪些信息值得长期保存

存储内容类型：

用户偏好和重要信息
历史对话中的关键结论
领域知识和文档资料
任务执行的经验教训

与短期记忆的区别：

维度	短期记忆	长期记忆
存储介质	Context Window	Vector Database
有效期	当前会话	跨会话持久
容量	有限（128k-1M tokens）	几乎无限
检索方式	自然顺序	语义检索（RAG）
成本	每次推理都计入	仅检索时计入

参考资料：

Building agents with long-term memory (OpenAI Cookbook)

6.7. System Prompt - 系统提示词

通俗解释：AI Agent的”操作系统”，定义了AI的角色、行为准则、能力边界和输出框架。

[!tip] 简单理解
System Prompt = 员工的岗位说明书 + 行为规范；User Prompt = 用户的临时指令

类比：

System Prompt = 员工入职培训时看的岗位说明书和行为规范
User Prompt = 日常工作中的具体任务指令

核心组成：

角色定位：你是什么（如”你是一个Python编程专家”）
行为规则：你应该怎么做、不能做什么
输出格式：按什么格式返回结果
工具使用：什么情况下用什么工具

重要性：高质量的System Prompt是AI Agent稳定工作的基础，决定了AI的行为边界和一致性。

Agent System Prompt 示例要点：

你是一个AI智能体，具备以下能力：
- 使用 ReAct 框架进行推理和行动
- 可以调用多种工具（搜索、代码执行等）
- 具有短期记忆（记住当前对话）和长期记忆（从向量库检索）
- 遇到不确定的信息时，主动使用工具验证

7. 评估与指标

7.1. SOTA（State of the Art）- 当前最先进水平

SOTA 是 State of the Art 的缩写。

在AI和计算机科学领域，它指的不是某一种特定的技术，而是指**”当前最先进的水平”或者“目前的冠军”**。

[!tip] 简单理解
在某个具体的任务上，谁的分数最高，谁就是 SOTA。

两个关键要点：

严格分任务：同一个模型，可能是代码生成的 SOTA（在 HumanEval 上 Pass@1 最高），但在意图分类上可能不如别的模型
基于指标：SOTA 必须指明是在哪个数据集上、用哪个指标算出来的冠军

参考资料：

7.2. Benchmark - 基准测试

Benchmark 是用来给AI模型”考试”的标准化题库。

通俗解释：就像高考是检验学生水平的统一试卷，Benchmark是检验AI模型能力的统一考题。

[!tip] 简单理解
就像不同学校的学生用同一套试卷考试，不同AI模型用同一个Benchmark测试，才能公平比较谁更强。

常见基准测试：

Benchmark	全称	考什么	类比
MMLU	Massive Multitask Language Understanding	57个学科的综合知识	高考全科
HumanEval	-	164道Python编程题	编程考试
GSM8K	Grade School Math 8K	8500+小学数学应用题	小学数学题

行业趋势：2025年底开始，公共基准测试的公信力受到质疑，越来越多企业转向私有基准测试。

参考资料：

7.3. PPL（Perplexity）- 困惑度

PPL 是衡量语言模型预测下一个词准确度的指标。

通俗解释：模型预测下一个词时”有多困惑”。数值越低，说明模型预测得越准，越”聪明”。

[!tip] 简单理解
就像猜词游戏——PPL越低，说明你每次猜中的概率越高，对语言的掌握越好。

关键特点：

数值越低越好
主要用于评估模型本身的语言能力
与人类对齐程度的相关性有限

类比：就像英语考试完形填空，PPL低的学生能准确预测空缺处该填什么词。

7.4. BLEU - BLEU分数

BLEU (Bilingual Evaluation Understudy) 是机器翻译领域最常用的评估指标。

通俗解释：看机器翻译的句子和人工翻译的句子有多少重合的词组。重合度越高，分数越高。

[!tip] 简单理解
就像检查翻译作业，看学生的译文和标准答案有多少相同的片段。

核心机制：

基于n-gram（连续n个词）的重叠度计算
BLEU-1、BLEU-2、BLEU-3、BLEU-4分别对应不同长度的词组
分数范围0-1，越高越好

局限性：只看字面重叠，不考虑语义等价（如”好”和”棒”意思相同但BLEU算不匹配）

参考资料：

7.5. ROUGE - ROUGE指标

ROUGE (Recall-Oriented Understudy for Gisting Evaluation) 是文本摘要任务的主要评估指标。

通俗解释：看生成的摘要是否涵盖了原文的核心内容。相比BLEU，ROUGE更关注”覆盖率”而非”精确度”。

[!tip] 简单理解
就像检查读书笔记是否覆盖了书中的要点，而不是逐字逐句照抄。

常见变体：

ROUGE-N：基于n-gram的重叠
ROUGE-L：基于最长公共子序列
ROUGE-S：基于跳跃二元组

与BLEU的区别：

BLEU主要用于机器翻译，注重精确度
ROUGE主要用于文本摘要，注重召回率（覆盖率）

参考资料：

文本生成任务的评价方法

7.6. Accuracy / Precision / Recall - 准确率 / 精确率 / 召回率

这是分类任务的三大基础指标，经常用于AI模型的评估。

通俗解释：

指标	英文	含义	类比	口诀
准确率	Accuracy	预测正确的占总数	考试总得分	总体答对率
精确率	Precision	预测为正的里面有多少是真的正	抓坏人时，不冤枉好人	没抓错的比例
召回率	Recall	真的正里面有多少被抓到了	抓坏人时，不放过坏人	没漏抓的比例

[!tip] 简单理解

准确率：整体做得怎么样

精确率：抓得准不准（会不会抓错人）

召回率：抓得全不全（会不会漏网之鱼）

经典案例（垃圾邮件分类）：

精确率高：标记为垃圾的邮件里，确实是垃圾的比例高（用户不会漏看正常邮件）
召回率高：所有垃圾邮件里，被成功拦截的比例高（用户邮箱里垃圾少）

参考资料：

7.7. F1 Score - F1分数

F1 Score 是精确率和召回率的调和平均数。

通俗解释：给精确率和召回率相同的权重，算出一个综合分数。避免模型”偏科”（只顾准确不顾全面，或只顾全面不顾准确）。

[!tip] 简单理解
就像考试成绩不能只看语文或数学，F1是”全科平均分”。

核心特点：

取值范围0-1，越高越好
对类别不平衡问题更友好
是精确率和召回率的平衡点

何时使用：

数据集正负样本不平衡时
需要同时关注精确率和召回率时
作为单一指标比较模型优劣时

参考资料：

正确率、召回率与F1指标

7.8. Pass@k - k次通过率

Pass@k 是代码生成任务专用的评估指标。

通俗解释：让AI写代码，允许尝试k次，看有多少次能写出能运行的代码。

[!tip] 简单理解
就像考试允许你交卷前重做几次，看你最终能及格的概率。

常见取值：

Pass@1：一次尝试就成功的概率（最严格）
Pass@10：十次尝试内能成功的概率（较宽松）

举例：Pass@1 = 60%，意思是一次尝试就有60%的概率代码能跑通。

应用场景：主要用于评估代码生成模型（如Codex、StarCoder等）的能力。

7.9. TTFT（Time To First Token）- 首字延迟

TTFT 是衡量用户体验的关键性能指标。

通俗解释：用户发出指令后，看到AI吐出第一个字需要的时间。

[!tip] 简单理解
就像拨通电话后，多久听到对方的第一句话。TTFT越短，等待感越弱。

重要性：

是用户体验的第一印象
影响用户对AI响应速度的感知
与模型大小、计算资源相关

优化方向：

使用更小的模型（SLM）
使用Speculative Decoding（投机采样）
优化KV Cache管理

8. 参考资料

本文档内容参考了以下权威资源：

[!tip] 持续更新
AI技术发展日新月异，本文档会持续更新。欢迎补充和指正！