AI相关名词大全

[!tips] 说明
本文档整理了AI领域常见的专业术语,使用通俗易懂的语言进行解释,帮助初学者快速理解核心概念。

1. 名词分类导航

领域 核心概念
🤖 大模型核心 LLM · SLM · AIGC · GPT · RAG · LMM · Hallucination · Reasoning Model
🏗️ 模型架构 Transformer · MoE · Diffusion · GAN · ViT · SSM
🔧 训练技术 Fine-tuning · SFT · RLHF · LoRA · Embedding · Synthetic Data
🤖 智能体Agent Agent · CoT · ReAct · Function Calling · 短期记忆 · 长期记忆 · System Prompt
💻 应用基建 GPU · Token · Context Window · Vector DB · MCP · Rate Limits · TPS
📊 评估指标 SOTA · Benchmark · PPL · BLEU · ROUGE · F1 Score · Pass@k · TTFT

2. 大模型与生成式AI核心

2.1. LLM(Large Language Model)- 大语言模型

通俗解释:一种”读过”海量文本的超级大脑,参数量通常在十亿级以上。它不仅能理解你说的每句话,还能推理、创作、写代码。

类比:就像一个博览群书的学者,几乎读过互联网上所有的文字资料。

2.2. SLM(Small Language Model)- 小语言模型

通俗解释:参数量较小(1B-7B)的模型,可以在笔记本或手机本地运行。

类比:就像LLM的”轻量版”,虽然知识面不如LLM广,但反应快、隐私好、不费网。

优势:隐私保护、低延迟、无需联网

应用:手机助手、本地文档检索

2.3. AIGC(AI Generated Content)- 人工智能生成内容

通俗解释:用AI自动创作内容,比如写文章、画图、作曲、剪视频、写代码等。

类比:就像一个全能的创作助手,你说要什么,它就能变出什么。

2.4. GPT(Generative Pre-trained Transformer)- 生成式预训练Transformer

通俗解释:OpenAI提出的一种模型训练方法,名字包含三个关键信息:

  • 生成式:能写东西、创作内容
  • 预训练:先在海量数据中”预习”通用知识
  • Transformer架构:使用的技术框架

类比:就像学生先上通识课(预训练),再学专业课程(微调)。

2.5. RAG(Retrieval-Augmented Generation)- 检索增强生成

通俗解释:大模型在回答问题前,先去外部知识库(如企业文档)”翻书”找资料,再结合这些资料来回答。

类比:就像开卷考试,你先去图书馆查相关资料,然后基于这些资料来答题,而不是完全凭记忆。

核心优势

  • 有效减少”瞎编”现象(解决幻觉问题)
  • 可以使用最新的、企业私有的数据
  • 答案可以追溯来源(Grounding)
    [!tip] 在公司中,RAG 不仅解决了幻觉,还解决了数据安全问题。通过 RAG,我们可以实现“权限隔离”——即 AI 只能根据当前用户有权阅读的文档来回答问题。

参考资料

2.6. LMM(Large Multimodal Model)- 多模态大模型

通俗解释:不仅能读文字,还能看图片、听声音、看视频的大模型。

类比:就像一个全能的艺术家,既能写文章,又能画画,还能作曲。

代表模型:GPT-4o、Gemini、Claude 等

关于模态(Modality):数据的存在形式,如文本、图像、音频、视频。LMM就是能打通这些形式的模型。

[!tip] 说明
关于 Agent(AI智能体) 及其相关技术(CoT、ReAct、Function Calling、记忆机制等),详见 第6章 AI Agent 智能体体系

2.7. Hallucination - 幻觉

通俗解释:AI一本正经地胡说八道。它说的话听起来很有道理,但事实是错的。

类比:就像学生考试时不会做,但为了让卷面好看,就编造了一个看似合理的答案。

应对方法

  • 使用RAG技术(基于真实资料回答)
  • 降低温度参数(让回答更保守)
  • 要求AI提供信息来源(Grounding)

什么是Grounding:让AI的回答建立在真实世界的信息或给定的数据之上,是解决幻觉的核心手段。

2.8. Reasoning Model - 推理模型

通俗解释:一种新型大模型(如OpenAI o1),在回答前会进行”长时间思考”。

类比:就像遇到难题时,不是马上回答,而是先默默思考几分钟,理清思路后再给出答案。

擅长:极高难度的数学和代码问题


3. 关键模型架构

3.1. Transformer - Transformer架构

通俗解释:现代AI的基石技术。它的核心是”注意力机制”(Self-Attention),让模型能够同时关注一句话中的所有词,而不是一个一个按顺序读。

类比:就像你看一幅画时,可以同时关注画中的多个元素,而不是必须从左到右扫描。

革命性意义

  • 解决了并行计算问题
  • 让训练超大模型成为可能
  • 成为GPT、BERT等所有现代大模型的基础

3.2. ViT(Vision Transformer)- 视觉Transformer

通俗解释:把处理文字的Transformer架构,跨界应用到处理图片上。

类比:就像原本教语言的老师,发现他的教学方法也能教画画。

3.3. GAN(Generative Adversarial Network)- 生成对抗网络

通俗解释:让两个AI网络互相博弈——一个”造假者”试图生成逼真的图片,另一个”鉴宝师”负责鉴别真假。造假者为了骗过鉴宝师,不断精进技术。

类比:就像假钞制造者和警察的猫鼠游戏,最终假钞做得越来越逼真。

应用:早期AI绘画的主流技术。

3.4. MoE(Mixture of Experts)- 混合专家模型

通俗解释:把大模型拆成许多小”专家”,每个专家只擅长某类问题。每次提问时,只激活相关的几个专家来回答。

类比:就像医院分科室,看心脏问题挂心内科,看皮肤问题挂皮肤科,而不是让所有医生都来看病。

核心优势:在参数量极大的情况下(如万亿参数),保持较低的推理成本。

参考资料

3.5. Diffusion Model - 扩散模型

通俗解释:目前最主流的AI绘画技术(如Stable Diffusion、Midjourney)。它学习的是”如何把满是噪点的图像还原成清晰图像”的过程。

类比:就像看着一张被涂得乱七八糟的画,一步步擦掉污渍,最终还原出清晰的画作。

3.6. SSM(State Space Model)- 状态空间模型

通俗解释:挑战Transformer的新架构(如Mamba),在处理超长文本时速度更快、占用的显存更少。

类比:就像Transformer的高速公路,SSM是新修的更高效的铁路线。


4. 训练与微调关键技术

4.1. Fine-tuning - 微调

Fine-tuning 是在预训练好的模型基础上,用特定领域数据再训练的统称。

通俗解释:就像一个通识很好的大学生,再经过几个月的专业培训,变成某个领域的专家。

两种主要方法

  • SFT(有监督微调):用高质量问答数据教模型听懂指令
  • RLHF(基于人类反馈的强化学习):通过人类打分让AI对齐价值观

4.2. Pre-training - 预训练

通俗解释:模型训练的第一阶段。让AI在海量通用数据中”通读群书”,学会语言的基本规律和世界知识。

类比:就像大学生上通识课,学语文、数学、历史、物理等各种基础知识。

特点:成本最高,耗时最长。

4.3. SFT(Supervised Fine-Tuning)- 有监督微调

通俗解释:模型训练的第二阶段。使用人工精心准备的高质量问答数据,教模型如何”听懂指令”并按人类的格式回答。

类比:就像通识课后,开始上专业选修课,学习具体的职业技能。

4.4. RLHF(Reinforcement Learning from Human Feedback)- 基于人类反馈的强化学习

通俗解释:模型训练的第三阶段。通过人类对AI的回答打分(好/不好),让AI逐渐学会人类的价值观和偏好。

类比:就像学生作业完成后,老师给出反馈和评分,学生根据反馈不断改进。

三个步骤

  1. 收集人类对AI回答的偏好数据(哪个回答更好)
  2. 训练一个”奖励模型”来预测人类偏好
  3. 用强化学习让AI优化,争取得到更高奖励

意义:是ChatGPT成功的关键技术,让AI更安全、更有用。

4.5. LoRA(Low-Rank Adaptation)- 低秩自适应

通俗解释:一种高效的微调技术。不需要改动整个大模型,只在模型旁边”挂载”少量参数进行训练。

类比:就像给汽车加装一个性能套件,而不是重新设计整辆汽车。

核心优势

  • 大幅降低训练成本
  • 普通人用消费级显卡也能微调大模型
  • 可以为不同任务训练不同的LoRA模块

参考资料

4.6. Zero-shot / Few-shot Learning - 零样本 / 少样本学习

通俗解释

  • Zero-shot:AI完全没见过某个任务,但能触类旁通完成
  • Few-shot:AI只看了几个例子,就能学会做新任务

类比

  • Zero-shot:你从没做过川菜,但根据做菜的基本原理,居然做出了味道还不错的麻婆豆腐
  • Few-shot:你只看了三次做菜视频,就能做出那道菜了

4.7. Embedding - 嵌入(向量化)

通俗解释:把文字、图片等转化为计算机能理解的”数字列表”(向量)。含义越相近的内容,它们的数字”距离”越近。

类比

  • “猫”和”狗”的数字距离很近(都是宠物)
  • “猫”和”汽车”的数字距离很远(完全不相关)

应用:是RAG、搜索引擎、推荐系统等技术的基础。

参考资料

4.8. Synthetic Data - 合成数据

通俗解释:由高智商AI生成的优质数据,用来训练下一代小模型。

类比:就像名师出的模拟题,质量很高,可以用来训练学生。

意义:解决真实世界高质量数据枯竭的问题。


5. 硬件与应用基建

5.1. GPU(Graphics Processing Unit)- 图形处理器

通俗解释:AI算力的核心硬件,擅长同时处理很多计算任务。

类比:就像计算器的超级加强版,特别适合”算力密集型”工作。

代表产品:NVIDIA H100、A100

5.2. VRAM(Video Random Access Memory)- 显存

通俗解释:显卡的内存。

类比:就像电脑的内存条,容量越大,能同时运行的程序越多。

重要性:运行大模型最核心的瓶颈。显存越大,能跑的模型越大、上下文越长。

5.3. TPU(Tensor Processing Unit)- 张量处理器

通俗解释:Google自研的AI专用芯片,专为深度学习优化。

5.4. NPU(Neural Processing Unit)- 神经网络处理器

通俗解释:手机、电脑等设备上的AI芯片,功耗低,适合跑本地小模型。

类比:就像手机里的小型AI计算单元,让你不需要联网也能用AI功能。

5.5. CUDA(Compute Unified Device Architecture)- 统一计算设备架构

通俗解释:NVIDIA推出的并行计算平台和编程模型。

重要性:几乎所有主流AI软件都基于CUDA开发,是NVIDIA的护城河。

5.6. Quantization - 量化

通俗解释:通过降低数字精度(如从16位浮点数变成4位整数)来压缩模型体积。

类比:就像把高清图片压缩成标清,虽然损失了一些细节,但文件小了很多,更容易存储和传输。

好处:让大模型能在显存较小的设备上运行。

5.7. FLOPS - 每秒浮点运算次数

通俗解释:衡量算力大小的单位。

类比:就像CPU的主频,FLOPS越高,计算能力越强。

5.8. Inference - 推理

通俗解释:模型训练好后的使用过程。输入问题,模型计算并输出答案。

类比

  • 训练 = 学生学习阶段
  • 推理 = 学生参加考试/实际工作

5.9. Token - 词元

通俗解释:AI读写文本的最小单位。

换算关系

  • 1个汉字 ≈ 1-2个Token
  • 1个英文单词 ≈ 0.75个Token

[!tip] 中文优化
不同的模型(Tokenizer)效率不同:国产大模型(如 DeepSeek、通义千问、智谱等)针对中文优化后,1个汉字通常仅占 0.5-0.7 个 Token,使用成本更低。

计费:大多数AI API按Token数量收费。

5.10. Context Window - 上下文窗口

通俗解释:模型短期记忆的容量,决定了一次能”读”多少内容。

类比:就像人的短期记忆,一次能记住多少页书的内容。

常见大小

  • 4k ≈ 3页中文文档
  • 128k ≈ 300页中文文档(一本薄书)

5.11. KV Cache - 键值缓存

通俗解释:一种让AI推理更快的”记忆缓存”技术。在生成文本时,模型会把之前计算过的结果”记”下来,避免重复计算。

类比:就像做数学题时,把中间步骤的结果记在草稿纸上,下次用到时直接抄,不用重新算一遍。

核心原理

  • Transformer 模型生成每个 Token 时都需要”看”之前所有的 Token
  • KV Cache 把之前 Token 的计算结果(Key 和 Value 矩阵)缓存起来
  • 生成新 Token 时,只需要计算新 Token 的部分,之前的部分直接从缓存读取

核心优势

  • 大幅加速推理:避免了重复计算,生成速度可提升数倍
  • 降低显存占用:虽然需要额外显存存缓存,但总体效率更高
  • 支持更长上下文:是让长文本生成变得实用的关键技术

应用场景

  • 所有现代大模型的推理服务都默认使用 KV Cache
  • 流式输出(打字机效果)必须依赖 KV Cache

与 Context Window 的关系:Context Window 越大,KV Cache 占用的显存就越多。

5.12. Needle In A Haystack - 大海捞针测试

通俗解释:一种专门测试模型长文本记忆能力的基准测试。把一句关键信息(”针”)藏在超长文本(”干草堆”)中,看模型能不能准确找到。

[!tip] 简单理解
就像在一本 10 万字的小说里藏了一句”秘密密码是 123456”,然后问 AI:”密码是什么?”看它能不能找出来。

测试方法

  1. 准备一段超长文本(如 32k、128k tokens)
  2. 在文本的不同位置(开头、中间、结尾)插入特定信息
  3. 问模型与该信息相关的问题
  4. 检查模型能否准确回答

测试维度

  • 深度:信息在文本的哪个位置(越靠越越难)
  • 长度:文本总长度(越长越难)
  • 干扰:周围内容的相似度(越相似越难)

意义

  • 是评估模型长文本能力的核心指标
  • 直接反映模型的”大海捞针”能力
  • 比 Context Window 数值更能体现实际效果

参考资料

5.13. Temperature - 温度系数

Temperature 是API中的一个参数,用于控制AI生成文本的随机性和创造性。

通俗解释:就像调节AI的”性格”——是严谨保守,还是发散创新。

[!tip] 简单理解
温度越低,AI越像”标准答案机器”;温度越高,AI越像”创意写作高手”,但也更容易胡说。

参数范围与效果

温度值 效果 适用场景 建议值
低(0-0.3) 回答严谨、固定、可预测 代码生成、事实性问答、数学计算 0.1-0.2
中(0.4-0.7) 平衡型,有一定创造性 一般对话、内容创作 0.5-0.7
高(0.8-1.0) 回答有创意、多样化 创意写作、头脑风暴、诗歌小说 0.8-0.9

核心原理:温度控制的是概率分布的”陡峭程度”。温度越低,高概率词越占优势;温度越高,所有词的选择机会越平均。

参考资料

5.14. Top-p(Nucleus Sampling)- 核采样

通俗解释:一种控制AI生成”确定性”的参数。它让AI只从累计概率达到 p 的词中选择。

类比:就像点菜时,你只看菜单上”最受欢迎的前 90% 的菜”,剩下的冷门菜直接忽略。

[!tip] 简单理解
Top-p = 只考虑”最有可能的那些词”,把不太可能的词直接排除。

参数范围:0.0 - 1.0(常用值 0.8 - 0.95)

工作原理

  1. 模型预测下一个词,给每个词一个概率
  2. 按概率从高到低排序,累加概率
  3. 当累计概率达到 p(如 0.9)时,停止
  4. 只从这些词中随机选择

与 Temperature 的配合

  • 通常 Top-p 和 Temperature 会配合使用
  • Top-p 控制候选词的范围
  • Temperature 控制选择方式(更倾向高概率词还是更平均)

示例

假设下一个词的概率分布:
- "苹果" 40%
- "香蕉" 30%
- "橙子" 15%
- "葡萄" 10%
- "西瓜" 5%

Top-p = 0.9 时:
累计概率:40% → 70% → 85% → 95%(超过0.9,停止)
候选词:"苹果"、"香蕉"、"橙子"、"葡萄"
从这4个词中选择

5.15. Top-k - Top-k采样

通俗解释:另一种控制AI生成”确定性”的参数。它让AI只从概率最高的 k 个词中选择。

类比:就像考试时,你只考虑最可能的前3个答案,其他的答案直接忽略。

[!tip] 简单理解
Top-k = 只考虑”概率最高的前k个词”,固定数量。

参数范围:通常为 1 - 100(常用值 40 - 50)

工作原理

  1. 模型预测下一个词,给每个词一个概率
  2. 按概率从高到低排序
  3. 只保留前 k 个词
  4. 从这 k 个词中随机选择

与 Top-p 的区别

维度 Top-p Top-k
选择方式 累计概率达到阈值 固定取前 k 个
候选数量 动态变化 固定数量
参数示例 p=0.9,可能有 5 个或 50 个候选 k=50,永远 50 个候选
适用场景 更精细控制 更简单直接

配合使用

  • 通常 Top-k 和 Top-p 二选一,不要同时使用
  • 现代 API(如 OpenAI)更推荐用 Top-p

5.16. Prompt Engineering - 提示词工程

通俗解释:通过设计精妙的指令(”咒语”)来引导AI输出更高质量结果的技术。

:CoT(思维链)也是提示词工程的一种高级形式。

5.17. Vector Database - 向量数据库

通俗解释:专门存储Embedding(向量)数据的数据库。

类比:就像专门存储”数字指纹”的仓库,可以快速找到”相似”的内容。

作用:是实现RAG(知识库问答)的关键基础设施。

代表产品:Pinecone、Milvus、Chroma

5.18. Rate Limits - 速率限制

通俗解释:API服务商为防止滥用设置的”速度限制墙”。

[!tip] 简单理解
就像高速公路收费站,限制每分钟通过多少辆车,防止拥堵。

五种常见维度

缩写 全称 含义 类比
RPM Requests Per Minute 每分钟请求数 限流:每分钟只能进N个人
RPD Requests Per Day 每日请求数 日限额:每天只能办N件事
TPM Tokens Per Minute 每分钟Token数 字数限:每分钟只能说N个字
TPD Tokens Per Day 每日Token数 日字数限:每天只能说N个字
IPM Images Per Minute 每分钟图片数 图片限:每分钟只能生成N张图

触发机制:任一维度达到限制即触发,取最先触发者为准。

举例:如果RPM限制为60,TPM限制为90,000,你一分钟内发了60个请求,每个只有100个token(共6,000个token),那么会触发RPM限制,尽管TPM还没用完。

重置方式

  • RPM/TPM/IPM:每分钟自动重置
  • RPD/TPD:每日午夜重置(具体时区看服务商,太平洋时间或北京时间)

参考资料

5.19. RPM(Requests Per Minute)- 每分钟请求数

通俗解释:速率限制的一种指标,限制用户每分钟最多能发送多少个请求。

类比:就像每分钟只能打10个电话,打完了得等下一分钟。

重置方式:每分钟自动重置。例如10:30:15触发限制,等到10:31:00即可继续。

5.20. RPD(Requests Per Day)- 每日请求数

通俗解释:速率限制的一种指标,限制用户每天最多能发送多少个请求。

类比:就像图书馆每天只允许你借10本书,借完了只能等第二天。

重置时间:通常在每日午夜重置(不同时区),例如太平洋时间午夜即北京时间下午4点。

5.21. TPM(Tokens Per Minute)- 每分钟Token数

通俗解释:速率限制的一种指标,限制用户每分钟最多能消耗多少个Token(包含输入和输出)。

类比:就像每分钟只能说1000个字,说快了说慢了都会影响可用字数。

重要特点:与RPM双重限制,先触发的哪个就生效。

5.22. TPD(Tokens Per Day)- 每日Token数

通俗解释:速率限制的一种指标,限制用户每天最多能消耗多少个Token。

类比:就像手机每月的流量套餐,用完了要么等下个月,要么付费扩容。

5.23. TPS(Tokens Per Second)- 每秒生成Token数

通俗解释:衡量大模型生成速度的性能指标,表示模型每秒能产生多少个Token。

[!tip] 简单理解
就像打字速度(每分钟打多少字),TPS是AI的”说话速度”——每秒能说多少个字。

数值参考

  • 30-50 TPS:普通速度,适合大多数应用
  • 50-100 TPS:高速生成,用户体验流畅
  • 100+ TPS:极快速度,需要强大的硬件支持

影响因素

  • 模型大小(SLM 比 LLM 快)
  • 硬件配置(GPU性能、显存带宽)
  • 量化程度(4bit量化比16bit快)
  • 批处理策略(同时处理多个请求)

应用场景

  • 实时对话系统:需要高TPS保证响应速度
  • 长文本生成:TPS越高,等待时间越短

5.24. MCP(Model Context Protocol)- 模型上下文协议

通俗解释:Anthropic推出的开放标准协议,定义了AI模型与外部数据源、工具之间交换信息的统一方式。

[!tip] 简单理解
就像USB接口,让AI能连接各种工具和数据源,而不需要为每个工具单独写适配器。

类比

  • 以前:每个工具(数据库、文件系统、API)都要单独写接口代码,像给每种电器配不同的插头
  • 现在有了MCP:像有了USB统一接口,一套协议解决所有工具的连接问题

核心价值

  • 标准化:无需为每个工具写复杂的适配器
  • 可扩展:社区可以贡献各种MCP服务器
  • 安全:统一的权限控制和数据访问机制

工作原理

  • MCP Client:AI应用(如Claude Code)
  • MCP Server:提供特定能力的服务(如文件系统、数据库、API)
  • MCP Protocol:定义两者如何通信的标准

参考资料


6. AI Agent 智能体体系

[!info] 本章说明
AI Agent 是当前AI应用的核心方向,它不仅能对话,还能自主完成复杂任务。本章介绍Agent的核心技术和相关概念。

6.1. Agent(AI智能体)

通俗解释:不仅能对话,还能自主完成任务的AI。它可以感知环境、规划步骤、使用工具(如搜索网页、运行代码)。

类比:就像一个不仅能聊天,还能帮你订机票、查资料、写程序的智能助手。

核心能力

  • 感知:理解用户意图和环境状态
  • 规划:将复杂任务拆解为可执行步骤
  • 行动:调用工具(API、搜索、代码执行等)完成任务
  • 记忆:利用短期和长期记忆积累经验
  • 反思:评估行动结果并调整策略

与普通Chatbot的区别

  • Chatbot:被动回答问题,单次对话结束即止
  • Agent:主动解决问题,多轮交互直到任务完成

6.2. CoT(Chain of Thought)- 思维链

通俗解释:一种提示词技巧,让AI”一步步思考”而不是直接给答案。就像做数学题要写出解题过程一样。

类比:就像老师教学生”把过程写出来”,而不是只写答案。

效果:显著提高解决复杂数学、逻辑问题的准确率。

在Agent中的应用:Agent 在规划任务时,默认使用 CoT 来分解问题和推理下一步行动。

参考资料

6.3. ReAct - 推理与行动框架

通俗解释:一种让AI交替进行”思考”和”行动”的框架。AI 先推理(Reasoning)该做什么,然后执行行动(Action),再观察结果,循环往复直到完成任务。

类比:就像下棋时,你先思考怎么走,然后走一步,再看对方怎么应对,接着思考下一步。

核心模式

Thought(思考)→ Action(行动)→ Observation(观察)→ Thought(思考)→ ...

与传统CoT的区别

  • CoT:只思考,不行动,适合纯推理任务
  • ReAct:思考 + 行动 + 观察,适合需要与外界交互的复杂任务

应用场景

  • 多步骤问题求解
  • 需要查询外部信息的任务
  • 工具调用和API操作

参考资料

6.4. Function Calling - 函数调用

通俗解释:让AI能够”调用”外部函数或API的能力。AI可以根据对话内容,自动判断何时需要调用某个函数,并生成正确的函数参数。

类比:就像你让助理”帮我查明天天气”,助理知道要打开天气APP,输入你的城市,然后把结果告诉你。

工作流程

  1. 用户发送请求
  2. AI分析请求,判断需要调用哪个函数
  3. AI生成函数调用参数(JSON格式)
  4. 系统执行函数,返回结果
  5. AI基于函数结果生成最终回答

在Agent中的核心地位:Function Calling 是 Agent 使用工具(Tool Use)的技术基础。

典型应用

  • 查询数据库、API接口
  • 执行代码、运行脚本
  • 操作文件系统、发送邮件

参考资料

6.5. Short-term Memory - 短期记忆

通俗解释:AI Agent 在当前对话中记住的信息,利用 Context Window 来维护对话上下文。

类比:就像人的短期记忆,能记住刚才说了什么,但随着对话越长,越早的信息可能被”遗忘”。

技术实现

  • 基于 Context Window(上下文窗口)存储
  • 将对话历史(用户消息、AI回复、工具调用结果)持续追加到上下文中
  • 当达到窗口上限时,需要丢弃早期信息或进行摘要压缩

限制与挑战

  • 容量有限:Context Window 大小限制了短期记忆的容量
  • 成本问题:上下文越长,每次推理的Token消耗越大
  • 信息衰减:超长上下文中,早期信息的关注度可能降低

与Context Window的关系:短期记忆的容量 = Context Window 的大小。

6.6. Long-term Memory - 长期记忆

通俗解释:AI Agent 跨会话持久存储的信息,通常使用 Vector Database(向量数据库)或 RAG 技术来实现。

类比:就像人的长期记忆,即使过了一周再聊,你依然记得之前的重要信息。

技术实现

  • Vector Database:将历史对话、文档知识转化为向量存储
  • RAG(检索增强生成):需要时从向量数据库中检索相关信息
  • 记忆策略:自动判断哪些信息值得长期保存

存储内容类型

  • 用户偏好和重要信息
  • 历史对话中的关键结论
  • 领域知识和文档资料
  • 任务执行的经验教训

与短期记忆的区别

维度 短期记忆 长期记忆
存储介质 Context Window Vector Database
有效期 当前会话 跨会话持久
容量 有限(128k-1M tokens) 几乎无限
检索方式 自然顺序 语义检索(RAG)
成本 每次推理都计入 仅检索时计入

参考资料

6.7. System Prompt - 系统提示词

通俗解释:AI Agent的”操作系统”,定义了AI的角色、行为准则、能力边界和输出框架。

[!tip] 简单理解
System Prompt = 员工的岗位说明书 + 行为规范;User Prompt = 用户的临时指令

类比

  • System Prompt = 员工入职培训时看的岗位说明书和行为规范
  • User Prompt = 日常工作中的具体任务指令

核心组成

  • 角色定位:你是什么(如”你是一个Python编程专家”)
  • 行为规则:你应该怎么做、不能做什么
  • 输出格式:按什么格式返回结果
  • 工具使用:什么情况下用什么工具

重要性:高质量的System Prompt是AI Agent稳定工作的基础,决定了AI的行为边界和一致性。

Agent System Prompt 示例要点

你是一个AI智能体,具备以下能力:
- 使用 ReAct 框架进行推理和行动
- 可以调用多种工具(搜索、代码执行等)
- 具有短期记忆(记住当前对话)和长期记忆(从向量库检索)
- 遇到不确定的信息时,主动使用工具验证

7. 评估与指标

7.1. SOTA(State of the Art)- 当前最先进水平

SOTAState of the Art 的缩写。

在AI和计算机科学领域,它指的不是某一种特定的技术,而是指**”当前最先进的水平”或者“目前的冠军”**。

[!tip] 简单理解
在某个具体的任务上,谁的分数最高,谁就是 SOTA。

两个关键要点:

  • 严格分任务:同一个模型,可能是代码生成的 SOTA(在 HumanEval 上 Pass@1 最高),但在意图分类上可能不如别的模型
  • 基于指标:SOTA 必须指明是在哪个数据集上、用哪个指标算出来的冠军

参考资料

7.2. Benchmark - 基准测试

Benchmark 是用来给AI模型”考试”的标准化题库。

通俗解释:就像高考是检验学生水平的统一试卷,Benchmark是检验AI模型能力的统一考题。

[!tip] 简单理解
就像不同学校的学生用同一套试卷考试,不同AI模型用同一个Benchmark测试,才能公平比较谁更强。

常见基准测试

Benchmark 全称 考什么 类比
MMLU Massive Multitask Language Understanding 57个学科的综合知识 高考全科
HumanEval - 164道Python编程题 编程考试
GSM8K Grade School Math 8K 8500+小学数学应用题 小学数学题

行业趋势:2025年底开始,公共基准测试的公信力受到质疑,越来越多企业转向私有基准测试。

参考资料

7.3. PPL(Perplexity)- 困惑度

PPL 是衡量语言模型预测下一个词准确度的指标。

通俗解释:模型预测下一个词时”有多困惑”。数值越低,说明模型预测得越准,越”聪明”。

[!tip] 简单理解
就像猜词游戏——PPL越低,说明你每次猜中的概率越高,对语言的掌握越好。

关键特点

  • 数值越低越好
  • 主要用于评估模型本身的语言能力
  • 与人类对齐程度的相关性有限

类比:就像英语考试完形填空,PPL低的学生能准确预测空缺处该填什么词。

7.4. BLEU - BLEU分数

BLEU (Bilingual Evaluation Understudy) 是机器翻译领域最常用的评估指标。

通俗解释:看机器翻译的句子和人工翻译的句子有多少重合的词组。重合度越高,分数越高。

[!tip] 简单理解
就像检查翻译作业,看学生的译文和标准答案有多少相同的片段。

核心机制

  • 基于n-gram(连续n个词)的重叠度计算
  • BLEU-1、BLEU-2、BLEU-3、BLEU-4分别对应不同长度的词组
  • 分数范围0-1,越高越好

局限性:只看字面重叠,不考虑语义等价(如”好”和”棒”意思相同但BLEU算不匹配)

参考资料

7.5. ROUGE - ROUGE指标

ROUGE (Recall-Oriented Understudy for Gisting Evaluation) 是文本摘要任务的主要评估指标。

通俗解释:看生成的摘要是否涵盖了原文的核心内容。相比BLEU,ROUGE更关注”覆盖率”而非”精确度”。

[!tip] 简单理解
就像检查读书笔记是否覆盖了书中的要点,而不是逐字逐句照抄。

常见变体

  • ROUGE-N:基于n-gram的重叠
  • ROUGE-L:基于最长公共子序列
  • ROUGE-S:基于跳跃二元组

与BLEU的区别

  • BLEU主要用于机器翻译,注重精确度
  • ROUGE主要用于文本摘要,注重召回率(覆盖率)

参考资料

7.6. Accuracy / Precision / Recall - 准确率 / 精确率 / 召回率

这是分类任务的三大基础指标,经常用于AI模型的评估。

通俗解释

指标 英文 含义 类比 口诀
准确率 Accuracy 预测正确的占总数 考试总得分 总体答对率
精确率 Precision 预测为正的里面有多少是真的正 抓坏人时,不冤枉好人 没抓错的比例
召回率 Recall 真的正里面有多少被抓到了 抓坏人时,不放过坏人 没漏抓的比例

[!tip] 简单理解

  • 准确率:整体做得怎么样
  • 精确率:抓得准不准(会不会抓错人)
  • 召回率:抓得全不全(会不会漏网之鱼)

经典案例(垃圾邮件分类):

  • 精确率高:标记为垃圾的邮件里,确实是垃圾的比例高(用户不会漏看正常邮件)
  • 召回率高:所有垃圾邮件里,被成功拦截的比例高(用户邮箱里垃圾少)

参考资料

7.7. F1 Score - F1分数

F1 Score 是精确率和召回率的调和平均数。

通俗解释:给精确率和召回率相同的权重,算出一个综合分数。避免模型”偏科”(只顾准确不顾全面,或只顾全面不顾准确)。

[!tip] 简单理解
就像考试成绩不能只看语文或数学,F1是”全科平均分”。

核心特点

  • 取值范围0-1,越高越好
  • 对类别不平衡问题更友好
  • 是精确率和召回率的平衡点

何时使用

  • 数据集正负样本不平衡时
  • 需要同时关注精确率和召回率时
  • 作为单一指标比较模型优劣时

参考资料

7.8. Pass@k - k次通过率

Pass@k 是代码生成任务专用的评估指标。

通俗解释:让AI写代码,允许尝试k次,看有多少次能写出能运行的代码。

[!tip] 简单理解
就像考试允许你交卷前重做几次,看你最终能及格的概率。

常见取值

  • Pass@1:一次尝试就成功的概率(最严格)
  • Pass@10:十次尝试内能成功的概率(较宽松)

举例:Pass@1 = 60%,意思是一次尝试就有60%的概率代码能跑通。

应用场景:主要用于评估代码生成模型(如Codex、StarCoder等)的能力。

7.9. TTFT(Time To First Token)- 首字延迟

TTFT 是衡量用户体验的关键性能指标。

通俗解释:用户发出指令后,看到AI吐出第一个字需要的时间。

[!tip] 简单理解
就像拨通电话后,多久听到对方的第一句话。TTFT越短,等待感越弱。

重要性

  • 是用户体验的第一印象
  • 影响用户对AI响应速度的感知
  • 与模型大小、计算资源相关

优化方向

  • 使用更小的模型(SLM)
  • 使用Speculative Decoding(投机采样)
  • 优化KV Cache管理

8. 参考资料

本文档内容参考了以下权威资源:

[!tip] 持续更新
AI技术发展日新月异,本文档会持续更新。欢迎补充和指正!