AI相关名词大全
AI相关名词大全
[!tips] 说明
本文档整理了AI领域常见的专业术语,使用通俗易懂的语言进行解释,帮助初学者快速理解核心概念。
1. 名词分类导航
| 领域 | 核心概念 |
|---|---|
| 🤖 大模型核心 | LLM · SLM · AIGC · GPT · RAG · LMM · Hallucination · Reasoning Model |
| 🏗️ 模型架构 | Transformer · MoE · Diffusion · GAN · ViT · SSM |
| 🔧 训练技术 | Fine-tuning · SFT · RLHF · LoRA · Embedding · Synthetic Data |
| 🤖 智能体Agent | Agent · CoT · ReAct · Function Calling · 短期记忆 · 长期记忆 · System Prompt |
| 💻 应用基建 | GPU · Token · Context Window · Vector DB · MCP · Rate Limits · TPS |
| 📊 评估指标 | SOTA · Benchmark · PPL · BLEU · ROUGE · F1 Score · Pass@k · TTFT |
2. 大模型与生成式AI核心
2.1. LLM(Large Language Model)- 大语言模型
通俗解释:一种”读过”海量文本的超级大脑,参数量通常在十亿级以上。它不仅能理解你说的每句话,还能推理、创作、写代码。
类比:就像一个博览群书的学者,几乎读过互联网上所有的文字资料。
2.2. SLM(Small Language Model)- 小语言模型
通俗解释:参数量较小(1B-7B)的模型,可以在笔记本或手机本地运行。
类比:就像LLM的”轻量版”,虽然知识面不如LLM广,但反应快、隐私好、不费网。
优势:隐私保护、低延迟、无需联网
应用:手机助手、本地文档检索
2.3. AIGC(AI Generated Content)- 人工智能生成内容
通俗解释:用AI自动创作内容,比如写文章、画图、作曲、剪视频、写代码等。
类比:就像一个全能的创作助手,你说要什么,它就能变出什么。
2.4. GPT(Generative Pre-trained Transformer)- 生成式预训练Transformer
通俗解释:OpenAI提出的一种模型训练方法,名字包含三个关键信息:
- 生成式:能写东西、创作内容
- 预训练:先在海量数据中”预习”通用知识
- Transformer架构:使用的技术框架
类比:就像学生先上通识课(预训练),再学专业课程(微调)。
2.5. RAG(Retrieval-Augmented Generation)- 检索增强生成
通俗解释:大模型在回答问题前,先去外部知识库(如企业文档)”翻书”找资料,再结合这些资料来回答。
类比:就像开卷考试,你先去图书馆查相关资料,然后基于这些资料来答题,而不是完全凭记忆。
核心优势:
- 有效减少”瞎编”现象(解决幻觉问题)
- 可以使用最新的、企业私有的数据
- 答案可以追溯来源(Grounding)
[!tip] 在公司中,RAG 不仅解决了幻觉,还解决了数据安全问题。通过 RAG,我们可以实现“权限隔离”——即 AI 只能根据当前用户有权阅读的文档来回答问题。
参考资料:
2.6. LMM(Large Multimodal Model)- 多模态大模型
通俗解释:不仅能读文字,还能看图片、听声音、看视频的大模型。
类比:就像一个全能的艺术家,既能写文章,又能画画,还能作曲。
代表模型:GPT-4o、Gemini、Claude 等
关于模态(Modality):数据的存在形式,如文本、图像、音频、视频。LMM就是能打通这些形式的模型。
[!tip] 说明
关于 Agent(AI智能体) 及其相关技术(CoT、ReAct、Function Calling、记忆机制等),详见 第6章 AI Agent 智能体体系。
2.7. Hallucination - 幻觉
通俗解释:AI一本正经地胡说八道。它说的话听起来很有道理,但事实是错的。
类比:就像学生考试时不会做,但为了让卷面好看,就编造了一个看似合理的答案。
应对方法:
- 使用RAG技术(基于真实资料回答)
- 降低温度参数(让回答更保守)
- 要求AI提供信息来源(Grounding)
什么是Grounding:让AI的回答建立在真实世界的信息或给定的数据之上,是解决幻觉的核心手段。
2.8. Reasoning Model - 推理模型
通俗解释:一种新型大模型(如OpenAI o1),在回答前会进行”长时间思考”。
类比:就像遇到难题时,不是马上回答,而是先默默思考几分钟,理清思路后再给出答案。
擅长:极高难度的数学和代码问题
3. 关键模型架构
3.1. Transformer - Transformer架构
通俗解释:现代AI的基石技术。它的核心是”注意力机制”(Self-Attention),让模型能够同时关注一句话中的所有词,而不是一个一个按顺序读。
类比:就像你看一幅画时,可以同时关注画中的多个元素,而不是必须从左到右扫描。
革命性意义:
- 解决了并行计算问题
- 让训练超大模型成为可能
- 成为GPT、BERT等所有现代大模型的基础
3.2. ViT(Vision Transformer)- 视觉Transformer
通俗解释:把处理文字的Transformer架构,跨界应用到处理图片上。
类比:就像原本教语言的老师,发现他的教学方法也能教画画。
3.3. GAN(Generative Adversarial Network)- 生成对抗网络
通俗解释:让两个AI网络互相博弈——一个”造假者”试图生成逼真的图片,另一个”鉴宝师”负责鉴别真假。造假者为了骗过鉴宝师,不断精进技术。
类比:就像假钞制造者和警察的猫鼠游戏,最终假钞做得越来越逼真。
应用:早期AI绘画的主流技术。
3.4. MoE(Mixture of Experts)- 混合专家模型
通俗解释:把大模型拆成许多小”专家”,每个专家只擅长某类问题。每次提问时,只激活相关的几个专家来回答。
类比:就像医院分科室,看心脏问题挂心内科,看皮肤问题挂皮肤科,而不是让所有医生都来看病。
核心优势:在参数量极大的情况下(如万亿参数),保持较低的推理成本。
参考资料:
3.5. Diffusion Model - 扩散模型
通俗解释:目前最主流的AI绘画技术(如Stable Diffusion、Midjourney)。它学习的是”如何把满是噪点的图像还原成清晰图像”的过程。
类比:就像看着一张被涂得乱七八糟的画,一步步擦掉污渍,最终还原出清晰的画作。
3.6. SSM(State Space Model)- 状态空间模型
通俗解释:挑战Transformer的新架构(如Mamba),在处理超长文本时速度更快、占用的显存更少。
类比:就像Transformer的高速公路,SSM是新修的更高效的铁路线。
4. 训练与微调关键技术
4.1. Fine-tuning - 微调
Fine-tuning 是在预训练好的模型基础上,用特定领域数据再训练的统称。
通俗解释:就像一个通识很好的大学生,再经过几个月的专业培训,变成某个领域的专家。
两种主要方法:
- SFT(有监督微调):用高质量问答数据教模型听懂指令
- RLHF(基于人类反馈的强化学习):通过人类打分让AI对齐价值观
4.2. Pre-training - 预训练
通俗解释:模型训练的第一阶段。让AI在海量通用数据中”通读群书”,学会语言的基本规律和世界知识。
类比:就像大学生上通识课,学语文、数学、历史、物理等各种基础知识。
特点:成本最高,耗时最长。
4.3. SFT(Supervised Fine-Tuning)- 有监督微调
通俗解释:模型训练的第二阶段。使用人工精心准备的高质量问答数据,教模型如何”听懂指令”并按人类的格式回答。
类比:就像通识课后,开始上专业选修课,学习具体的职业技能。
4.4. RLHF(Reinforcement Learning from Human Feedback)- 基于人类反馈的强化学习
通俗解释:模型训练的第三阶段。通过人类对AI的回答打分(好/不好),让AI逐渐学会人类的价值观和偏好。
类比:就像学生作业完成后,老师给出反馈和评分,学生根据反馈不断改进。
三个步骤:
- 收集人类对AI回答的偏好数据(哪个回答更好)
- 训练一个”奖励模型”来预测人类偏好
- 用强化学习让AI优化,争取得到更高奖励
意义:是ChatGPT成功的关键技术,让AI更安全、更有用。
4.5. LoRA(Low-Rank Adaptation)- 低秩自适应
通俗解释:一种高效的微调技术。不需要改动整个大模型,只在模型旁边”挂载”少量参数进行训练。
类比:就像给汽车加装一个性能套件,而不是重新设计整辆汽车。
核心优势:
- 大幅降低训练成本
- 普通人用消费级显卡也能微调大模型
- 可以为不同任务训练不同的LoRA模块
参考资料:
4.6. Zero-shot / Few-shot Learning - 零样本 / 少样本学习
通俗解释:
- Zero-shot:AI完全没见过某个任务,但能触类旁通完成
- Few-shot:AI只看了几个例子,就能学会做新任务
类比:
- Zero-shot:你从没做过川菜,但根据做菜的基本原理,居然做出了味道还不错的麻婆豆腐
- Few-shot:你只看了三次做菜视频,就能做出那道菜了
4.7. Embedding - 嵌入(向量化)
通俗解释:把文字、图片等转化为计算机能理解的”数字列表”(向量)。含义越相近的内容,它们的数字”距离”越近。
类比:
- “猫”和”狗”的数字距离很近(都是宠物)
- “猫”和”汽车”的数字距离很远(完全不相关)
应用:是RAG、搜索引擎、推荐系统等技术的基础。
参考资料:
4.8. Synthetic Data - 合成数据
通俗解释:由高智商AI生成的优质数据,用来训练下一代小模型。
类比:就像名师出的模拟题,质量很高,可以用来训练学生。
意义:解决真实世界高质量数据枯竭的问题。
5. 硬件与应用基建
5.1. GPU(Graphics Processing Unit)- 图形处理器
通俗解释:AI算力的核心硬件,擅长同时处理很多计算任务。
类比:就像计算器的超级加强版,特别适合”算力密集型”工作。
代表产品:NVIDIA H100、A100
5.2. VRAM(Video Random Access Memory)- 显存
通俗解释:显卡的内存。
类比:就像电脑的内存条,容量越大,能同时运行的程序越多。
重要性:运行大模型最核心的瓶颈。显存越大,能跑的模型越大、上下文越长。
5.3. TPU(Tensor Processing Unit)- 张量处理器
通俗解释:Google自研的AI专用芯片,专为深度学习优化。
5.4. NPU(Neural Processing Unit)- 神经网络处理器
通俗解释:手机、电脑等设备上的AI芯片,功耗低,适合跑本地小模型。
类比:就像手机里的小型AI计算单元,让你不需要联网也能用AI功能。
5.5. CUDA(Compute Unified Device Architecture)- 统一计算设备架构
通俗解释:NVIDIA推出的并行计算平台和编程模型。
重要性:几乎所有主流AI软件都基于CUDA开发,是NVIDIA的护城河。
5.6. Quantization - 量化
通俗解释:通过降低数字精度(如从16位浮点数变成4位整数)来压缩模型体积。
类比:就像把高清图片压缩成标清,虽然损失了一些细节,但文件小了很多,更容易存储和传输。
好处:让大模型能在显存较小的设备上运行。
5.7. FLOPS - 每秒浮点运算次数
通俗解释:衡量算力大小的单位。
类比:就像CPU的主频,FLOPS越高,计算能力越强。
5.8. Inference - 推理
通俗解释:模型训练好后的使用过程。输入问题,模型计算并输出答案。
类比:
- 训练 = 学生学习阶段
- 推理 = 学生参加考试/实际工作
5.9. Token - 词元
通俗解释:AI读写文本的最小单位。
换算关系:
- 1个汉字 ≈ 1-2个Token
- 1个英文单词 ≈ 0.75个Token
[!tip] 中文优化
不同的模型(Tokenizer)效率不同:国产大模型(如 DeepSeek、通义千问、智谱等)针对中文优化后,1个汉字通常仅占 0.5-0.7 个 Token,使用成本更低。
计费:大多数AI API按Token数量收费。
5.10. Context Window - 上下文窗口
通俗解释:模型短期记忆的容量,决定了一次能”读”多少内容。
类比:就像人的短期记忆,一次能记住多少页书的内容。
常见大小:
- 4k ≈ 3页中文文档
- 128k ≈ 300页中文文档(一本薄书)
5.11. KV Cache - 键值缓存
通俗解释:一种让AI推理更快的”记忆缓存”技术。在生成文本时,模型会把之前计算过的结果”记”下来,避免重复计算。
类比:就像做数学题时,把中间步骤的结果记在草稿纸上,下次用到时直接抄,不用重新算一遍。
核心原理:
- Transformer 模型生成每个 Token 时都需要”看”之前所有的 Token
- KV Cache 把之前 Token 的计算结果(Key 和 Value 矩阵)缓存起来
- 生成新 Token 时,只需要计算新 Token 的部分,之前的部分直接从缓存读取
核心优势:
- 大幅加速推理:避免了重复计算,生成速度可提升数倍
- 降低显存占用:虽然需要额外显存存缓存,但总体效率更高
- 支持更长上下文:是让长文本生成变得实用的关键技术
应用场景:
- 所有现代大模型的推理服务都默认使用 KV Cache
- 流式输出(打字机效果)必须依赖 KV Cache
与 Context Window 的关系:Context Window 越大,KV Cache 占用的显存就越多。
5.12. Needle In A Haystack - 大海捞针测试
通俗解释:一种专门测试模型长文本记忆能力的基准测试。把一句关键信息(”针”)藏在超长文本(”干草堆”)中,看模型能不能准确找到。
[!tip] 简单理解
就像在一本 10 万字的小说里藏了一句”秘密密码是 123456”,然后问 AI:”密码是什么?”看它能不能找出来。
测试方法:
- 准备一段超长文本(如 32k、128k tokens)
- 在文本的不同位置(开头、中间、结尾)插入特定信息
- 问模型与该信息相关的问题
- 检查模型能否准确回答
测试维度:
- 深度:信息在文本的哪个位置(越靠越越难)
- 长度:文本总长度(越长越难)
- 干扰:周围内容的相似度(越相似越难)
意义:
- 是评估模型长文本能力的核心指标
- 直接反映模型的”大海捞针”能力
- 比 Context Window 数值更能体现实际效果
参考资料:
5.13. Temperature - 温度系数
Temperature 是API中的一个参数,用于控制AI生成文本的随机性和创造性。
通俗解释:就像调节AI的”性格”——是严谨保守,还是发散创新。
[!tip] 简单理解
温度越低,AI越像”标准答案机器”;温度越高,AI越像”创意写作高手”,但也更容易胡说。
参数范围与效果:
| 温度值 | 效果 | 适用场景 | 建议值 |
|---|---|---|---|
| 低(0-0.3) | 回答严谨、固定、可预测 | 代码生成、事实性问答、数学计算 | 0.1-0.2 |
| 中(0.4-0.7) | 平衡型,有一定创造性 | 一般对话、内容创作 | 0.5-0.7 |
| 高(0.8-1.0) | 回答有创意、多样化 | 创意写作、头脑风暴、诗歌小说 | 0.8-0.9 |
核心原理:温度控制的是概率分布的”陡峭程度”。温度越低,高概率词越占优势;温度越高,所有词的选择机会越平均。
参考资料:
5.14. Top-p(Nucleus Sampling)- 核采样
通俗解释:一种控制AI生成”确定性”的参数。它让AI只从累计概率达到 p 的词中选择。
类比:就像点菜时,你只看菜单上”最受欢迎的前 90% 的菜”,剩下的冷门菜直接忽略。
[!tip] 简单理解
Top-p = 只考虑”最有可能的那些词”,把不太可能的词直接排除。
参数范围:0.0 - 1.0(常用值 0.8 - 0.95)
工作原理:
- 模型预测下一个词,给每个词一个概率
- 按概率从高到低排序,累加概率
- 当累计概率达到 p(如 0.9)时,停止
- 只从这些词中随机选择
与 Temperature 的配合:
- 通常 Top-p 和 Temperature 会配合使用
- Top-p 控制候选词的范围
- Temperature 控制选择方式(更倾向高概率词还是更平均)
示例:
假设下一个词的概率分布: |
5.15. Top-k - Top-k采样
通俗解释:另一种控制AI生成”确定性”的参数。它让AI只从概率最高的 k 个词中选择。
类比:就像考试时,你只考虑最可能的前3个答案,其他的答案直接忽略。
[!tip] 简单理解
Top-k = 只考虑”概率最高的前k个词”,固定数量。
参数范围:通常为 1 - 100(常用值 40 - 50)
工作原理:
- 模型预测下一个词,给每个词一个概率
- 按概率从高到低排序
- 只保留前 k 个词
- 从这 k 个词中随机选择
与 Top-p 的区别:
| 维度 | Top-p | Top-k |
|---|---|---|
| 选择方式 | 累计概率达到阈值 | 固定取前 k 个 |
| 候选数量 | 动态变化 | 固定数量 |
| 参数示例 | p=0.9,可能有 5 个或 50 个候选 | k=50,永远 50 个候选 |
| 适用场景 | 更精细控制 | 更简单直接 |
配合使用:
- 通常 Top-k 和 Top-p 二选一,不要同时使用
- 现代 API(如 OpenAI)更推荐用 Top-p
5.16. Prompt Engineering - 提示词工程
通俗解释:通过设计精妙的指令(”咒语”)来引导AI输出更高质量结果的技术。
注:CoT(思维链)也是提示词工程的一种高级形式。
5.17. Vector Database - 向量数据库
通俗解释:专门存储Embedding(向量)数据的数据库。
类比:就像专门存储”数字指纹”的仓库,可以快速找到”相似”的内容。
作用:是实现RAG(知识库问答)的关键基础设施。
代表产品:Pinecone、Milvus、Chroma
5.18. Rate Limits - 速率限制
通俗解释:API服务商为防止滥用设置的”速度限制墙”。
[!tip] 简单理解
就像高速公路收费站,限制每分钟通过多少辆车,防止拥堵。
五种常见维度:
| 缩写 | 全称 | 含义 | 类比 |
|---|---|---|---|
| RPM | Requests Per Minute | 每分钟请求数 | 限流:每分钟只能进N个人 |
| RPD | Requests Per Day | 每日请求数 | 日限额:每天只能办N件事 |
| TPM | Tokens Per Minute | 每分钟Token数 | 字数限:每分钟只能说N个字 |
| TPD | Tokens Per Day | 每日Token数 | 日字数限:每天只能说N个字 |
| IPM | Images Per Minute | 每分钟图片数 | 图片限:每分钟只能生成N张图 |
触发机制:任一维度达到限制即触发,取最先触发者为准。
举例:如果RPM限制为60,TPM限制为90,000,你一分钟内发了60个请求,每个只有100个token(共6,000个token),那么会触发RPM限制,尽管TPM还没用完。
重置方式:
- RPM/TPM/IPM:每分钟自动重置
- RPD/TPD:每日午夜重置(具体时区看服务商,太平洋时间或北京时间)
参考资料:
5.19. RPM(Requests Per Minute)- 每分钟请求数
通俗解释:速率限制的一种指标,限制用户每分钟最多能发送多少个请求。
类比:就像每分钟只能打10个电话,打完了得等下一分钟。
重置方式:每分钟自动重置。例如10:30:15触发限制,等到10:31:00即可继续。
5.20. RPD(Requests Per Day)- 每日请求数
通俗解释:速率限制的一种指标,限制用户每天最多能发送多少个请求。
类比:就像图书馆每天只允许你借10本书,借完了只能等第二天。
重置时间:通常在每日午夜重置(不同时区),例如太平洋时间午夜即北京时间下午4点。
5.21. TPM(Tokens Per Minute)- 每分钟Token数
通俗解释:速率限制的一种指标,限制用户每分钟最多能消耗多少个Token(包含输入和输出)。
类比:就像每分钟只能说1000个字,说快了说慢了都会影响可用字数。
重要特点:与RPM双重限制,先触发的哪个就生效。
5.22. TPD(Tokens Per Day)- 每日Token数
通俗解释:速率限制的一种指标,限制用户每天最多能消耗多少个Token。
类比:就像手机每月的流量套餐,用完了要么等下个月,要么付费扩容。
5.23. TPS(Tokens Per Second)- 每秒生成Token数
通俗解释:衡量大模型生成速度的性能指标,表示模型每秒能产生多少个Token。
[!tip] 简单理解
就像打字速度(每分钟打多少字),TPS是AI的”说话速度”——每秒能说多少个字。
数值参考:
- 30-50 TPS:普通速度,适合大多数应用
- 50-100 TPS:高速生成,用户体验流畅
- 100+ TPS:极快速度,需要强大的硬件支持
影响因素:
- 模型大小(SLM 比 LLM 快)
- 硬件配置(GPU性能、显存带宽)
- 量化程度(4bit量化比16bit快)
- 批处理策略(同时处理多个请求)
应用场景:
- 实时对话系统:需要高TPS保证响应速度
- 长文本生成:TPS越高,等待时间越短
5.24. MCP(Model Context Protocol)- 模型上下文协议
通俗解释:Anthropic推出的开放标准协议,定义了AI模型与外部数据源、工具之间交换信息的统一方式。
[!tip] 简单理解
就像USB接口,让AI能连接各种工具和数据源,而不需要为每个工具单独写适配器。
类比:
- 以前:每个工具(数据库、文件系统、API)都要单独写接口代码,像给每种电器配不同的插头
- 现在有了MCP:像有了USB统一接口,一套协议解决所有工具的连接问题
核心价值:
- 标准化:无需为每个工具写复杂的适配器
- 可扩展:社区可以贡献各种MCP服务器
- 安全:统一的权限控制和数据访问机制
工作原理:
- MCP Client:AI应用(如Claude Code)
- MCP Server:提供特定能力的服务(如文件系统、数据库、API)
- MCP Protocol:定义两者如何通信的标准
参考资料:
6. AI Agent 智能体体系
[!info] 本章说明
AI Agent 是当前AI应用的核心方向,它不仅能对话,还能自主完成复杂任务。本章介绍Agent的核心技术和相关概念。
6.1. Agent(AI智能体)
通俗解释:不仅能对话,还能自主完成任务的AI。它可以感知环境、规划步骤、使用工具(如搜索网页、运行代码)。
类比:就像一个不仅能聊天,还能帮你订机票、查资料、写程序的智能助手。
核心能力:
- 感知:理解用户意图和环境状态
- 规划:将复杂任务拆解为可执行步骤
- 行动:调用工具(API、搜索、代码执行等)完成任务
- 记忆:利用短期和长期记忆积累经验
- 反思:评估行动结果并调整策略
与普通Chatbot的区别:
- Chatbot:被动回答问题,单次对话结束即止
- Agent:主动解决问题,多轮交互直到任务完成
6.2. CoT(Chain of Thought)- 思维链
通俗解释:一种提示词技巧,让AI”一步步思考”而不是直接给答案。就像做数学题要写出解题过程一样。
类比:就像老师教学生”把过程写出来”,而不是只写答案。
效果:显著提高解决复杂数学、逻辑问题的准确率。
在Agent中的应用:Agent 在规划任务时,默认使用 CoT 来分解问题和推理下一步行动。
参考资料:
6.3. ReAct - 推理与行动框架
通俗解释:一种让AI交替进行”思考”和”行动”的框架。AI 先推理(Reasoning)该做什么,然后执行行动(Action),再观察结果,循环往复直到完成任务。
类比:就像下棋时,你先思考怎么走,然后走一步,再看对方怎么应对,接着思考下一步。
核心模式:
Thought(思考)→ Action(行动)→ Observation(观察)→ Thought(思考)→ ... |
与传统CoT的区别:
- CoT:只思考,不行动,适合纯推理任务
- ReAct:思考 + 行动 + 观察,适合需要与外界交互的复杂任务
应用场景:
- 多步骤问题求解
- 需要查询外部信息的任务
- 工具调用和API操作
参考资料:
6.4. Function Calling - 函数调用
通俗解释:让AI能够”调用”外部函数或API的能力。AI可以根据对话内容,自动判断何时需要调用某个函数,并生成正确的函数参数。
类比:就像你让助理”帮我查明天天气”,助理知道要打开天气APP,输入你的城市,然后把结果告诉你。
工作流程:
- 用户发送请求
- AI分析请求,判断需要调用哪个函数
- AI生成函数调用参数(JSON格式)
- 系统执行函数,返回结果
- AI基于函数结果生成最终回答
在Agent中的核心地位:Function Calling 是 Agent 使用工具(Tool Use)的技术基础。
典型应用:
- 查询数据库、API接口
- 执行代码、运行脚本
- 操作文件系统、发送邮件
参考资料:
6.5. Short-term Memory - 短期记忆
通俗解释:AI Agent 在当前对话中记住的信息,利用 Context Window 来维护对话上下文。
类比:就像人的短期记忆,能记住刚才说了什么,但随着对话越长,越早的信息可能被”遗忘”。
技术实现:
- 基于 Context Window(上下文窗口)存储
- 将对话历史(用户消息、AI回复、工具调用结果)持续追加到上下文中
- 当达到窗口上限时,需要丢弃早期信息或进行摘要压缩
限制与挑战:
- 容量有限:Context Window 大小限制了短期记忆的容量
- 成本问题:上下文越长,每次推理的Token消耗越大
- 信息衰减:超长上下文中,早期信息的关注度可能降低
与Context Window的关系:短期记忆的容量 = Context Window 的大小。
6.6. Long-term Memory - 长期记忆
通俗解释:AI Agent 跨会话持久存储的信息,通常使用 Vector Database(向量数据库)或 RAG 技术来实现。
类比:就像人的长期记忆,即使过了一周再聊,你依然记得之前的重要信息。
技术实现:
- Vector Database:将历史对话、文档知识转化为向量存储
- RAG(检索增强生成):需要时从向量数据库中检索相关信息
- 记忆策略:自动判断哪些信息值得长期保存
存储内容类型:
- 用户偏好和重要信息
- 历史对话中的关键结论
- 领域知识和文档资料
- 任务执行的经验教训
与短期记忆的区别:
| 维度 | 短期记忆 | 长期记忆 |
|---|---|---|
| 存储介质 | Context Window | Vector Database |
| 有效期 | 当前会话 | 跨会话持久 |
| 容量 | 有限(128k-1M tokens) | 几乎无限 |
| 检索方式 | 自然顺序 | 语义检索(RAG) |
| 成本 | 每次推理都计入 | 仅检索时计入 |
参考资料:
6.7. System Prompt - 系统提示词
通俗解释:AI Agent的”操作系统”,定义了AI的角色、行为准则、能力边界和输出框架。
[!tip] 简单理解
System Prompt = 员工的岗位说明书 + 行为规范;User Prompt = 用户的临时指令
类比:
- System Prompt = 员工入职培训时看的岗位说明书和行为规范
- User Prompt = 日常工作中的具体任务指令
核心组成:
- 角色定位:你是什么(如”你是一个Python编程专家”)
- 行为规则:你应该怎么做、不能做什么
- 输出格式:按什么格式返回结果
- 工具使用:什么情况下用什么工具
重要性:高质量的System Prompt是AI Agent稳定工作的基础,决定了AI的行为边界和一致性。
Agent System Prompt 示例要点:
你是一个AI智能体,具备以下能力: |
7. 评估与指标
7.1. SOTA(State of the Art)- 当前最先进水平
SOTA 是 State of the Art 的缩写。
在AI和计算机科学领域,它指的不是某一种特定的技术,而是指**”当前最先进的水平”或者“目前的冠军”**。
[!tip] 简单理解
在某个具体的任务上,谁的分数最高,谁就是 SOTA。
两个关键要点:
- 严格分任务:同一个模型,可能是代码生成的 SOTA(在 HumanEval 上 Pass@1 最高),但在意图分类上可能不如别的模型
- 基于指标:SOTA 必须指明是在哪个数据集上、用哪个指标算出来的冠军
参考资料:
7.2. Benchmark - 基准测试
Benchmark 是用来给AI模型”考试”的标准化题库。
通俗解释:就像高考是检验学生水平的统一试卷,Benchmark是检验AI模型能力的统一考题。
[!tip] 简单理解
就像不同学校的学生用同一套试卷考试,不同AI模型用同一个Benchmark测试,才能公平比较谁更强。
常见基准测试:
| Benchmark | 全称 | 考什么 | 类比 |
|---|---|---|---|
| MMLU | Massive Multitask Language Understanding | 57个学科的综合知识 | 高考全科 |
| HumanEval | - | 164道Python编程题 | 编程考试 |
| GSM8K | Grade School Math 8K | 8500+小学数学应用题 | 小学数学题 |
行业趋势:2025年底开始,公共基准测试的公信力受到质疑,越来越多企业转向私有基准测试。
参考资料:
7.3. PPL(Perplexity)- 困惑度
PPL 是衡量语言模型预测下一个词准确度的指标。
通俗解释:模型预测下一个词时”有多困惑”。数值越低,说明模型预测得越准,越”聪明”。
[!tip] 简单理解
就像猜词游戏——PPL越低,说明你每次猜中的概率越高,对语言的掌握越好。
关键特点:
- 数值越低越好
- 主要用于评估模型本身的语言能力
- 与人类对齐程度的相关性有限
类比:就像英语考试完形填空,PPL低的学生能准确预测空缺处该填什么词。
7.4. BLEU - BLEU分数
BLEU (Bilingual Evaluation Understudy) 是机器翻译领域最常用的评估指标。
通俗解释:看机器翻译的句子和人工翻译的句子有多少重合的词组。重合度越高,分数越高。
[!tip] 简单理解
就像检查翻译作业,看学生的译文和标准答案有多少相同的片段。
核心机制:
- 基于n-gram(连续n个词)的重叠度计算
- BLEU-1、BLEU-2、BLEU-3、BLEU-4分别对应不同长度的词组
- 分数范围0-1,越高越好
局限性:只看字面重叠,不考虑语义等价(如”好”和”棒”意思相同但BLEU算不匹配)
参考资料:
7.5. ROUGE - ROUGE指标
ROUGE (Recall-Oriented Understudy for Gisting Evaluation) 是文本摘要任务的主要评估指标。
通俗解释:看生成的摘要是否涵盖了原文的核心内容。相比BLEU,ROUGE更关注”覆盖率”而非”精确度”。
[!tip] 简单理解
就像检查读书笔记是否覆盖了书中的要点,而不是逐字逐句照抄。
常见变体:
- ROUGE-N:基于n-gram的重叠
- ROUGE-L:基于最长公共子序列
- ROUGE-S:基于跳跃二元组
与BLEU的区别:
- BLEU主要用于机器翻译,注重精确度
- ROUGE主要用于文本摘要,注重召回率(覆盖率)
参考资料:
7.6. Accuracy / Precision / Recall - 准确率 / 精确率 / 召回率
这是分类任务的三大基础指标,经常用于AI模型的评估。
通俗解释:
| 指标 | 英文 | 含义 | 类比 | 口诀 |
|---|---|---|---|---|
| 准确率 | Accuracy | 预测正确的占总数 | 考试总得分 | 总体答对率 |
| 精确率 | Precision | 预测为正的里面有多少是真的正 | 抓坏人时,不冤枉好人 | 没抓错的比例 |
| 召回率 | Recall | 真的正里面有多少被抓到了 | 抓坏人时,不放过坏人 | 没漏抓的比例 |
[!tip] 简单理解
- 准确率:整体做得怎么样
- 精确率:抓得准不准(会不会抓错人)
- 召回率:抓得全不全(会不会漏网之鱼)
经典案例(垃圾邮件分类):
- 精确率高:标记为垃圾的邮件里,确实是垃圾的比例高(用户不会漏看正常邮件)
- 召回率高:所有垃圾邮件里,被成功拦截的比例高(用户邮箱里垃圾少)
参考资料:
7.7. F1 Score - F1分数
F1 Score 是精确率和召回率的调和平均数。
通俗解释:给精确率和召回率相同的权重,算出一个综合分数。避免模型”偏科”(只顾准确不顾全面,或只顾全面不顾准确)。
[!tip] 简单理解
就像考试成绩不能只看语文或数学,F1是”全科平均分”。
核心特点:
- 取值范围0-1,越高越好
- 对类别不平衡问题更友好
- 是精确率和召回率的平衡点
何时使用:
- 数据集正负样本不平衡时
- 需要同时关注精确率和召回率时
- 作为单一指标比较模型优劣时
参考资料:
7.8. Pass@k - k次通过率
Pass@k 是代码生成任务专用的评估指标。
通俗解释:让AI写代码,允许尝试k次,看有多少次能写出能运行的代码。
[!tip] 简单理解
就像考试允许你交卷前重做几次,看你最终能及格的概率。
常见取值:
- Pass@1:一次尝试就成功的概率(最严格)
- Pass@10:十次尝试内能成功的概率(较宽松)
举例:Pass@1 = 60%,意思是一次尝试就有60%的概率代码能跑通。
应用场景:主要用于评估代码生成模型(如Codex、StarCoder等)的能力。
7.9. TTFT(Time To First Token)- 首字延迟
TTFT 是衡量用户体验的关键性能指标。
通俗解释:用户发出指令后,看到AI吐出第一个字需要的时间。
[!tip] 简单理解
就像拨通电话后,多久听到对方的第一句话。TTFT越短,等待感越弱。
重要性:
- 是用户体验的第一印象
- 影响用户对AI响应速度的感知
- 与模型大小、计算资源相关
优化方向:
- 使用更小的模型(SLM)
- 使用Speculative Decoding(投机采样)
- 优化KV Cache管理
8. 参考资料
本文档内容参考了以下权威资源:
- DataLearner - 业界主流大模型评测基准
- IBM - 什么是矢量嵌入
- IBM - 什么是LLM温度
- AWS - 机器学习中的嵌入
- NVIDIA - RAG 技术解析
- Hugging Face - 混合专家模型详解
- Google ML - 分类评估指标
- OpenAI 官方文档
- 各类学术论文和技术博客
[!tip] 持续更新
AI技术发展日新月异,本文档会持续更新。欢迎补充和指正!



