# 一、啥是“AIGC”及一系列AI技术词
# 1、什么是 AIGC?
AIGC 是 AI-Generated Content 的缩写,意为“人工智能生成内容”。
- 它指的是由 AI 自动生成的文字、图片、音频、视频、代码等内容。
- 例如:
- 用 ChatGPT 写文章 ✍️
- 用 Midjourney 生成图像 🖼️
- 用 GitHub Copilot 写代码 💻
- 用 Sora 生成视频 🎥
- 这些都属于 AIGC 的范畴。
🔍 小知识:虽然“AIGC”在中国更流行,但在国际上更常用的是 Generative AI(生成式 AI)。两者本质相同,但语境略有差异。
# 2、AIGC 与 生成式 AI 的关系
术语 | 含义 | 关系 |
---|---|---|
生成式 AI (Generative AI) | 能够“创造”新内容的 AI 技术 | 是“工具”或“能力” |
AIGC | 由生成式 AI 创造出的内容本身 | 是“产物”或“结果” |
✅ 所以:
生成式 AI → 生成 → AIGC
👉 比如:ChatGPT、Midjourney、Stable Diffusion 都是生成式 AI 模型,它们输出的内容就是 AIGC。
# 3、AI 的大框架:从人工智能到大模型
为了理清这些概念,我们需要从宏观角度理解 AI 的层级结构。
# 📊 AI 的“家族树”结构
人工智能 (AI)
↓
机器学习 (ML)
↙ ↓ ↘
监督学习 无监督学习 强化学习
↓
深度学习 (DL)
↙ ↘
生成式 AI 大语言模型 (LLM)
↘ ↙
AIGC(AI生成内容)
2
3
4
5
6
7
8
9
10
11
下面我们逐层解析:
# 1. 什么是人工智能(AI)?
- 定义:让机器模拟人类智能行为的技术,如理解语言、识别图像、推理决策等。
- 自 1956 年达特茅斯会议确立为独立学科以来,历经多次“寒冬”与“爆发”。
# 2. 什么是机器学习(Machine Learning, ML)?
- 核心思想:不靠人工编写规则,而是让计算机通过数据“自己学习”规律。
- ❌ 传统方式(非机器学习):
- “如果图片有红色 → 是玫瑰;有橙色 → 是向日葵” → 明确编程逻辑。
- ✅ 机器学习方式:
- 给大量带标签的花的照片(输入 + 正确答案),让模型自己找规律,预测新图是什么花。
机器学习三大范式:
类型 | 特点 | 应用举例 |
---|---|---|
监督学习 | 数据带“标签”(正确答案) | 图像分类、房价预测 |
无监督学习 | 数据无标签,模型自主发现模式 | 新闻聚类、用户分群 |
强化学习 | 通过“奖励/惩罚”反馈学习最优策略 | 游戏 AI、机器人控制 |
🐶 类比:就像训练小狗,做对了给零食,做错了不给,逐渐学会听话。
# 3. 什么是深度学习(Deep Learning)?
- 是机器学习的一种方法,核心是使用人工神经网络(模仿人脑结构)。
- “深度”指网络有很多层(输入层 → 多个隐藏层 → 输出层)。
- 每一层提取更复杂的特征:
- 第一层:边缘
- 第二层:形状
- 第三层:器官(如眼睛、耳朵)
- 最终:判断是否是“猫”
✅ 深度学习可应用于监督、无监督、强化学习。
# 4. 什么是生成式 AI?
- 是深度学习的一个重要应用方向。
- 目标:学习已有数据的模式,生成全新的、类似的内容。
- 常见形式:
- 文本生成(如 GPT)
- 图像生成(如扩散模型 Diffusion)
- 音频合成(如语音克隆)
- 视频生成(如 Sora)
⚠️ 注意:不是所有生成式 AI 都是大模型。例如图像生成的扩散模型就不是大语言模型。
- 什么是大语言模型(LLM, Large Language Model)?
- 是深度学习在自然语言处理领域的巅峰应用。
- “大”体现在:
- 参数量巨大(数十亿到万亿级)
- 训练数据海量(整个互联网文本)
- 能力强大:
- 理解上下文
- 生成流畅文本
- 回答问题、写诗、编程等
常见 LLM 示例:
模型 | 国家/公司 | 特点 |
---|---|---|
GPT 系列(如 GPT-4) | OpenAI(美国) | 强大的文本生成能力 |
ChatGLM(智谱AI) | 中国 | 中文优化 |
Qwen(通义千问) | 阿里云 | 多模态、开源 |
ERNIE Bot(文心一言) | 百度 | 结合搜索优势 |
❓ 争议点:所有大语言模型都是生成式 AI 吗?
- 多数是(如 GPT),但也有例外:
- 例如 Google 的 BERT:擅长理解语言(用于搜索排序、情感分析),但不擅长生成连贯长文本,因此有人认为它不算“生成式 AI”。
# 4、一句话总结
AIGC 是结果,生成式 AI 是能力,大模型是工具,深度学习是方法,机器学习是路径,人工智能是目标。
# 二、啥是大语言模型(LLM)
# 1、大语言模型的“出圈”时刻
- 2022年11月30日,OpenAI 发布 ChatGPT。
- 它成为互联网历史上最快突破1亿用户的产品,引爆全球对 AI 的关注。
- 一夜之间,各类 AI 聊天助手如雨后春笋般涌现。
- 而这一切的核心技术基础,就是——大语言模型(Large Language Model, LLM)。
# 2、什么是大语言模型(LLM)?
# ✅ 定义:
大语言模型(LLM),全称 Large Language Model,是一种基于深度学习的自然语言处理模型,能够理解并生成人类语言。
# 🔧 核心能力:
给它一段文本输入,它可以完成多种任务,例如:
- 文本生成(写文章、写诗、写代码)
- 内容总结
- 情感分析
- 语言翻译
- 分类与改写
🌐 它不是“一个工具”,而是一个“通才型 AI 大脑”。
# 3、“大”在哪里?——参数与数据的双重爆炸
很多人以为“大”只是数据多,其实不然。“大”主要体现在两个方面:
维度 | 说明 |
---|---|
1. 海量训练数据 | 使用整个互联网规模的文本: • 书籍、新闻、论文 • Wikipedia、社交媒体帖子等 让模型“读万卷书”,理解语言规律 |
2. 巨量参数 | 参数是模型在训练中“学到的知识” 决定了模型如何响应输入 参数越多,模型越灵活、越强大 |
# 📈 参数增长趋势(以 GPT 系列为例):
模型 | 参数数量 | 相当于什么? |
---|---|---|
GPT-1(2018-06) | 1.17 亿 | 初级语言模型 |
GPT-2(2019-02) | 15 亿 | 能写简单文章 |
GPT-3(2020-05) | 1750 亿 | 超大规模,接近人类语言理解能力 |
ChatGPT(2020-11) | 1750 亿 | |
GPT-4(2023-03) | 1.76 万亿 | |
GPT-5(2025-08) | 17.5万亿 |
🍞 类比理解: 就像做蛋糕,小模型只能调“面粉、糖、蛋”;大模型还能调“奶油、牛奶、苏打粉、可可粉、温度、时间”……变量越多,越能做出复杂美味的蛋糕,甚至创造新口味!
# 4、大模型 vs 小模型:通才 vs 专才
类型 | 特点 | 举例 |
---|---|---|
小模型 | 针对单一任务训练 如:情感分类、命名实体识别 | 训练一个模型只做“判断评论是好评还是差评” |
大模型 | 一个模型搞定多种任务 无需重新训练,通过“提示”即可切换功能 | 同一个模型: → 写文章 → 改写句子 → 回答问题 → 写代码 |
✅ 大模型的优势:泛化能力强、部署成本低、适应性广
# 5、技术里程碑:Transformer 架构的诞生
虽然 ChatGPT 是2022年“出圈”的,但它的技术根源要追溯到 2017年。
# 📄 2017年6月:谷歌发布划时代论文
这篇论文提出了 Transformer 架构,彻底改变了自然语言处理的发展方向。
# 🔁 此前主流:RNN(循环神经网络)
- 问题:
- 逐字顺序处理:必须等前一个词处理完才能处理下一个 → 速度慢
- 长距离依赖难捕捉:比如句子开头的“猫”和结尾的“它”之间的关系容易丢失
- 改进版:LSTM(长短期记忆网络),但依然无法根本解决效率问题
# 🚀 Transformer 的突破性创新
# 1. 自注意力机制(Self-Attention)
- 核心思想:每个词在处理时,都会“关注”句子中所有其他词
- 模型会为每个词分配一个“注意力权重”,表示它与其他词的相关性
- 权重是在训练中自动学习得到的
🎯 举例: 句子:“The cat was hungry, so it ate the food.”
- 当处理 “it” 时,模型会发现它和 “cat” 的关联更强,而不是离得更近的 “hungry”
- 即使相隔很远,也能准确理解指代关系
✅ 优势:精准捕捉长距离语义依赖
# 2. 位置编码(Positional Encoding)
- 问题:语言中“顺序”很重要(“你打我” ≠ “我打你”)
- RNN 天然按顺序处理,但 Transformer 是并行处理所有词
- 解决方案:给每个词加上“位置信息”的数字编码(位置向量)
🧮 输入 = 词向量 + 位置向量 → 模型既知道“词是什么”,也知道“词在哪儿”
✅ 优势:支持并行计算,大幅提升训练速度
# 6、Transformer 为何如此重要?
优势 | 说明 |
---|---|
✅ 并行计算 | 所有词同时处理,不再串行等待 → 训练速度快几十倍 |
✅ 长距离依赖 | 自注意力机制完美解决“遗忘远距离信息”问题 |
✅ 可扩展性强 | 支持训练超大规模模型(百亿、千亿参数) |
✅ 成为行业标准 | 几乎所有现代大模型都基于 Transformer 或其变体 |
🌟 正是因为 Transformer 的出现,才使得 GPT、BERT、ChatGLM、通义千问等大模型成为可能。
# 7、GPT 名字的秘密
GPT = Generative Pre-trained Transformer
缩写 | 含义 | 说明 |
---|---|---|
Generative | 生成式 | 能生成新文本(而非仅分类) |
Pre-trained | 预训练 | 先在海量文本上自学语言规律 |
Transformer | 架构 | 基于 Transformer 网络结构 |
🔍 所以,“GPT” 三个字母就揭示了它的核心技术路线。
# 8、常见大语言模型应用
你日常使用的这些 AI 工具,背后都是大模型驱动:
应用产品 | 所用大模型 | 国家/公司 |
---|---|---|
ChatGPT | GPT 系列 | OpenAI(美国) |
文心一言 | ERNIE Bot | 百度(中国) |
通义千问 | Qwen | 阿里云(中国) |
ChatGLM | GLM 系列 | 智谱AI(中国) |
Claude | Claude 系列 | Anthropic(美国) |
# 三、AI聊天助手背后的黑科技
一个常见的说法是,像GPT这样的生成式大模型通过“预测下一个最可能出现的词”来生成文本,类似于搜索引擎的自动补全。但这个过程背后是如何实现的?关键在于 Transformer 架构。
# 1、Transformer:大模型的基石
自2017年论文《Attention is All You Need》提出 Transformer 架构以来,它几乎统一了自然语言处理领域。无论是OpenAI的GPT、清华的JLM,还是百度的ERNIE,其核心都离不开Transformer。
Transformer由两个主要部分组成:
- 编码器(Encoder)
- 解码器(Decoder)
# 2、输入处理流程
- Token化(Tokenization)
- 输入文本被拆分为基本单位——Token。
- Token可以是一个单词、子词或汉字。
- 每个Token被映射为一个整数ID(Token ID),因为计算机只能处理数字。
- 词嵌入(Embedding)
- 每个Token ID通过嵌入层转换为一个向量(一串数字)。
- 向量能表达更丰富的语义和语法信息,比如“男人”与“国王”、“女人”与“女王”之间的类比关系可以在向量空间中体现。
- 相似含义的词在向量空间中距离更近。
- 位置编码(Positional Encoding)
- 由于Transformer本身不感知顺序,需要加入位置信息。
- 将表示词序的位置向量与词向量相加,使模型能理解词语的先后顺序。
# 3、编码器(Encoder)的作用
编码器的任务是将输入文本转化为一种抽象的向量表示,包含词汇、语法、语义和上下文信息。
核心机制是 自注意力机制(Self-Attention):
- 模型在处理每个词时,会关注句子中所有其他词。
- 计算每对词之间的相关性,赋予不同“注意力权重”。
- 例如,“it”指代“animal”还是“street”,模型会根据上下文判断并加强相关词的权重。
多头自注意力(Multi-Head Attention):
- 多个并行的自注意力模块,各自关注不同特征(如语法、情感、实体等)。
- 提升模型对复杂语言结构的理解能力。
后续还有**前馈神经网络(Feed-Forward Network)**进一步处理信息。
编码器通常多层堆叠,逐层提取更高层次的语言特征。
# 4、解码器(Decoder)的作用
解码器负责逐个生成输出文本,是生成式模型的核心。
- 输入:
- 来自编码器的输入文本抽象表示。
- 已生成的部分输出(保持连贯性)。
- 初始时输入一个“开始”标记(Start Token)。
- 嵌入 + 位置编码:
- 与编码器相同,先将输入Token转为向量并加入位置信息。
- 带掩码的多头自注意力(Masked Multi-Head Attention):
- 只关注当前词及其之前的词,屏蔽后续词。
- 确保生成过程遵循时间顺序,不“偷看”未来内容。
- 编码器-解码器注意力(Encoder-Decoder Attention):
- 将编码器的输出与解码器的状态关联,确保生成内容与原始输入相关。
- 前馈神经网络:
- 进一步增强表达能力。
解码器也多层堆叠,提升生成质量。
# 5、输出生成
解码器最终通过两个层生成结果:
- 线性层(Linear Layer):将向量映射到词汇表大小的维度。
- Softmax层:输出每个Token的概率分布。
模型选择概率最高的Token作为下一个输出,重复此过程,直到生成“结束标记”(End Token)。
注意:模型并不知道输出是否真实,只是基于统计规律“猜测”,因此可能出现“幻觉”(一本正经胡说八道)。
# 6、Transformer的三大变体
- 仅编码器模型(Encoder-only)
- 如 BERT
- 擅长理解任务:填空、情感分析、命名实体识别等。
- 仅解码器模型(Decoder-only)
- 如 GPT系列
- 擅长生成任务:文本生成、对话、写作等。
- 编码器-解码器模型(Encoder-Decoder)
- 如 T5、BART
- 擅长序列到序列任务:翻译、摘要、问答等。
# 四、如何3步训练出一个AI聊天助手
三步法概述
# 1、无监督预训练
- 通过大量文本进行无监督学习,构建基础模型。
- 利用互联网上的各种文本资源(如书籍、新闻文章、科学论文等)作为训练数据。
- 模型从中学习语言的语法和语义规则,了解表达结构和模式。
- 理解token的概念及其在模型中的作用。
- Token是模型处理文本的基本单位,短词可能是一个token,长词或中文字符则可能被拆分为多个token。
- 预训练过程的技术细节与挑战。
- 预训练耗时费力且成本高昂,但最终得到一个能够预测下一个token的基础模型。
# 2、监督微调
- 使用高质量的人类对话数据对基础模型进行微调。
- 微调使模型更加适应特定任务,比如回答问题的能力。
- 微调过程中的数据规模与训练时长。
- 相较于预训练,微调所需的训练数据规模更小,训练时长也更短。
- 监督微调(SFT)的结果及其改进点。
- 经过SFT后,模型能更好地对问题作出回应,但仍需进一步优化以提升性能。
# 3、强化学习与奖励模型
- 利用人类评估员对回答质量进行评分。
- 基于评分数据训练出一个奖励模型,该模型用于预测回答的质量评分。
- 强化学习的过程与原理。
- 强化学习类似于训练小狗,模型根据反馈调整策略,最大化奖励或最小化损失。
- 强化学习的应用与效果。
- 强化学习帮助模型不断优化其生成策略,提高回答的质量。