AI大模型科普

Python

# 一、啥是“AIGC”及一系列AI技术词

# 1、什么是 AIGC?

AIGCAI-Generated Content 的缩写,意为“人工智能生成内容”。

  • 它指的是由 AI 自动生成的文字、图片、音频、视频、代码等内容。
  • 例如:
    • 用 ChatGPT 写文章 ✍️
    • 用 Midjourney 生成图像 🖼️
    • 用 GitHub Copilot 写代码 💻
    • 用 Sora 生成视频 🎥
  • 这些都属于 AIGC 的范畴

🔍 小知识:虽然“AIGC”在中国更流行,但在国际上更常用的是 Generative AI(生成式 AI)。两者本质相同,但语境略有差异。

# 2、AIGC 与 生成式 AI 的关系

术语 含义 关系
生成式 AI (Generative AI) 能够“创造”新内容的 AI 技术 是“工具”或“能力”
AIGC 由生成式 AI 创造出的内容本身 是“产物”或“结果”

✅ 所以:

生成式 AI → 生成 → AIGC

👉 比如:ChatGPT、Midjourney、Stable Diffusion 都是生成式 AI 模型,它们输出的内容就是 AIGC。

# 3、AI 的大框架:从人工智能到大模型

为了理清这些概念,我们需要从宏观角度理解 AI 的层级结构。

# 📊 AI 的“家族树”结构

                    人工智能 (AI)
                         ↓
                   机器学习 (ML)
                  ↙       ↓        ↘
            监督学习    无监督学习    强化学习
                         ↓
                    深度学习 (DL)
                  ↙              ↘
          生成式 AI           大语言模型 (LLM)
                ↘               ↙
                 AIGC(AI生成内容)
1
2
3
4
5
6
7
8
9
10
11

下面我们逐层解析:


# 1. 什么是人工智能(AI)?

  • 定义:让机器模拟人类智能行为的技术,如理解语言、识别图像、推理决策等。
  • 自 1956 年达特茅斯会议确立为独立学科以来,历经多次“寒冬”与“爆发”。

# 2. 什么是机器学习(Machine Learning, ML)?

  • 核心思想:不靠人工编写规则,而是让计算机通过数据“自己学习”规律。
  • ❌ 传统方式(非机器学习):
    • “如果图片有红色 → 是玫瑰;有橙色 → 是向日葵” → 明确编程逻辑。
  • ✅ 机器学习方式:
    • 给大量带标签的花的照片(输入 + 正确答案),让模型自己找规律,预测新图是什么花。

机器学习三大范式:

类型 特点 应用举例
监督学习 数据带“标签”(正确答案) 图像分类、房价预测
无监督学习 数据无标签,模型自主发现模式 新闻聚类、用户分群
强化学习 通过“奖励/惩罚”反馈学习最优策略 游戏 AI、机器人控制

🐶 类比:就像训练小狗,做对了给零食,做错了不给,逐渐学会听话。


# 3. 什么是深度学习(Deep Learning)?

  • 是机器学习的一种方法,核心是使用人工神经网络(模仿人脑结构)。
  • “深度”指网络有很多层(输入层 → 多个隐藏层 → 输出层)。
  • 每一层提取更复杂的特征:
    • 第一层:边缘
    • 第二层:形状
    • 第三层:器官(如眼睛、耳朵)
    • 最终:判断是否是“猫”

✅ 深度学习可应用于监督、无监督、强化学习。


# 4. 什么是生成式 AI?

  • 是深度学习的一个重要应用方向。
  • 目标:学习已有数据的模式,生成全新的、类似的内容
  • 常见形式:
    • 文本生成(如 GPT)
    • 图像生成(如扩散模型 Diffusion)
    • 音频合成(如语音克隆)
    • 视频生成(如 Sora)

⚠️ 注意:不是所有生成式 AI 都是大模型。例如图像生成的扩散模型就不是大语言模型。

  1. 什么是大语言模型(LLM, Large Language Model)?
  • 是深度学习在自然语言处理领域的巅峰应用。
  • “大”体现在:
    • 参数量巨大(数十亿到万亿级)
    • 训练数据海量(整个互联网文本)
  • 能力强大:
    • 理解上下文
    • 生成流畅文本
    • 回答问题、写诗、编程等

常见 LLM 示例:

模型 国家/公司 特点
GPT 系列(如 GPT-4) OpenAI(美国) 强大的文本生成能力
ChatGLM(智谱AI) 中国 中文优化
Qwen(通义千问) 阿里云 多模态、开源
ERNIE Bot(文心一言) 百度 结合搜索优势

❓ 争议点:所有大语言模型都是生成式 AI 吗?

  • 多数是(如 GPT),但也有例外:
  • 例如 Google 的 BERT:擅长理解语言(用于搜索排序、情感分析),但不擅长生成连贯长文本,因此有人认为它不算“生成式 AI”。

# 4、一句话总结

AIGC 是结果,生成式 AI 是能力,大模型是工具,深度学习是方法,机器学习是路径,人工智能是目标。

# 二、啥是大语言模型(LLM)

# 1、大语言模型的“出圈”时刻

  • 2022年11月30日,OpenAI 发布 ChatGPT
  • 它成为互联网历史上最快突破1亿用户的产品,引爆全球对 AI 的关注。
  • 一夜之间,各类 AI 聊天助手如雨后春笋般涌现。
  • 而这一切的核心技术基础,就是——大语言模型(Large Language Model, LLM)

# 2、什么是大语言模型(LLM)?

# ✅ 定义:

大语言模型(LLM),全称 Large Language Model,是一种基于深度学习的自然语言处理模型,能够理解并生成人类语言。

# 🔧 核心能力:

给它一段文本输入,它可以完成多种任务,例如:

  • 文本生成(写文章、写诗、写代码)
  • 内容总结
  • 情感分析
  • 语言翻译
  • 分类与改写

🌐 它不是“一个工具”,而是一个“通才型 AI 大脑”。


# 3、“大”在哪里?——参数与数据的双重爆炸

很多人以为“大”只是数据多,其实不然。“大”主要体现在两个方面

维度 说明
1. 海量训练数据 使用整个互联网规模的文本:
• 书籍、新闻、论文
• Wikipedia、社交媒体帖子等
让模型“读万卷书”,理解语言规律
2. 巨量参数 参数是模型在训练中“学到的知识”
决定了模型如何响应输入
参数越多,模型越灵活、越强大

# 📈 参数增长趋势(以 GPT 系列为例):

模型 参数数量 相当于什么?
GPT-1(2018-06) 1.17 亿 初级语言模型
GPT-2(2019-02) 15 亿 能写简单文章
GPT-3(2020-05) 1750 亿 超大规模,接近人类语言理解能力
ChatGPT(2020-11) 1750 亿
GPT-4(2023-03) 1.76 万亿
GPT-5(2025-08) 17.5万亿

🍞 类比理解: 就像做蛋糕,小模型只能调“面粉、糖、蛋”;大模型还能调“奶油、牛奶、苏打粉、可可粉、温度、时间”……变量越多,越能做出复杂美味的蛋糕,甚至创造新口味!


# 4、大模型 vs 小模型:通才 vs 专才

类型 特点 举例
小模型 针对单一任务训练
如:情感分类、命名实体识别
训练一个模型只做“判断评论是好评还是差评”
大模型 一个模型搞定多种任务
无需重新训练,通过“提示”即可切换功能
同一个模型:
→ 写文章
→ 改写句子
→ 回答问题
→ 写代码

✅ 大模型的优势:泛化能力强、部署成本低、适应性广


# 5、技术里程碑:Transformer 架构的诞生

虽然 ChatGPT 是2022年“出圈”的,但它的技术根源要追溯到 2017年

# 📄 2017年6月:谷歌发布划时代论文

《Attention is All You Need》 (opens new window)

这篇论文提出了 Transformer 架构,彻底改变了自然语言处理的发展方向。

# 🔁 此前主流:RNN(循环神经网络)

  • 问题:
    • 逐字顺序处理:必须等前一个词处理完才能处理下一个 → 速度慢
    • 长距离依赖难捕捉:比如句子开头的“猫”和结尾的“它”之间的关系容易丢失
  • 改进版:LSTM(长短期记忆网络),但依然无法根本解决效率问题

# 🚀 Transformer 的突破性创新

# 1. 自注意力机制(Self-Attention)
  • 核心思想:每个词在处理时,都会“关注”句子中所有其他词
  • 模型会为每个词分配一个“注意力权重”,表示它与其他词的相关性
  • 权重是在训练中自动学习得到的

🎯 举例: 句子:“The cat was hungry, so it ate the food.”

  • 当处理 “it” 时,模型会发现它和 “cat” 的关联更强,而不是离得更近的 “hungry”
  • 即使相隔很远,也能准确理解指代关系

✅ 优势:精准捕捉长距离语义依赖

# 2. 位置编码(Positional Encoding)
  • 问题:语言中“顺序”很重要(“你打我” ≠ “我打你”)
  • RNN 天然按顺序处理,但 Transformer 是并行处理所有词
  • 解决方案:给每个词加上“位置信息”的数字编码(位置向量)

🧮 输入 = 词向量 + 位置向量 → 模型既知道“词是什么”,也知道“词在哪儿”

✅ 优势:支持并行计算,大幅提升训练速度


# 6、Transformer 为何如此重要?

优势 说明
✅ 并行计算 所有词同时处理,不再串行等待 → 训练速度快几十倍
✅ 长距离依赖 自注意力机制完美解决“遗忘远距离信息”问题
✅ 可扩展性强 支持训练超大规模模型(百亿、千亿参数)
✅ 成为行业标准 几乎所有现代大模型都基于 Transformer 或其变体

🌟 正是因为 Transformer 的出现,才使得 GPT、BERT、ChatGLM、通义千问等大模型成为可能。


# 7、GPT 名字的秘密

GPT = Generative Pre-trained Transformer

缩写 含义 说明
Generative 生成式 能生成新文本(而非仅分类)
Pre-trained 预训练 先在海量文本上自学语言规律
Transformer 架构 基于 Transformer 网络结构

🔍 所以,“GPT” 三个字母就揭示了它的核心技术路线。


# 8、常见大语言模型应用

你日常使用的这些 AI 工具,背后都是大模型驱动:

应用产品 所用大模型 国家/公司
ChatGPT GPT 系列 OpenAI(美国)
文心一言 ERNIE Bot 百度(中国)
通义千问 Qwen 阿里云(中国)
ChatGLM GLM 系列 智谱AI(中国)
Claude Claude 系列 Anthropic(美国)

# 三、AI聊天助手背后的黑科技

一个常见的说法是,像GPT这样的生成式大模型通过“预测下一个最可能出现的词”来生成文本,类似于搜索引擎的自动补全。但这个过程背后是如何实现的?关键在于 Transformer 架构


# 1、Transformer:大模型的基石

自2017年论文《Attention is All You Need》提出 Transformer 架构以来,它几乎统一了自然语言处理领域。无论是OpenAI的GPT、清华的JLM,还是百度的ERNIE,其核心都离不开Transformer。

Transformer由两个主要部分组成:

  • 编码器(Encoder)
  • 解码器(Decoder)

# 2、输入处理流程

  1. Token化(Tokenization)
    • 输入文本被拆分为基本单位——Token
    • Token可以是一个单词、子词或汉字。
    • 每个Token被映射为一个整数ID(Token ID),因为计算机只能处理数字。
  2. 词嵌入(Embedding)
    • 每个Token ID通过嵌入层转换为一个向量(一串数字)。
    • 向量能表达更丰富的语义和语法信息,比如“男人”与“国王”、“女人”与“女王”之间的类比关系可以在向量空间中体现。
    • 相似含义的词在向量空间中距离更近。
  3. 位置编码(Positional Encoding)
    • 由于Transformer本身不感知顺序,需要加入位置信息。
    • 将表示词序的位置向量与词向量相加,使模型能理解词语的先后顺序。

# 3、编码器(Encoder)的作用

编码器的任务是将输入文本转化为一种抽象的向量表示,包含词汇、语法、语义和上下文信息。

核心机制是 自注意力机制(Self-Attention)

  • 模型在处理每个词时,会关注句子中所有其他词。
  • 计算每对词之间的相关性,赋予不同“注意力权重”。
  • 例如,“it”指代“animal”还是“street”,模型会根据上下文判断并加强相关词的权重。

多头自注意力(Multi-Head Attention)

  • 多个并行的自注意力模块,各自关注不同特征(如语法、情感、实体等)。
  • 提升模型对复杂语言结构的理解能力。

后续还有**前馈神经网络(Feed-Forward Network)**进一步处理信息。

编码器通常多层堆叠,逐层提取更高层次的语言特征。


# 4、解码器(Decoder)的作用

解码器负责逐个生成输出文本,是生成式模型的核心。

  1. 输入
    • 来自编码器的输入文本抽象表示。
    • 已生成的部分输出(保持连贯性)。
    • 初始时输入一个“开始”标记(Start Token)。
  2. 嵌入 + 位置编码
    • 与编码器相同,先将输入Token转为向量并加入位置信息。
  3. 带掩码的多头自注意力(Masked Multi-Head Attention)
    • 只关注当前词及其之前的词,屏蔽后续词。
    • 确保生成过程遵循时间顺序,不“偷看”未来内容。
  4. 编码器-解码器注意力(Encoder-Decoder Attention)
    • 将编码器的输出与解码器的状态关联,确保生成内容与原始输入相关。
  5. 前馈神经网络
    • 进一步增强表达能力。

解码器也多层堆叠,提升生成质量。


# 5、输出生成

解码器最终通过两个层生成结果:

  • 线性层(Linear Layer):将向量映射到词汇表大小的维度。
  • Softmax层:输出每个Token的概率分布。

模型选择概率最高的Token作为下一个输出,重复此过程,直到生成“结束标记”(End Token)。

注意:模型并不知道输出是否真实,只是基于统计规律“猜测”,因此可能出现“幻觉”(一本正经胡说八道)。


# 6、Transformer的三大变体

  1. 仅编码器模型(Encoder-only)
    • BERT
    • 擅长理解任务:填空、情感分析、命名实体识别等。
  2. 仅解码器模型(Decoder-only)
    • GPT系列
    • 擅长生成任务:文本生成、对话、写作等。
  3. 编码器-解码器模型(Encoder-Decoder)
    • T5、BART
    • 擅长序列到序列任务:翻译、摘要、问答等。

# 四、如何3步训练出一个AI聊天助手

三步法概述

# 1、无监督预训练

  • 通过大量文本进行无监督学习,构建基础模型。
    • 利用互联网上的各种文本资源(如书籍、新闻文章、科学论文等)作为训练数据。
    • 模型从中学习语言的语法和语义规则,了解表达结构和模式。
  • 理解token的概念及其在模型中的作用。
    • Token是模型处理文本的基本单位,短词可能是一个token,长词或中文字符则可能被拆分为多个token。
  • 预训练过程的技术细节与挑战。
    • 预训练耗时费力且成本高昂,但最终得到一个能够预测下一个token的基础模型。

# 2、监督微调

  • 使用高质量的人类对话数据对基础模型进行微调。
    • 微调使模型更加适应特定任务,比如回答问题的能力。
  • 微调过程中的数据规模与训练时长。
    • 相较于预训练,微调所需的训练数据规模更小,训练时长也更短。
  • 监督微调(SFT)的结果及其改进点。
    • 经过SFT后,模型能更好地对问题作出回应,但仍需进一步优化以提升性能。

# 3、强化学习与奖励模型

  • 利用人类评估员对回答质量进行评分。
    • 基于评分数据训练出一个奖励模型,该模型用于预测回答的质量评分。
  • 强化学习的过程与原理。
    • 强化学习类似于训练小狗,模型根据反馈调整策略,最大化奖励或最小化损失。
  • 强化学习的应用与效果。
    • 强化学习帮助模型不断优化其生成策略,提高回答的质量。
最近修改于: 2025/8/17 23:38:22
和宇宙温柔的关联
房东的猫