🤖 AI 魔法课堂

爸爸带你探索 AI 背后的秘密 ✨

🍎 第一步:教电脑认识苹果和香蕉

机器学习是什么意思?就是给电脑看很多例子,让它自己找到规律! 不用我们告诉它规则——它通过数据自己学出来。

你看了 100 张苹果和香蕉的照片,就能认出没见过的新水果。 机器学习也一样——我们给电脑每种水果的特征数字 (比如"圆不圆""黄不黄"),让它找到一条分界线,把两种水果分开。

这条线就是电脑"学到的规律"。找线的过程就叫训练

🎮 拖动滑块,找到最好的分界线!

🍎 苹果:圆、不黄   🍌 香蕉:不圆、很黄   红圈 = 分错了的!

答对了:— / 20  准确率:

📚 学到了什么?

  • 机器学习= 给电脑看例子,让它自己找规律
  • 特征= 用来区分事物的数字(这里是"圆不圆""黄不黄")
  • 分类器= 找到一条线(或更复杂的界限)把不同类别分开
  • 线越准,准确率越高——但真实数据不总是 100% 完美!
  • 下面几关会讲 AI 怎么用神经网络来做这件事 👇
1

🧠 神经网络——多层计算来判断苹果和香蕉

第一关我们用一条直线分苹果和香蕉。神经网络更厉害—— 它让信号经过好几排"神经元"反复加工,能学会比直线复杂得多的规律! 每个神经元把收到的信号加权求和,再决定要不要"激活"传给下一排。

想象一个水果裁判团:你把苹果的两个特征(圆不圆?黄不黄?)告诉第一排裁判, 他们各自计算一个分数传给第二排……最后一排宣布: "🍎 苹果可能性 92%,🍌 香蕉可能性 8%!"

这和第一关一模一样的特征,但现在网络会自动学会怎么组合它们——不需要人画线!
每个神经元计算:输出 = σ(w₁×输入₁ + w₂×输入₂ + w₃×输入₃ + 偏置)
σ 是 sigmoid 函数,把任意数压缩到 0~1:σ(x) = 1 / (1 + e−x)
权重 w = 每个信号的"重要程度",偏置 b = 让神经元更容易开/关
直接在下面的游戏里看!
连接线上的数字就是权重 w:绿色正数表示"这个特征越强越支持我激活",红色负数表示"这个特征越强我越不想激活"。节点里面的数字是激活程度(0=完全不亮,1=完全点亮)。

👉 点"🍎 典型苹果":圆度高、黄度低 → 看 H₁ 节点(它的权重是 圆+3.0、黄−3.0)会亮起来!
👉 点"🍌 典型香蕉":黄度高、圆度低 → 看 H₂ 节点(权重 圆−3.0、黄+3.0)会亮起来!
👉 点"❓ 难以判断":H₁ H₂ 都半亮,最后苹果/香蕉概率接近 50%。

下方的逐步计算面板会实时显示每个节点的具体算法过程。

🎮 拖动滑块输入水果特征,看神经网络如何层层判断

和第一关同样的两个特征:圆不圆 + 黄不黄 → 苹果还是香蕉?连接线上的数字是权重,节点内的数字是激活值。

🔵 圆不圆 5.0
不圆(🍌)很圆(🍎)
🟡 黄不黄 5.0
不黄(🍎)很黄(🍌)
快速测试:

📚 学到了什么?

  • 神经网络 = 多层神经元连在一起,输入→隐藏层→输出
  • 每个神经元:加权求和 → sigmoid → 激活值(0~1)
  • 绿线 = 正权重(这个特征越强越支持激活),红线 = 负权重(压制激活)
  • 线越粗 = 当前信号越强,节点越亮 = 激活程度越高
  • 这叫前向传播(Forward Pass)——下一关学它是怎么被"训练"出来的
2

📉 梯度下降——AI 如何从苹果香蕉数据中学会?

神经网络刚建好时,权重全是随机数,什么都不知道。 训练就是让 AI 反复看苹果香蕉数据,每次看完一个, 就根据"答错了多少"来调整权重——让下次答得更准。这个调整方法叫梯度下降

就像你练习投篮:投一个,看偏了多少(误差)→ 下次稍微调一点方向 (调整权重)→ 再投…… 练得越多越准!

训练的完整循环是:① 看一个苹果/香蕉 → ② 网络猜一下 → ③ 算误差 → ④ 梯度告诉每个权重该往哪调 → ⑤ 调一小步 → 回到①

下面的游戏就是真实地在你眼前做这件事!观察左边的"决策边界" 如何从一团乱到越来越准确地把苹果和香蕉分开。
损失函数:L = (AI答案 − 正确答案)²(答得越准 L 越小)
梯度:∂L/∂w(告诉我们 w 往哪调能让 L 减小)
更新规则:w_新 = w_旧 − 学习率 α × 梯度
用苹果香蕉来理解:
AI 看到 🍎 苹果(圆度7.5, 黄度2.0),目前随机权重猜"苹果概率 23%"——明显猜错了!
误差 L = (0.23 − 1.00)² = 0.59(差得越多,平方后数字越大)

梯度 ∂L/∂w:对每个权重 w 求导数,告诉我们"w 增大一点点,L 会怎么变?"
如果 w 增大导致 L 减小(导数 < 0),那就把 w 调大一点;反之调小一点。
这就是"往误差减小的方向调"——梯度告诉方向,学习率 α 决定步子大小。

反向传播(Backprop):从输出层开始,把误差"逆流"传回每一层, 计算每个权重的梯度。每训练一个样本,所有权重都更新一次。

🎮 观看 AI 从零开始,一步步学会区分苹果和香蕉!

上图:神经网络当前权重(数字随每次训练更新),显示当前样本在网络中的激活情况
下左:AI 当前决策边界(红=苹果区,黄=香蕉区);下右:误差和准确率曲线

🧠 当前神经网络——权重随训练步骤不断调整
当前决策边界
🔴背景=AI认为是苹果区  🟡背景=香蕉区
红色圆圈 = AI 现在答错了这个点
紫色虚圆圈 = 刚刚学过的那个样本
误差 & 准确率曲线
点击"看下一个样本",AI 会逐个学习苹果和香蕉的特征!
训练轮次:0  总误差:  准确率:

📚 学到了什么?

  • 训练循环:看数据 → 算误差 → 求梯度 → 更新权重,反复循环
  • 误差(Loss)= (预测值 − 正确值)²,越小越好
  • 梯度= 每个权重对误差的影响方向,通过反向传播计算
  • 随着训练步数增加,AI 的决策边界越来越准,误差曲线不断下降
  • 训练 GPT-4 做了类似的事情,只不过数据是几万亿个词,权重有 1 万亿个!
🔬

🔬 模型优化实验室——如何从 90% 到 100%?

Card ★ 中我们用圆度黄度区分苹果和香蕉,但有两个"边界难题"总是出错—— 它们的圆度和黄度太接近了!工程师有哪些方法来提升准确率

好比你用"身高"一个特征猜男女同学,准确率只有 85%(有的女生很高,有的男生很矮,分不清)。
解决方法:
 ① 加特征——再看看声音,立刻清晰了!
 ② 加层数——神经网络更深,能学习更复杂的分界线。
 ③ 两个都用——效果最好!
两个"难题"样本:
🍎 难点苹果:圆度 5.0,黄度 5.5 ← 中等圆、中等黄,甜度 7.5 = 很甜 → 是苹果!
🍌 难点香蕉:圆度 5.1,黄度 5.4 ← 几乎一模一样!甜度 3.2 = 不甜 → 是香蕉!

光靠圆度+黄度,两个点在图上几乎重叠 😅。加上甜度,一眼就分出来了!

👇 点击一个方案,AI 自动训练 800 步,看看效果有多大差别:

🧪 选择优化方案,点击自动训练!

← 点击上面的方案开始实验
🧠 神经网络结构图(以"难题苹果"为输入,看信号如何流动)
🗺️ 决策边界(圆度×黄度)
🔴圆圈 = 答错   紫虚线圆 = 难题样本
红背景 = 苹果区,黄背景 = 香蕉区
当前准确率
训练步数:0
📈 准确率曲线
横轴:训练步数 纵轴:准确率

📚 学到了什么?

  • 加特征:当问题缺少关键信息时(两点在 2D 空间重叠),新特征能从根本上解决
  • 加层数:让网络学到更复杂的边界形状,但无法解决信息不足的问题
  • 特征工程 + 网络设计一起优化 = AI 工程师最核心的日常工作!
  • 现实项目中,"加更多好特征"往往比"加更多层"更有效
3

✏️ 在格子里画画,让 AI 来猜!

真正的图像识别 AI(比如手写数字识别)就是这样工作的: 把图片变成一格一格的像素数字,输入神经网络,得出答案。

AI 看图就像看一个数字方格表:黑色格子 = 1,白色格子 = 0。 你画的形状其实就是一堆 0 和 1!神经网络把这些数字输入, 经过层层处理,判断出"这是数字几"或"这是什么字母"。

这类网络叫 CNN(卷积神经网络),特别擅长看图!

🎮 在格子里画个形状(点击/拖动),看神经网络实时处理!

推荐:画数字 0、1、7,或字母 L、T、H、X。右边的网络图会随着你的笔触实时更新。

🧠 神经网络实时权重图(画一笔,看像素如何经过特征层流向输出)
左:25个输入像素(黑=1,白=0) →  中:8个特征检测神经元(亮=激活) →  右:8个输出类别(按概率排序)
绿色连线=正权重(支持激活),红色连线=负权重(抑制激活),线上数字=权重值

📚 学到了什么?

  • 图片 = 像素矩阵,每格是 0(白)或 1(黑)
  • CNN 先检测边缘,再检测形状,最后识别物体
  • 真实的手写数字识别(MNIST 数据集)准确率超过 99%
  • AI 给出的不是确定答案,而是每个可能性的概率
4

📖 大语言模型——和 AI 一起续写故事

ChatGPT、Claude 这类大模型,是怎么会说话的? 秘密是:它们学会了预测"下一个词"! 通过读了互联网上几乎所有文字(几万亿个词), 它们知道什么词最可能接在什么词后面。

就像你读了一万本故事书,有人说"从前有座……",你马上想到"山"! 大模型也一样——只不过它读了一万亿个词,记住了所有词与词之间的联系。

它的核心叫 Transformer + Attention(注意力机制): 处理每个词时,AI 会"注意"句子里其他哪些词最重要。 GPT-4 有大约 1 万亿个参数(权重)!
大模型在做:P(下一个词 | 前面所有的词)
Attention 公式:softmax(QKT / √d) × V
Q=查询, K=键, V=值——帮 AI 找到哪些词最相关
P(下一个词 | 前面所有的词) 是什么意思?
就是:给定"一只小猫在花园里……"这些词,下一个词是"玩耍"的概率是多少? 是"睡觉"的概率是多少?AI 把所有可能的词都算一遍,选概率最高的!

Attention(注意力)公式 是什么?
想象你在看一本侦探小说,读到"跑走了"时,你要想想"它"指的是前面的猫还是狗? Attention 让 AI 做同样的事:处理每个词时,"扫描"一遍前面所有的词, 判断哪些词最相关。
  • Q(查询)= 当前词在问:"谁和我最有关?"
  • K(键)= 每个历史词的"标签"
  • V(值)= 每个历史词的实际内容
  • softmax= 把相关度变成概率(加起来=100%,最相关的那个权重最大)

🎮 和 AI 一起续写故事!点击词语或让 AI 自动选

进度条 = AI 认为这个词接下来出现的概率

一只小猫
🧠 Transformer 注意力机制——AI 如何"回望"故事来预测下一个词(实时更新)
左:注意力权重(越长/越暖 = 越关注) |  右:Q·K 匹配原理(颜色维度重叠越多 → 分数越高) |  点击词语切换视角

📚 学到了什么?

  • 大模型 = 超级大的神经网络(数千亿参数)
  • 训练方式:预测下一个词,学了几万亿个词
  • Transformer 是大模型的核心架构(2017 年 Google 发明)
  • Attention(注意力)让 AI 知道哪些词最相关
  • ChatGPT、Claude、Gemini 都是大语言模型!

🎓 今天学到的 AI 全景图

🧠 机器学习

让计算机从大量例子中自己找规律,而不是人工写死规则

🌊 深度学习

用很多层神经网络来学习,层数越深能学的规律越复杂

📉 梯度下降

通过不断调整权重来减小误差,就像蒙眼睛在山上找最低点

📖 大语言模型

学会预测下一个词的超大神经网络,读了几万亿个词

🎉 你已经掌握了 AI 工程师每天工作的基础概念!太厉害了!

🎓

🔬 进阶:反向传播——AI 怎么算出梯度?

每次 AI 猜错了,它要追问自己:"到底是哪个权重造成的错误,该怎么调?" 这个追责的过程叫 反向传播(Backpropagation)——从输出层往回算,用链式法则把"责任"分配给每一个权重。

🍎/🍌 神经网络的一次完整学习过程——逐步演示

① 选一个样本:
反向传播的核心是链式法则:如果损失 L 经过多层计算得来,那么
∂L/∂W = ∂L/∂a₂ × ∂a₂/∂z₂ × ∂z₂/∂W = δ₂ × a₁
就像"是谁让我猜错的"——一层一层往前追责!每追一层就用一次链式法则。

📌 反向传播六步总结

  • ① 前向传播(层1):x → z₁ = W₁x + b₁ → a₁ = σ(z₁)
  • ② 前向传播(层2):a₁ → z₂ = W₂a₁ + b₂ → a₂ = σ(z₂)
  • ③ 计算损失:L = ½Σ(a₂ - target)²
  • ④ 输出层梯度:δ₂ = (a₂ - target) · a₂ · (1 - a₂) ← sigmoid 导数!
  • ⑤ 隐藏层梯度:δ₁ = (W₂ᵀδ₂) · a₁ · (1 - a₁) ← 链式法则传回来
  • ⑥ 更新权重:W₂ -= lr · δ₂ · a₁ᵀ,W₁ -= lr · δ₁ · xᵀ