目录
人工智能家族的“辈分关系”深度学习的核心术语实战中的流程学习建议一、人工智能家族的“辈分关系”
如果把人工智能比作一棵大树,不同技术的关系可以这样理解:
人工智能(AI)—— 树根 目标:让机器像人类一样思考(比如下棋、翻译、开车)。特点:涵盖所有“智能行为”,既包括早期用规则控制的系统(如象棋程序),也包括现代数据驱动的算法。 机器学习(ML)—— 主干 核心理念:不写死规则,而是让机器从数据中自己总结规律。举个栗子:传统方法:教机器“如果图片有羽毛和翅膀,就是鸟”。
机器学习:给机器1000张鸟的图片,让它自己发现羽毛、喙等特征。
深度学习(DL)—— 分支
秘密武器:人工神经网络(尤其是多层结构)。超能力:自动提取复杂特征(比如从像素直接识别“猫脸”)。经典场景:人脸识别、语音助手、电影推荐。大模型(Large Models)—— 枝繁叶茂的顶端
特点:参数规模爆炸(GPT-3的参数量相当于人脑神经元数量的1/5)。代表作:ChatGPT(写诗、编程)、Stable Diffusion(AI绘画)。代价:训练需要数千块GPU和数月时间。AGI(通用人工智能)—— 尚未长出的果实
理想状态:像人类一样全能(能学物理、写小说、做家务)。现实差距:当前AI都是“领域专家”(只会特定任务)。
(想象:AI是树根,ML是树干,DL是粗枝,大模型是细枝,AGI是未成熟的果实)
二、深度学习的核心术语
神经网络训练的“三大法宝”
Batch Size(批大小)—— 每次学多少
比喻:
小批量(32)→ 小锅炒菜:快速调整但味道不稳定
大批量(1024)→ 大锅炖肉:味道均匀但难精细调整
代码示例:
# 在PyTorch中设置批大小 dataloader = DataLoader(dataset, batch_size=64)
python
运行
12Learning Rate(学习率)—— 学习的步伐
常见问题:
步子太大(学习率高)→ 在山谷间反复横跳(损失震荡)
步子太小(学习率低)→ 半天走不出沙漠(收敛慢)
调参技巧:
初始尝试:0.001(常用默认值)
大模型微调:小到0.00001
Dropout Rate(丢弃率)—— 防死记硬背的秘诀
操作:随机让部分神经元“装睡”(比如每次屏蔽30%节点)。
效果:强迫网络多角度思考(类似考试前撕掉笔记的几页)。
注意:考试时(推理阶段)要恢复所有神经元!
⚙️ 其他关键组件
Epoch(轮次)—— 学习遍数
例子:把教材读3遍 → 3个epoch。
风险:读太多遍可能变成“书呆子”(过拟合)。
损失函数(Loss)—— 成绩单
常见类型:
考试估分:均方误差(MSE)→ 预测房价
多选题批改:交叉熵(Cross-Entropy)→ 图像分类
激活函数—— 神经元的开关
ReLU:像电灯开关(输入≤0时关闭,>0时线性输出)。
Sigmoid:把任何数压缩到0-1之间(适合概率输出)。
三、实战中的流程
️ 训练流程示例
准备数据:将10,000张猫狗图片分成64张一组(batch_size=64)。前向传播:图片输入网络,计算预测结果(比如70%概率是猫)。计算损失:对比预测结果和真实标签(交叉熵损失)。反向传播:用Adam优化器(学习率=0.001)调整参数。防止过拟合:每层网络随机屏蔽25%节点(dropout_rate=0.25)。重复训练:遍历所有数据3次(epochs=3)。模型选择指南
任务类型推荐模型特点图像识别CNN(如ResNet)擅长捕捉局部特征文本生成Transformer处理长距离依赖时间序列预测LSTM记忆历史信息四、学习建议
技术演进路线
AI(规则系统) ↓ ML(统计学习) ↓ DL(神经网络) ↓ 大模型(千亿参数) ↓ ? → AGI(尚未实现)
plaintext
123456789学习路径推荐
基础入门: 先理解“损失函数+梯度下降”的核心逻辑用Keras/PyTorch玩转MNIST手写数字识别 进阶实战: 调整超参数(如batch size与学习率的组合)在Kaggle上参加图像分类比赛 深入原理: 阅读《深度学习》(花书)复现经典论文代码(如AlexNet)
融媒体矩阵
[×] 个人主页:https://lizyshare.github.io
[×] wx公众号:卖火柴的码农
下期预告:一文读懂大模型参数文件格式:种类与特点全解析