AI备课( 梯度与学习率）｜AI学人 VS 人学AI

AI备课《梯度与学习率》主题：AI学人类学习，人学AI算法说明：发散的漫谈是备课佐料，其他内容协同豆包学习整理。漫画，来源公众号“云同学的技术圈”，特此鸣谢！欢迎留言指出问题与建议。AI赋能工具，正在制作，课后分享，您有好用的也欢迎分享。下节课实验～1.梯度：告诉你往哪走、走多陡（方向+坡度）。例，老师其实最爱学习，很多群深夜都见有人发言交流。学习的梯度需要在反向传播中时常计算一下更好？学理论，还是学技术，一线视角还是专家视野？这就像上山（或下山）的都要考虑方向，也要考虑高低。审视：山坡陡，梯度大，能快速，但容易冲过头、震荡不收敛。山坡平，梯度小，能稳步，但走得太慢、容易卡住不动。

2.导数，致导——梯度，来源损失函数对参数的偏导数。别怕偏导数，先来破除数学恐惧。例，导数，决定了做某事的变化的方向与大小，我们的生活不应向导航一样，不应像导弹一样，做好求导，才能致导吧？（1）导数，决定了变化加速度，决定了速度相对于时间的变化程度。加速度是速度的导数。看：a=dv/dt 即时加速度——导数计算：

速度，决定了位移相对于时间的变化程度。速度是位移的导数。看：v=ds /dt即时速度——导数计算：

斜率反应了曲线的弯曲度与方向的未来趋势，斜率是导数。看斜率：k=dy/dx以上公式是一样的性质，即求导公式：

（2）偏导，切入的视角生活总是一团乱麻，学习中又是我初中恩师吴老说的“老虎啃天，无处下牙”！没办法的好办法，别的变化都不管了，听语文老师吴恩师的，认真研究一门科，专攻语文吧。语文好了，又去专攻历史科，也真是好起来了。多个变量在变化，只求一其中的一个导数，这就是偏导啊。爬山的h=f(a,b)，a是南北，b是东西，东西南北怎么变？或者先看南北的坡陡，再看东西的坡度？这就是对a偏导，再对b偏导，合成为一个组数据（向量），成为“致导”梯度。一句话：用偏导计算梯度，就是多种变量状态下一个一个求导。这就是因为模型的参数多、隐藏层多，需要梯度计算的情况很多需要求导的方法吧。（3）深度学习中的梯度梯度是计算出来的，由数据和模型决定。梯度本身有大小和方向。梯度越大 ≠ 效果越好，只代表“变化很剧烈”。

3.学习率学习率（lr）是人为设置的超参数。学习率：决定你每一步迈多大（步长）。例，越陡的地方，步子要迈得的小一点，才能安全、准确地到达。难度大，学习率过高，则囫囵吞枣，不易窥见真谛。在缓平的地方，难度小，大可大步流星，走马观花也不妨碍一叶知秋。审视：学习率小：能精致，但收敛太慢学习率大：能提效，但容易过头例，遇到难的梯度大的学问知识，咱就慢慢学，多问问，多试试，精雕细刻，人生很长积硅步方能行千里，路上都是风景，美好不再遥远。遇到容易的常识，了解就行了，一目十行，人生很短，沉溺于俗事纷争必然会蹉跎了岁月，负重前行还前途渺茫。1. 每次更新参数时，步子迈多大？

2. 学习影响：学习率太大：步子太大，来回震荡，不收敛学习率太小：步子太小，训练极慢，容易卡在局部最小值合适学习率：快速又稳定地降到最低点梯度提供方向和相对大小学习率负责缩放这个步长两者相乘，才是真正的更新量。假设：- 梯度 = 5（很陡）- 学习率 = 0.1→ 实际更新量 = 0.5如果学习率改成 0.01→ 更新量 = 0.05梯度没变，但步子明显变小。