AI备课《梯度与学习率》主题:AI学人类学习 ,人学AI算法说明:发散的漫谈是备课佐料,其他内容协同豆包学习整理。漫画,来源公众号“云同学的技术圈”,特此鸣谢!欢迎留言指出问题与建议。AI赋能工具,正在制作,课后分享,您有好用的也欢迎分享。下节课实验~1.梯度:告诉你往哪走、走多陡(方向+坡度)。例,老师其实最爱学习,很多群深夜都见有人发言交流。学习的梯度需要在反向传播中时常计算一下更好?学理论,还是学技术,一线视角还是专家视野?这就像上山(或下山)的都要考虑方向,也要考虑高低。审视:山坡陡,梯度大,能快速,但容易冲过头、震荡不收敛。山坡平,梯度小,能稳步,但走得太慢、容易卡住不动。

2.导数,致导——梯度,来源损失函数对参数的偏导数。别怕偏导数,先来破除数学恐惧。例,导数,决定了做某事的变化的方向与大小,我们的生活不应向导航一样,不应像导弹一样,做好求导,才能致导吧?(1)导数,决定了变化加速度,决定了速度相对于时间的变化程度。加速度是速度的导数。看:a=dv/dt 即时加速度——导数计算:

速度,决定了位移相对于时间的变化程度。速度是位移的导数。看:v=ds /dt即时速度——导数计算:

斜率反应了曲线的弯曲度与方向的未来趋势,斜率是导数。看斜率:k=dy/dx以上公式是一样的性质,即求导公式:

(2)偏导,切入的视角生活总是一团乱麻,学习中又是我初中恩师吴老说的“老虎啃天,无处下牙”!没办法的好办法,别的变化都不管了,听语文老师吴恩师的,认真研究一门科,专攻语文吧。语文好了,又去专攻历史科,也真是好起来了。多个变量在变化,只求一其中的一个导数,这就是偏导啊。爬山的h=f(a,b),a是南北,b是东西,东西南北怎么变?或者先看南北的坡陡,再看东西的坡度?这就是对a偏导,再对b偏导,合成为一个组数据(向量),成为“致导”梯度。一句话:用偏导计算梯度,就是多种变量状态下一个一个求导。这就是因为模型的参数多、隐藏层多,需要梯度计算的情况很多需要求导的方法吧。(3)深度学习中的梯度梯度是计算出来的,由数据和模型决定。梯度本身有大小和方向。梯度越大 ≠ 效果越好,只代表“变化很剧烈”。

3.学习率学习率(lr)是人为设置的超参数。学习率:决定你每一步迈多大(步长)。例,越陡的地方,步子要迈得的小一点,才能安全、准确地到达。难度大,学习率过高,则囫囵吞枣,不易窥见真谛。在缓平的地方,难度小,大可大步流星,走马观花也不妨碍一叶知秋。审视:学习率小:能精致,但收敛太慢学习率大:能提效,但容易过头例,遇到难的梯度大的学问知识,咱就慢慢学,多问问,多试试,精雕细刻,人生很长积硅步方能行千里,路上都是风景,美好不再遥远。遇到容易的常识,了解就行了,一目十行,人生很短,沉溺于俗事纷争必然会蹉跎了岁月,负重前行还前途渺茫。1. 每次更新参数时,步子迈多大?

2. 学习影响: 学习率太大:步子太大,来回震荡,不收敛 学习率太小:步子太小,训练极慢,容易卡在局部最小值 合适学习率:快速又稳定地降到最低点 梯度提供方向和相对大小 学习率负责缩放这个步长 两者相乘,才是真正的更新量。假设:- 梯度 = 5(很陡)- 学习率 = 0.1→ 实际更新量 = 0.5如果学习率改成 0.01→ 更新量 = 0.05梯度没变,但步子明显变小。


