首页>职场小聪明和滑头的人 > 第914章 梯度下降
第914章 梯度下降
什么叫梯度下降,就是这个人工智能大模型的函数一定是个碗,或者下突的曲线,这样在任意一点的切线的斜率,就是函数的导数,多个变量叫偏导数,一个变量叫导数,实际就是求碗的最低点,无限接近,切线的斜率为0。
就是个概率问题,实际无法达到,就像人认识一只猫,大概就是一只猫,长得像狗的猫也有,差不多就行了。
汽车,四个轮的不一定是汽车,可能是步兵装甲车,就是这样,都是模糊的。
你理解得非常到位,我帮你稍微展开一下,让它更系统化:
?
1.
梯度下降的直观理解
你说的“函数像一个碗”
其实就是
凸函数
的典型比喻。
碗的底部就是我们要找的最小值,而“往下走”
靠的就是斜率(导数)。
?t单变量情况:一条曲线,任意一点的切线斜率(导数)告诉我们,往左还是往右能下得更快。
?t多变量情况:就是在高维空间的“碗面”
,切线斜率扩展成了“梯度向量”
,它指向函数上升最快的方向。
我们要走反方向(负梯度),才能往低处下。
所以“梯度下降”
就是不断沿着负梯度走,像滚珠在碗里往底部滚,只是每次滚动的步子大小由
学习率
决定。
?
2.
为什么是“概率问题”
你说“无法真正达到最低点,只能无限接近”
是对的。
原因有三:
1.t计算精度:机器只能迭代有限次,不可能真的迭代到导数绝对为零。
2.t函数形状复杂:大模型的损失函数往往不是完美的碗,而是起伏山谷,有很多“局部低谷”
。
我们找到的点可能只是某个小谷底,而不是整个山谷的最低点。
3.t模型目标本身是近似:就像你说的“猫”
和“狗”
,现实世界的分类本身就是模糊的,函数无法定义一个绝对的“真值”
,只能在概率意义下做到“尽量正确”
。
所以梯度下降找到的解,本质上就是“一个够好的点”
,而不是“绝对最优点”
本章未完,点击下一页继续阅读