个人随笔
目录
梯度下降算法核心笔记(含大模型应用+凸/非凸函数区别)
2026-02-25 20:49:09

一、梯度下降算法核心解析(破解核心疑惑)

1. 核心误区澄清

  • 梯度下降的目标 不是 「下山最短/最快路径」,而是「在只有局部信息的前提下,保证每一步函数值严格下降,最终收敛到极小值点」。

  • 疑惑解答:所谓“第一步缓、第二步更陡,整体更优”的情况真实存在,但梯度下降是「局部贪心算法」,只有当前点的视野,无法预知未来坡度,只能做当下最优选择(往当前最陡下坡走),而非全局最优路径选择。

2. 数学本质与迭代逻辑

  • 梯度(∇f(x)):多元可微函数某点的一阶导数向量,方向是函数上升最快的方向,负梯度方向是下降最快的方向(仅局部有效,换点梯度即变)。

  • 核心迭代公式:xₜ₊₁ = xₜ − η·∇f(xₜ)(xₜ:当前位置;η:学习率/步长;负梯度:下降方向)。

  • 迭代逻辑:计算当前梯度→沿负梯度迈步→检查收敛(梯度趋近0),循环直至停止。

3. 收敛性的关键:目标函数的性质

  • 仅当函数为球对称凸函数(如f(x)=||x||²)时,梯度下降路径才是最短路径(负梯度直接指向全局最小值)。

  • 非凸函数中,梯度下降易走弯路(如狭长山谷函数的“之”字形路径),但只要步长合理,仍能收敛到极小值点(非全局最优)。

4. 改进算法(解决“弯路问题”)

  • 动量法(Momentum):利用惯性叠加历史方向,减少震荡,优化路径。

  • 牛顿法/拟牛顿法:引入二阶导数(海森矩阵),直接指向最优方向,计算成本高。

  • 自适应学习率(Adam、RMSprop):分维度调整步长,避免震荡,是深度学习主流优化器。

二、梯度下降与机器学习:是否能找到最优解?

1. 仅少数场景能找到全局最优解

需同时满足:凸优化问题(损失函数凸+约束凸集)、批量梯度下降(BGD)、超参数合理、迭代充分。

典型场景:线性回归(MSE损失)、逻辑回归(对数似然损失+L2正则)、线性SVM。

2. 绝大多数场景拿不到全局最优解(核心原因)

  • 非凸损失函数:深度学习模型引入非线性激活,损失函数非凸,存在大量局部极小值和鞍点,梯度下降易停滞。

  • 高维参数空间:鞍点数量远多于局部极小值,是梯度下降停滞的主要原因(高维中局部极小值概率趋近于0)。

  • 工程限制:随机梯度噪声(SGD)、早停机制、学习率两难,导致无法完全收敛。

  • 核心真相:机器学习目标是「泛化能力」,全局最优解易过拟合,梯度下降找到的“次优解”更实用。

三、凸函数与非凸函数的核心区别(结合优化场景)

1. 核心定义(机器学习领域:凸函数=下凸函数)

  • 凸函数:任意两点连线不低于函数图像(正放碗型),满足f(λx₁+(1−λ)x₂)≤λf(x₁)+(1−λ)f(x₂)。

  • 非凸函数:存在两点连线低于函数图像(起伏山地型),不满足上述不等式。

2. 核心区别对照表

对比维度 凸函数 非凸函数
几何特征 正放碗型,无凹陷 有起伏、凹陷、鞍点
极值特性 局部极小值=全局最小值 局部极小值≠全局最小值,存在鞍点
梯度下降表现 步长合理则收敛到全局最优 易卡局部极小值/鞍点,震荡发散
机器学习场景 线性回归、逻辑回归、线性SVM 深度神经网络、CNN/Transformer等

3. 关键澄清

  • 非凸函数并非无法优化,只是无全局收敛保障,工业界通过多种技巧寻找“足够好的次优解”。

  • 凸函数表达能力弱(线性模型),非凸函数表达能力强(非线性模型),是深度学习解决复杂任务的基础。

四、大模型训练:梯度下降 vs 向量相似度

1. 核心结论

大模型全训练流程(预训练、SFT、RLHF)的核心参数更新算法,是梯度下降的工业级变体(主流AdamW);向量相似度仅为辅助工具,无法替代梯度下降。

2. 梯度下降在大模型训练中的作用

  • 预训练:核心任务Next Token Prediction,通过交叉熵损失计算梯度,AdamW更新参数(消耗90%+计算量)。

  • SFT:用“指令-回答”数据训练,损失函数和参数更新逻辑与预训练一致。

  • RLHF:核心PPO算法属于策略梯度算法,本质仍是梯度下降;奖励模型训练也依赖梯度下降。

3. 向量相似度的应用(仅辅助)

  • RAG(检索增强生成):推理阶段检索相关文档,与模型训练无关。

  • 嵌入模型训练:作为对比学习损失函数的计算项,参数更新仍靠梯度下降。

  • Transformer自注意力:Query和Key的点积计算(相似度),仅为前向传播固定步骤,不涉及参数更新。

4. 误区澄清

  • 大模型生成内容靠自回归预测,而非向量匹配,核心参数靠梯度下降训练。

  • 目前无工业级大模型脱离梯度下降训练,其他优化方法(遗传算法等)无可行性。

五、核心总结

  1. 梯度下降:核心是“局部贪心+稳步下降”,不承诺最短路径/全局最优,核心价值是低计算成本收敛到可用极小值点。

  2. 凸/非凸函数:决定梯度下降的收敛上限,凸函数可获全局最优,非凸函数仅能获次优解但表达能力更强。

  3. 大模型训练:梯度下降是核心骨架,向量相似度仅为辅助,二者层级不同、不可替代。

    (注:文档部分内容可能由 AI 生成)

 1

啊!这个可能是世界上最丑的留言输入框功能~


当然,也是最丑的留言列表

有疑问发邮件到 : suibibk@qq.com 侵权立删
Copyright : 个人随笔   备案号 : 粤ICP备18099399号-2