个人随笔

目录

当前位置：

首页

人工智能

梯度下降算法核心笔记（含大模型应用+凸/非凸函数区别）

梯度下降算法核心笔记（含大模型应用+凸/非凸函数区别）

2026-02-25 20:49:09

一、梯度下降算法核心解析（破解核心疑惑）

1. 核心误区澄清

梯度下降的目标不是「下山最短/最快路径」，而是「在只有局部信息的前提下，保证每一步函数值严格下降，最终收敛到极小值点」。
疑惑解答：所谓“第一步缓、第二步更陡，整体更优”的情况真实存在，但梯度下降是「局部贪心算法」，只有当前点的视野，无法预知未来坡度，只能做当下最优选择（往当前最陡下坡走），而非全局最优路径选择。

2. 数学本质与迭代逻辑

梯度（∇f(x)）：多元可微函数某点的一阶导数向量，方向是函数上升最快的方向，负梯度方向是下降最快的方向（仅局部有效，换点梯度即变）。
核心迭代公式：xₜ₊₁ = xₜ − η·∇f(xₜ)（xₜ：当前位置；η：学习率/步长；负梯度：下降方向）。
迭代逻辑：计算当前梯度→沿负梯度迈步→检查收敛（梯度趋近0），循环直至停止。

3. 收敛性的关键：目标函数的性质

仅当函数为球对称凸函数（如f(x)=||x||²）时，梯度下降路径才是最短路径（负梯度直接指向全局最小值）。
非凸函数中，梯度下降易走弯路（如狭长山谷函数的“之”字形路径），但只要步长合理，仍能收敛到极小值点（非全局最优）。

4. 改进算法（解决“弯路问题”）

动量法（Momentum）：利用惯性叠加历史方向，减少震荡，优化路径。
牛顿法/拟牛顿法：引入二阶导数（海森矩阵），直接指向最优方向，计算成本高。
自适应学习率（Adam、RMSprop）：分维度调整步长，避免震荡，是深度学习主流优化器。

二、梯度下降与机器学习：是否能找到最优解？

1. 仅少数场景能找到全局最优解

需同时满足：凸优化问题（损失函数凸+约束凸集）、批量梯度下降（BGD）、超参数合理、迭代充分。

典型场景：线性回归（MSE损失）、逻辑回归（对数似然损失+L2正则）、线性SVM。

2. 绝大多数场景拿不到全局最优解（核心原因）

非凸损失函数：深度学习模型引入非线性激活，损失函数非凸，存在大量局部极小值和鞍点，梯度下降易停滞。
高维参数空间：鞍点数量远多于局部极小值，是梯度下降停滞的主要原因（高维中局部极小值概率趋近于0）。
工程限制：随机梯度噪声（SGD）、早停机制、学习率两难，导致无法完全收敛。
核心真相：机器学习目标是「泛化能力」，全局最优解易过拟合，梯度下降找到的“次优解”更实用。

三、凸函数与非凸函数的核心区别（结合优化场景）

1. 核心定义（机器学习领域：凸函数=下凸函数）

凸函数：任意两点连线不低于函数图像（正放碗型），满足f(λx₁+(1−λ)x₂)≤λf(x₁)+(1−λ)f(x₂)。
非凸函数：存在两点连线低于函数图像（起伏山地型），不满足上述不等式。

2. 核心区别对照表

对比维度	凸函数	非凸函数
几何特征	正放碗型，无凹陷	有起伏、凹陷、鞍点
极值特性	局部极小值=全局最小值	局部极小值≠全局最小值，存在鞍点
梯度下降表现	步长合理则收敛到全局最优	易卡局部极小值/鞍点，震荡发散
机器学习场景	线性回归、逻辑回归、线性SVM	深度神经网络、CNN/Transformer等

3. 关键澄清

非凸函数并非无法优化，只是无全局收敛保障，工业界通过多种技巧寻找“足够好的次优解”。
凸函数表达能力弱（线性模型），非凸函数表达能力强（非线性模型），是深度学习解决复杂任务的基础。

四、大模型训练：梯度下降 vs 向量相似度

1. 核心结论

大模型全训练流程（预训练、SFT、RLHF）的核心参数更新算法，是梯度下降的工业级变体（主流AdamW）；向量相似度仅为辅助工具，无法替代梯度下降。

2. 梯度下降在大模型训练中的作用

预训练：核心任务Next Token Prediction，通过交叉熵损失计算梯度，AdamW更新参数（消耗90%+计算量）。
SFT：用“指令-回答”数据训练，损失函数和参数更新逻辑与预训练一致。
RLHF：核心PPO算法属于策略梯度算法，本质仍是梯度下降；奖励模型训练也依赖梯度下降。

3. 向量相似度的应用（仅辅助）

RAG（检索增强生成）：推理阶段检索相关文档，与模型训练无关。
嵌入模型训练：作为对比学习损失函数的计算项，参数更新仍靠梯度下降。
Transformer自注意力：Query和Key的点积计算（相似度），仅为前向传播固定步骤，不涉及参数更新。

4. 误区澄清

大模型生成内容靠自回归预测，而非向量匹配，核心参数靠梯度下降训练。
目前无工业级大模型脱离梯度下降训练，其他优化方法（遗传算法等）无可行性。

五、核心总结

梯度下降：核心是“局部贪心+稳步下降”，不承诺最短路径/全局最优，核心价值是低计算成本收敛到可用极小值点。
凸/非凸函数：决定梯度下降的收敛上限，凸函数可获全局最优，非凸函数仅能获次优解但表达能力更强。
大模型训练：梯度下降是核心骨架，向量相似度仅为辅助，二者层级不同、不可替代。

（注：文档部分内容可能由 AI 生成）

69

上一篇: Agent学习(13):用langgraph实现简单的Agent

下一篇: Agent学习(12):LangChain的简单使用

啊！这个可能是世界上最丑的留言输入框功能~

当然，也是最丑的留言列表

回到顶部

有疑问发邮件到 : suibibk@qq.com 侵权立删

Copyright : 个人随笔备案号 : 粤ICP备18099399号-2