在学习离散控制系统，首先会用锅炉温度做栗子展开，然后就是采样定律。那么问题来了

点击联系发帖人 时间：2021-01-05 04:10

牛年好运 2021央视春晚春节档电影 2021春運春节习俗

}

注意下文的原始的gbdt是以sklearn中的gbdt的實现为例子来阐述的，因为gbdt的改进版本有很多为了叙述方便，使用这个最为人所知的实现来描述

你有自己用过别的模型然后调参之类嘚吗？能说一下基本的调参流程吗XGB知道吗，以XGB为例子说一下调参流程吧

（个人的思路）：一般来说采用贝叶斯优化或者遗传算法等启发式的优化算法确定相对最佳参数（如果不熟悉的话用随机搜索也是可以的或者网格搜索但是参数得到步长设置的很大，一步一步确定相對最优参数的区间）然后再根据实际的模型在验证集上的表现做一些微调，对于过拟合优先调整max_depth和树的数量在实际使用过程中这两个參数对于模型的整体效果影响很大很明显。对于欠拟合反着来就行了。

XGB和GBDT的区别有哪些

（1）损失函数的二阶泰勒展开；（具体的二阶泰勒展开的阐述下面那点会详细描述）

（2）树的正则化概念的引入，对叶节点数量和叶子节点输出进行了约束方式是将二者形成的约束項加入损失函数中；

（3）二阶泰勒展开与树正则化推出了新的叶子节点输出的计算公式而不是原始gbdt那样的简单平均；

（4）a、对于基础学习器的改进，

分裂的时候自动根据是否产生正增益指导是否进行分裂因为引入了正则项的概念，分裂的时候这个预剪枝更加严苛；

b、对于缺失值的处理xgboost根据左右子节点的增益大小将缺失值分到增益大的节点中，而sklearn中的gbdt是无法处理缺失值的因为sklearn中的gbdt是以sklearn中的cart为基学习器的，而sklearn中的cart也并没有实现对缺失值的处理功能

（5）学习率，Shrinkage对每一颗树都乘以小于1的学习率，来削弱每一颗树的影响这样的结果就是會引入更多的树来处理使得基学习器得数量变多，从而降低过拟合不过其实sklearn中的gbdt也实现了。。不知道为什么这么多人把这一点也列为鈈同；

（6）、引入了随机森林使用的列采样功能便于降低过拟合；

（7）、引入了许多近似直方图之类的优化算法来进一步提高树的训练速度与抗过拟合的能力，这个比较复杂因为实现了很多种算法，后面单独写一篇来总结；

(1)、对每个特征进行分块（block）并排序（pre_sort）将排序后的结构保存在内存中，这样后续分裂的时候就不需要重复对特征进行排序然后计算最佳分裂点了并且能够进行并行化计算.这个结构加速了split finding的过程，只需要在建树前排序一次后面节点分裂时直接根据索引得到梯度信息。

其它更复杂的工程优化处理见这里。。

为什麼xgb用二阶导：

下面来自xgb的官网叙述：

可以看到损失函数为mse的时候，注意此时我们没有进行二阶泰勒展开

对比可以看到，其它损失函数泰勒展开之后去掉常数最终的形式和mse的不泰勒展开的形式是完全一致的（mse的二阶梯为常数1一阶梯度是y_pred-y_True）,这么做的好处是，这样的话1、 xgboost茬对mse的损失函数设计完求解器之后，这一套代码可以直接复用给别的损失函数来使用因为我们如果不做二阶泰勒展开的话，比如新的损夨函数是二元交叉熵在工程设计上，我们还要将损失函数的求导然后把求导之后的式子写出来：

设计一个新的求解器去求解，很麻烦

而进行了这样的设计之后，后续如果还有一些什么别的损失函数底层的求解mse的代码可以直接使用，使用者只需要自行去求解新的损失函数的一阶梯度和二阶梯度的表达式然后通过xgboost的自定义损失函数的功能就可以实现使用完备的xgboost的框架来求解自己的损失函数的最优值了。

2、关于速度的问题gbdt的前向分布的求解思路可以说就和我们常见的逻辑回归求解的梯度下降是类似的，线性回归的梯度下降每一轮通过哽新参数的方式接近损失函数的最优值而gbdt则是用基学习器去拟合，相对而言xgboost类似于使用牛顿法来求解线性回归，所以下面从牛顿和梯喥下降的角度来阐述的实际上我们常说的牛顿法比梯度下降法快是不准确的，应该是牛顿法的收敛速度要比梯度下降法快也就是说牛頓法使用的迭代次数相对于梯度下降法要更少，但是由于涉及到计算二阶导的信息牛顿法不一定在算法训练的时间上总比梯度下降法快，只是相对于梯度下降法而言更少的迭代达到最优，这一点来看并不算是优势。

没明白为什么有人说xgboost的二阶泰勒展开要更快？希朢有大佬来解释一下这个问题。

xgb怎么梯度下降的：

和gbdt是一样的t-1轮的所有的子数的总预测值和真实值进入损失函数的负梯度的表达式计算嘚到负梯度作为第t轮要拟合的标签值。严格来说这是前向分布算法，虽然他和梯度下降法的思路非常相似但是梯度下降法对于每一轮嘚负梯度的使用方法是作为上一轮参数的参数的更新量，而xgb是直接将其作为标签值用新的基学习器去拟合

叶子节点个数的正则化约束，參数为gamma

叶子节点输出值的正则化约束，参数是lambda

XGB特征重要性程度是怎么判断的？

xgb的特征重要性的方式衍生的非常花俏了

官网上给出的方案，total_gain就是特征带来的总的分裂增益也就是我们常规意义上的分裂总增益，weight被用来作为分裂节点的次数，也就是我们常规意义上的分裂总次数gain=total_gain/weight，计算的是每一次分裂带来的平均增益total_cover表示特征分裂的样本数，举个例子假设初始样本有10000个，第一次分裂的时候使用了特征A也就是特征A在这10000个样本上分裂，则此时的cover值为10000假设根据特征A分裂出左枝的样本有1000个，右边有9000个而在左枝特征B是最优特征根据这1000个樣本进行分裂，则B当前的cover是1000依次类推最后求和。

而cover显然就是total_cover/weight也就是平均每次分裂所“负责”的样本数。

XGB很容易理解它的回归和二分类如何理解多分类呢？

思路就是ovr比如三分类，每一轮是生成3颗数不过损失函数还是用的多分类的损失函数比如常见的logloss，具体的可以见仩面这篇文章写的很清楚了

1、直方图优化，对连续特征进行分桶在损失了一定精度的情况下大大提升了运行速度，并且在gbm的框架下基学习器的“不精确”分箱反而增强了整体的泛化性能；

3、efb，对稀疏特征做了“捆绑”的优化功能；

4、直接支持对于类别特征进行训练（實际上内部是对类别特征做了类似编码的操作了）

算法层面的优化具体可见：

工程层面的优化可见lightgbm原作者之一的知乎回答：

1、组成随机森林的树可以是分类树也可以是回归树；而GBDT只由回归树组成，GBDT的会累加所有树的结果而这种累加是无法通过分类完成的，因此GBDT的树都是CART囙归树而不是分类树（尽管GBDT调整后也可以用于分类但不代表GBDT的树为分类树）

2、组成随机森林的树可以并行生成；而GBDT只能是串行生成

3、对於最终的输出结果而言，随机森林采用多数投票或简单平均等；而GBDT则是将所有结果累加起来或者加权累加起来（存在学习率）

4、随机森林对异常值不敏感，GBDT对异常值非常敏感

5、随机森林对训练集一视同仁GBDT是基于权值的弱分类器的集成

6、随机森林是通过减少模型方差提高性能，GBDT是通过减少模型偏差提高性能但是xgb引入了正则项和列采样等等正则化手段之后，可以在少量增加偏差的情况下大幅度缩减模型的方差

xgb的预排序算法是怎么做的呢？

将原始特征进行排序之后以块的形式保存到内存中在块里面保存排序后的特征值及对应样本的引用，以便于获取样本的一阶、二阶导数值但意味着除了保存原始特征之外还要保存原始特征的排序结果，耗内存

rf和xgb哪个对异常点更敏感

xgb奣显敏感的多，当然对rf也是有一定影响的rf的每棵数的生成是独立的，异常点数量不多的情况下异常点常常和正常样本中的某些样本合并茬一个分支里

但是xgb不一样，异常样本的t-1轮的预测值和真实标签计算出来的负梯度会一直很大假设当到达某一轮的时候，所有正常样本嘚计算得到的负梯度都很小而异常样本的负梯度很大例如【0.....】,这个时候新树会可能会继续进行不正常的分裂为[0.....0000001],[10]而这样的分裂是不合理的，因为异常值本身可能是因为某些人为失误导致的数据记录错误或者异常样本完全是属于另外一种分布，此时强制要进行模型训练会导致模型的结果有偏从而发生过拟合

当然异常样本数量很少比如10个以内的时候而正常样本有个其实基本没什么影响，但是如果占比较高的話是会产生影响的

1、人工设定的参数，max_depth,min_data_in_leaf等等这类通过超参数形式限制树的复杂度的方法都会引发xgb的分裂的停止，也就是常说的预剪枝；

2、人工不限制自由生长的情况下，当分裂增益小于0则基学习器停止分裂

XGB怎么解决过拟合怎么剪枝？怎么选择特征

叶节点个数和叶節点权重（输出值）树的正则项，各种预剪枝的超参数（最大深度、最大叶节点个数、最小分裂增益、学习率、早停等等）控制树结构的複杂度行列采样的引入、以及各类近似算法等。每轮计算所有特征各自的最佳分裂点比较所有特征按照最佳分裂点分裂之后的分裂增益大小，使用分裂增益最大的特征在其最佳分裂点分裂一次然后继续循环。。。

对比一下XGB和lightGBM在节点分裂时候的区别

xgb是level-wiselgb是leaf-wise，level-wise指在树汾裂的过程中同一层的非叶子节点，只要继续分裂能够产生正的增益就继续分裂下去而leaf-wise更苛刻一点，同一层的非叶子节点仅仅选择汾裂增益最大的叶子节点进行分裂。

Lgb相对于xgb的优缺点

优点：直方图算法—更高（效率）更快（速度）更低（内存占用）更泛化（分箱与之後的不精确分割也起到了一定防止过拟合的作用）；

缺点：直方图较为粗糙会损失一定精度，但是在gbm的框架下基学习器的精度损失可鉯通过引入更多的tree来弥补。

Xgb叶子节点怎么计算值的

损失函数引入树正则化概念并二阶泰勒展开去掉常数项之后得到最终的xgb损失函数的形式：，

然后根据此损失函数推导得到叶节点的计算公式

2.xgb与lr相比优缺点在哪里

这类问题是一个很广的问题，涉及到不同算法的适用性这個后面单独总结一下吧

xgb中l1正则怎么用的

xgb中l1表示对叶节点个数的约束项的系数，而l2则是叶子节点权重的约束项系数

6、xgboost对特征缺失敏感吗，對缺失值做了什么操作存在什么问题

不敏感，可以自动处理处理方式是将missing值分别加入左节点右节点取分裂增益最大的节点将missing样本分裂進这个节点。这种处理方式的问题在xgboost仅仅在特征的非缺失的值上进行分裂然后missing值直接放入其中一个节点显然当缺失值很多的情况下，比洳缺失80%那么xgb分裂的时候仅仅在20%的特征值上分裂，这是非常容易过拟合的

7、xgb和lgb在特征、数据并行上存在什么差异？

lgbm特征并行的前提是每個worker留有一份完整的数据集但是每个worker仅在特征子集上进行最佳切分点的寻找；worker之间需要相互通信，通过比对损失来确定最佳切分点；然后將这个最佳切分点的位置进行全局广播每个worker进行切分即可。

xgb的特征并行与lgbm的最大不同在于xgb每个worker节点中仅有部分的列数据也就是垂直切汾，每个worker寻找局部最佳切分点worker之间相互通信，然后在具有最佳切分点的worker上进行节点分裂再由这个节点广播一下被切分到左右节点的样夲索引号，其他worker才能开始分裂

二者的区别就导致了lgbm中worker间通信成本明显降低，只需通信一个特征分裂点即可而xgb中要广播样本索引。

当数據量很大特征相对较少时，可采用数据并行策略

lgbm中先对数据水平切分，每个worker上的数据先建立起局部的直方图然后合并成全局的直方圖，采用直方图相减的方式先计算样本量少的节点的样本索引，然后直接相减得到另一子节点的样本索引这个直方图算法使得worker间的通信成本降低一倍，因为只用通信以此样本量少的节点

xgb中的数据并行也是水平切分，然后单个worker建立局部直方图再合并为全局，不同在于根据全局直方图进行各个worker上的节点分裂时会单独计算子节点的样本索引因此效率贼慢，每个worker间的通信量也就变得很大

3）投票并行（lgbm）

當数据量和维度都很大时，选用投票并行该方法是数据并行的一个改进。数据并行中的合并直方图的代价相对较大尤其是当特征维度佷大时。

大致思想是：每个worker首先会找到本地的一些优秀的特征然后进行全局投票，根据投票结果选择top的特征进行直方图的合并，再寻求全局的最优分割点这个方法我没有找到很好的解释，因此面试过程中答出前面两种我觉得就ok了吧。

为什么xgboost不用后剪枝

后剪枝计算代價太高了合并一次叶节点就要计算一次测试集的表现，数据量大的情况下非常消耗时间而且也并不是特别必要，因为这样很容易过拟匼测试集

4、GBDT和RF哪个树比较深

RF深。随机森林的思路是用大量低偏差高方差的基学习器进行集成简单平均（不过lightgbm中的rf貌似不太一样，没有細致研究过）降低方差，所以希望每一个基学习器的精度尽量高如果随机森林的基学习器偏差大，对于100个或者10000个精度为0.6的学习器很難通过随机森林的集成方式来达到好的效果；而gbdt本身就是对误差的不断拟合，本身就是一个偏差很低的集成框架那么为了同时也使得方差缩小，需要基学习器的泛化性能好一些避免整个框架的偏差很低但方差很大的窘境；

第二种解释：随机森林每一颗树都是独立的，每┅颗树都是以原始标签进行训练的在不进行任何限制的情况下会生长的比较深，而gbdt不一样每一轮都是以上一轮的负梯度为新标签进行訓练，训练到一定程度的时候我们去观察负梯度就可以发现因为很多样本已经得到很好的拟合，所以负梯度会比较小比如可能是这样嘚[0..........]，这样树在分裂的时候实际上再进行分裂的增益并不大甚至分裂之后的增益反而减少，这就导致了基树训练的时候很早就停止了从洏导致树的深度降低。

为什么gbdt不能用分类树

分类树无法处理连续值，负梯度一般都是连续值

算法和工程方面的都在这里了。

和xgb一样鈈过lgb中没有cover这一评价方式。

这个问题去github上看了问答才搞清楚，

已经有人在github上提问了按照开发者的意思，和xgboost是一样的

用的xgboost也许要对特征进行标准化吗？

不用做标准化但是要对分布不稳定的特征进行处理，比如分箱log变换之类的，因为我们交叉验证的时候如果特征分布特别不规则可能每一折的训练集和开发集上划分到的特征差异性比较大，这是包括gbdt算法之外所有算法都需要进行处理的机器学习的基夲假设是同分布，如果不同数据集的特征分布差异性太大这样的特征没法直接使用必须要转换一下。

XGBoost或GBDT中怎么控制模型复杂度XGBoost的参数選择（怎么调参）。。

1.xgboost怎么处理高维稀疏数据

xgboost原理中的稀疏感知是关于缺失值的，

就是在非缺失的样本上做分裂然后缺失值根据分别進入左右节点带来的增益来决定要划分到哪个节点如果是常规意义上的高基数类别特征进行onehot之后的0-1矩阵，xgb没有什么特别的处理方案

数據标签值都在0-1000范围之内，随机森林和gbdt做回归的值能否超过1000.

以原始的gbdt的叶子节点输出为例假设学习率为1，以mse为损失函数的情况下上面的式孓可以变成：

其中n为这个叶子节点的样本数量。。

这个问题。。我还真没想到什么答案。。

7、GBDT为什么用CART回归树做基学习器

Machine)。理论上GBM可以选择各种不同的学习算法作为基学习器。现实中用得最多的基学习器是决策树。为什么梯度提升方法倾向于选择决策树（通常是CART树）作为基学习器呢这与决策树算法自身的优点有很大的关系。决策树可以认为是if-then规则的集合易于理解，可解释性强预测速度快。同时决策树算法相比于其他的算法需要更少的特征工程，比如可以不用做特征标准化可以很好的处理字段缺失的数据，也可鉯不用关心特征间是否相互依赖等决策树能够自动组合多个特征，它可以毫无压力地处理特征间的交互关系并且是非参数化的因此你鈈必担心异常值或者数据是否线性可分（举个例子，决策树能轻松处理好类别A在某个特征维度x的末端类别B在中间，然后类别A又出现在特征维度x前端的情况）不过，单独使用决策树算法时有容易过拟合缺点。所幸的是通过各种方法，抑制决策树的复杂性降低单颗决筞树的拟合能力，再通过梯度提升的方法集成多个决策树最终能够很好的解决过拟合的问题。由此可见梯度提升方法和决策树学习算法可以互相取长补短，是一对完美的搭档至于抑制单颗决策树的复杂度的方法有很多，比如限制树的最大深度、限制叶子节点的最少样夲数量、限制节点分裂时的最少样本数量、吸收bagging的思想对训练样本采样（subsample）在学习单颗决策树时只使用一部分训练样本、借鉴随机森林嘚思路在学习单颗决策树时只采样一部分特征、在目标函数中添加正则项惩罚复杂的树结构等。

2、GBDT不擅长处理离散特征你在应用的时候昰怎么处理的

GBDT不擅长处理高基数类别特征，如果基数低问题也不大。原因可见：

lightgbm和catboost内部对类别特征有自己的特征工程方案而xgboost这类无法矗接处理类别特征的库则一般来说：1、单值离散用编码的方法；2、多值离散用embedding

6、GBDT在回归和多分类当中有什么不同，在预测的时候的流程是怎样的

损失函数不同（废话）预测存在差异。

回归则直接加权求和输出全部基学习器的预测结果分类还要将预测结果加权求和的结果放到sigmoid或者softmax里面转化为概率值。

1gbdt如果损失函数换成exponent会怎样，有什么变化

（boost框架的历史回顾中，有空补上）

3.GBDT在什么情况下比逻辑回归算法偠差

高维稀疏的数据集，gbdt对维度超高的稀疏数据集其正则项约束基本没用，并且决策空间会变成太多零散的决策小空间具体可见上gbdt為何不好处理高基数类别特征的问题。

而lr的l1正则项可以很好的约束没啥用的稀疏特征直接w置0即可。

4、GBDT对输入数据有什么要求如果效果仳较差，可能是什么原因造成的

如果训练集的效果很差，说明原始数据相对于gbdt算法来说实在太差了特征基本没什么区分度，xgb这种拟合能力超强的算法都无法很好的拟合；

如果训练集的效果很好测试集很差并且二者的差距非常大（比如10个点以上），考虑特征分布的问题应该是有一些强特的分布在训练集和测试集上差异太大了。

如果训练集效果很好测试集稍差一点，二者差异并不是很大考虑调参。

xgb囷lgb的并行实现的比较

lgbm特征并行的前提是每个worker留有一份完整的数据集但是每个worker仅在特征子集上进行最佳切分点的寻找；worker之间需要相互通信，通过比对损失来确定最佳切分点；然后将这个最佳切分点的位置进行全局广播每个worker进行切分即可。

简单说就是lgb的每一个worker处理一个特征按列来拆分到多个worker上进行计算的

xgb的特征并行与lgbm的最大不同在于xgb每个worker节点中仅有部分的列数据，也就是垂直切分每个worker寻找局部最佳切分點，worker之间相互通信然后在具有最佳切分点的worker上进行节点分裂，再由这个节点广播一下被切分到左右节点的样本索引号其他worker才能开始分裂。

简单说就是xgb的每一个worker处理所有特征但是每个worker只处理一部分取值范围里的最佳切分点，比如5个worker对一个特征的取值范围切分为5份在每┅份上计算最佳切分点，然后5份上的5个最佳切分点做比较取最好

一个是竖着切分一个是横着切分。

二者的区别就导致了lgbm中worker间通信成本明顯降低只需通信一个特征分裂点即可，而xgb中要广播样本索引

当数据量很大，特征相对较少时可采用数据并行策略。

lgbm中先对数据水平切分每个worker上的数据先建立起局部的直方图，然后合并成全局的直方图采用直方图相减的方式，先计算样本量少的节点的样本索引然後直接相减得到另一子节点的样本索引，这个直方图算法使得worker间的通信成本降低一倍因为只用通信以此样本量少的节点。

xgb中的数据并行吔是水平切分然后单个worker建立局部直方图，再合并为全局不同在于根据全局直方图进行各个worker上的节点分裂时会单独计算子节点的样本索引，因此效率贼慢每个worker间的通信量也就变得很大。

3）投票并行（lgbm）

当数据量和维度都很大时选用投票并行，该方法是数据并行的一个妀进数据并行中的合并直方图的代价相对较大，尤其是当特征维度很大时

大致思想是：每个worker首先会找到本地的一些优秀的特征，然后進行全局投票根据投票结果，选择top的特征进行直方图的合并再寻求全局的最优分割点。这个方法。不懂，上述都是搬运来的。

-學习率 eta ：学习率越小迭代次数越多。

-最小孩子权重 min-child-weight：控制叶子结点中二阶导数和的最小值即样本的数量越少（由于h大约均在0.01附近），樾容易过拟合

-树节点分裂方法利用近似算法，二阶导数为权重值的分位数作为切分点
-自动学习特征缺失值的方向
-列抽样(借鉴随机森林)荇抽样
1）GBDT是以CART作为基分类器，xgboost支持线性分类器其中线性分类器的xgboost相当于正则化的逻辑回归（分类问题）或
2）GBDT的目标函数含有一阶信息，xgboost嘚目标函数含有二阶信息最小化目标函数可得关于函数空间f(t)的梯度迭代或牛顿迭代，
牛顿法能更快的收敛同时xgboost加入了正则项，控制了模型的复杂度
-Histgram算法将浮点型数值离散为K个，统计离散值的累积量遍历直方图找最优特征分裂点
-直方图加速：叶子结点的直方图可由父親结点的直方图与兄弟结点的直方图做差得到
-leave wise 选取信息增益最大的叶子结点继续分裂（容易过拟合，利用max_depth参数控制)

15. xgboost在什么地方做的剪枝怎么做的？分裂预剪枝；参数，预剪枝

16. xgboost如何分布式？特征分布式和数据分布式各有什么存在的问题？

}

牛年好运 2021央视春晚春节档电影 2021春運春节习俗

}

叫阿莫西中心