原创文章转载请保留此文链接 ,或访问本人博客
xgboost和是大规模并行Boosted Tree的工具是一款经过优化的分布式梯度提升(Gradient Boosting)库,具有高效灵活和高可移植性的特点。xgboost和基于梯度提升框架实现了并行方式的决策树提升(Tree Boosting),从而能够快速准确地解决各种数据科学问题
在数据科学方面,有大量kaggle选手选用它进行数据挖掘比赛其中包括两个以上kaggle比赛的夺冠方案。在工业界规模方面XGBoos的分布式版本有广泛的可移植性,支持在YARNMPI,SungridEngine等各个平台上面运行,並且保留了单机并行版本的各种优化使得它可以很好地解决于工业界规模的问题。
XGBoos的出现让数据民工们告别了传统的机器学习算法们:RF、GBM、SVM、LASSO…之后微软推出了一个新的boosting框架,想要挑战xgboost和的江湖地位即LightGBM(Light Gradient Boosting Machine)。LightGBM同样是一款基于决策树算法的分布式梯度提升框架具体性能对比各位可以自己测试一下。
xgboost和源码地址在上也可以直接通过下面的地址来下载源码
很多参考资料上是通过源码编译dll文件,这是python安装需要依赖的一个文件但是按照教程会出现各种各样的错误。免去这一步会方便很多
网上有直接编译好的dll文件,可以直接下载所以就免去了编译的过程,方便很多这个页面会展示每日编译好的dll文件,可以直接下载最新的版本如果你有NVIDIA的GPU,可以选择GPU
这里有个坑需要注意如果你使用的是python3的版本运行代码,最好使用python3的版本来安装否则中途可能会出错。找到python3安装的路径之后还是进入到xgboost和-master\python-package
文件夹,执行命令
理论上和xgboost和安装方式是一样的,但是在网上没有找到dll文件所以只能手动使用VS来编译了。如果你自己找到的话可以按照之前的方法来安装。
需要使用VS2013(或者更高的版本)现在Visual Studio出了Community版本面向个人和学生,是免费的在上可以下载Community 2017版本。之后安装就可以了
源码地址茬,可以使用git命令或者直接下载zip文件
之后解决方案再选择Release
,生成解决方案exe文件会出现在windows\x64\Release
文件夹中。如果发现了exe文件说明安装成功了。
环境配置过程是一个很头疼的事情网上参考资料参差不齐,按照一个教程去执行总是会出问题,把折腾的过程总结起来供大家参栲。如果按照作者的教程安装成功恭喜你!如果没有安装成功,也是正常的毕竟折腾环境是一个非常耗时的过程。如果大家在安装过程中出现问题也欢迎和作者交流。另机器学习方面的知识也欢迎一起交流。最后祝大家Have fun in ML.
xgboost和的参数一共分为三类:
Note: 我下面介绍的参数都是我觉得比较重要的, 完整参数请戳