模型开发是一整套标准化的流程,从数据清洗,特征选择,变量选取,模型拟合,就像工厂上的流水线作业。今天我们选择在整个流水线中重要的一个环节,跟大家系统性地讲讲其中的编码方式。本次我们以时下最热门的xgb给大家实操讲解。在我们平时建模时,经常会采用XGBoost来训练模型,但是往往会遇到样本数据中存在或多或少的分类型字符变量,例如学历程度、住房类型等。因此,我们也常采用one-hot编码方式来进行处理,将分类型字符变量转换为数值型变量,以保证模型可以正常拟合训练。但是,为什么在XGBoost算法下需要对分类型变量做转换处理,原因是对于XGBoost模型来讲,使用的学习树都是cart回归树,意味着此类提升树算法只接受数值型特征输入,不直接支持类别型特征。在这种场景下,我们必须在XGBoost模型训练前,对分类型特征进行合适的特征编码处理。虽然one-hot编码比较常用,但结合不同的实际业务场景,掌握多种特征编码方法并进行应用,可以为我们的模型训练和模型优化提供更合适的处理途径。