用户流失率预测

实验基础信息

  • 实验名称:用户流失率预测

  • 实验英文名:UserChurn

  • 所属类目:用户运营

  • 实验描述:根据用户历史特征数据,以及用户是否流失标签,建立XGB分类模型,预测用户是否会流失,以及流失的概率

  • 主要应用算法:XGB分类

数据说明

  • 数据来源:Kaggle比赛数据,Telco电信公司用户流失数据。

  • 数据属性:二分类数据(churn列,Yes为流失,No为否)。

  • 数据详情:数据集为用户信息,包含用户id、专线数量、服务类型、是否进行技术支持、是否上网看电视、是否上网电影、月消费金额、总消费金额、交费周期等21列数据。

实验搭建

实验整体流程如下:

2020 12 11 21 24 30
  • 读数据:读入原始数据。

2020 12 11 21 25 51
  • 列拆分:将数字类型(连续特征)和string类型(分类特征)分开。

  • 缺失值填充:数值类型缺失值用中位数填充,String类型的缺失值数据用众数填充。

2020 12 11 21 33 22
2020 12 11 21 34 40
  • 标准化组件:数值类型的连续型进行标准化。

2020 12 11 21 36 27
  • label编码组件:String类型的分类特征进行标签编码。

2020 12 11 21 36 57
  • 列合并:将数值类型、String类型处理过的数据进行合并。

2020 12 11 21 37 48

数据结果:

  • 拆分组件:将训练数据和测试数据按8:2的比例进行拆分。

  • XGB分类:用训练数据训练XGB二分类模型。

2020 12 12 11 04 23

特征重要性如下:

2020 12 12 11 03 20
  • 预测组件:用训练好的模型预测测试数据,预测结果如下,预测出高用户是否会流失,以及流失概率。

2020 12 12 11 06 08
  • 列合并:合并真实值、预测值、预测概率。

  • 混淆矩阵:通过混淆矩阵,评估模型预测的准确性。

2020 12 12 11 10 20
2020 12 12 11 10 51

混淆矩阵为[945, 116, 153, 195]

  • 二分类评估:通过二分类评估组件,评估模型预测结果,二分类AUC为:0.8547。

2020 12 12 11 11 54
2020 12 12 11 17 00