wepe / datacastle-solution Goto Github PK

View Code? Open in Web Editor NEW

216.0 27.0 175.0 1.9 MB

1st Place Solution for DataCastle-CashBus Competition

Java 65.31% R 0.97% Python 33.72%

datacastle-solution's Introduction

###微额借款用户人品预测大赛冠军解决方案

赛题介绍

请参见 DataCastle官网介绍
参赛队伍

不得直视本王
解决方案

详细解决方案请看 PDF文件
代码及代码运行说明

代码

运行说明
使用须知
- 代码可以自由使用，但请保留出处。
- 模型参数中设定了随机数种子，复现我们的结果请加载我们保存的参数。另外，相同的参数（包括随机数）,不同的机器跑出来的结果也有很细微的差异。
- 有问题请issues上留言，我和bryan看到会回复。

datacastle-solution's People

Contributors

Stargazers

Watchers

Forkers

francis7999 chdd pigye silentgrape yfzyl wintonchan zpilgrim maliting zhuzhuxia123 fengfenghan tokey66363 yunxileo ieee820 flysoso vikiqiu darouyu liuyang1123 yangls06 dataterminatorx zhaorenjie110 chifa01 huasanyelao fych datacastle2016 yanjiegao shinsonwu koolboy2016 linkfar wuzhongdehua colinsongf leezqcst answer1992 fenildf nackel brahmaslee wangcunxin daodaox chao-jiang dancolumbia washuwashu chenchaodev irisguoxch tongzhenguo hadoop73 ljing2007 sgtg domi7016 alizer tianhm zhuyuying dpylr fengxhao fuhuamosi biqqer baokunguo sanpi0205 xuerenlv jdc08161063 jimmy-walker benjamesbabala ericxsun hackerwei kevin369ml dagangwood163 crazyseabiscuit reggiewong phyland furongpeng shenmcf huayet mexin56 leonardo711 hanlos bupticybee squirrelmaster ghstar machinelearningorg liushuchun cool-lab dancinghui liweihfut aheadwhat gst-group kaijile qixingjun shichenxie niebing9988 zm379096736 leeon2vec zasum chenrui2014 keaideii taptapon ranniee guihui shinezai xcmworkharder dataxujing lansingcode wenyanghan

datacastle-solution's Issues

空值是如何确定的？

请问大神，您代码中将特征值小于0的判为空值是怎么确定的？是数据城堡运营告知的？还是您根据常识？

想问下大神，是否在特征工程中考虑正负样本不均的问题？

想问下大神，是否在特征工程中考虑正负样本不均的问题？我用GBRT跑出来的第一个模型预测都是0.8以上的score,就没有是负类的

1.处理过程：

2.1我们将原始数值特征进行升序排序，将得到的rank作为新的特征。比如特征是15，10，2，100 ，排序后的新特征就是3，2，1，4。
2.2将原始特征等量划分到10个区间作为离散特征，每个新特征的取值就是1-10（可以等量或者等值，我们选择等量划分）
2.3计算每个样本离散特征1-10的数量，生成10个新的特征
2.4将特征进行两两交叉x*y x^2+y^2 1/x+1/y 等等，在生成特征的同时计算与标签列的皮尔逊相关系数保留topK特征（我们保留了1500个）
2.5类别特征进行one-hot处理（哑变量）
2.6使用xgboost输出的特征重要性对特征进行选择

2.问题

（1）2.1和2.2进行了rank和离散化，是否考虑特征之间的冗余问题？假如原始特征a1，离散化的特征a2，排序后的特征a3，如果a1，a2，a3，在2.6中重要性排在前3位，是否需要考虑只保留其中一个？
（2）案例中是否有考虑特征之间的冗余情况，即因子特征，如由a，b特征产生了c特征，这个时候a,b特征是否需要丢弃掉，如2.4步
（3）xgboost是否会自己忽略表现差的特征，假如有1500维的特征，后面的1000维重要性很低，模型是否会忽略，即一般是将1500维仍进去跑，还是只取前500维？
（4）xgboost最终的特征数保留在什么数量级比较合适，如100维，还是1000维等（即2.6中根据重要性选择，一般保留多少维的特征）

谢谢

    我在《解决方案》中看到，你们对类别特征编码，采用了One-Hot编码，但是在实际的代码中未见到对类别特征进行处理。 是这一块最后没有处理吗？还是没有提供这块的代码？关于类别特征你们最后是怎么考虑的？