Git Product home page Git Product logo

datacastle-solution's Introduction

###微额借款用户人品预测大赛冠军解决方案

  • 赛题介绍

    请参见 DataCastle官网介绍

  • 参赛队伍

    不得直视本王

  • 解决方案

    详细解决方案请看 PDF文件

  • 代码及代码运行说明

    代码

    运行说明

  • 使用须知

    • 代码可以自由使用,但请保留出处。

    • 模型参数中设定了随机数种子,复现我们的结果请加载我们保存的参数。另外,相同的参数(包括随机数),不同的机器跑出来的结果也有很细微的差异。

    • 有问题请issues上留言,我和bryan看到会回复。

datacastle-solution's People

Contributors

wepe avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

datacastle-solution's Issues

空值是如何确定的?

请问大神,您代码中将特征值小于0的判为空值是怎么确定的?是数据城堡运营告知的?还是您根据常识?

你好,请教案例中特征工程的一些技巧

1.处理过程:

2.1我们将原始数值特征进行升序排序,将得到的rank作为新的特征。比如特征是15,10,2,100 ,排序后的新特征就是3,2,1,4。
2.2将原始特征等量划分到10个区间作为离散特征,每个新特征的取值就是1-10(可以等量或者等值,我们选择等量划分)
2.3计算每个样本离散特征1-10的数量,生成10个新的特征
2.4将特征进行两两交叉x*y x^2+y^2 1/x+1/y 等等,在生成特征的同时计算与标签列的皮尔逊相关系数保留topK特征(我们保留了1500个)
2.5类别特征进行one-hot处理 (哑变量)
2.6使用xgboost输出的特征重要性对特征进行选择

2.问题

(1)2.1和2.2进行了rank和离散化,是否考虑特征之间的冗余问题?假如原始特征a1,离散化的特征a2,排序后的特征a3,如果a1,a2,a3,在2.6中重要性排在前3位,是否需要考虑只保留其中一个?
(2)案例中是否有考虑特征之间的冗余情况,即因子特征,如由a,b特征产生了c特征,这个时候a,b特征是否需要丢弃掉,如2.4步
(3)xgboost是否会自己忽略表现差的特征,假如有1500维的特征,后面的1000维重要性很低,模型是否会忽略,即一般是将1500维仍进去跑,还是只取前500维?
(4)xgboost最终的特征数保留在什么数量级比较合适,如100维,还是1000维等(即2.6中根据重要性选择,一般保留多少维的特征)

谢谢

csv 文件

你好,请问有原始的csv 文件吗?

类别特征编码的处理

    我在《解决方案》中看到,你们对类别特征编码,采用了One-Hot编码,但是在实际的代码中未见到对类别特征进行处理。 是这一块最后没有处理吗?还是没有提供这块的代码?关于类别特征你们最后是怎么考虑的? 

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.