Git Product home page Git Product logo

daily's Introduction

Daily

这是何红亮同学保存每日记录的地方,GitHub上的第一个目录。 在这里,我将记录我看到的好文。

2017.01.02: python --网页爬虫,文本处理,科学计算,机器学习,数据挖掘资料+附带工具包下载 http://lib.csdn.net/article/machinelearning/52384

分类之性能评估指标 http://lib.csdn.net/article/machinelearning/36272

第二章 模型评估与选择 http://lib.csdn.net/article/machinelearning/46162

阿里天池O2O优惠券消费行为预测竞赛优胜方案 https://github.com/wepe/O2O-Coupon-Usage-Forecast

[Scikit-learn教程] 03.02 文本处理:分类与优化 https://jizhi.im/blog/post/sklearntutorial0302

集成学习-模型融合学习笔记 http://blog.csdn.net/q383700092/article/details/53557410?utm_source=itdadao&utm_medium=referral

模型融合---来自【雪伦_】 http://blog.csdn.net/a819825294/article/details/51699985

ensemble模型融合 https://github.com/dnc1994/Kaggle-Playground/blob/master/home-depot/ensemble.py

HUMAN ENSEMBLE LEARNING http://mlwave.com/human-ensemble-learning/

实验楼产品---Python实战 http://blog.csdn.net/shiyanlou_chenshi/article/details/52807629

一个特别好的python、R、机器学习等内容的网站 https://www.datacamp.com/

如何在 Kaggle 首战中进入前 10% https://dnc1994.com/2016/04/rank-10-percent-in-first-kaggle-competition/

机器学习系列(19)_通用机器学习流程与问题解决架构模板 http://blog.csdn.net/han_xiaoyang/article/details/52910022

州的先生---Python爬虫实战入门 http://zmister.com/

2016年不可错过的21个深度学习视频、教程和课程[知乎] https://zhuanlan.zhihu.com/p/24362823

20170109: 电影推荐系统(python代码) http://www.cnblogs.com/NaughtyBaby/p/5652045.html

SMP CUP微博用户画像大赛解决方案(有描述有代码) http://blog.csdn.net/u011086367/article/details/54174635

github上某位大神的目录,里面有好几个项目(如:阿里巴巴天池第二届ijcai竞赛代码,携程酒店流失率预测比赛,smpcup2016) https://github.com/scaufengyang

20170110: CIKM Competition数据挖掘竞赛夺冠算法陈运文 http://www.52nlp.cn/cikm-competition-topdata

20170111: 建模那点事儿——方法篇(作者:陈丹奕 ) https://zhuanlan.zhihu.com/p/20268716 建模那点事儿——实战篇(作者:陈丹奕 ) https://zhuanlan.zhihu.com/p/20391425

机器学习算法与Python入门---Poll的笔记 http://www.cnblogs.com/maybe2030/category/697574.html

20170112: 利用爬虫技术能做到哪些很酷很有趣很有用的事情? 知乎爬虫————实现验证码自动识别(使用keras框架搭建小型VGG卷积神经网络) https://github.com/moxiegushi/zhihu

Keras 教程:Python 深度学习终极入门指南 http://weibo.com/ttarticle/p/show?id=2309614056771051281338

Poll的笔记---Machine Learning http://www.cnblogs.com/maybe2030/category/697574.html

Ranklib就是一套优秀的Learning to Rank领域的开源实现, 其主页在:http://people.cs.umass.edu/~vdang/ranklib.html

20170113: 机器学习系列(3)_逻辑回归应用之Kaggle泰坦尼克之灾-----寒小阳 http://blog.csdn.net/han_xiaoyang/article/details/49797143

20170114: 微软开源 LightGBM,三天 Github 超过 1000 星 ---微信公众号《新智元》 https://mp.weixin.qq.com/s?src=3&timestamp=1491490931&ver=1&signature=TuAMvlukldb23hcWJPdVOp8P8bAFnBRM-EHMq2o2BzRrwNtnk7wjjZlZBRTy6F2tljkwNViJ6u0QGql6cMEpZg1aSoYisgLFbEvHbhqha21Oy9mu0wmPXSxsQQw6deo1KgFvCQQt4H7IdU5Su6ZrakZ4iJk1vNwFt0f59MTHB5o=

20170115: 爱可可老师一周热门分享(2017.01.14) http://tinyletter.com/fly51fly/letters/2017-01-14

2016CCF 大数据精准营销中搜狗用户画像挖掘 final winner solution https://github.com/hengchao0248/ccf2016_sougou

完整视频 | 谷歌云首席科学家李飞飞:一堂人工智能公开课 http://mp.weixin.qq.com/s/d9VpuWEupSyIJ9YmAUzZyg

20170118: 数据清洗的一些梳理 https://zhuanlan.zhihu.com/p/20571505?refer=data-analyst-improvement

20170119: 将Python和R整合进一个数据分析流程 http://mp.weixin.qq.com/s?__biz=MjM5MTQzNzU2NA==&mid=2651641033&idx=2&sn=6895897d99a99daf0bcb59f965924779&mpshare=1&scene=23&srcid=0119zJDRcK0QvK53gs1tM0mM#rd

以撸代码的形式学习Python---笑虎github https://github.com/xianhu/LearnPython

数据脱口秀 | 从腼腆印度男孩到谷歌CEO, Sundar Pichai重回母校 https://mp.weixin.qq.com/s?__biz=MjM5MTQzNzU2NA==&mid=2651647279&idx=2&sn=c4b01a08d6760a3b8946a5a7bec707fe

Youtube爆火视频 | 用TensorFlow+40行代码识别手写数字图像 https://mp.weixin.qq.com/s?__biz=MjM5MTQzNzU2NA==&mid=2651647305&idx=1&sn=8afa4ea9019c5aaef70a1311afdf505d

研究上千张数据图表后 我学到12条可视化的秘密准则 | 附资源 https://mp.weixin.qq.com/s?__biz=MjM5MTQzNzU2NA==&mid=2651647207&idx=1&sn=05803530428bb5ca6d65783b51d72ea7

2017年1月历史文章汇总--- 机器学习研究会 https://mp.weixin.qq.com/s?__biz=MzA4NDEyMzc2Mw==&mid=2649677131&idx=5&sn=04f421e197b0e5d31f0e9d38467c9aa7

python中matplotlib绘图中文显示问题解决方法 from matplotlib.font_manager import FontProperties font = FontProperties(fname=r"c:\windows\fonts\simsun.ttc", size=14)
fontproperties=font

20170122: 科技网红Siraj最新油管视频:如何用4分钟搭建神经网络---大数据文摘 https://mp.weixin.qq.com/s?__biz=MjM5MTQzNzU2NA==&mid=2651647587&idx=1&sn=3f19c3a32afcc61d479b71b3069fa4ab

利用 Scikit Learn的Python数据预处理实战指南---大数据文摘 http://mp.weixin.qq.com/s?__biz=MjM5MTQzNzU2NA==&mid=2651647587&idx=2&sn=d0d3a69ce141f4015d6e0320048fbe63

20170127: 明天,再改变世界。 除夕,让心回家。

AI行业实践精选: Kaggle竞赛 —— 2017年房价预测 http://mp.weixin.qq.com/s?__biz=MzI0ODcxODk5OA==&mid=2247483916&idx=1&sn=a83de5391530049632ba2a0ef4d6a60b

20170128 Data Science with R&Python(基于R和Python的数据科学笔记本)---知乎专栏 https://zhuanlan.zhihu.com/rdatamining

Python资源汇总---岁月如歌 http://lovenight.github.io/Python/

20170129 爱可可老师2016年分享精华排行(Part I) http://tinyletter.com/fly51fly/letters/2016-part-i 爱可可老师2016年分享精华排行(Part II) http://tinyletter.com/fly51fly/letters/2016-part-ii 爱可可老师2016分享精华排行(Part III) http://tinyletter.com/fly51fly/letters/2016-part-iii

20170202 Pandas 秘籍 ---龙哥盟飞龙(简书) http://www.jianshu.com/p/f785146c4632?url_type=39&object_type=webpage&pos=1

龙哥盟飞龙(简书) 记录了许多python及其他语言的一些学习、使用技巧和方法 http://www.jianshu.com/u/b508a6aa98eb

Airing的博客,记录了许多爬虫的分析,比如豆瓣、哔哩哔哩 http://blog.ursb.me/

Python网络爬虫Scrapy框架研究(Scrapy1.0教程) https://github.com/yidao620c/core-scrapy

20170205 6万部豆瓣电影数据分析(2016年)---Airing的知乎 https://zhuanlan.zhihu.com/p/24805885

B站2000万用户分析---Airing的知乎 https://zhuanlan.zhihu.com/p/24434456

Airing的github,有哔哩哔哩的视频爬虫和用户爬虫 https://github.com/airingursb

20170208 机器学习研究会---2017年2月历史文章汇总(0208) http://mp.weixin.qq.com/s?__biz=MzA4NDEyMzc2Mw==&mid=2649677237&idx=5&sn=8f44b667f9fbe34fc629087e110a5c7f 机器学习笔记(二)模型评估与选择 http://lib.csdn.net/article/machinelearning/57736

从零开始的Python爬虫速成指南 https://segmentfault.com/a/1190000008135000

机器学习研究会---2017年1月历史文章汇总 http://mp.weixin.qq.com/s?__biz=MzA4NDEyMzc2Mw==&mid=2649677174&idx=5&sn=959846f7de6f14ab88e63a480b192886

20170210 开课吧V---产品经理相关数据课程视频(430个) http://i.56.com/u/sh-iikhqjdjoy/videos 五个鲜为人知,但又不可不知的机器学习开源项目 http://weibo.com/ttarticle/p/show?id=2309351000224073247397303675

20170211 玩点好玩的--使用马尔可夫模型自动生成文章 https://zhuanlan.zhihu.com/p/25172031

20170212 python matplotlib 中文显示参数设置 https://segmentfault.com/a/1190000005144275

20170213 [译]使用scikit-learn进行机器学习(scikit-learn教程1) http://www.cnblogs.com/taceywong/p/4568806.html [译]针对科学数据处理的统计学习教程(scikit-learn教程2) http://www.cnblogs.com/taceywong/p/4570155.html

20170215 Kaggle鱼种辨识竞赛解决方案 https://github.com/rdcolema/nc-fish-classification

20170217: Python网络爬虫Scrapy框架研究 https://github.com/yidao620c/core-scrapy 10 种机器学习算法的要点(附 Python 和 R 代码) https://zhuanlan.zhihu.com/p/25273698?refer=pythoncoder 腩啵兔子的博客---讲多个爬虫的案例。 https://www.hellobi.com/u/lrysjtu/articles

20170219: 利用TensorFlow搞定知乎验证码之《让你找中文倒转汉字》 http://hacker.duanshishi.com/?p=1777

201740220: 滴滴算法大赛算法解决过程(5篇) 数据分析-拟合算法-方案设计-机器学习-GBDT http://codesnippet.info/Home/TagList?PageNo=1&TagName=%E6%BB%B4%E6%BB%B4%E7%AE%97%E6%B3%95%E5%A4%A7%E8%B5%9B

团队协作的网站---何红亮,机器学习小组 https://machinexuexi.slack.com/messages/@slackbot/ https://machinexuexi.slack.com/messages/kaggle_fisher/

基于融360数据的模型构建及用户贷款审批结果预测 http://wenku.baidu.com/link?url=4Dlv5iuen0K9pb2rD-OICKRpXk0QrEcDjsbgJMXo0nuqIUHuq5im-HU8v6p3Q1QKhxyAKshcZco27lsRwnc1etrdDsDQX0r1JhVxlMQEWJC

20170224: Python 的练手项目有哪些值得推荐? https://www.zhihu.com/question/29372574/answer/147908571

机器学习进阶笔记之一 | TensorFlow安装与入门 https://zhuanlan.zhihu.com/p/22410917

20170227: 基于大数据的银行反欺诈的分析报告 http://mp.weixin.qq.com/s?__biz=MzA3MDg0MjgxNQ==&mid=2652390893&idx=1&sn=a471549d0c9ad1c058d9c788b975609b https://github.com/Rockyzsu

20170302: 基于gevent的mini-scrapy爬虫框架 https://github.com/kaito-kidd/mini-scrapy

插画师网站http://www.pixiv.net/ Pixiv-2.1-GUI(D:\EditSoftware\DemoTest\SpiderDemo中)

机器学习研究会2017年2月历史文章汇总 http://mp.weixin.qq.com/s?__biz=MzA4NDEyMzc2Mw==&mid=2649677383&idx=5&sn=48ae6a6a40c58263cb4b6a0f0730f0a2

20170304: 编程浪子-Yiutto的博客,关于机器学/数据分析 http://www.cnblogs.com/Yiutto/

Rocky Chen的github 1.模拟登陆知乎,获取关注问题的id下 所有答案,并推送到kindle电子书 2.30天掌握量化交易 3.暴力破解wordpress博客后台登陆密码 4.爬虫获取http://www.xicidaili.com/ 代理服务器 5.登录并爬取雪球上的所有文章 6.抓取知乎日报 中的 大误 文章,并推送到kindle https://github.com/Rockyzsu

高金kimg1234的GitHub---一些爬虫的代码 https://github.com/kimg1234

python时间序列分析---大熊猫淘沙cnblogs http://www.cnblogs.com/foley/p/5582358.html

我爱计算机---重点关注计算机科学与技术 http://www.52cs.org/

机器学习算法集锦:从贝叶斯到深度学习及各自优缺点 http://mp.weixin.qq.com/s/z3qIVktg3ov5nycj7Z-g5g

豆瓣电影爬虫 https://github.com/yinkaiwen/douban

全栈数据工程师养成攻略 http://study.163.com/course/courseMain.htm?courseId=1003520028

python3 urllib.request 网络请求操作 http://www.cnblogs.com/cocoajin/p/3679821.html

WTF Daily Blog斗大的熊猫的博客 http://blog.topspeedsnail.com/

爬虫项目大集合---Nyloner的github--- https://github.com/Nyloner

20170308: Ricequant - Python量化交易系列课程 https://www.ricequant.com/courses

20170309: R语言内容学习:粉丝日志 http://fens.me/

Python实现网络爬虫下载天涯论坛帖子 https://mp.weixin.qq.com/s?__biz=MzI5NDY1MjQzNA==&mid=2247483675&idx=1&sn=b07f3c586ba92358f5f124c58c5d4bb8

崔庆才的GitHub https://github.com/Germey

python代理爬虫抓豆瓣电影数据 https://zhuanlan.zhihu.com/p/25658564

推荐 | R语言知识体系概览 http://mp.weixin.qq.com/s?__biz=MzA3MTM3NTA5Ng==&mid=2651055748&idx=1&sn=6fcd3d216c5c5586ca005729915402e3

Kaggle项目实战1——Digit Recognizer——排名Top10% http://blog.csdn.net/u013691510/article/details/43195227 Kaggle项目实战2—Titanic:Machine learning from disaster—排名Top20% http://blog.csdn.net/u013691510/article/details/43199085/

使用Python进行数据分析实验工具NumPy、Pandas、Matplotlib、Scikit-learn的入门介绍,使用IPython Notebook格式 https://github.com/wahlmzr/pyDataScienceToolkits_Base

20170311: ggmap 绘制地图相关(R语言) https://github.com/dkahle/ggmap/blob/master/README.md

文本挖掘之特征选择(python 实现) http://www.cnblogs.com/wangbogong/archive/2013/08/15/3251132.html

用R语言进行地震数据可视化 https://tsai1993.github.io/2016/05/20/earthquake.html

Python光大证券中文云系统——爬取新浪财经新闻 http://blog.csdn.net/gs_chen/article/details/52163224

kaggle牛人---Faron(11金) https://www.kaggle.com/mmueller

20170313: 探索广阔的python世界,消息不灵通怎么行 http://www.jianshu.com/p/f55caac2222b

用最简单的语言来解释一下数据挖掘的十大算法 https://zhuanlan.zhihu.com/p/25575610

逻辑回归构建申请信用评级 https://zhuanlan.zhihu.com/p/25576951

8种常见机器学习算法比较 http://blog.csdn.net/u014365862/article/details/52937983

Kaggle入门,看这一篇就够了 https://zhuanlan.zhihu.com/p/25686876

https://zhuanlan.zhihu.com/p/25713752 https://zhuanlan.zhihu.com/p/25713752?group_id=824238593928212480

20170316: SnowNLP是一个python写的类库,可以方便的处理中文文本内容(感觉不是很有用) https://github.com/isnowfy/snownlp

20170317: 逻辑回归构建申请信用评级(R语言) https://zhuanlan.zhihu.com/p/25576951

20170318: Android 窃取手机中微信聊天记录 http://icodeyou.com/2015/06/05/2015-06-05-%20%E8%8E%B7%E5%8F%96%E5%BE%AE%E4%BF%A1%E8%81%8A%E5%A4%A9%E8%AE%B0%E5%BD%95/

20170321: 机器学习(Machine Learning)&深度学习(Deep Learning)资料(Chapter 1)(hhl:很全) https://github.com/ty4z2008/Qix/blob/master/dl.md

20170324: 视频下载神器you-get库(一个可以看片的Python库) https://mp.weixin.qq.com/s?__biz=MzI5NDY1MjQzNA==&mid=2247483691&idx=1&sn=4e2b9d7564e5058e0cb03b3c6d77b945

GBDT迭代决策树入门教程 https://mp.weixin.qq.com/s?__biz=MzA3MDg0MjgxNQ==&mid=2652390947&idx=1&sn=fda280deb370d81d309121a40cf1120e

20170325: Python 操作 MongoDB http://www.cnblogs.com/hhh5460/p/5838516.html

黑科技,老司机放码开车用Python等QQ邮箱发邮件 https://mp.weixin.qq.com/s?__biz=MzI5NDY1MjQzNA==&mid=2247483700&idx=1&sn=b636352525c117b2490f7b4fd90dfa31

机器学习(Machine Learning)&深度学习(Deep Learning)资料(Chapter 1) 注:机器学习资料篇目一共500条,篇目二开始更新 https://github.com/ty4z2008/Qix/blob/master/dl.md#%E6%B3%A8%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E8%B5%84%E6%96%99%E7%AF%87%E7%9B%AE%E4%B8%80%E5%85%B1500%E6%9D%A1%E7%AF%87%E7%9B%AE%E4%BA%8C%E5%BC%80%E5%A7%8B%E6%9B%B4%E6%96%B0

Python做文本情感分析之情感极性分析 http://www.jianshu.com/p/4cfcf1610a73

Python利用Gausian Process对Hyper-parameter进行调参 http://www.jianshu.com/p/90e6abdeb4f2

阿里移动推荐算法大赛总结---xidianycy http://blog.csdn.net/u014374284/article/details/49933487

20170326: 周志华最新论文挑战深度学习 | 深度森林:探索深度神经网络以外的方法 http://mp.weixin.qq.com/s?src=3&timestamp=1490517302&ver=1&signature=TuAMvlukldb23hcWJPdVOp8P8bAFnBRM-EHMq2o2BzQLt0Kbu52N8*YsAAEUt73q9qfdBRGJ6VxxbeYP03UXkPQX7bEJMKai7uKUkU-BC0MFqN41GE2xoTWE-EnX83h7VgD8HAqlbv4vM*Be0DAv4PzY1*dCoiSeYW2YUt3ncxw=

摩拜单车爬虫解析——找到API http://www.jianshu.com/p/07225f301fc4 或者 http://www.april1985.com/

20170327: 只需十四步:从零开始掌握Python机器学习(附资源) https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650724242&idx=1&sn=703d242700e29813d6c482daf6b211c5

使用Python进行描述性统计 http://www.cnblogs.com/jasonfreak/p/5441512.html

模型融合方法概述(stacking讲的比较好) https://zhuanlan.zhihu.com/p/25836678

Python爬虫入门实战八:数据储存——MongoDB与MySQL http://zmister.com/archives/100.html

数据挖掘面试准备(1)|常见算法(logistic回归,随机森林,GBDT和xgboost) http://www.jianshu.com/p/d2109fcd8a2e

Kaggle 入门指南 https://zhuanlan.zhihu.com/p/25742261

Learn R | GBDT of Data Mining(三)---XGBoost https://zhuanlan.zhihu.com/p/25993218

用python实现简单的文本情感分析 http://www.jianshu.com/p/06a4a8e77315

Ensemble_learning 集成学习算法 stacking 算法 http://www.cnblogs.com/zhizhan/p/5051881.html

Scrapy入门.md(崔庆才的GitHub) https://github.com/Germey/Python3WebSpider/blob/master/7.1.2-Scrapy%E5%85%A5%E9%97%A8.md

GBDT迭代决策树入门教程 http://www.cnblogs.com/peizhe123/p/5086128.html

史上最全神经网络结构图画图工具介绍,没有之一! http://mp.weixin.qq.com/s?__biz=MzAxNTc0Mjg0Mg==&mid=2653284913&idx=1&sn=9673d5d7a8f0a6fb06f03c93ef137096

干货|阿里AI工程师教你如何用CNN RNN Attention解决大规模文本分类问题 http://mp.weixin.qq.com/s?__biz=MzA4NzE1NzYyMw==&mid=2247488340&idx=2&sn=5d456df992322752ab7c65798117bf9f

20170328: Linux中crontab-定时任务命令 http://www.cnblogs.com/candle806/archive/2011/12/15/2288491.html

Python3 - 时间处理与定时任务 http://www.pythontab.com/html/2013/pythonjichu_0119/146.html

20170330: 时间序列分析之ARIMA模型预测__R篇 http://www.cnblogs.com/bicoffee/p/3838049.htm

2017年3月历史文章汇总--- 机器学习研究会(20170329) https://mp.weixin.qq.com/s?__biz=MzA4NDEyMzc2Mw==&mid=2649677498&idx=5&sn=0e5171e5f639d35df778e0d7c0801045

CentOS7.2+Python3x+Flask部署标准化配置流程 https://zhuanlan.zhihu.com/p/24554242

小技巧---Github 下载单个文件 http://www.cnblogs.com/zhaoqingqing/p/5534827.html

京东JData算法大赛-高潜用户购买意向预测入门程序(starter code)---秦晓明 https://github.com/daoliker/JData

20170331: Python网络爬虫实战项目代码大全(长期更新,欢迎补充) – Python中文社区 – 知乎专栏 https://seofangfa.com/other-note/python%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB%E5%AE%9E%E6%88%98%E9%A1%B9%E7%9B%AE%E4%BB%A3%E7%A0%81%E5%A4%A7%E5%85%A8%EF%BC%88%E9%95%BF%E6%9C%9F%E6%9B%B4%E6%96%B0%EF%BC%8C%E6%AC%A2%E8%BF%8E%E8%A1%A5.html

菜鸟学Python https://ask.hellobi.com/blog/caoniao_xueyuan

jason's Techblog 讲一些机器学习方面的知识 http://blog.jasonding.top/

特征工程怎么做---来自[不会停的蜗牛][简书] http://www.jianshu.com/p/35135ab0a627

20170401: kaggle排名第一的owen zhang的github https://github.com/owenzhang

Win10下XGBoost安装方法(本地python3.5和anaconda版)(XGboost可以一键安装,不用配置)---hhl未尝试 https://mp.weixin.qq.com/s/oErMSPUbniyayEWPGv6Bvw

干货|阿里AI工程师教你如何用CNN RNN Attention解决大规模文本分类问题 https://mp.weixin.qq.com/s?__biz=MzA4NzE1NzYyMw==&mid=2247488340&idx=2&sn=5d456df992322752ab7c65798117bf9f

20170402: PSO优化算法python包及其简介 https://github.com/tisimst/pyswarm http://pythonhosted.org/pyswarm/

机器学习各种算法怎么调参? (Random Forest和Gradient Tree Boosting这两个模型调参方法) https://www.zhihu.com/question/34470160/answer/114305935

机器学习系列(11)_Python中Gradient Boosting Machine(GBM)调参方法详解 http://blog.csdn.net/han_xiaoyang/article/details/52663170

20170403: 抓取指定知乎用户 followee 的头像 https://github.com/ipreacher/tricks/tree/master/zhihu_img#zhihu_img

【资源】只需十四步:从零开始掌握Python机器学习 https://mp.weixin.qq.com/s?__biz=MzAxMzA2MDYxMw==&mid=2651560222&idx=1&sn=72f8d0ffd7b391e7a40336e8957130e3

Learn R | 机器学习中的分类器评价(ROC与AUC的R实现) https://zhuanlan.zhihu.com/p/26106488

用Python实现文档聚类 http://python.jobbole.com/85481/

python/pandas数据挖掘(十四)-groupby,聚合,分组级运算 http://blog.csdn.net/youngbit007/article/details/54288603

pandas使用笔记 http://blog.csdn.net/youngbit007/article/details/53072718

20170404: Awesome XGBoost https://github.com/dmlc/xgboost/tree/master/demo

机器学习中,有哪些特征选择的工程方法? https://www.zhihu.com/question/28641663

使用sklearn做单机特征工程 http://www.cnblogs.com/jasonfreak/p/5448385.html

聚类分析中几种算法的比较 http://blog.csdn.net/jiary5201314/article/details/18225121

20170405: Python·Jupyter Notebook各种使用方法记录·持续更新 http://blog.csdn.net/tina_ttl/article/details/51031113

【机器学习实验】使用朴素贝叶斯进行文本的分类 http://www.jianshu.com/p/845b16559431

PSO和GA的比较 http://blog.sina.com.cn/s/blog_7423cd260102vty3.html 进化算法、遗传算法与粒子群算法之间的比较 http://blog.csdn.net/hehainan_86/article/details/38398031

王亨的博客---跟着菜鸟一起学R语言(很多R语言技能分享) http://blog.csdn.net/wzgl__wh

20170410: 聚类算法概述(k-Means++/FCM/凝聚层次聚类/DBSCAN) https://github.com/HaoyuHu/clusterAnalysis

拉钩 | 豆瓣 | 链家爬虫项目的合集 https://github.com/HunterChao/Crawler

20170411: 爬取起点中文网月票榜前500名网络小说介绍 https://zhuanlan.zhihu.com/p/26255754

[DM] 都是套路: 从上帝视角看透时间序列和数据挖掘 https://mp.weixin.qq.com/s?__biz=MzI3NTA0MzM1OQ==&mid=2651615410&idx=1&sn=7e891a7ab18ca44facfad0242e3044f7

【Python】寻找电影品味相似的用户并推荐相关电影 http://blog.csdn.net/ns2250225/article/details/43794599

机器学习-组合算法总结(Bootstraping,装袋bagging,提升Boosting与Adaboost,bagging与boosting的区别,Random

Forest,Gradient boosting) http://www.csuldw.com/2015/07/22/2015-07-22%20%20ensemble/

sklearn中聚类(部分) http://blog.csdn.net/good_boyzq/article/details/55000171

20170412: 自然语言处理库之snowNLP https://mp.weixin.qq.com/s?__biz=MzI1MTE2ODg4MA==&mid=2650068142&idx=1&sn=2074bd291588993f7b2e51967ea79c30

20170414: Deep Learning 中文翻译 https://github.com/exacity/deeplearningbook-chinese

Kaggle-Ensemble-Guide(GitHub上一个集成模型的代码集合) https://github.com/MLWave/Kaggle-Ensemble-Guide

20170415: 利用Scrapy爬取所有知乎用户详细信息并存至MongoDB(附源码) https://mp.weixin.qq.com/s?__biz=MzI5NDY1MjQzNA==&mid=2247483771&idx=1&sn=b94ef651ac39b2f8b28579d0420a0abd

20160416: 来简书,看看数据分析多有趣 http://www.jianshu.com/p/18a067d2823c 数据虫巢官网(mite8.com)站点源码,包括站点基础数据爬取代码,以及重构的NLP分词工具等。 https://github.com/blogchong/mite8-com

知乎专栏【数据科学笔记本】,写一些算法的细节 https://zhuanlan.zhihu.com/The-Art-of-Data

AI 技术讲座精选:Python中使用LSTM网络进行时间序列预测 https://mp.weixin.qq.com/s?__biz=MzI0ODcxODk5OA==&mid=2247485000&idx=1&sn=fd1288cb7dc76b92091668aa5cdf6ddd

手把手教你搭建谷歌TensorFlow深度学习开发环境! https://zhuanlan.zhihu.com/p/26389992

开发自己的R包sayHello https://zhuanlan.zhihu.com/p/26333013

爬虫入门到精通-mongodb的基本使用 https://zhuanlan.zhihu.com/p/26394199

20170417: Python实现遗传算法求解n-queens问题(1) http://blog.csdn.net/oxuzhenyi/article/details/70037833

20170418: TensorFlow和深度学习教程 https://github.com/wagamamaz/tensorflow-tutorial

B站用户数据报告(Web App)https://github.com/airingursb/bilibili-report B站用户爬虫:http://github.com/airingursb/bilibili-user B站视频爬虫:http://github.com/airingursb/bilibili-video B站弹幕下载器:http://github.com/airingursb/bilibili-danmu

干货|教你如何在机器学习竞赛中更胜一筹 https://mp.weixin.qq.com/s?__biz=MzA4NzE1NzYyMw==&mid=2247489277&idx=2&sn=c12c513839a3bb3b7e55698c1127faf6

20170419: 手把手教你使用ggplot2进行数据分布探索 https://mp.weixin.qq.com/s?__biz=MzI1NDE1MDk2Mg==&mid=2247484680&idx=1&sn=721a623ac4ecf4b1755465e8ee98ce99

“数据达人”养成记(R语言) https://zhuanlan.zhihu.com/p/26408538

机器学习基础-高质量博客收藏 https://zhuanlan.zhihu.com/p/26082820

20170420: 简书python作者---treelake(有很多有趣的案例) http://www.jianshu.com/u/66f24f2c0f36 使用文本挖掘实现站点个性化推荐 https://zhuanlan.zhihu.com/p/26460781

20170421: Hellobi Live | 4月18日数据挖掘快速上手之R语言实践课件分享 https://zhuanlan.zhihu.com/p/26454956

k-means聚类:讲解与实现 http://aljun.me/post/19 KNN算法讲解及其实现 http://aljun.me/post/20

20170422: 菜鸟教程(HTML / CSS,JavaScript,服务端(php,python,docker等),数据库,移动端,XML 教程等) http://www.runoob.com/

20170424: 当Python遇上微信,可以这么玩(微信好友男女比例、好友个性签名词云) https://zhuanlan.zhihu.com/p/26514576

数据挖掘中常用的数据清洗方法有哪些? https://www.zhihu.com/question/22077960/answer/89277136

漫谈 Clustering 系列 http://blog.pluskid.org/?page_id=78

精确率、召回率、F1 值、ROC、AUC 各自的优缺点是什么? https://www.zhihu.com/question/30643044/answer/48955833

怎样使用 GitHub? https://www.zhihu.com/question/20070065/answer/79557687

20170425: R数据处理|基础篇(二) https://mp.weixin.qq.com/s?__biz=MzA3MTM3NTA5Ng==&mid=2651055931&idx=1&sn=70938b5da132749cea8994b65f1c5c1c

动态地理信息可视化——leaflet构造路径图 https://mp.weixin.qq.com/s?__biz=MzA3Njc0NzA0MA==&mid=2653190684&idx=1&sn=ff78d64a317a06dfde62313a6d1e2d0c

Scrapy抓手机App数据(今日头条)Scrapy第四篇:APP抓取 | 存入MongoDB https://zhuanlan.zhihu.com/p/26527575

Zhihu API for Humans | 试图构建一个更加简洁、优雅的、Pythonic 的知乎 API。 https://github.com/lzjun567/zhihu-api

20170426: itchat-python 微信封装包-实现群发检测好友功能 https://zhuanlan.zhihu.com/p/26554533

20170428: GBDT入门教程之原理、所解决的问题、应用场景讲解 https://mp.weixin.qq.com/s?__biz=MzIxODM4MjA5MA==&mid=2247484772&idx=1&sn=3ee9e2e63fb7161241ba55ac85377a25

20170429: python与redis的初次碰撞——把玩redis数据库的一点心得 https://zhuanlan.zhihu.com/p/26616697

文本分析之网络关系图(Python) https://mp.weixin.qq.com/s?__biz=MzI5NDY1MjQzNA==&mid=2247483804&idx=1&sn=618022404b1d7a7ff4c3d989c7451d36

20170430: Kaggle 首战拿银总结 | 入门指导 (长文、干货) https://zhuanlan.zhihu.com/p/26645088

大数据在保险行业的应用实践(数据分析、机器学习的流程,很不错) https://mp.weixin.qq.com/s?__biz=MzI3MjU5MzIyOA==&mid=2247483971&idx=1&sn=f52412e83e8ce64df69bd9c677c70ca9

20170501: python自带re模块正则表达式去除html标签
http://blog.163.com/jackylau_v/blog/static/175754040201111511753770/

整理开源了一些迁移学习资料、论文与代码---王晋东不在家 https://zhuanlan.zhihu.com/p/26657579

一些机器学习的资源---王晋东不在家 https://github.com/jindongwang/MachineLearning

20170502: 爬虫杂谈(一)使用Selenium进行网页抓取 https://zhuanlan.zhihu.com/p/26602470

Charles 是在 Mac 下常用的网络封包截取工具---Charles 从入门到精通 http://blog.devtang.com/2015/11/14/charles-introduction/

20170503: kaggle牛人---DMITRY EFIMOV(可以看一看解题思路和代码) http://www.efimov-ml.com/about-me.html

20170504: 备战双十一,scrapy框架爬取京东优惠券信息(文末有GitHub代码地址) https://zhuanlan.zhihu.com/p/23330359

一行R代码来实现繁琐的可视化 https://mp.weixin.qq.com/s?__biz=MzA3MTM3NTA5Ng==&mid=2651055965&idx=1&sn=2f2562d2165eaf625293fd4b0cb36763

20170505: 从零开始的 Python 爬虫速成指南(scrapy模块介绍,入门可看) https://zhuanlan.zhihu.com/p/26301354

DataCastle 大学生助学金精准资助预测(样本不均衡条件下的多分类任务)第7/352名解决方案 https://github.com/kuhung/Student-Grants

GuHong的github上有多个比赛的解题思路和代码(比如上面那个),可以关注。 https://github.com/kuhung

精确率、召回率、F1 值、ROC、AUC 各自的优缺点是什么?(竹间智能 Emotibot的回答) https://www.zhihu.com/question/30643044/answer/161955532

DIY 留学申请全攻略 https://zhuanlan.zhihu.com/p/26724768

20170506: 仅用四行代码就可以挖掘你的QQ聊天记录 http://youerning.blog.51cto.com/10513771/1712775

20170507: 大数据时代里,运维工程师的自我修养i http://youerning.blog.51cto.com/10513771/1726349

机器学习笔记(十一)实践之数据竞赛的套路---王大宝的CD(它的其他机器学习内容也可以看看) http://blog.csdn.net/sinat_22594309/article/details/68951145

机器学习中用来防止过拟合的方法有哪些? https://www.zhihu.com/question/59201590

python数据分析之股票实战 http://youerning.blog.51cto.com/10513771/1712775

20170508: 详解Kaggle房价预测竞赛优胜方案:用Python进行全面数据探索 http://www.36dsj.com/archives/79218

ECharts+Python 给你的数据做“美颜” https://zhuanlan.zhihu.com/p/24952863

备战双十一,scrapy框架爬取京东优惠券信息 https://github.com/lidingke/JDcoupons

kaggle大牛---DMITRY EFIMOV http://www.efimov-ml.com/about-me.html

一行R代码来实现繁琐的可视化(ggfortify包)比较全面,还在不断补充中 https://mp.weixin.qq.com/s?__biz=MzA3MTM3NTA5Ng==&mid=2651055965&idx=1&sn=2f2562d2165eaf625293fd4b0cb36763

【技术干货】国外大神 手把手教你通过Python机器学习租到低价的公寓 https://zhuanlan.zhihu.com/p/26672223

介绍用Gephi进行数据可视化 https://zhuanlan.zhihu.com/p/26718634

20170509: Learn R | 统计学习之时间序列分析(一) https://zhuanlan.zhihu.com/p/26700427

20170510: 机器学习中用来防止过拟合的方法有哪些? https://www.zhihu.com/question/59201590

为什么在实际的 kaggle 比赛中 gbdt 和 random forest 效果非常好? https://www.zhihu.com/question/51818176/answer/127706751

20170512: 【可视化Scikit-Learn流程搭建界面】by [Alvaro Bermejo] GitHub https://github.com/AlvarBer/Persimmon

一篇文章教你彻底理解用于字符串匹配的KMP算法 https://mp.weixin.qq.com/s?__biz=MzIxMjc2NTgyOQ==&mid=2247484077&idx=1&sn=39e4b61cf3e2a04db92d312a44c0f471

Python分布式抓取和分析京东商城评价 https://mp.weixin.qq.com/s?__biz=MzAxMjUyNDQ5OA==&mid=2653553087&idx=1&sn=df05d21ac885572717f23b2a52404080

雪球网沪深全站股票评论爬虫 https://mp.weixin.qq.com/s?__biz=MzAxMjUyNDQ5OA==&mid=2653553138&idx=1&sn=567db0df6af6155232d71ae379494481

【干货】Kaggle 数据挖掘比赛经验分享 https://mp.weType=weixin

20170513: 如何使用R语言解决可恶的脏数据 https://mp.weixin.qq.com/s?__biz=MzI1NDE1MDk2Mg==&mid=2247484685&idx=1&sn=4dc3ac1235fc4b520a057f1d4d5f7d7d

ggplot2你需要知道的都在这 https://mp.weixin.qq.com/s?__biz=MzA3MTM3NTA5Ng==&mid=2651056029&idx=1&sn=7bb59e8b448f8ff56664dded26317169

干货 | 携程酒店浏览客户流失概率预测 https://mp.weixin.qq.com/s/EwQOpbOaItyvTCKRtDxlVA?scene=25#wechat_redirect

20170514: 为什么Kaggle数据分析竞赛者偏爱XGBoost https://m.aliyun.com/yunqi/articles/70770

20170515: sklearn做交叉验证(返回结果的类型,可以自定义) http://www.thinksaas.cn/topics/0/529/529799.html

【机器学习】如何做出一个更好的Machine Learning预测模型 https://zhuanlan.zhihu.com/p/25013834

Selenium 爬取淘宝实战练习 https://mp.weixin.qq.com/s?__biz=MzI5NDY1MjQzNA==&mid=2247483857&idx=1&sn=878f1d7ec20ca80aced516efd874d2d2

中文数据预处理材料 https://github.com/dongxiexidian/Chinese

2017年4月历史文章汇总(有前几个月汇总的链接) https://mp.weixin.qq.com/s?__biz=MzA4NDEyMzc2Mw==&mid=2649677629&idx=5&sn=b7834a2bbaf3275524063fc1441bdb73

20170516: Scrapy之断点续爬 https://zhuanlan.zhihu.com/p/26810901

20170517: 让好奇心驱动人工智能:UC Berkeley提出自监督预测算法 http://jiqizhixin.com/article/2852

20170520: AR(I)MA时间序列建模过程——步骤和python代码 https://mp.weixin.qq.com/s?__biz=MzA3MDg0MjgxNQ==&mid=2652391163&idx=1&sn=b922c131154f0b70f4a1205c2f3eea3e

ROC曲线以及评估指标F1-Score, recall, precision-整理版 https://mp.weixin.qq.com/s/iRDfbO2WUjNoQ31lUS4y2g

回归、分类与聚类:三大方向剖解机器学习算法的优缺点 https://zhuanlan.zhihu.com/p/27013861

daily's People

Contributors

hhlisme avatar

Stargazers

 avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.