整理稿: https://github.com/memect/hao/blob/master/awesome/learn-big-data.md
基本思路:大数据是一个内涵非常广泛的概念,以前称为统计,数据科学,机器学习,数据挖掘,分布式数据库,分布式计算,存储,可视化等等诸多领域的方法均可列入大数据的范畴.更详细的领域列表可以见Github上的Awesome Big Data
https://github.com/onurakpolat/awesome-bigdata
大多数大数据技术其实对于普通的个人和中小企业并不需要全部涉猎.学习大数据技术前最好先有"小数据"(内存和单机硬盘就能解决的数据)处理经验.盲目上大数据技术不仅浪费学习时间,也会不必要地提高后期运营成本.最好是从业务出发,逐步提升.
核心最重要的一些技术网上一些课程,如coursera和小象学院都有提供.这里我们列一个极简版,面向的是以Excel为基础,目的是解决普通数据处理任务(也就是,不是Google,淘宝那样大规模)的用户.
第0级:Excel和简单图表
第1级:关系数据库和SQL语言,如Access和MySQL ,了解最基础的数据库知识
第2级:学一点基础的编程,推荐Python/R,Java也可以,最基本的知识就可以
第3级:学会在程序中访问数据库,做一些结合业务的分析
第4级:如果有速度,容量的要求,学一个NoSQL数据库,比如redis,mongodb,neo4j,elasticsearch.不需要都学,根据业务需要选择一个常用的就可以了.
第5级:学一点数据分析常识,如线性回归,多项式拟合,逻辑回归,KNN聚类,决策树,Naive贝叶斯等.Python/R/Java都有现成实现
第6级:如果有变态的容量,计算要求,学如何使用云计算平台,如亚马逊的EC2, S3
第7级:如果有变态的分析要求,了解一点Hadoop和MapReduce的原理,然后用一个现成的实现,如Amazon Elastic MapReduce (Amazon EMR)
第8级:如果有更变态的分析要求,学一点spark或任何一个SQL on Hadoop.
这时候恭喜你,在任何一个"大数据群"都可以指点江山了.