- Hadoop是一个由Apache基金会所开发的分布式系统基础架构。在本项目中你需要搭建Hadoop环境并实现一个电商用户交易数据分析应用。
- Hadoop环境搭建参考:Hadoop官方文档
- 电商用户交易数据集链接:百度云
- 数据集来源京东数据挖掘竞赛,包括用户基本信息、商品基本信息、用户行为信息以及用户下单信息和评价信息。数据集的详细描述文档在压缩包中。
- 数据清洗
去除数据集中的重复数据。 - 商品销售浏览情况分析
对不同商品的销售和浏览情况进行统计,并按照销售量和浏览量从大到小排序。 - 用户行为的时间序列分析
统计一个月内每天活跃用户数量变化。
完成任意一个以下内容会获得额外加分,但是总分不超过该编程作业总分。
- 用户类型分析
基于RFM模型对用户进行分类。 - 商品推荐
是统计最经常与该商品一同下单的商品,将此商品推荐给下单购买了该商品的用户。 - 销售量预测
对京东商城的单日销售量进行预测