Git Product home page Git Product logo

bigdata_platform's Introduction

大数据计算平台

需求

数据采集

导入HDFS

  • 文件上传
    • 新建数据源
      • 数据源命名
      • 选择分组
      • 记录文件路径信息
      • 上传时间
    • 上传目标
      • 公共空间
      • 个人空间
    • 上传数据
      • 自动创建文件夹
      • 用户自定义路径名
      • 是否覆盖
  • 数据库拉取
    • 数据库信息预览
    • 是否覆盖导入
    • 单表导入
    • SQL导入
    • 指定路径名称
    • 新建数据源
      • 数据源命名
      • 选择分组
      • 记录文件路径信息

导入Hive

  • 文件上传
    • 是否自动读取字段名称
    • 是否覆盖
    • 新建数据源
      • 数据源命名
      • 选择分组
      • 记录数据源表结构信息
    • 考虑添加自动转码功能
    • 指定表结构
    • 自定义表名称
    • 上传目标
      • 个人空间
      • 公共空间
  • 数据库拉取
    • 数据库信息预览
    • 是否覆盖导入
    • 单表导入
    • SQL导入
    • 自定义表名称
    • 新建数据源
      • 数据源命名
      • 选择分组
      • 记录数据源表结构信息

从HDFS导入

  • 以生成的结果目录作为数据源

统计分析

  • MR

    • 选择数据源
    • 用户自定义结果路径
    • 指定算法
    • 保存计算流程
  • HQL

    • 选择数据源
    • 自定义SQL
    • 指定结果表名称
    • 封装简单统计功能
      • 求最值
      • 求平均
      • 求和
      • 计数
    • 保存计算流程

结果展现

  • 显示结果表字段名称
  • 显示结果表预览数据
  • 选择图表类型
  • 选择构建图表的列
  • 设置相关配置参数
  • 渲染图表
  • 多图展示
  • 混合展示

管理功能

用户注册

  • 记录用户信息
  • 创建用户空间
    • HDFS存放路径
    • Hive数据库

数据源管理

  • 数据源删除
    • 删除数据源信息
    • 移除相应的数据文件
  • 数据源预览
    • HDFS文件类型
      • 文件大小
      • 上传时间
      • 存放路径
    • Hive管理类型
      • 表结构预览
      • 上传时间
      • 部分数据预览
  • 数据源分组管理
    • 添加分组
      • 添加校验
    • 删除分组
      • 删除校验
    • 分组列表
    • 修改分组
      • 修改校验
  • 数据源分组变更
    • 移动数据源

数据流程管理

  • 新建流程
  • 流程信息记录
    • 相关数据源
    • 用户自定义SQL
    • 相关算法
    • 结果表
    • 结果路径
  • 流程运行状态
    • 未开始
    • 运行中
    • 已完成
    • 运行异常
  • 结果表或结果路径记录
  • 数据流程列表

用户登录

用户权限管理

开发环境

web

  • JDK 1.8
  • SpringBoot
  • MySQL
  • Redis
  • Thymeleaf
  • E-Charts
  • Amaze UI

大数据组件

  • hadoop-2.9.1
  • hive-1.2.2
  • sqoop-1.4.7

bigdata_platform's People

Contributors

goldlone avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.