前言
技术选型
- 分布式存储 Hadoop(HDFS)
 - 分布式数仓 Hive
 - 分布式数据库 Hbase
 - 分布式计算 Flink
 - 分布式消息队列 Kafka
 - 批数据同步 DataX
 - 实时Mysql Canal 其他的数据库后续支持。
 - 作业调度 crontab 先实现简单的定时任务,之后再考虑任务流处理。
 - 数据湖 暂不考虑。
 
数据处理流程及分层
  
其中数据分层
- 原始数据层 其他源的原始数据不进行处理
 - 原子层 数据附加来源标签
 - 转换层 数据字段转换为统一的形式
 - 汇总层 把不同来源的相同数据进行按策略汇总
 - 主题层 把数据分为不同的主题
 
API接口
对外提供API接口采取如下方式
- Redis
 - Redis+Hbase
 
数据转换
- 截取
 - 对应转换 例如:男=>1 女=>2
 - 日期字符串 => 时间戳
 - 数据类型转换 如 字符串转数字 数字转字符串
 
推荐项目
DataX ETL项目
https://gitee.com/psvmc/datax-web
对比
Taier
文档:https://dtstack.github.io/Taier/docs/guides/introduction/
视频:https://www.bilibili.com/video/BV13L4y1L71w/
源码:https://github.com/DTStack/Taier
推荐资源
数据中台是什么?
https://www.bilibili.com/video/BV1e3411W7f1?vd_source=e0fcc7abaacc3af8b556e0441cd6d47a
DataX Java集成
https://developer.aliyun.com/article/642896
自己实现DataX
https://www.bilibili.com/video/BV1MP4y1F7qE?vd_source=e0fcc7abaacc3af8b556e0441cd6d47a
【网易大数据专家,为你剖析数据中台的现状及未来】
https://www.bilibili.com/video/BV1EQ4y1M7fW?vd_source=e0fcc7abaacc3af8b556e0441cd6d47a
Spark
UDF:User Defined Function,用户自定义函数。