广告
广告
大厂是如何搭建大数据平台架构
您的位置 资讯中心 > 产业新闻 > 正文

大厂是如何搭建大数据平台架构

2020-01-14 15:19:17 来源:中琛魔方 点击:652

【大比特导读】淘宝的大数据平台基本也是分成三个部分,上面是数据源与数据同步;中间是云梯1,也就是淘宝的Hadoop大数据集群;下面是大数据的应用,使用大数据集群的计算结果。

今天来看一下淘宝、美团和滴滴的大数据平台,一方面进一步学习大厂大数据平台的架构,另一方面也学习大厂的工程师如何画架构图。通过大厂的这些架构图,你就会发现,不但这些知名大厂的大数据平台设计方案大同小异,架构图的画法也有套路可以寻觅。

淘宝大数据平台

淘宝可能是中国互联网业界较早搭建了自己大数据平台的公司,下图是淘宝早期的Hadoop大数据平台,比较典型。

淘宝的大数据平台基本也是分成三个部分,上面是数据源与数据同步;中间是云梯1,也就是淘宝的Hadoop大数据集群;下面是大数据的应用,使用大数据集群的计算结果。

在Hadoop中的计算任务会通过天网调度系统,根据集群资源和作业优先级,调度作业的提交和执行。计算结果写入到HDFS,再经过DataExchange同步到MySQL和Oracle数据库。处于平台下方的数据魔方、推荐系统等从数据库中读取数据,就可以实时响应用户的操作请求。

淘宝大数据平台的核心是位于架构图左侧的天网调度系统,提交到Hadoop集群上的任务需要按序按优先级调度执行,Hadoop集群上已经定义好的任务也需要调度执行,何时从数据库、日志、爬虫系统导入数据也需要调度执行,何时将Hadoop执行结果导出到应用系统的数据库,也需要调度执行。可以说,整个大数据平台都是在天网调度系统的统一规划和安排下进行运作的。

DBSync、TimeTunnel、DataExchange这些数据同步组件也是淘宝内部开发的,可以针对不同的数据源和同步需求进行数据导入导出。这些组件淘宝大都已经开源,我们可以参考使用。

美团大数据平台

Kafka的数据会被流式计算和批处理计算两个引擎分别消费。流处理使用Storm进行计算,结果输出到Hbase或者数据库。批处理计算使用Hive进行分析计算,结果输出到查询系统和BI平台。

数据分析师可以通过BI产品平台进行交互式的数据查询访问,也可以通过可视化的报表工具查看已经处理好的常用分析指标。公司高管也是通过这个平台上的天机系统查看公司主要业务指标和报表。

美团大数据平台的整个过程管理通过调度平台进行管理。公司内部开发者使用数据开发平台访问大数据平台,进行ETL开发,提交任务作业并进行数据管理。

滴滴大数据平台

滴滴大数据平台分为实时计算平台和离线计算平台两个部分。

实时计算平台架构如下。数据采集以后输出到Kafka消息队列,消费通道有两个,一个是数据ETL,使用Spark Streaming或者Flink将数据进行清洗、转换、处理后记录到HDFS中,供后续批处理计算。另一个通道是Druid,计算实时监控指标,将结果输出到报警系统和实时图表系统DashBoard。

离线计算平台架构如下。滴滴的离线大数据平台是基于Hadoo 2和Spark以及Hive构建,在此基础上开发了自己的调度系统和开发系统。调度系统和前面其他系统一样,调度大数据作业的优先级和执行顺序。开发平台是一个可视化的SQL编辑器,可以方便地查询表结构、开发SQL,并发布到大数据集群上。

此外,滴滴还对Hbase重度使用,并对相关产品做了一些自定义的开发,维护着一个和实时、离线两个大数据平台同级别的Hbase平台,它的架构图如下。

来自于实时计算平台和离线计算平台的计算结果被保存到Hbase中,然后应用程序通过Phoenix访问Hbase。而Phoenix是一个构建在Hbase上的SQL引擎,可以通过SQL方式访问Hbase上的数据。

大厂是如何搭建大数据平台架构.中琛魔方大数据(www.zcmorefun.com)表示可以看到,这些知名大厂的大数据平台真的是大同小异,他们根据各自场景和技术栈的不同,虽然在大数据产品选型和架构细节上略有调整,但整体思路基本上都是一样的。不过也正是这种大同小异,让我们从各个角度更加了解大数据平台架构,对大数据平台架构有了更加深刻的认知。

声明:转载此文是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益,请与我们联系,我们将及时更正、删除,谢谢。

分享到:
阅读延展
大数据平台
  • 大数据平台搭建包含哪些层级

    大数据平台搭建包含哪些层级

    提供基于云的列式存储、NoSQL存储或数据仓库存储能力;根据业务需求和快速配置,可切换相应的分布式存储模式,还可根据需要对传统BI系统的数据仓库和数据集市进行集成。

  • 京东数科T1大数据平台 推动金融新基建发展

    京东数科T1大数据平台 推动金融新基建发展

    全新大数据平台包括数据采集平台、数据治理平台、数据分析和可视化平台、DAAS数据服务平台、大数据管理平台和数据地图,其中还包含大数据分析的全生命周期,为各个行业提供“一站式”解决方案,通过对海量数据进行深度挖掘,实现真正的数据价值。

  • 现在学什么技术好?北大青鸟学大数据怎么样?

    现在学什么技术好?北大青鸟学大数据怎么样?

    武汉北大青鸟鲁广校区的大数据课程是真正的大数据课程,一共有八个阶段:第一阶段:JavaEE、第二阶段:Hadoop、第三阶段:Spark、第四阶段:Python、第五阶段:项目实战、第六阶段:集群管理、第七阶段:阿里云大数据平台、第八阶段:CC服务。

  • 大数据驱动快递业安全健康发展

    大数据驱动快递业安全健康发展

    王丰表示,依托大数据平台,邮政业安全中心组建了快递大数据开发应用工程实验室,培育了一系列驱动行业高质量发展和服务国家社会治理的快递大数据产品。

  • 计算速度提高2000倍 国家税务总局大数据平台已建设完成

    计算速度提高2000倍 国家税务总局大数据平台已建设完成

    税收是经济发展的晴雨表。我国税务系统也是最早开始信息化、数字化建设的。1994年,我国开启了“金税工程”,即覆盖全国的税系统建设。随着社会经济发展,我国纳税人数量在不断增加,企业的经营范围日益多元。

  • “大数据+区块链”的智慧城市建设!

    “大数据+区块链”的智慧城市建设!

    将区块链技术应用于大数据之中,使得平台上数据无法随意修改、增删,使得大数据极具弹性,存储量也随之增加,安全性和技术性兼得。区块链技术对大数据的影响在于对于数据方面的确认以及数据存储方面,为大数据平台提供有力的技术补充。

微信

第一时间获取电子制造行业新鲜资讯和深度商业分析,请在微信公众账号中搜索“大比特商务网”或者“big-bit”,或用手机扫描左方二维码,即可获得大比特每日精华内容推送和最优搜索体验,并参与活动!

发表评论

  • 最新评论
  • 广告
  • 广告
  • 广告
广告
Copyright Big-Bit © 2019-2029 All Right Reserved 大比特资讯公司 版权所有       未经本网站书面特别授权,请勿转载或建立影像,违者依法追究相关法律责任