广告
广告
您的位置 资讯中心 > 产业新闻 > 正文

大厂是如何搭建大数据平台架构

2020-01-14 15:19:17 来源:中琛魔方 点击:405

【大比特导读】淘宝的大数据平台基本也是分成三个部分,上面是数据源与数据同步;中间是云梯1,也就是淘宝的Hadoop大数据集群;下面是大数据的应用,使用大数据集群的计算结果。

今天来看一下淘宝、美团和滴滴的大数据平台,一方面进一步学习大厂大数据平台的架构,另一方面也学习大厂的工程师如何画架构图。通过大厂的这些架构图,你就会发现,不但这些知名大厂的大数据平台设计方案大同小异,架构图的画法也有套路可以寻觅。

大数据平台

淘宝大数据平台

淘宝可能是中国互联网业界较早搭建了自己大数据平台的公司,下图是淘宝早期的Hadoop大数据平台,比较典型。

淘宝的大数据平台基本也是分成三个部分,上面是数据源与数据同步;中间是云梯1,也就是淘宝的Hadoop大数据集群;下面是大数据的应用,使用大数据集群的计算结果。

在Hadoop中的计算任务会通过天网调度系统,根据集群资源和作业优先级,调度作业的提交和执行。计算结果写入到HDFS,再经过DataExchange同步到MySQL和Oracle数据库。处于平台下方的数据魔方、推荐系统等从数据库中读取数据,就可以实时响应用户的操作请求。

淘宝大数据平台的核心是位于架构图左侧的天网调度系统,提交到Hadoop集群上的任务需要按序按优先级调度执行,Hadoop集群上已经定义好的任务也需要调度执行,何时从数据库、日志、爬虫系统导入数据也需要调度执行,何时将Hadoop执行结果导出到应用系统的数据库,也需要调度执行。可以说,整个大数据平台都是在天网调度系统的统一规划和安排下进行运作的。

DBSync、TimeTunnel、DataExchange这些数据同步组件也是淘宝内部开发的,可以针对不同的数据源和同步需求进行数据导入导出。这些组件淘宝大都已经开源,我们可以参考使用。

美团大数据平台

Kafka的数据会被流式计算和批处理计算两个引擎分别消费。流处理使用Storm进行计算,结果输出到Hbase或者数据库。批处理计算使用Hive进行分析计算,结果输出到查询系统和BI平台。

数据分析师可以通过BI产品平台进行交互式的数据查询访问,也可以通过可视化的报表工具查看已经处理好的常用分析指标。公司高管也是通过这个平台上的天机系统查看公司主要业务指标和报表。

美团大数据平台的整个过程管理通过调度平台进行管理。公司内部开发者使用数据开发平台访问大数据平台,进行ETL开发,提交任务作业并进行数据管理。

滴滴大数据平台

滴滴大数据平台分为实时计算平台和离线计算平台两个部分。

实时计算平台架构如下。数据采集以后输出到Kafka消息队列,消费通道有两个,一个是数据ETL,使用Spark Streaming或者Flink将数据进行清洗、转换、处理后记录到HDFS中,供后续批处理计算。另一个通道是Druid,计算实时监控指标,将结果输出到报警系统和实时图表系统DashBoard。

离线计算平台架构如下。滴滴的离线大数据平台是基于Hadoo 2和Spark以及Hive构建,在此基础上开发了自己的调度系统和开发系统。调度系统和前面其他系统一样,调度大数据作业的优先级和执行顺序。开发平台是一个可视化的SQL编辑器,可以方便地查询表结构、开发SQL,并发布到大数据集群上。

此外,滴滴还对Hbase重度使用,并对相关产品做了一些自定义的开发,维护着一个和实时、离线两个大数据平台同级别的Hbase平台,它的架构图如下。

来自于实时计算平台和离线计算平台的计算结果被保存到Hbase中,然后应用程序通过Phoenix访问Hbase。而Phoenix是一个构建在Hbase上的SQL引擎,可以通过SQL方式访问Hbase上的数据。

大厂是如何搭建大数据平台架构.中琛魔方大数据(www.zcmorefun.com)表示可以看到,这些知名大厂的大数据平台真的是大同小异,他们根据各自场景和技术栈的不同,虽然在大数据产品选型和架构细节上略有调整,但整体思路基本上都是一样的。不过也正是这种大同小异,让我们从各个角度更加了解大数据平台架构,对大数据平台架构有了更加深刻的认知。

声明:转载此文是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益,请与我们联系,我们将及时更正、删除,谢谢。

分享到:
阅读延展
大数据平台
  • 韩国电信推出韩国首个基于AI的大数据平台

    韩国电信推出韩国首个基于AI的大数据平台

    这家韩国第二大运营商7月份被韩国科学和信息通信技术部选中运营该平台。在一份声明中该公司解释说,过去的五个月中,其与包括京畿大学和韩国互联网和安全局在内的其他16个组织合作,共同构建了KT大数据平台。

  • 光伏电站并购数量下滑 传统发电企业成接盘大头

    光伏电站并购数量下滑 传统发电企业成接盘大头

    日前,电力产业大数据平台电易汇发布《2019年前三季度光伏并购报告》显示,2019年前三季度,国内光伏电站的累计交易规模约为1600MW,仅为2018年全年3741MW交易规模的43%。

  • 航天技术打造城市大数据平台 实现街道“一张图”管理

    航天技术打造城市大数据平台 实现街道“一张图”管理

    该平台作为西城区大数据中心的重要组成部分,旨在打破政府各管理部门、各业务应用系统之间的信息孤岛和壁垒,有效推动白纸坊街道政务数据共享,为街道各项工作开展提供信息支撑,全面提升街道的治理能力和公共服务水平。

  • 廖建新:5G是促进大数据繁荣发展的催化剂

    廖建新:5G是促进大数据繁荣发展的催化剂

    大数据平台作为数据中心、生产中心和开放中心,为互联网产业与传统产业链上的角色提供数据接口和开放环境,为互联网、通信、教育、医疗、金融、交通、游戏、旅游、公共安全等行业提供智慧服务,促进互联网行业和传统行业的共同发展。

  • 腾讯大数据平台十年升级四次,每日数据计算量超30万亿

    腾讯大数据平台十年升级四次,每日数据计算量超30万亿

    腾讯目前正在进行以批流融合、ABC融合、以及数据湖和联邦学习为方向的下一代大数据平台的研究,该平台将具备混合部署、跨域数据共享和边缘计算等能力。

  • 亨通沈小红:大数据平台服务高质量管理体系

    亨通沈小红:大数据平台服务高质量管理体系

    服务质量跟设计质量是相辅相成的概念,做好售前售后服务的原因在于我们要以客户为中心,充分了解客户的需求,最终才能满足并超越客户的期望来提升客户的满足度。

微信

第一时间获取电子制造行业新鲜资讯和深度商业分析,请在微信公众账号中搜索“大比特商务网”或者“big-bit”,或用手机扫描左方二维码,即可获得大比特每日精华内容推送和最优搜索体验,并参与活动!

发表评论

  • 最新评论
  • 广告
  • 广告
  • 广告
广告
Copyright Big-Bit © 1999-2019 All Right Reserved 大比特资讯公司 版权所有       未经本网站书面特别授权,请勿转载或建立影像,违者依法追究相关法律责任