“袋鼠云经过长年的摸索和积累,确定了独有的数据中台产品化方向和技术架构,打磨出的“数栈DTinsight”产品显著异于其他厂商,某种意义上讲,我们认为它很好地诠释了云原生数据中台,是新一代的数字化基础设施。”—— 袋鼠云数栈事业部总经理闵佳
袋鼠云数栈事业部总经理闵佳
今年中国信息通信研究院发布了《中国数字经济发展白皮书》,报告指出2020年中国数字经济规模达到39.2万亿元,占GDP比重为38.6%,同比名义增长9.7%。能够看出国内数字经济的发展势头十分迅猛,企业自身的数字化建设和转型迫在眉睫,其中对数据的治理、管理、应用是企业运营关注的首要焦点。
8月中旬,当我们在采访闵佳先生的过程中提及:“数据中台”概念正处于大热炒作期或将面临红海竞争,袋鼠云的数据中台产品应当如何破局时,闵佳的回答得十分从容,显得胸有成竹。
“数据中台还处于一个庞大的增量市场中,我们的产品与解决方案还显著区别于其他厂商的,陷入红海竞争的概率并不大。”闵佳说到。
企业数字化转型道路上,面临的障碍与难关“在过去服务客户与服务项目的过程中,我们总结了关于企业推进数字化建设的痛点,”闵佳认为,数据中台如何将自身业务产生的数据资产化是一项重要任务,数据资产的质量也决定了其应用效果,而数据资产化有赖于高效的数据质量管理工作。
“想要将数据转化为资产,首先需要经过一套完整的数据清晰流程,包括建立数据管理标准、数据接入渠道、数据质量核查评估体系等。”闵佳向我们列举了在企业发展过程中,随着各种信息系统的上线所逐步产生的数据采集方式,覆盖了从业务数据,行为数据,系统日志数据,IOT数据等,数据类型涵盖结构化数据,半结构化数据到非结构化数据等来源不一、形式不一、标准不一的复杂数据类型。“如此多的原始数据蕴含的信息量和价值是庞大的,但是用人力去做计算、清理工作量和成本是庞大的,而且几乎无法完成,这就是为什么许多企业懂得数据资产的重要性,却迟迟不能建立数据资产库的原因,它本身就是一件知易行难的事情。”
企业在试图挖掘数据价值,实现数据业务化的过程中,常常面临各种痛点和难点:
*是数据孤岛严重的问题。烟囱式的应用开发模式,导致数据分散在不同的业务系统中,数据割裂严重,无法有效整合打通,很难做统一的分析与统计,难以发挥全域数据的价值;
第二是重复开发。缺少数据沉淀、数据共享机制,当有新的数据需求时,重复开发导致人力资源、计算资源浪费严重;
第三是数据管理困难。数据没有统一的标准和定义,分散在不同的存储上,没有统一的数据入口,元数据维护、在线化管理困难;
第四是技术门槛高。数据采集、离线处理、实时处理、数据挖掘等需要用到不同的技术和组件,并且技术更新快,组件版本升级频繁,熟练掌握这些技术,需要花费大量的精力;
最后是需求响应慢。为了满足不同业务方的数据需求,需要从多个业务系统中进行数据采集,再做复杂的转换加工,缺乏工具和平台方面的支撑,疲于应付临时性提数分析需求,无暇顾及平台级建设和数据治理,恶性循环。
从单机数据库到数据中台:四代数仓技术的变革历程“显而易见,企业数字化转型中遭遇的一系列痛点在呼唤催生数据中台,但数据中台的概念产生和实际落地并非一步到位,而是经历漫长了的发展过程。”闵佳向我们展示了关于四代数仓发展的一个简要历史资料——为了解决数据孤岛的问题,实现数据分析,数据支撑业务决策,赋能业务的需求,二十世纪九十年代,数据仓库之父Bill Inmon提出数据仓库的概念,在之后的30年时间里,数据仓库技术经过了四代的发展和变革。
*代:SMP架构
share-storage共享存储架构,采用EMC/IBM高端存储,优点是使用简单方便,和OLTP的数据库技术栈一致,缺点是存储昂贵,磁盘数据读写效率低,并且只能扩展到十几个节点,比较典型的是Orale、Oracle RAC、DB2等产品。
第二代:MPP架构
为了解决节点扩展性问题,出现了share-nothing的MPP架构,内存、存储都是自控制的,不存在共享。每个节点都是一个单独的数据库,采用本地计算的模式,节点之间的数据交互通过节点互联网络实现。通过将数据分布到多个节点上来实现海量数据的存储,通过并行查询处理来提高查询性能,这种架构以TeraData, HP Vertica,EMC GreenPlum等产品为代表。缺点是,新的节点加入的时候,数据需要重新分布,每次计算的时候,如果数据不在本节点,需要通过网络把数据移动过来,当节点较多的时候,移动数据耗费大量的IO和网络资源,这样就导致当集群规模到100个节点规模的时候,就很难继续横向扩展。
第三代:分布式架构
随着数据量的增长,为了解决更大规模的节点扩展性问题,Google在2006年发表了三篇设计论文,也就是著名的三驾马车: GFS、MapReduce、BigTable。依据此理论,产生了HDFS、MapReduce、 HBase等优秀的分布式组件,Hadoop生态圈开始蓬勃发展,直至今日,Hadoop在各行各业广泛应用,为了支持不同的场景,不断地有新的组件加入到Hadoop体系,例如Kudu 、Presto、Spark、Flink等。同时为了解决各种大数据组件繁琐的安装、管理、服务等问题,也产生了一些专门做Hadoop发行版的商业化公司,例如Cloudera、MapR、华为等。
第四代:新一代数仓架构-数据中台
Hadoop的横空出世,虽然解决了海量数据量下的节点扩展性,和各种计算场景的支持问题,但Hadoop生态圈,技术组件繁多,版本更新频繁,相当于一个重型武器,因此大数据相关人才需要花费大量的时间才能掌握此技术,并且开发效率低,管理复杂,而且后续组件和任务运维都要投入非常大的资源。为了解决这些问题,最近几年,数据中台的理念开始在各行各业普及和落地,数据中台最核心的价值是沉淀公共数据能力和产品技术能力,强调数据和技术能力的复用性,数仓架构也从以前主要解决存储和计算问题,转到数据管理和数据应用,屏蔽底层技术的复杂性、多样性,形成一站式、智能化的数仓产品,通过这些产品高效的支持数据应用的快速创新。
“数据中台不再是一个产品,更多的是一种强调资源整合、集中配置、能力沉淀、分步执行的运作机制,是一系列数据组件或模块的集合,指向企业的业务场景。”闵佳总结道。
数据中台赋能企业数字化转型,成为降本增效新引擎第四代数仓架构,也就是数据中台的诞生为企业提供了全新的数据采集、存储、计算、数据管理、数据共享,通过数据处理和沉淀形成对于前台业务提供复用价值的数据资产,打通数据间、业务间的隔阂。“实际上数据中台早已逐渐脱离纯粹的技术层面概念,而是成为企业在管理层面的平台和工具。”这是闵佳和袋鼠云对数据中台的一个全新理解。
我们了解到,数据中台的核心在于业务及数据的一体化,它提供的是一种方法和通路,因此不受限于企业规模、业务种类、复杂程度等因素,能够被广泛应用到各行各业中,如商业领域的金融、零售、电商、快消、地产、公共事务领域的教育、军工、政务等一系列场景,实现多领域及行业的“中台化”。对此闵佳表示赞同,并且通过简单的举例,向我们展示了数据中台对企业的具体赋能和作用:“我们认为数据中台帮助企业降本增效的效果是明显的,拿外卖店家或品牌门店来讲,在过去一家多门店,多SKU的企业希望掌握,应用自身在各个环节、端点、业务线上产生的数据,需要巨大的人力、物力和时间成本,易受数据源混乱,数据难治理等问题的影响,最终会放大决策结果的不可控性;但是在引入数据中台后,数据中台通过商家接入的外卖平台、小程序、APP客户端或线下门店等数据源采集治理数据,形成从订单、物料、会员到门店的一系列整合数据,指导商家在渠道整合、物料留存、用户资产和运营效益方面的管理,同时这些数据资产能够为商家进一步的业务优化提供决策依据,如新品开发、供应链管理、营销手段的调整等等。”
袋鼠云“数栈DTinsight”这样定义数据中台
“我们也做过市场调研,目前市面上的数据中台服务商非常多,有从做前台、后台产品转入做中台的,也有云供应商拓展业务涉足数据中台领域的。如果作为一个对数据中台没有了解的客户,仅看各家厂商对自家产品的描述会很容易产生选择困难症,无所适从,但是在我们实际与客户接触洽谈过后,多数客户反馈能够记住我们的产品特性,这本质上是由于我们对数据中台有着显著差异于其他厂商的定义。”闵佳在谈及数栈DTinsight时,向我们详细展示了许多来自客户或合作伙伴的反馈意见。
从闵佳对数栈DTinsight的介绍中,我们主要从两个方面进行了总结:依据数据中台满足企业治理、管理、应用数据需求的赋能标准,袋鼠云从产品化方向和技术架构两个维度对数栈DTinsight进行了独特的设计与定义。
在产品化方向上,袋鼠云在整合企业业务数据、运维数据和设备数据的基础上,设计了企业数据“平台化”、“资产化”和“服务化”的三个核心步骤:
一.平台化:Hadoop相关技术组件使用复杂、技术门槛高、版本更新迭代快,完成整条数据处理链路,涉及到数据采集、数据加工处理、任务发布管理、任务调度、任务运维等多个环节。从计算场景上,又分批处理、流式处理、数据挖掘等。因此在开发平台层产品上,需要屏蔽存储和计算引擎层的技术复杂度,支持多种不同的计算任务类型,同时通过一站式、一体化的平台,把整个数据链路全部集成和打通,从而降低技术的门槛,提高开发、运维管理的效率。
二.资产化:开发平台经过ETL处理后,产生了大量的可以被业务直接使用的有价值的数据,但是数据质量如何保障?数据资产如何高效管理起来?这成为企业面临的大问题,因此需要建设资产平台,校验数据质量,保障数据产出的正确性和有效性,同时可以在线的、可视化的对数据进行管理,完善元数据信息,制定数据标准,对数据进行分级分类,安全性管理,并分析数据热度,数据血缘关系,提供统一的数据访问入口。
三.服务化:沉淀有效的数据资产,最终需要给业务应用提供数据服务,产生数据价值,因此在数据服务的时候,需要统一的数据服务的出口,保障数据在安全,可控的范围内使用,并进行实时在线的访问监管。
在技术架构维度,数栈DTinsight主要包含六类设计:
一.云原生:云原生主要涉及到计算的弹性伸缩和计算存储分离。大数据计算任务大部分都是在凌晨开始运行,传统的基于Yarn的资源调度模式,面临晚上计算资源不足,白天又浪费严重,因此需要基于云原生的架构,容器化编排,统一计算调度,根据任务量情况,自动弹性伸缩,提高资源的利用率。
大数据场景对计算资源的要求要高于存储资源,计算资源和存储资源需求不均衡,大部分情况下先碰到计算资源不足,在计算和存储资源耦合的情况下,为了扩展计算能力,存储资源也一起扩展了,带来了大量的存储浪费,因此计算和存储分离后,可以根据需求,单独扩充计算资源,降低成本。
二.信创:信息技术应用创新发展是目前的国家战略,也是当今形势下国家经济发展的新动能,我国明确了“数字中国”建设战略,抢占数字经济产业链制高点的目标。在信创数据中台产品上,主要体现核心技术自主可控,以及开源开放等两方面。核心技术自主可控是大趋势,因此基于开源框架,具备源码二次开发和优化能力,并沉淀技术能力、自主知识产权,同时产品也需要拥抱信创生态体系,包含对国产数据库、操作系统、服务器等多个领域全面国产化适配。
三.湖仓一体:数据仓库属于强schema,事先建模,主要存储的是以关系型数据库组织起来的结构化数据。数据通过转换、清洗后,再导入到目标表中。优势在数据管理方便,弱点在于灵活性。
数据湖属于弱schema,事后建模,主要存储任何类型的数据,包括像图片、文档这样的非结构化数据,存储成本也更为廉价,读取的时候再进行schema解析。优势在于灵活性,快速得到结果,存储成本低,弱点在于缺少数据管理能力,以及对数据质量的保障。而企业对数据的需求中,这两种场景都存在,因此为了管理方便,通过湖仓一体的架构,打通多种不同的数据存储,并构建统一的元数据管理,实现数据湖和数仓的一体化。
四.批流一体:大数据处理主要分批处理和流式处理,传统一般采用Lambda架构,批处理和流处理分别采用不同的技术架构,然后在数据服务层合并成统一的数据视图,此种方式需要维护两套分布式系统,和两套不同的ETL代码,增加了大量的开发和维护成本。为了提高开发,运维的效率,因此需要统一的技术框架,通过一套计算引擎、一套代码实现批处理、流式处理等多种计算场景,大幅度提高开发效率。
五.多引擎兼容:在企业发展过程中,随着数据仓库技术的演进,会存在多种计算引擎共存的情况,例如有Oracle、GreenPlum、Hadoop等多套大数据环境,每套环境中都有大量的业务数据,和任务在运行,因此需要一套统一的平台来对接多套不同的集群,提供统一的开发体验。
六.跨云能力:随着这几年大量企业开始接受公有云模式,业务和数据逐步迁移到阿里云,腾讯云,华为云等云平台上,甚至部分企业已经购买了云厂商的EMR产品服务,因此需要数据中台平台具备跨云部署,以及对跨云EMR的兼容能力,在复用云上服务器,计算集群的同时,提供统一的数据管控的入口。
袋鼠云结合数据中台的理论,通过以上的产品方向和技术架构,研发出的数栈DTinsight作为新一代的数据仓库产品,能够*程度帮助企业降低成本,提高大数据基础设施的投入产出比。
数据中台发展走向何方?
“未来,数据中台将成为企业核心数字化战略之一,它体现了数据结合业务、数据间打通的新的企业管理思路,通过打造具备集企业研发、营销、财务、技术、业务、算法等赋能于一体的管理平台推动企业数字化的转型。同时,数据中台产品还在独立部署、行业云和公有云方面存在着较大的规模商业化机会和发展空间。”闵佳对袋鼠云和数据中台未来的发展空间保持着乐观的态度。
同时,闵佳还分别介绍了这几类场景的服务核心与价值:
独立部署场景常常被应用于涉密行业、金融、军工等对数据隐私,数据安全性的要求非常高的行业领域,在相当长的时间里,这些行业的核心业务还会是在私有环境为主,和外部环境是网络隔离状态,因此对于这类客户,产品主要还是以独立部署形态存在,即一套环境,客户内部独享使用的模式,这样能*限度保障数据安全,和降低数据泄露的风险。
行业云的特点主要体现在专业性和服务精细化方面,在一些大型集团,以及行业性非常强的领域,会统一建设行业云平台,为行业客户提供软硬件基础服务,例如金融云,移动云,各地的政务云等,在这些行业云平台上,提供数据中台产品,可以进一步的提高已有客户的粘性,发挥行业平台的价值。
公有云的核心属性是共享资源服务,适用于数据在云上的企业,做到开箱即用,使用便捷,弹性伸缩,成本低廉是这些企业共同的诉求,因此对于这类客户,未来有机会产生国内版的Snowflake,通过技术手段充分利用几大云厂商的基础设施的优势,实现弹性伸缩、计算存储分离、跨云支持、按量付费等,为客户提供*的数据中台SaaS服务。
在采访结束前,闵佳对数据中台做出了总结性叙述并再次强调了袋鼠云对数据中台的理解与定义:“数据中台作为衔接“前台”与“后台”的技术架构,强调的是数据及技术对前台业务的复用价值,通过数据治理方式,形成有价值的数据资产,并充分利用数据资产形成服务。同时“袋鼠云正是通过自身独有的“平台化”、“资产化”和“服务化”的核心步骤和更为综合丰富的技术架构,重新设计定义了这个推进业务数据化、数据业务化,构建数据广泛采集、合理共享、高效利用机制的闭环,满足企业客户以数据驱动业务,以数据创业业务,以数据管理业务的需求,助力企业的数字化转型,并起到降本提效的作用。”