数据从哪里来、应去服务谁,看完这个才知道!

中国软件网曹开彬 2016-01-17 icon-tag 张溪梦

大数据听得耳朵起茧了,但真正能深入了解吗?不一定。我和很多人业界人士有过深入交流,发现对此讲得最透彻的是前LinkedIn数据科学家、现GrowingIO创始人兼CEO张溪梦。

不久前,我们中国软件网团队和他进行了一次对大数据相关问题的深入交流。我们特整理出三篇文章,和朋友们一起分享。三篇文章主题分别是:不一样的大数据框架、不一样的大数据采集平台、神一样的数据产品。本文是第一篇。


对于大数据,业界有各种各样的解读,网上、微信中也流传有很多“一张图看懂大数据”的文章,但这些文章大多数都是从技术角度进行解析的。更重要的是,很多“一张图”看了之后就是一张密密麻麻充满各种Logo的图,仍然没有将大数据说清楚道明白。

长期在LinkedIn担任数据科学家、有着多年大数据实践的张溪梦给出了他自己多年经验所总结出来的一套大数据框架。张溪梦说,在这种大数据结构里,贯穿始末的不再是技术和业务,而是客户。客户是大数据的来源也是大数据最终要服务的终点。在这套框架中,数据分析的基本框架向下延伸,最基础从Customers(用户)开始,也在用户结束。

1. 大数据框架

GrowingIO用户行为数据分析-大数据框架.png

2.统一的大数据平台

“现在最缺乏的,是统一的大数据采集平台”

张溪梦说,“大数据、大数据,最重要的就是数据。但数据在哪里呢?这是大数据框架要搞清楚的第一个问题。”因此,张溪梦认为,在一个企业的大数据框架中,最重要的部分是大数据的原始数据采集层。

这基本包括三个层次,最外层是用户,其次是公司运营中各种会产生数据的业务应用系统(如ERP、CRM、SCM、OA等各种企业应用软件)、网站、APP、社交网络、电商平台等,在此之上是各种数据的采集平台。

有人说,大数据是石油,它深埋在地下。企业的大数据采集就相当于发现原油。它在企业中的位置非常重要,它是我们进行大数据分析、洞察的基础。它就是企业的数据资产!

张溪梦说,用户是企业大数据最重要的来源。围绕用户的一切数据是企业最为重要的数据。

现在所谓“互联网+”,其本质就是要实现与用户的连接。其实,如何才算与用户实现了连接呢?将用户相关的数据将能收集上来,并实现了管理,便是实现连接的重要表现之一。

因此,数据收集的重要方面就是用户相关数据的收集。当然,除了用户数据,与企业运营、管理相关的各种数据,政府、电商平台、社交网络等各种第三方的数据也是非常重要的大数据来源。

不管你信不信,数据就在那儿;不管你用不用,数据就在那儿!张溪梦认为,大数据已布满在企业的各个地方各个角落,“我们现在最缺乏的,不是数据,是一个统一的数据采集平台(Data Collection).

3.从ETL到ELT

在数据采集上来之后,接下来便要对海量的数据进行所谓的抽取、转换、加载,即ETL。

“传统的数据分析认为,数据收集之后是ETL,但现在变成了ELT,未来有可能只有EL没有T,甚至到最后全部将EL结合到一起,不再有功能性的划分。”张溪梦说,这是他们在LinkedIn经过多年实践与探索之后给出的新思考。

为什么会有这种变化呢?

张溪梦介绍说,这主要是因为以前的存储、计算、传输成本都很高,数据处理要用时间来换取空间。

因此,当时的重点技术是要将原来非结构化的数据进行结构化转化,把数据压缩变小、节约存储空间,从而形成所谓的ETL模式。但很显然,这种模式存在一个无法避免的问题,即ETL过程是需要花费很多时间的。互联网时代是快鱼吃慢鱼的时代,企业需要实时了解各种数据,需要实时进行响应。费时的ETL模式显然完全不能适应当前的时代潮流。

因此,当时LinkedIn的数据科学家们提出,为了实现实时响应,可将加载和转化的顺序对调,即变成ELT。

这能大幅节约数据处理时间。据张溪梦介绍,三四年前,美国已经完全做到ELT了,中国目前才刚刚开始进入这种转变。更进一步,张溪梦认为,变成ELT之后依然有可提升空间,即不用转换,只有EL,甚至EL都将合二为一,即最终实现功能整合。

在ELT之后,便是我们经常见的DW(数据仓库)了,包括各种EDW和ODS等。大数据要在这儿完成结构化的存储、处理和分析引擎等服务。

4. 是先BI后分析,还是先分析后BI?

数据仓库之上,便到了我们经常所说的BI了。

张溪梦说,BI其实包括两个层次,即Analysis(分析)和BI,其中分析主要为对数据进行高维度分析,BI则主要提供数据透视和展现。“在大数据时代,这两个层次也有一个巨大的变化。是先BI再分析,还是先分析再BI呢?这是一个问题。”以往的做法基本上是先BI,而后在其上进行Analysis(分析)。

目前国内绝大部分企业就是这么做的。大部分企业把BI与数据仓库中存储的数据相结合,用于报表分析、报表制作等。更重要的是,这类工作一般交由IT部门负责,使得BI变成了技术性工作。因此,现在很多企业中有大量的IT研发人员在开发报表。这种做法带来了“先BI再分析”的最大问题,即用数据的人不是做数据的人,做数据的人不是用数据的人。

张溪梦说,很多人认为报表就是分析结果,但其实不是这样的。报表越多未必就是价值越多。IT人员优势在于技术而非业务,当报表交由他们负责时,他们会侧重于做出越来越多的报表,而不管这些有什么用、谁来用。

事实上,由于报表和分析的人不懂业务,很多数据在形成报表甚至做完分析之后,却并不能满足业务人员的需求,甚至有的数据经过层层审核提交到决策者之后发现是错的!然后需要再次打回进行返工,于是乎整个的分析周期都被拖慢。

现在的先进做法是,将BI与分析进行对调,即先分析再BI,并且分析工作要由熟悉业务的数据科学家来承担。

张溪梦认为,把数据仓库的数据和分析直接结合,通过相关的分析技术和工具,直接挑选出具有商业价值的数据,之后通过BI迅速将其商业价值扩大化。这带来的好处是,用数据的人在分析数据,并且迅速地让全公司的相关人员都能够实时看到分析结果,及时进行决策。

做了这种对调之后,报表的制作量将大大减少。这样,IT人员可以不用花费大量时间研发报表,可以大大提高数据分析部门工作效率,满足当今数据分析需求的激增。

5. “输出洞察、输出决策、输出价值”

在分析、BI之后,便到了如何将数据价值发挥出来的环节。张溪梦认为,这主要包括DM(数据挖掘)、AI(人工智能)、洞察、决策、行动、价值等几个阶段。

Data Mining、AI是通过高超的技术手段,实现自动化的机器学习,从而达到在大数据分析处理之后,能够自动化地给企业的管理者、相关员工输出具有洞察力的发现,并且根据这些洞察和发现给出决策建议、行动建议,最终帮助企业实现价值,满足客户需求。张溪梦认为,大数据框架,最终应该着眼于帮助企业为自己的客户提供价值。不能仅局限于技术本身,只有很好地实现了洞察、决策、行动,最终才能真正实现大数据的价值,达到通过大数据提升公司效率和业务增长的目的。

6. “底层频次高价值低,顶层频次低价值高”

从客户、业务系统、数据采集、数据仓库、分析、BI、DM、AI、洞察、决策、行为、价值,再最终回到客户,这构成了张溪梦眼中的不一样的大数据框架。

张溪梦说,他在实践中还发现,在这个大数据分析框架中,越贴近底层占用时间越多,而框架顶端的决策耗时却很短;从价值频率来讲,顶端低频次,高价值,底层是高频次,低价值。

因此,大数据技术的一个重要发展方向是,效率低的部分实现全方位自动化,并且实现一站式的大数据服务!

这正是张溪梦归国创办GrowingIO的重要方向。张溪梦希望,GrowingIO能成为他在大数据领域创新的载体,将国外大数据领域的最新理念、最新技术引入到中国。


GrowingIO是新一代基于用户行为的数据分析产品,数据采集无需埋点,用户行为数据分析更加专业。登陆www.growingio.com免费注册,或者关注微信公众号GrowingIO获取更多数据分析干货。