查看原文
其他

【阿朱洞察】中国大数据行业的下一步走向

2016-11-06 阿朱出品必属精品 阿朱说


(1) 先说说大数据热潮的推动力


要想了解清楚大数据行业下一步往哪里走,必须要先看清楚大数据这个行业,主要是被哪几股力量在推动着。在大数据行业前进的每一步,你都要思考这些多方推动力量的此消彼长。


一、基础设施支撑:说大数据还得从云计算说起


早在2004年,各种虚拟机就出现了。当时人们不叫云计算,只是觉得可以把一台高性能的服务器切成N个虚拟机,这样便于一些边缘应用系统、或者测试环境能在上面跑,不需要单独独占一台物理服务器。后来人们还注意到一个好处,就是可以环境隔离。现在开发应用系统都要依赖很多底层框架,这些框架具有依赖性,还带有版本依赖性,所以不同应用系统需要的依赖关系以及版本都不同,要部署在一起就非常复杂,非常容易连锁异常牵一发动全身。这个隔离性特点更值得大家关注。


2011-2013这三年,国家层面鼓动云计算、新能源、基础网络设施建设,在大背景口号下,搞了不少高新产业园,批了不少地,建立了不少IDC机房,号称云基地。首先是服务器、机架、电力、带宽这些基础算是上了一个新台阶了,这也算是一个进步。


2012年开始,OpenStack开源风起,虚拟机的集群管理终于有主了,云服务商可以大规模进行虚机管理了。2014年,Docker和Kubernates开源风起,也是起到了更轻便资源占用的隔离性。


到底要在云上干些什么,什么应用场景是要严重依赖云的大规模计算技术和存储技术?是互联网媒体?是社交IM?是网络游戏和手机游戏?是视频播放与直播?是B2C电子商务?是企业SaaS?是智能硬件云端物联?还是大数据平台?


二、企业信息掌控者被迫转型:说大数据还得从企业SaaS说起


2014-2016这三年,大量创业SaaS产生,纷纷搭建在云虚拟主机集群上。而且都以低租金、公有形式进行售卖和实施。


过去需要大金额购买服务器、网络带宽、存储、磁盘、操作系统、中间件、安全软件,需要进行严谨合规的立项、招标评标,需要安装部署实施、初始化配置、复杂功能IT操作培训,还需要持续监控、运维、性能调优等等,现在都不需要了。


免费开通免费用,过了试用期觉得不错就续费,一个月才上千元,还可以直接支付宝或微信支付。


这意味着企业IT部门没事干了,被架空了。这点租用费,企业业务部门都能自己出,而且试用好才购买。而且现在搞企业SaaS都非常注重产品用户体验,所以也不用像过去那样需要专业的IT操作培训了。而且现在企业SaaS商把安装部署、初始化、持续运维监控优化、备份迁移,全都自己在后台包了,不用企业业务部门和企业IT部门操心了。


不仅是企业SaaS抄了企业IT部的后路,而且企业新兴业务也都抄了企业IT部的后路。现在企业都纷纷转型“+互联网”,重心就是开展互联网营销和电子商务交易。但是,互联网营销被营销部拿走了,电子商务交易被销售部或者新成立的电子商务事业部给拿走了。企业IT部就剩下老业务老系统,新的扩张的疆域都是别人的,这下企业SaaS都来了,企业IT部门就更没有未来了。


那企业IT部的出路在哪里?CIO想到了云计算、大数据、人工智能这三个热点。


但买一堆云主机、云网络、云存储、云数据库,企业到底要干什么?做互联网营销,有微信公众号、微博、百度SEO、贴吧、微信群、QQ空间等等,做电子商务有京东POP和天猫平台等等第三方平台,即使搞官方独立旗舰店,也有微店、有赞这样的低收费甚至免费的移动APP。现在连内部系统都SaaS化了。要一堆云主机、云网络、云存储、云数据库,干嘛?


嗯,大数据。企业信息官(CIO),转型成为CDO(企业数据官)。你们开展互联网业务、电子商务业务,都是沉淀数据,我汇集数据、利用数据、产生数据价值。


三、国家信息战略推动:说大数据还得从贵州大数据说起


国家提完云计算,一堆IDC建设起来了。国家从2014年又开始提大数据,这堆IDC终于能利用上了。于是各种扶植补贴、税收优惠政策又都出来了,媒体也在纷纷提大数据,各地政府、政府业务部门、经信委都在立项大数据。有的在搞大数据共享平台,有的在搞大数据产业服务平台。这都是考核KPI啊。每个干部都要成为21世纪的新型干部,要学习互联网,善于利用互联网,要用数据来指导工作,要利用数据进行资源整合组织。


于是,一批奔着风投热潮、国家口号热潮、国家补贴政策热潮的厂商都蜂拥而至。


四、技术实现:说大数据还得从大数据开源技术说起


来了,得卖产品啊。但卖啥大数据产品啊。


幸亏开源来了:

1、Redis、MongoDB、influxDB...,提供了各种各样数据类型的分布式存储引擎

2、Sqoop、kafka,提供了海量数据的抽取和传输

3、Hadoop提供了海量大数据的存储引擎和计算引擎

4、Hbase、Hive,提供了大数据仓库技术

5、Presto、Spark、Storm,提供了更快的查询、更快内存运算速度、更及时反馈结果的流式计算

6、Lucene、Nutch、Solr、ElasticSearch,提供了海量信息的爬虫、索引、搜索

7、Flume、Logstash、Splunk、Kibana,提供了海量日志收集、用户点击流收集


终于有底层系统产品可以卖了,嘿嘿。真是应了我常说的那句话:硅谷不开源,中国IT企业就捉急死了。


但是企业买了一堆这些底层系统产品又能干嘛呢,这不是企业的目标啊。


(2)大数据应用


第一阶段:数据仓库与商业智能


企业IT部门买了一堆大数据底层系统产品和一堆云主机云存储云网络,接下来怎么干?


那就先从自己最熟悉的数据仓库、报表统计、图表展示、商业智能开干。但是,数据仓库和商业智能已经在企业领域被洗脑被上线建设搞了N次了,这次再上线大数据仓库的理由是啥?


企业搞商业智能已经走过了两个阶段:

1、统计报表阶段。产品经理或业务分析师定义报表模型,由软件工程师SQL语句写出报表。但这样的玩法性能差、定制差(想组合一些指标来做报表,每次得新写SQL)


2、商业智能阶段。把数据ETL到多维数据仓库,可以多维指标自由组合,弥补了报表制作技能要求门槛、成本、开发效率的问题。由于专门多维数据仓库技术架构处理,所以报表跑的性能也高。


但是,传统的商业智能技术架构在如今又遇到问题了。第一是数据增多了。企业从单点窗口业务处理,一路走来到企业内部部门之间联动,到集团化多元化,业务系统上的是遍布企业各个部门各种业务,企业规模是越来越大分支机构越来越多,数据多年积累的也越来越多。所以过去BI能够很快出报表结果的,现在等好长时间才能出来,这就让管理者很不爽。甚至有些报表需要运行好几个小时,更恐怖的要运行几天。怎么优化呢?没法优化,过去的数据仓库和商业智能的技术架构就决定了没法扩展。


第二是数据类型增多了。由于智能移动手机的出现,各种非结构化数据甚至流数据产生了,比如社交消息、地图路径、位置、照片、视频、录音,开始受到热点重视,导致传统的商业智能技术架构难以高性能存取这些非结构化数据。


所以,分布式扩张的、存取各种数据类型的大数据技术平台出现了,传统的数据仓库和商业智能需要升级了。


能把这些需求满足了,也是一种进步啊。各位高大上的大数据技术公司,虽然这可能不是最正道的大数据,但千万别把数据仓库不当事啊。这才是客户真实的第一步刚需啊。


但要建设好数据仓库与商业智能也不容易。大数据建设有两个难点:一个难点是大数据建设的团队打造,另一个难点是数据处理。


要想建设好大数据,需要很多专业团队互相配合才能成功,这里需要:大数据技术平台研发团队、大数据技术平台运维团队;数据ETL抽取清洗团队、数据特征标准团队;商业建模产品团队、数据算法研究团队;商业数据分析团队。


在数据处理方面,每个关键环节目前仍然存在需要大的困难。在数据收集环节,要收集到全产业链社会数据、现场数据、社会数据,需要我们打造产业链SaaS平台、需要我们进行全产业链智能化改造,需要我们和众多互联网公司电商公司金融公司合作交换数据;在数据加工环节,需要加强系统集成、数据标准设计、主数据质量管理;在数据抽取环节,需要对不同来源不同结构的数据进行业务逻辑性的剖析,你才能做到数据正确的抽取转化,这需要数据ETL人员对业务、对数据逻辑都有深刻的理解;在数据价值应用环节,商业洞察一直是难题,不管是商业分析模型的构建、人工智能算法的应用、商业数据的洞察解读,都需要商业建模产品团队、数据算法研究团队、商业数据分析团队三者紧密合作,而他们的知识结构和思考重心全都不一样,能共同互补产生出价值分析,这确实很难。


所以对于大数据技术公司,最好的落地方式就是和行业应用软件商、行业解决方案提供商一起合作,一方提供很牛的大数据技术平台,一方提供很好的业务分析模型。这需要建立很好的合作伙伴生态体系,才能提供各行各业的业务分析。


对于大数据技术公司被迫自己去了解业务、去搞行业业务分析模型,这简直是找死。


第二阶段:社会化大数据


过去的数据大多来自企业内部,即使企业扩张为集团、多元化事业部群、上下游渠道商、合作伙伴、供应商、配套商,也只是企业内部。这些各个环节信息化建设、产业链信息化整合建设,在大型领头羊企业中,近十年内已经完成。


现在产生了社会化数据需求的根源,在于企业要实施“+互联网”战略升级转型,开展互联网业务(营销与客户社区)、电子商务交易业务、金融信贷保险典当质押业务、智能产品智能服务后市场业务、产业链服务生态开放业务。


所以产生了社会化大数据平台建设热潮:

1、社会化大数据支撑互联网业务:主数据画像、精准营销推送、精准搜索、精准排名、精准推荐、互联网及社交媒体舆情监控


2、社会化大数据支撑电子商务:点击流/用户行为分析、用户体验改进;采购预测、定价预测、促销预测、仓储合理安排规划、物流路径智能推荐


3、社会化大数据支撑金融业务:社会360度数据收集(Open API市场、数据交换市场);区块链存储可信可追溯不可篡改数据;信用评估


4、社会化大数据支撑智能服务后市场业务:产品使用习惯信息收集、产品磨损信息收集;产品维修远程诊断;产品保险智能推荐、产品保养推荐;产品转卖二手残值评估、产品典当抵押残值评估


5、社会化大数据支撑产业链服务生态开放业务:主数据开放、用户行为用户消费习惯大数据开放、信用数据开放、统计分析数据开放,为整个产业链端到端,由产品功能设计研发、原料采购、定价、生产数量、生产节奏、仓储物流规划、销售、售后服务支持,全产业链优化与联动


第三阶段:物联大数据


除了互联网社区、自媒体内容、移动照片/视频/IM消息、电子商务业务结构数据外,还有更大一部分数据没有收集,那就是现实一线的数据,它们需要通过在一线现场的各种无人设备、飞行设备、传感器、可穿戴设备、摄像头人工智能识别、AR设备来收集。


硬件工艺是中国制造的短板,所以近几年中国智能硬件的风投几乎全都扑街。想各个产品嵌入智能硬件,这个工艺改动和量产就有待时日。所以,各个产品的智能数据上传到云端,并且还能通过智能物联云达到产品之间的互动,这可能更有待时日。


但手机和摄像头是中国成熟硬件,这样最擅长拍照和视频记录,上传到后端来进行人工智能识别处理。所以,这里需要大数据存储平台和人工智能处理引擎,搞图片识别、语音视频、视频识别、文字识别。


人工智能这个领域已经持续了够30多年了,总是起起伏伏,不断希望不断失望再不断希望。现在就突然又火起来了。原因是什么?


原因就在于人工智能现在其实并不智能,并不能黑科技到模仿人脑子那样(听说IBM搞了这样一个黑科技)。而现实中的人工智能,需要大量的外界数据输入,人工智能算法模型经过不断数据训练,才能变得越来越智能。


过去,从数据产生、数据收集、数据传输、数据存储、数据计算,各个环节都底层不支撑,所以人工智能一直没有大数据来训练改进。现在有了物联传感设备、移动手机、可穿戴设备、互联网社区、电子商务、企业SaaS、高速网络通信、云计算云存储、大数据技术平台,使这一切成为可能。


而这一波火起来的人工智能为啥聚焦在语音识别、图片识别,这和移动智能手机的兴起也很有关系。移动智能手机取消硬键盘,大量依靠多点触摸,语音、摄像头拍照图片、摄像头拍摄视频,成为信息产生的主流。这些数据多了、应用需求多了,所以人工智能就在这些方面聚焦了。


为什么我一直强烈建议大家要在云上搞大数据,而不是私有部署大数据,就是因为人工智能需要大数据训练,尤其是实时的在线的大数据,只有源源不断的、新鲜的大数据来训练,人工智能才能提升。


而且,站在社会化大数据收集、互联网和电子商务业务开展、企业SaaS开展、产业链服务平台开放角度来看,云上的大数据也必然是趋势。


(3)最后说说大数据的选型


一、先谈谈大数据的独特性

1、大数据需要的是全部数据而非抽样数据


2、大数据需要实时、在线


3、关注运算效率而不是精确


4、关注相关性而不是因果关系


二、再谈谈大数据技术的成熟度


2011年,Hadoop1.0发布;2012年,OpenStack开放给业界;2013年大数据查询框架Presto发布;2014年,Spark1.0和Docker1.0发布;2015年,HBase1.0发布和分布式关系数据库GreenPlum开源,2015年区块链技术OpenChain也开源了;2016年,Storm1.0和Elastic5.0发布;


在人工智能领域,2015年2016年是爆发性的两年。2015年微软开源了分布式机器学习包DMTK;2015年Google开源了深度学习系统TensorFlow;2016年雅虎开源了人工智能引擎Caffe On Spark;2016年Facebook开源了图像识别包DeepMark。


这么来看,大数据正处于蓬勃发展期,远远还没有到达竞争格局固定期。


三、再看看大数据技术的发展趋势


1、从数据收集方面来看:大数据主要还是通过自己自建互联网、电商、物联业务在收集,还有一些是通过战略投资控股来收集。通过公开的大数据交换甚至交易平台来收集数据的还比较少,大家在公开的数据售卖、数据风险安全、数据定价方面还有不少阻碍。公有区块链技术和专有区块链网络,可能会加速数据在可限可见度的数据售卖、数据风险安全管理进步。


2、从处理效率方面来看:我们从离线分离OLAP和OLTP处理数据,到大数据平台(如Hadoop/MapReduce)批处理数据,到现在要求实时处理数据(先期发挥内存快速计算的优势来实时,后期发挥流式计算的优势来实时)。


3、从处理深度方面来看:我们从常规的查询统计,开始走向搜索推荐与深度学习,未来我们会走到模式识别。


4、从技术架构方面来看:分布式、无中心、理论上可无限节点扩展的技术架构是主流。而软硬一体机、大型主机的这种大数据,则不是发展主流。这对于老牌IT巨头是个危险。


5、从技术实现方面来看:开源大数据技术成为主流,封闭的专有的技术代码不被看好。


四、最后说到如何选型大数据服务提供商


刚才讲到大数据应用分为三个阶段:

1、第一阶段是数据仓库和商业智能。难点不在于用开源的大数据技术来搭建平台,而难点是构建很好的行业应用合作伙伴生态,进行业务数据逻辑分析、业务价值模型建模、数据结果洞察。谁有能力构建好这个行业应用合作伙伴生态,谁就有竞争力。


2、第二阶段是企业“+互联网”社会化大数据。难点在于各种互联网精准营销、电子商务业务智能、互联网金融信用评估这些关键应用场景的建设。谁具有丰富的互联网精准营销、电子商务业务智能、互联网金融信用评估的经验,谁就有竞争力


3、第三阶段是物联数据,难点在于物联设备的研发、物联数据的收集、物联设备之间的互动控制、物联数据的识别、物联数据的分析。这需要有很强大的智能硬件能力、智能物联云的经验、人工智能识别技术能力。谁有这些能力谁就有竞争力。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存