Cloudera,开源大数据分析引领者 —— Cloudera零售、制造及物联网行业专家Dave Shuman专访
2017-09-13 20:29 文章来自:e-works 王阳 收藏(0) 阅读(1580) 评论(0)
有研究显示,2020 年,全球数据总量将增长至2011 年的50 倍,并且信息源数量会增长到75 倍。在数字化时代,大数据所蕴含的颠覆式创新力量已经毋庸置疑,从数据中发现洞察,获取价值从而优化业务决策是企业制胜的关键。
 
      随着IT技术的迅速发展,大数据已然成为当今最热门的技术趋势之一。在企业不断涌现的数据分析需求中,开源系统让越来越多的项目可以直接应用大数据技术。
 
      作为引领开源大数据分析的公司,Cloudera是首家将Hadoop商用的引领者。日前,Cloudera零售、制造及物联网行业专家Dave Shuman先生接受e-works记者采访时指出,Hadoop是当前最流行的开源大数据系统,它以其高效、可靠、可伸缩特点,为数据存储项目提供YARN、HDFS和基础架构,并能运行主要的大数据服务和应用程序。
 
      在Dave Shuman看来,越来越多的行业在大数据应用中获益,这其中制造业对大数据应用有非常普遍的需求。在全球范围内,众多领先的制造业企业正在采用基于Hadoop的Cloudera大数据技术,作为用于存储、管理、处理以及更重要的是从所有物联网数据中驱动分析的数据管理和分析平台。

Coudera

Cloudera零售、制造及物联网行业专家Dave Shuman

 开源已是企业级IT架构大势所趋
 
      随着IT技术的发展,尤其是互联网技术和相关企业的兴起,开源软件在操作系统、编译工具、数据库、WEB服务器、移动操作系统等各个方面已经成为主流,而且许多企业利用开源软件形成了独特的商业模式。
 
      Cloudera无疑是开源这场大势所趋浪潮中的佼佼者。
 
      成立于2008年的Cloudera,是第一家将Hadoop商用的公司,占据了开源市场的先发优势。Cloudera 企业版是基于Apache Hadoop 的快速、便捷、及安全的数据平台。用户可以有效地捕捉、存储、处理、分析大量的数据,能够利用先进的分析技术以迅速、灵活、更低成本的方式推动业务决策。而Cloudera会提供技术支持、培训和专业的咨询服务。
 
       如今,作为一个软件平台厂商,Cloudera主要提供针对各种类型数据、结构化、非结构化、半结构化数据的管理,以及对机器学习和人工智能的支持。无论是在市场份额还是在Hadoop社区的贡献方面,Cloudera都处于领先的地位。在Dave Shuman看来,未来的Hadoop还会向着更安全、更稳定、更实时的方向发展,这也是大数据平台的必然发展趋势。而基于Hadoop的Cloudera是一个机器学习和大数据的分析平台,是大数据领域创业者的土壤,创业者可以基于Cloudera开发各种各样的应用。
 
      与此同时,Cloudera 正在为行业中最具吸引力的物联网应用案例提供着技术支持,包括互联汽车、工业物联网、智能城市以及医疗保健物联网等。包括在汽车、制造、公用事业、工业自动化、保险、医疗保健、电信和科技等多个行业中,众多的领先的企业应用Cloudera 技术作为它们物联网的数据管理平台,以获得切实可行的业务洞察力。
 

Cloudera

Cloudera物联网数据管理平台

 Cloudera致力于合作伙伴生态建设
 
      某种程度上来说,构建庞大的合作伙伴生态是开源系统取得可持续发展的关键。正因为如此,过去几年间,Cloudera在全球范围内发展了数千个合作伙伴。
 
      Dave Shuman表示,Cloudera是一个通用的大数据平台,未来几年还会有越来越多的合作伙伴和开发者加入到这一平台中来,以共同开发更多的工具和应用去发掘大数据潜能,并应用到各行各业的客户当中。
 
      目前,Cloudera将合作伙伴划分为四种类型:第一类是遍布全球的系统集成商;第二类是云和托管服务提供商;第三类是硬件合作伙伴;第四类是应用软件提供商。譬如在商业智能解决方案提供商中,包括Tableau、Qlik、Microstrategy、Business Logic等都是Cloudera伙伴。
 
      同时,Cloudera在北京、上海、广州、深圳等地区发展了200余个合作伙伴,专门建立了服务于客户的支持体系,作为7×24小时客户支持体系的一部分。
 
      Dave Shuman认为,Cloudera不仅要把最先进的技术带到中国,还要积极推动大数据技术在中国的应用和普及。一方面是要同合作伙伴一起,为中国客户提供充分本地化的、最专业的大数据服务;另一方面,Cloudera还会通过技术培训来向中国地区的用户普及大数据相关技能。 
  
制造业正步入大数据时代
 
      作为可以能让用户轻松架构和使用海量数据的分布式计算平台,Hadoop的逐渐普及使得越来越多的行业享受到大数据红利。而Cloudera正在加速推动制造业的大数据应用,并且已在制造业落地诸多物联网应用解决方案。
 
      在制造业的整个价值链中,制造业产品的整个生命周期都涉及到诸多的数据。与此同时,制造企业的运营也越来越依赖IT,因此制造企业的数据呈现出爆炸性增长的趋势。
 
      综合来看,制造企业所涉及的数据管理类型和范畴包括:
 
      首先是制造业产品数据:包括计算、设计、仿真、工艺、加工、试验、维护数据、产品结构、配置关系、变更记录等。随着三维造型技术、真三维渲染、虚拟现实技术的广泛应用,产品模型的数据量也迅速增大;而对产品进行多学科仿真分析,更是需要高性能计算环境来处理海量的数据。计算能力的迅速提升,使得工程师在产品性能仿真时,可以设定更细的有限元网格和更多的自由度,从而进行更加准确的仿真。
 
      其次是制造业运营数据:包括企业组织结构、管理制度、人力资源、薪酬、福利、设备、营销、财务、质量、生产、采购、库存、标准/行业法规、知识产权、工作计划、市场推广、办公文档、媒体传播、电子商务等。
 
      第三是制造业价值链数据:客户、供应商、合作伙伴、联系人、联络记录、合同、回款、客户满意度等。例如,在客户服务过程中,涉及到很多服务原始记录的保存。
 
      第四是制造业外部数据:经济数据、政策信息、行业数据、竞争对手数据等。另外还包括了互联网上与企业相关的新闻、咨询、文章、博客、QQ群、微博、微信等信息。
 
      在Dave Shuman看来,或许几年前,大数据对于制造业来说还只是新兴概念,而如今已经成为它们取得核心竞争力的关键技术。如今,不管是从底层基础平台,中间层通用技术,再到上层行业应用,大数据技术在制造业的产业链条已日臻完善。

助力中联重科大数据转型
 
      在Cloudera制造业的最佳实践中,中联重科无疑是极具代表性的一个。有数据显示,在中联重科服务的工程机械市场中,设备多达七百多万台,这些工程机械设备每天运行都将产生大量的数据。
 
      2015年起,中联重科开始部署基于Hadoop的Cloudera大数据平台。首先建立客户类、设备、交易、信用等主题,然后把物联网平台、企业内部ERP、CRM等核心平台在Cloudera大数据平台上贯通,并且通过相应的组件把数据采集到平台。
 
      Cloudera大数据平台通过流式处理架构,满足高时效性的数据分析需求; 通过分布式运算架构,满足对海量数据的离线深度挖掘。前端通过统一接口层以多种通用格式对外提供数据分析服务。
 
      考虑到大数据平台汇集了企业内外部多方敏感数据,为保证数据安全,平台引入了企业级数据治理组件,实现统一的元数据管理、数据质量控制、数据溯源、数据操作权限管控、数据脱敏及数据使用审计功能,并贯穿数据存储和应用的全过程。

Cloudera

中联重科基于Cloudera的工业大数据平台架构图

       基于Cloudera大数据平台,中联重科实现了物联网数据、企业内部核心业务系统数据、外部应用平台数据的有效管理。
 
      物联网数据:主要包含中联重科设备实时回传的工况、位置信息。当前中联重科物联网平台已累积了近10 年数据,监控设备12 余万台套,存量数据量40TB,每月新增数据300GB。数据通过移动网络以加密报文方式回传,通过平台解析后实时保存至大数据平台。目前,数据采集频率5 分钟一次,根据数据分析需要可进行调整,设备传感数据采集点将近500 个。
 
      内部核心业务系统数据:包含了中联重科在营运过程中产生的业务信息,主要包含ERP、CRM、PLM、MES、金融服务系统等数据,涵盖研发、生产、销售、服务全环节。当前,业务系统已累积近10 年数据,存量数据约10TB,数据每天进行更新。
 
      外部应用平台数据:包含了中联重科相关应用平台官方网站、微信公众号/企业号、中联商城、中联e 家系列移动APP、智慧商砼、塔式起重机全生命周期管理平台积累的数据、从第三方购买和交换的数据以及通过爬虫程序在网络上搜集的舆情及相关企业公开数据。除结构化数据外,平台还以日志方式保存了大量的用户行为数据。由于相关平台多于2016 年推出, 存量数据约为1TB。
 
      有公开资料显示,中联重科工业大数据的应用实践实现了显著的经济效益:其项目服务成本下降了30%、零配件周转率提升20%;设备租赁服务、二手设备交易以及零配件销售占比销售额提升10%,深度数据分析带来的增值服务收益提升也高达30%。同时,大数据平台通过帮助客户优化自身经营管理能力、降低设备运营的主要成本,创造了可观的预期经济效益空间。例如,“中联e管家”为客户提升设备管理效率高达30%;建筑起重机全生命周期管理平台为客户降低安全事故率20%,设备有效工作时长提升20%,同时人力、维修成本能够降低30%。