三、当前主要技术发展趋势分析
在目前大数据发展背景下,数据存储技术、处理技术、分析技术等在不断创新和完善,开放的技术平台和系统的发展主要呈现以下几方面的趋势:
(1) 大数据的去冗降噪技术
大数据一般都来自多个不同的源头,而且往往以动态数据流的形式产生。因此,大数据中常常包含有不同形态的噪声数据。另外,数据采样算法缺陷与设备故障也可能会导致大数据的噪声。大数据的冗余则通常来自两个方面:一方面,大数据的多源性导致了不同源头的数据中存在有相同的数据,从而造成数据的绝对冗余;另一方面,就具体的应用需求而言,大数据可能会提供超量特别是超精度的数据,这又形成数据的相对冗余。降低噪声、消除冗余是提高数据质量、降低数据存储成本的基础。
(2) 大数据的新型表示方法
目前,表示数据的方法不一定能直观地展现出大数据本身的意义。要想有效利用数据并挖掘其中的信息或知识,必须找到最合适的数据表示方法。数据表示方法和最初的数据产生者有着密切关系。如果原始数据有必要的标识,就会大大减轻事后数据识别和分类的困难。但标识数据会给用户增添麻烦,往往得不到用户认可。研究既有效又简易的数据表示方法是处理网络大数据必须解决的技术难题之一。
(3) 高效率低成本的大数据存储
大数据的存储方式不仅影响其后的数据分析处理效率也影响数据存储的成本。因此,需要研究多源多模态数据高质量获取与整合的理论和技术、流式数据的高速索引创建与存储、错误自动检测与修复的理论和技术、低质量数据上的近似计算的理论和算法等,实现高效率低成本的数据存储方式。
(4) 非结构化和半结构化数据的高效处理
目前,非结构化和半结构化数据在整个大数据中占有相当大的比重,而关系数据库系统的出发点是追求高度的数据一致性和容错性,因此,传统的关系数据库技术无法胜任这些数据的处理。系统的高扩展性是大数据分析最重要的需求,必须寻找高扩展性的数据分析技术。以MapReduce 和Hadoop为代表的非关系数据分析技术,以其适合非结构数据处理、大规模并行处理、简单易用等突出优势,在互联网信息搜索和其他大数据分析领域取得了重大进展,已成为大数据分析的主流技术。然而,MapReduce 和Hadoop 在应用性能等方面还存在不少问题,还需要研究开发更有效、更实用的大数据分析和管理技术来适应大数据分析方面的技术需求。
(5) 适合不同行业的大数据挖掘分析工具和开发环境
不同行业需要不同的大数据分析工具和开发环境,而当前跨领域跨行业的数据共享仍存在大量壁垒,海量数据的收集,特别是相关领域的数据收集和共享仍然存在很大挑战。通过在分析工具和开发环境上创新,实现跨领域的数据分析,从而提升不同行业和领域数据挖掘的价值。
四、2013-2017年度大数据市场规模预测分析
未来5年,中国将迎来大数据的快速发展,根据ICTresearch的研究显示,2013年,中国大数据市场规模将达到7.8亿元,同比增长73.3%;2017年,中国大数据市场规模有望达到184.3亿元。
表2 2013-2017年中国大数据市场规模与增长预测
2013年 2014年 2015年 2016年 2017年
市场规模(亿元) 7.8 18.7 45.8 99.5 184.3
增长率(%) 73.3% 139.7% 144.9% 117.2% 85.2%
数据来源: ICTresearch, 2013.03
图3 2013-2017年中国大数据市场规模与增长预测
数据来源: ICTresearch, 2013.03
五、业务发展建议
1 差异化对待处于不同应用阶段的客户需求
通过研究可以看到,企业中即拥有规模化的数据获取来源又具备主流和核心技术能力进行大数据分析挖掘的厂商并不多。大部分厂商仍然处在拥有大量数据而没有有效利用的阶段,这就为大数据整合和分析方面具有优势的厂商提供了广阔的市场机会。
根据研究企业的调研结果看,可以分为三类:
第一类企业:企业技术实力比较强,信息化建设和技术投入较高,已经认识到大数据的应用价值,在大数据方面有了一定的研究基础,例如沃尔玛、华为和富士康等。针对这类企业的机会就在于对大数据的外围产品和应用方面建立联系和沟通,从大数据企业具有优势的产品和服务方面对客户产生影响,能够进一步帮助客户弥补自身技术方面的不足,尤其是服务方面,企业自身的应用服务能力和运维水平限制将成为大数据企业客户开拓方面的重要机会。
第二类企业:企业基于业务的发展建立了比较完善的信息系统,企业内部的生产、销售和外部运营数据比较丰富完善,有大数据应用意识,但还没有对数据进行深入的挖掘利用,主要有联想、苏宁、家乐福、蒙牛、王府井百货等。针对这类企业,大数据企业的机会空间比较大,可以结合目前已有信息系统的对接,收集和整理企业现有数据,利用大数据企业核心的大数据分析利用技术,对经营相关的结构化数据和营销相关的非结构化数据进行整合分析,从经营改善提升的角度为企业提供整体的大数据解决方案,既可以实现大数据业务的整合又可以带动大数据企业相关产品的小时机会,从整体上帮助企业把握大数据时代的发展机遇,成为企业信息建设和发展决策性的关键环节。
第三类企业:企业目前的经营虽然有一定规模,但是信息化建设还不完善,技术实力不强,主要依靠专业的IT产生提供服务,基本没有建立大数据的应用意识,主要有百联、华润万家、爱国者、俏江南等企业。针对这类企业,大数据企业可以先从其信息化建设现状入手,分析信息化对业务提升的帮助,提高企业对信息化的重视程度,为企业提供有关云平台、大数据方面建设的产品和解决方案,逐步完善客户在数据采集、管理、分析和利用方面的意识,引导客户的大数据业务需求。从前期介入持续跟进后帮助企业建立起数据中心-云平台应用-大数据应用等一系列的应用模式。
总的来看,第二类企业是大数据企业目前需要重点关注的客户目标,这类目标有意识、有能力、有需求,是比较好开拓,能够快速见到成效的客户。但由于目前国外厂商在大数据方面的布局越来越完善,大数据企业需要更加突出自身在已有产品方面的竞争力,提出大数据创新的技术和应用模式,才能在这类企业中建立独特的竞争优势。
2 加快关键技术和新兴数据处理技术研发
大数据的技术门槛较高,目前在大数据领域展开竞争的信息技术企业多是在数据存储、分析等领域有着传统优势的厂商。为实现产业升级,需要加强关键技术和新兴技术的研发。以数据分析技术为核心,加强人工智能、商业智能、机器学习等领域的理论研究和技术研发,全面提升非结构化数据处理技术、非关系型数据库管理技术、可视化技术等基础技术研发水平,推动与云计算、物联网、移动互联网等技术的融合,加强网页搜索技术、知识计算(搜索)技术、知识库技术等核心技术的研发,开发出高质量的单项技术产品,并与数据处理技术相结合,为实现商业智能服务提供技术体系支撑。
3 提升大数据分析产品和服务水平
推动以企业为核心的产学研用合作,利用本土语言优势,结合云计算技术与服务,鼓励软硬件企业和服务企业应用新型技术,与信息内容服务相结合,面向实际的大数据应用提供具有行业特色的系统集成解决方案和数据分析服务。基于开源、开放操作系统或应用平台,整合优势资源,以有基础优势的数据处理软件商牵头,统合各方技术优势与数据优势,形成完整、可实用的数据分析产品,不断提高服务内容的精确度与匹配度,培育具有较高集成水平、较强市场能力的大数据解决方案提供商,为大数据在各行业领域的应用提供成熟解决方案。
4 加速推进大数据示范领域的应用水平
未来,大数据将在互联网、医疗、政府、零售等行业得到广泛应用和发展。面向数据量大的行业应用领域,积极引导行业厂商参与,大力发展商业决策、数据分析、扩展存储等软硬件一体化的行业应用解决方案。同时,推动高科技领域的数据深加工服务,大力开发深度加工的行业数据库和细分领域的专题数据库,为行业用户提供基于数据内容的增值服务。对于政府城市建设的需求,加快推动大数据在智慧城市、平安城市建设的应用,不断提升数字内容加工处理软件等服务发展水平,提升城市管理的水平和政府部门的服务质量。
上页 1 2