大数据软件遇到一坎应用井喷下哪种技术路线能迈过去成为引领者

  • 日期:07-11
  • 点击:(1100)

fg电子

经过十多年的发展,大数据应用的出现不仅使商业和企业先驱者能够利用数据的价值,而且实现商业成功,并改变当前全球业务发展的动力,由原始过程驱动。数据驱动到现在。

另一个变化是,在企业市场中,主要由外国公司控制的大数据核心软件的市场结构已经开始放松。中国的大数据核心软件发展迅速,在某些方面已经超越。

路导致发展?

技术路线争议已延长十多年

在大数据基础软件的开发中,技术路线的发展是辉煌而耀眼的。但经过多次采访,记者发现,目前大数据软件的技术路线可分为四类:

技术路线是Hadoop

谈到大数据,你仍然不禁提到Hadoop。因为Hadoop允许分发和存储大量数据,并且可以进行分布式访问和处理。 Hadoop几乎已成为过去大数据的代名词。在大数据的开发中,开源大数据平台Hadoop起着至关重要的作用。 Cloudera,Hortonworks和MapR是Hadoop troikas。

谈到Hadoop,你不禁会提到Cloudera。虽然Cloudera还发布了商业工具产品,但它主要提供Hadoop发行版。产品分为免费版和企业版。只有企业版的核心组件不向公众开放,并且向社区提供其他技术。

Hortonworks是通过Hadoop框架构建其产品的最大公司,为社区提供全面的技术,而不是依靠产品利润,而是依靠为企业客户提供支持服务和维护后的利润。

MapR专注于商业工具产品的发布,并提供Hadoop发行版。基于开源技术,提高稳定性,同时增强一些先进功能,定制程度高,核心技术不开放,收入主要来自软件收入。 MapR企业级产品的优势在于可以更好地管理和确保Hadoop中的数据可恢复性和可靠性,以及多租户和高可用性功能。

重要技术路线,基于开源Hadoop开发的最大优势是可以处理的数据量巨大而稳定。在节点资源没有增加的情况下,运行速度不是主导,但是它非常稳定。无论是优点还是缺点,Hadoop在批处理方面的优势都无法掩盖其在交互式分析和流处理方面的缺点。

技术路线是Spark。

Gartner多年来一直在欺骗Hadoop,并认为尽管对大数据解决方案的需求不断增长,但对Hadoop的需求并没有像预期的那样加速。与此同时,Spark的25%已经开始与Hadoop生态系统分开运行。

一位行业专家介绍了一个非常形象:如果Hadoop是一个大型承包商,Hadoop是一个手工砖房,所以它很慢但很安全; Spark是一个实体房子,有一台非常灵活和快速的机器。缺点是容易引起机械故障。

Hadoop开始升级,指定调度专家YARN派遣工,其MapReduce也可以支持Mesos; Spark从多个仓库(HDFS,Cassandra,S3,HBase)移动砖块,并允许YARN/MESOS等不同专家安排人员和任务。

事实上,这两者并不矛盾。 Spark经常与Hadoop团队合作,使问题更加复杂。无论如何,Spark和Hadoop是两个独立的承包商,每个承包商都有自己的优势和劣势以及特定的业务用例。

Spark技术的代表企业是Databricks。 Databricks由加州大学伯克利分校的团队创建,用于开发流行的开源Apache Spark数据处理框架。该公司帮助大公司快速处理,集成和分析大量数据。其统一分析平台旨在创建隔离数据存储系统之间的数字管道,并帮助工程师和数据科学家更好地进行通信。

Spark的优势在于它的内存运行速度比Hadoop快100倍,在磁盘上的运行速度提高了10倍。此外,Spark在Naive Bayes和k-means等机器学习应用程序中同样快速。

因此,大数据应用基础平台不是固定的,还需要进行优化,优化后的性能将具有优异的性能。

技术路线是兴环科技代表的自主开发。

独特的自主研发技术创新之路。 Star 与Hadoop或Spark不同的技术路线,具有星形特征,在许多领域实现了技术突破。例如,分析数据库ArgoDB使用统一计算引擎和统一存储管理系统。同时,为闪存设计的存储格式取代了传统的Hadoop + MPP结构,同时在数据量较大时比较MPP和Hadoop平台。有性能优势。

在实时流处理领域,Star Loop的自主Slipstream不仅支持SQL的实时数据库,还拥有自主开发的规则引擎和复杂的事件处理引擎。用户可以直接编写业务所需的计算方法。还可以执行一站式部署和调试开发结果,这极大地方便了业务开发人员的开发。

其他技术路线。

最重要的是继续使用上一代MPP架构。早在大数据广为人知之前,MPP架构的大规模并行处理就诞生了。设计概念是分发传统的关系数据库,这是对以前数据库可扩展性差的改进。 Teradata,Greenplum,Vertica,Netezza等早就知道公司是基于这种架构来完成解决方案的。但是,由于其根源仍在修补旧技术,因此不支持非结构化数据存储分析,上限仍然不足,并且诸如昂贵硬件之类的功能会逐渐暴露出来。

此外,一些专有技术在市场上很活跃,例如MongDB,一个用于网站数据存储的文档数据库,ElasticSearch,专注于满足复杂的搜索需求,并且经常用于高速NoSQL数据库的会话缓存。图形数据库Neo4J和Flink等,它们由实时计算引擎传播到通用大数据引擎中。这些技术有几个特点:首先,大多数是开源系统;第二,申请相对狭窄,影响范围有限。

技术路线开始区分

技术路线已经开始出现差异化。

首先,最典型的Hadoop商业化公司是Hadoop的三驾马车 Hortonworks,Cloudera和MapR。 2014年,Hortonworks成功在纳斯达克上市。该公司以每股16美元的价格发行了625万股股票,筹集了1亿美元的资金,在开盘当天的第一天增加了60%,市值接近11亿美元。

截至2017年4月底,Cloudera以每股15美元的价格在纽约证券交易所上市,其股价每天上涨超过20%至18.09美元。该价格也超过了该公司之前的12至14美元的范围。 Cloudera的市值约为23亿美元,远低于英特尔2014年的41亿美元估值。

2018年,大数据领域的两大巨头Cloudera和Hortonworks宣布因连续亏损而公平合并。 Cloudera收购了Hortonworks股票,Cloudera股东最终收购了合并后公司60%的股份。这笔交易意味着Hadoop市场无法再保持两个竞争对手的地位。然而,合并后公司的股价继续下跌,过去七个月的市值减半。

MapR成立于2009年,在五轮风险投资中获得1.14亿美元。该公司的风险投资支持者通常希望看到两个结果,一个是上市,另一个是被收购。但该公司MapR的首席执行官米尔斯表示,“我想上市,但我也想尊重上市的步骤。”

不幸的是,MapR最近宣布,如果它无法获得额外资金,它可能削减122个工作岗位并关闭其在加利福尼亚的总部。关闭总部意味着什么?是关闭企业,还是不关闭行政总部,并继续开发开源系统,几乎没有人可以确认。

其次,Spark Technologies的代表Databricks在2018年的经常性收入为1亿美元,其订阅收入增长了两倍。但其业务方向已转向“大数据分析和人工智能解决方案”。业内人士将其视为人工智能公司。

第三,星环科技坚持自己的技术路线,坚持自主研发和技术创新,取得了丰硕成果。

星环科技的产品连续两年被工业和信息化部评为“星河奖”最佳大数据产品奖。在2018年《大数据市场分析报告》,知名咨询机构wikibon的星环科技被评为唯一进入该报告的中国制造商。产品策略对西方供应商非常有启发性,因为它解决了许多同行开源版本的局限性。 “。凭借先进的技术愿景和产品开发路线,星环科技行业技术领先者的地位已初步得到认可。

此外,Elasticsearch转向实时分布式搜索和分析引擎,可应用于任何实时搜索场景。基于这项技术,Elastic抓住搜索并专注于开源,利用创新的搜索引擎技术和开源软件成为大数据搜索和数据实时处理领域的龙头企业。该公司在纽约证券交易所成功上市。

3.谁可以克服这个障碍并成为领导者?

那么,哪种大数据软件技术发展路线可以成为领导者呢?作者认为有四个主要方面:

首先,适应性强,能适应云计算发展的大趋势。企业转变为公共云,各种规模的公司都在增加对AWS,Azure,阿里云和Google云等云服务的采用。如果公司正在转向云计算,那么选择一个将大数据视为其中一部分的云平台既节省时间又节省人力。利用云计算资源共享,利用容器技术统一管理和调度,支持单线扩展,按需使用,即用即付,允许业务人员随时使用数据分析平台成为一个发展方向。

第二,独特性。软件产品的可控性很重要,但其独特性是市场竞争的法宝。星环科技首席执行官孙元浩表示,我们正在开发新技术,最重视的是独特性和领导力。

第三,丰富。目前,仅靠大数据平台是不够的。它应该与人工智能和云计算集成,以提供一个集成平台。灵活的资源策略允许随处可见服务。此外,完整的独立开发堆栈也成为一种景观。

第四,生态系统和用户有成功的实践经验。大数据和云计算的基本软件需要强大的生态学才能形成一定的规模。行业的广泛覆盖和用户应用的成功经验也是非常重要的因素。

BlueData是一家基于私有云服务的大数据提供商,去年将其服务扩展到人工智能和分析服务。它今年被惠普收购,以增强惠普为客户提供的全栈服务,并弥补惠普的缺点。另一家公司Qubole选择在每个公共云上提供数据分析和机器学习平台。口号是“让你的数据湖成为一个利润中心”。

2018年,星环科技首次推出数据云平台Transwarp Data Cloud,该平台采用容器技术和以数据为中心,通过提供完整的数据,应用和智能开发工具,提供数据和应用互操作性。互联。与之前的版本相比,今年5月推出的TDC 2.0可以更充分地满足非业务和不同角色的工作需求。经过近四年的发展,Star Ring已成为具有突出技术优势的PaaS产品。星环数据云。

有趣的是,Cloudera和Hortonworks在2018年宣布合并时也创建了他们的第一个企业数据云。除了主要的100%开源之外,它还可以与混合云和多云部署应用场景兼容,提供足够的重定位和部署灵活性。企业用户避免受特定供应商的约束。

Snowflake是一家仅在公共云上提供DB-PaaS的公司,其去年的估值为35亿美元,其业绩不到1亿美元。估值倍数超过其他类似公司。除了向Snowflake提供类似服务外,星际争霸的数据云TDC还可以支持DB-PaaS,应用PaaS和Analytic PaaS核心模块,并且可以支持公共云 - 公共云,公共云 - 私有云互操作性。有效地集成数据,应用程序和智能,以及异构云互操作性扩展了产品范围。

技术路线。谁将成为大数据技术的领导者,我们将拭目以待!