全国服务热线:
0592-5794349
当前位置:首页> 新闻中心

软件开发公司ApacheSpark2.0技术预览

* 来源: * 作者: * 发表时间: 2019-06-09 3:34:59 * 浏览: 2
软件开发公司ApacheSpark2.0技术预览,ApacheSpark两年后首次发布,Databricks宣布基于上游分支2.0.0预览的ApacheSpark2.0技术预览版。此预览版本在稳定性和API方面不适合生产环境,主要用于在正式发布之前收集社区的反馈。此版本的新版本主要用于改进社区反馈的各种功能。根据Spark的发展计划,主要改进分为两个方面。 SQL是基于ApacheSpark的应用程序最常用的接口之一。 Spark 2.0可以支持所有99个TPC-DS查询,其中大多数都基于SQL:2003规范。这些改进有助于将现有数据工作负载移植到Spark后端,只需对应用程序堆栈进行少量重写。第二个改进主要是编程API,在这个新版本中也更加注重机器学习。 spark.mllib包已被新的spark.ml包取代,该包更多地关注从DataFrames派生的基于管道的API。机器学习管道和模型现在可用于持久性,并且受Spark支持的所有语言支持。同时,R已经可以支持K-Means,广义线性模型(GLM),朴素贝叶斯和生存回归。使用新的Datasets类,DataFrames和Datasets已经统一,以支持Scala和Java编程语言,以及Structured Streaming的抽象。不支持编译时类型安全的语言暂时无法执行此操作,只有DataFrame可用作主要抽象。 SQLContext和HiveContext已被统一的SparkSession取代。新的AccumulatorAPI具有比基本类型更简单的类型层次结构,它支持基本类型的特化。旧的API已被弃用,但为了向后兼容性,它仍包含在新版本中。新发布的结构化流API可用于管理流数据集而不增加复杂性,因此程序员和现有的机器学习算法将能够处理批量加载的数据集。在第二代Tungsten引擎的帮助下,性能也得到了提升,执行速度提高了10倍。此技术预览已发布到DataBricks。