全国服务热线:
0592-5794349
当前位置:首页> 新闻中心

软件开发除了Hadoop之外,您还需要了解9种大数据技术

* 来源: * 作者: * 发表时间: 2019-08-12 7:52:03 * 浏览: 27
软件开发除了Hadoop之外,您还需要了解9大数据技术GTLC全球技术领导者峰会Hadoop是大数据领域的一种流行技术,但不是唯一的技术。还有许多其他技术可用于解决大数据问题。除了ApacheHadoop之外,还必须了解其他九种大数据技术。 ApacheSamza GoogleCloudDataFlow StreamSets TensorFlow ApacheNiFi Druid LinkedInWhereHows Microsoft CognitiveServices ApacheFlink:是一种高效,分布式,基于Java的通用大数据分析引擎实现,具有分布式MapReduce平台的效率,灵活性和可扩展性以及并行数据库查询优化它支持批处理和流基于数据分析并提供基于Java和Scala的API。这是一个社区驱动的分布式大数据分析开源框架,类似于ApacheHadoop和ApacheSpark。它的引擎通过数据流和内存处理以及迭代操作提高了性能。 ApacheFlink已成为顶级项目(TopLevelProject,TLP),于2014年4月被纳入Apache孵化器。目前,它在全球范围内拥有众多贡献者。受MPP数据库技术(Declaratives,QueryOptimizer,Parallelin-memory,核外算法)和HadoopMapReduce技术(Massivescaleout,UserDefinedfunctions,SchemaonRead)的启发,Flink具有许多独特的功能(Streaming,Iterations,Dataflow,GeneralAPI)。了解有关ApacheSamza的更多信息:一种开源的分布式流处理框架,它使用开源分布式消息传递系统ApacheKafka实现消息传递服务,并使用资源管理器ApacheHadoopYarn进行容错处理,处理器隔离,安全性和资源管理。该技术由LinkedIn开发,最初旨在解决Apache Kafka的可扩展性功能,包括SimpleAPI,Managedstate,FaultTolerant,Durablemessaging,Scalable,Extensible和ProcessorIsolation等功能。相关供应商内容Drip iOS客户端架构演变路径!微信客户端如何应对弱网络! Swift和Swift中的函数式编程功能编程!你有多远没有成为合格的技术领导者国际粉丝不容错过。 2016年6月24日至25日由GMTC全球移动技术大会主办的赞助GMTC全球移动技术大会,点击了解更多信息! Samza的代码可以作为Yarn作业运行,您也可以实现StreamTask接口。这定义了process()调用。 StreamTask可以在任务实例中运行,它本身位于Yarn容器中。了解有关CloudDataflow的更多信息:Dataflow是一种原生GoogleCloud数据处理服务,是一种构建,管理和优化复杂数据管道的方法,用于构建移动应用程序,调试,跟踪和监控产品级云应用程序。它使用Google的内部技术Flume和MillWhell,其中Flume用于高效的数据并行化,而MillWhell用于流处理,在Internet级别具有良好的容错能力。该技术为批处理和流数据处理任务提供了简单的编程模型。该技术提供数据流管理服务以控制数据处理作业的执行,并且可以使用DataFlowSDK(ApacheBeam)创建数据处理作业。 GoogleDataFlow为数据相关任务提供管理,监控和安全功能。 Sources和Sink可以在管道中抽象地执行读写操作。由流水线封装的整个计算序列可以接受来自外部源的一些输入数据,并通过转换数据来生成某些输出数据。了解有关StreamSet的更多信息:StreamSets是一种针对传输中的数据进行了优化的数据处理平台。它提供了一个通过开源分发的可视数据流创建模型。该技术可以部署在内部环境或云中,提供丰富的监控和管理界面。数据收集器可以使用描述数据如何从源流到目标的数据管道实时流式传输和处理数据,包括源,目标和处理程序。可以通过管理控制台控制数据收集器的生命周期。了解有关TensorFlow的更多信息:继DistBelief之后的第二代机器学习系统。 TensorFlow源自Google的Google Brain项目,其主要目标是将各种类型的神经网络机器学习功能应用于不同的Google产品和服务。 TensorFlow支持分布式计算,使用户能够在自己的机器学习基础架构中训练分布式模型。该系统由高性能gRPC数据库提供支持,是对最近发布的Google Cloud Machine Learning System的补充,使用户能够利用Google Cloud Platform来培训和服务TensorFlow模型。这是一个开源软件库,它使用数据流图进行数值运算。此技术已被各种Google项目使用,包括DeepDream,RankBrain和SmartReplyused。数据流图描述了使用由节点和边缘组成的有向图的数值运算。地图中的节点表示数值运算,边表示负责节点之间通信的多维数据数组(tensor,Tensor)。边缘还描述了节点之间的输入/输出关系。 “TensorFlow”这个名字暗示了张量在地图上流动的意义。了解更多德鲁伊:德鲁伊是一个高度容错,高性能的开源分布式系统,用于实时查询和分析大数据。它旨在快速处理大规模数据并实现快速查询和分析。它诞生于2011年,包括诸如Drive交互式数据应用,多租户:大量并发用户,可扩展性:每天数万亿的事件,亚秒查询,实时分析和其他功能。德鲁伊还包括特殊的重要功能,如低延迟数据采集,快速聚合,任意切割功能,高可用性,近似计算和精确计算。创建德鲁伊的初衷主要是解决查询延迟问题。那时,我尝试使用Hadoop实现交互式查询分析,但很难满足实时分析的需要。 Druid提供了以交互方式访问数据的能力,并权衡了查询的灵活性和性能,以采用特殊的存储格式。 (点击放大图片)该技术还提供其他有用的功能,例如基于JSON查询语言的实时节点,历史节点,代理节点,协调器节点和索引服务。了解有关ApacheNiFi的更多信息:ApacheNiFi是一个功能强大且可靠的数据处理和分发系统,用于创建数据流和转换的有向图。使用此系统,您可以使用图形界面创建,监视和控制数据流。有许多配置选项可用于在运行时修改数据流并动态创建数据分区。此外,可以对整个系统中的数据流执行数据源跟踪。通过开发自定义组件也可以轻松扩展。 (点击放大图片)ApacheNiFi与FlowFile,Processor和Connection等概念密不可分。了解有关LinkedInWhereHows的更多信息:WhereHows提供带有元数据搜索(Enterprisecatalog)的企业目录,可让您了解数据的存储位置以及数据的存储位置。该工具提供协作,数据谱系分析以及与各种数据源和提取,加载和转换(ETL)工具的连接。 (单击放大图片)此工具提供用于数据发现的Web界面。支持API的后端服务器负责控制元数据的爬网以及与其他系统的集成。了解有关MicrosoftCognitiveServices的更多信息:该技术由ProjectOxford和Bing提供支持,提供22种认知计算API,其关键类别包括:视觉,语音,语言,知识和搜索。该技术已集成到CortanaIntelligenceSuite中。 (点击放大图片)这是一种开源技术,提供22种不同的认知计算REST API,并为开发人员提供适用于Windows,IOS,Android和Python的SDK。