阿里云-云小站(无限量代金券发放中)
【腾讯云】云服务器、云数据库、COS、CDN、短信等热卖云产品特惠抢购

这12款开源数据分析应用软件值得关注

82次阅读
没有评论

共计 2769 个字符,预计需要花费 7 分钟才能阅读完成。

导读对于许多大企业来说,开源大数据分析已经成为日常业务中一个必不可少的组成部分。据 New Vantage Partners 公司对《财富》1000 强公司的高层主管开展的调查显示,如今 62.5% 的企业在生产环境中至少运行一种大数据工具或应用软件。这比 2013 年给出同样回复的企业数量高出近一倍,只有 5.4% 的受访企业没有大数据计划。

说到大数据分析,开源软件是常态,而不是异数。许多企业使用的一些领先工具由 Apache 基金会管理,许多商业工具至少一部分基于这些开源解决方案。

我们在本文中介绍了市面上 12 款顶尖的开源数据分析解决方案,其中一些为大数据分析提供了全面的端到端平台,另一些要与其他技术结合起来。它们都适合大企业使用,都是市面上领先的数据分析工具。

1. Hadoop

这 12 款开源数据分析应用软件值得关注

谈到开源数据分析技术,就不可能不提到 Hadoop。Apache 基金会的这个项目已经几乎成为大数据的同义词,它让企业能够大规模分布式处理极其庞大的数据集。TDWI 和 SAS 联合开展的一项调查发现,近 60% 的企业预计在 2016 年年底之前会在生产环境中拥有 Hadoop 集群。

然而值得一提的是,Hadoop 本身无法实现数据分析。它通常是从大数据获取洞察力的整个更庞大解决方案的一部分。

2. Spark

这 12 款开源数据分析应用软件值得关注

Spark 也是 Apache 旗下的一个项目,它承诺可以迅速处理大数据。实际上,它声称“在内存中运行程序的速度比 Hadoop MapReduce 快 100 倍,在磁盘上运行程度的速度快 10 倍。”由于这种出色性能,它常常用于分析流式数据或用于需要交互式分析功能的应用软件中。许多公司经常把它与 Hadoop 或 Mesos 一起使用,不过它也能独立运行。最近,它的人气得到了急剧提升,Syncsort 在 2016 年开展的一项调查发现,受访的企业大数据工作人员中近 70% 对 Spark 有兴趣。

3. Talend

这 12 款开源数据分析应用软件值得关注

不像前面两个项目,Talend 由一家营利公司管理,而不是由基金会管理。因而,提供收费支付服务。Talend 既提供免费产品,又提供收费产品。它免费的开源解决方案名为 Talend Open Studio,下载量已超过了 200 万人次。

市场研究公司 Gartner 最近将 Talend 评为数据集成领域的“领导者”。这家公司声称,相比与之竞争的解决方案,它帮助企业分析大数据的速度快五倍,而成本却只有五分之一。

4. Jaspersoft

这 12 款开源数据分析应用软件值得关注

与 Talend 一样,Jaspersoft 也有多个版本,有的版本免费,有的版本收费。社区版是免费、开源的,而 Reporting 版、AWS 版、专业版和企业版需要收费,不过随带支持服务。

Jaspersoft 是一款开源商业智能工具,旨在让企业用户可以借助自助服务,满足自己的要求。该公司声称,它的技术支持 130000 多款应用软件,提供嵌入式商业智能功能。

5. Pentaho

这 12 款开源数据分析应用软件值得关注

Pentaho 自诩为“全面的数据集成和商业智能平台。”该公司主要大力推销它的商业版软件,该软件基于开源社区版。许多公司将它与 Hadoop 和 Spark 之类的工具一起使用,以便能够报告和显示大数据。该软件声称拥有一大批的知名客户,包括英国电信(BT)、卡特皮勒、纳斯达克、美国国土安全部、美国国家海洋和大气局(NOAA)、《纽约时报》、EMC 及其他许多企业组织。

6. RapidMiner

这 12 款开源数据分析应用软件值得关注

RapidMiner 声称是“头号开源数据科学平台”,Gartner 将它评为高级分析魔力象限报告中的领导者。它能够实现自助式预测分析,承诺有望提升速度飞快的性能。用户包括宝马、汉莎航空、达美乐比萨公司、索尼、福特、Salesforce、国际特赦组织和通用电气公司。整个 RadiMiner 平台包括三个独立的组件:RapidMiner Studio、RapidMiner Server 和 RapidMiner Radoop。这三个组件都采用开源许可证或商业许可证,商业版价格取决于用户数量。

7. Storm

这 12 款开源数据分析应用软件值得关注

Apache Storm 被雅虎、推特、Spotify、Yelp、Flipboard 和 Groupon 之类的公司所使用,它是一种实时大数据处理引擎。它的官方网站解释:“Storm 让用户很容易可靠地处理无限制的数据流,它在实时处理方面的功能好比 Hadoop 在批处理方面的功能。”客户可以将它与任何数据库或任何编程语言一起使用。它具有可扩展、容错、易于部分使用的优点。然而用户要注意的是,Storm 还没有进入到 1.0 版本这个阶段。

8. H2O

这 12 款开源数据分析应用软件值得关注

H2O 被 60000 多个数据科学家和 7000 多家企业组织所使用,声称是“世界上领先的开源机器学习平台。”由于它的内存技术,它提供了极其出色的性能。它还与 Hadoop 和 Spark 之类的其他许多开源数据分析工具整合起来,支持所有主要的流行数据库,提供收费的支持服务。

除了标准版的 H2O 外,该公司还提供 Sparkling Water,这个版本整合了 Spark 和 Steam,后者是一种端到端人工智能应用引擎。

9. Lumify

这 12 款开源数据分析应用软件值得关注

Lumify 由一家名为 Altamira 科技的公司开发,自称是“开源大数据分析和可视化平台。”它让用户易于创建二维或三维图形,可显示实体之间的关系,或在地图上覆盖数据。对于有兴趣深入了解它的工作原理的那些人来说,官方网站提供了几个视频,显示了 Lumify 的实际运行,上面还有一个演示网站,让用户可以上传自己的数据,并试用软件。

10. Drill

这 12 款开源数据分析应用软件值得关注

Apache Dril 让用户得以使用 SQL 查询用于非关系型数据存储系统。它支持一系列 NoSQL 和基于云的数据存储系统,包括 HBase、MongoDB、MapR-DB、HDFS、MapR-FS、亚马逊 S3、Azure Blob Storage、谷歌云存储和 Swift。它还让用户可以使用单一查询,即可搜索用不同技术存储起来的多个数据集。此外,它支持许多流行的商业智能工具。

11. MongoDB

这 12 款开源数据分析应用软件值得关注

作为最知名的 NoSQL 数据库之一,MongoDB 是一种开源非关系型数据存储解决方案。客户包括大都会人寿(MetLife)、芝加哥市、Expedia、谷歌、气象频道、BuzzFeed 和 Facebook。除了免费开源版外,该公司还提供一款收费的企业版和云托管的版本 MongoDB Atlas。知名市场研究机构弗雷斯特研究公司将 MongoDB 评为大数据 NoSQL 领域的“领导者”。

12. SpagoBI

这 12 款开源数据分析应用软件值得关注

SpagoBI 是一款开源商业智能和大数据分析平台。该软件完全免费,但还提供收费的用户支持、维护、咨询和培训等服务。它包括了用于报告、多维分析 (OLAP)、图表、位置情报、数据挖掘、ETL(抽取转换和加载) 及更多其他方面的工具。它还与流行的内存处理引擎整合起来,能够实现实时处理。

阿里云 2 核 2G 服务器 3M 带宽 61 元 1 年,有高配

腾讯云新客低至 82 元 / 年,老客户 99 元 / 年

代金券:在阿里云专用满减优惠券

正文完
星哥玩云-微信公众号
post-qrcode
 0
星锅
版权声明:本站原创文章,由 星锅 于2024-07-24发表,共计2769字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
【腾讯云】推广者专属福利,新客户无门槛领取总价值高达2860元代金券,每种代金券限量500张,先到先得。
阿里云-最新活动爆款每日限量供应
评论(没有评论)
验证码
【腾讯云】云服务器、云数据库、COS、CDN、短信等云产品特惠热卖中