共计 2244 个字符,预计需要花费 6 分钟才能阅读完成。
导读 | 调研机构 IDG 公司最近发布的一份调查报告表明,虽然组织的数据向云平台的大规模迁移并不是从 2020 年开始的,但在这一年中得以快速发展。绝大多数组织计划在 2021 年扩大对云计算数据仓库和数据湖的投资。然而,围绕数据管理和 ETL 的许多问题仍然存在。 |
调查发现,77% 的 IT 决策者计划在未来 6 到 12 个月内迁移到云计算数据仓库或扩展现有的云计算数据仓库。另有 21% 的 IT 决策者计划在未来 24 个月扩展其云数据仓库。只有 1% 的 IT 决策者表示,他们没有迁移或扩展云数据仓库的计划。
这些调查数据非常突出,特别是考虑到 IDG 公司的调查参与者中只有 38%(他们是商业智能、分析或数据科学领域的主管和更高级别的决策者) 拥有云计算数据仓库。调查发现,30% 的组织正在运行内部部署的数据仓库,而 23% 的组织使用非云数据仓库。
显然,在 2021 年的数据分析计划中,云计算对各种规模的组织都有重要影响。例如 Snowflake、AWS、Microsoft Azure、Google Cloud 和 Databrickss 提供的云计算数据仓库正在抢占市场份额。除了这些顶级的云计算数据仓库供应商之外,大多数为内部部署开发数据仓库的供应商在这一方面也提供了类似的产品。
根据 ETL 供应商 Matillion 公司委托 IDG 公司进行的调查,尽管云计算数据仓库显然正在快速增长,但不到一半的用户计划使用云计算数据仓库。
调查表明,57% 的组织将采用内部部署和云计算数据仓库相结合的数据管理策略,22% 的组织采用多云数据仓库的策略。在采用云数据仓库策略的公司中,只有 21% 的组织使用单一的云平台。
这项调查在数据湖方面也有类似的故事,数据湖是一个无限可扩展且价格低廉的数据存储,在过去十年中已经接替了 Hadoop 的职责。IDG 公司的调查发现,虽然目前只有 16% 的组织正在使用数据湖,但高达 56% 的组织表示在将来使用数据湖,而另外 26% 的组织正在考虑使用数据湖。只有 2% 的组织表示并未考虑使用数据湖。
尽管很多组织正在将大量数据迁移到各种云存储库,但不应将云计算技术视为应对所有数据管理挑战的灵丹妙药。IDG 公司的调查报告显示,数据分析从业者需要一周的时间才能得到一个给定的数据集来进行分析。总的来说,准备和汇总数据进行分析需要花费将近一半的时间 (45%),另外 30% 的时间用于探索和训练大型模型。只有 25% 的时间用于处理部署到生产中的模型。
Matillion 公司产品总监 David Langton 对原有分析陷阱正在增长并不感到惊讶。他说:“有很多原因使这种问题难以解决。首先也是最重要的一点是,组织所能生成的最有趣的分析和报告并不是来自单一的数据源,必须结合起来。”
他表示,云计算数据仓库是将有趣的数据组合在一起,从而为用户带来有利可图的见解。他说,一些客户具有在内部部署设施进行这一操作的经验,并且只是在利用云计算数据仓库提供的规模,而其他一些客户现在才开始参与其中。
Langton 说,“我们过去经常在内部部署设施做所有这类事情。我们现在正在重新构想、重新配置工具,并将大量数据移动到云平台中。有一些客户对需要达到什么目标,进行现代化改造并以新的方式来做到这一点很了解。但也有很多新客户从未做过。”
他表示,客户选择在 ETL/ELT 工具上进行大量选择,以选择在云存储库中移动和转换其数据。他注意到最近出现的一个趋势,即供应商将主要专注于提取和加载,而将转换留给数据仓库供应商。一些 ETL/ELT 供应商也支持转换,但仅提供通用转换。
在 Matillion 公司的案例中,该公司旨在提供功能齐全的 ETL 工具,该工具不仅可以提取和加载数据,而且还支持针对各种不同的内部部署和云计算数据仓库系统的数据库内转换。他表示,即保持灵活性使其能够跨多个数据目的使用许多不同的数据类型,是 Matillion 公司提供的产品的重要价值。
Langton 说,“对我们来说,这是一个与众不同的地方。许多 ETL 工具提供商都表示,具有一个读取数据和写入数据的标准适配器,并且中间是我们的转换逻辑,因此获得的好处是只需要编写一次转换逻辑。我们为支持的每个目标系统编写转换逻辑,以对其进行优化。因此,我们将在 Snowflake 上以首选方式进行操作,或者在 Redshift 上以首选方式进行操作,而不是将它们全部视为黑盒,并且它们的工作原理都是相同的。”
由于采取许多不同的方法,因此灵活性很重要。一些数据仓库使用一种读模式方法 (Hadoop 就是这样设计的),而另一些则在数据写入数据库时强制使用一种模式。事实上,许多云计算数据仓库都配备了查询处理功能,允许它们查询驻留在云计算数据湖中的数据,这也加剧了混淆。支持 JSON 数据类型的各种方法也是如此,在使用 SQL 语言查询 JSON 数据类型之前,通常必须将其扁平化。
总体而言,云计算分析中的工具和技术已经得到了极大的改进,随着客户发现适合他们的方法,这推动了实验的发展。Langton 表示,在中间使用 ETL/ELT 工具定义数据的客户具有一个优势,即可以轻松地更换数据仓库。
他说:“我们越来越多地看到人们在成为客户后迁移和尝试不同的数据仓库,并希望尝试采用另一个数据仓库。显然,我们有办法帮助迁移。但这确实表明组织已经全力以赴,在这些决策上进行了很大的投入,希望在几年之内可以更新并尝试新的解决方案。”