2022年数据分析的6大趋势

2021-12-28 14:30:58
互联网胖子君
文章摘要: 为了实现数据科学的民主化,云提供商将开发和发布更多的机器学习应用程序和其他构建块工具,例如特定于领域的机器学习工作流。这是一个开创性的趋势,因为随着时间的推移,个人需要编码的水平将会降低。

几十年来,数据管理的本质还是意味着收集、储存和不时的访问。近年来,随着技术的提升企业可以从企业数据中心到云空间和业务边缘(生成、访问和储存)的大数据中提取到关键信息导致这一切都发生了变化。在这个前提下,由于AI和机器学习等现代ji's技术的帮助下数据分析已经成为企业必备功能,在即将到来的2022年,这将显得格外重要。

企业如果需要通过从大部分的非结构化的数据中进行快速解析,来找到可以推动企业决策的信息。那么他们还需要创建一个现代化的数据环境来实现这一目标。

以下是将在2022年脱颖而出的一些数据管理的趋势。

在非结构化差距存在的情况下,数据湖变得更加有条理

企业数据分析有两种方法。首先是从CRM和ERP等业务应用程序中获取数据,并将其导入数据仓库以提供给BI工具。现在,这些数据仓库正在迁移到云端,采用Snowflake等技术。由于数据具有一致的架构,这种方法很好理解。

第二种方法是获取任何原始数据并将其直接导入到数据湖中,而无需任何预处理。这很吸引人,因为任何类型的数据都可以流入数据湖,这就是Amazon S3成为大规模数据湖的原因。问题是,某些数据比其他数据更容易处理。例如,日志文件、基因组学数据、音频、视频、图像文件等不能完全适合数据仓库,因为它们缺乏一致的结构,这意味着很难搜索数据。正因为如此,数据湖最终会成为数据沼泽:搜索、提取和分析所需内容太难了。

现在的大趋势和2022年持续的数据趋势是数据湖房屋的出现,由DataBricks流行起来,用于创建具有半结构化数据的数据湖,这些数据确实具有一定的语义一致性。例如,Excel文件就像一个数据库,即使它不是数据库,因此数据湖房屋利用半结构化数据的一致架构。虽然这适用于.csv文件、Parquet文件和其他半结构化数据,但它仍然不能解决非结构化数据的问题,因为此数据没有明显的通用结构。您需要某种方法来索引和推断非结构化数据的通用结构,以便可以针对数据分析进行优化。这种用于分析的非结构化数据的优化是一个很大的创新领域,特别是因为当今世界上至少有80%的数据是非结构化的。

平民化科学将成为2022年最有影响力趋势

为了实现数据科学的民主化,云提供商将开发和发布更多的机器学习应用程序和其他构建块工具,例如特定于领域的机器学习工作流。这是一个开创性的趋势,因为随着时间的推移,个人需要编码的水平将会降低。这将使机器学习为更多的工作角色打开大门:其中一些公民科学家将在中央IT部门工作,一些人将生活在业务范围内。DataFocus只是我们将在2022年看到更多低代码/无代码工具的一个例子。公民科学还处于萌芽阶段,但它绝对是市场的发展方向,也是即将到来的2022年数据趋势。数据平台和数据管理解决方案为用户提供了消费者般的简单性来搜索,提取和使用数据,将越来越突出。

“正确的数据”分析将超过大数据分析,成为2022年的关键趋势

大数据太大了,正在创造难以利用的数据沼泽。无论数据创建位置如何,都能精确地找到正确的数据并将其引入以进行数据分析,这将改变游戏规则,因为它将节省大量时间和手动工作,同时提供更相关的分析。因此,一个新的趋势将是所谓的"正确数据分析"的发展,而不是大数据。

数据分析"到位"将占主导地位

一些预测者表示,云数据湖将是收集和处理数据以进行不同研究活动的最终场所。虽然云数据湖肯定会获得牵引力,但数据堆积在任何地方:边缘,云中和本地存储中。这要求在某些情况下需要处理和分析数据,而不是将其移动到中心位置,因为这样做更快,更便宜。您如何不仅在边缘搜索数据,而且在将数据发送到云之前,还要在本地处理大量数据?您可以将基于云的数据分析工具用于更大、更复杂的项目。我们将看到更多的"边缘云",其中计算来到数据中心的边缘,而不是数据进入云。

与存储无关的数据管理将成为现代数据结构的关键组成部分

数据结构是一种架构,可提供数据的可见性,并能够跨混合存储和云资源移动、复制和访问数据。通过近乎实时的分析,它使数据所有者能够控制其数据在云和存储中的位置,以便数据可以在正确的时间驻留在正确的位置。IT和存储经理将选择数据结构体系结构来解锁存储中的数据,并实现以数据为中心与以存储为中心的管理。例如,存储专业人员可以使用分析和用户反馈来分割这些文件,例如通过复制医学图像以供临床研究中的机器学习访问,或者将关键数据移动到不可变的云存储以防御勒索软件,而不是将所有医学图像存储存储在同一NAS上。

多云将随着不同的数据策略而发展

如今,许多组织都有一个混合云环境,其中大量数据存储在跨多个供应商系统的私有数据中心中。随着非结构化(文件)数据呈指数级增长,云被用作辅助或三级存储层。可能很难看到各个孤岛来管理成本、确保性能和管理风险。因此,IT领导者意识到,跨云和本地环境从数据中提取价值是一项艰巨的挑战。当组织为不同的用例和数据集使用不同的云时,多云策略效果最佳。但是,这带来了另一个问题:当您以后需要将数据从一个云移动到另一个云时,移动数据的成本非常高昂。一个较新的概念是将计算拉向位于一个位置的数据。这个中心位置可以是一个托管中心,直接链接到云提供商。多云将随着不同的策略而发展:有时计算会进入您的数据,有时数据驻留在多个云中。

企业继续面临越来越大的压力,需要采用数据管理策略,使他们能够从数据海啸中获取有用的信息,以推动关键业务决策。数据分析将是这项工作的核心,以及创建开放和基于标准的数据结构,使组织能够控制所有这些数据以进行分析和行动。

信息化软件服务网 - 助力数字中国建设 | 责编:莎莉
文明上网,理性发言!请遵守新闻评论服务协议
评论