数据网格(data mesh)是一种分散的数据管理方法,在这种方法中,数据被视为一种产品,由跨职能团队拥有,通过面向领域的架构和自助式数据基础架构,在整个组织内提高 数据的可访问性、可扩展性和质量。
本指南将详细介绍数据网格架构、其工作原理以及对您的业务运营的意义。 当您读完这篇文章后,您将掌握扩展业务的工具,并在面对变化时保持敏捷。
数据网格的起源
Zhamak Dhegani 在 2019 年创造了“数据网格”这一术语,作为管理公司关键数据的一种革命性方式。
如果你听过 "不要把所有鸡蛋放在一个篮子里 "这句话,你就会明白数据网格架构的逻辑。 数据网格(data mesh)是指一种去中心化且广泛分布的数据所有权方法。
数据网格的核心原则
尽管您的数据网格架构可能具有独特之处,但核心原则是一致的。 数据网格是一种实用的数据处理方法,它确保没有单一实体拥有过多的控制权或责任。
以下是数据网格的核心原则,以及它们与类似工具(如数据湖或 数据编织)之间的关系。
面向领域的分散式数据所有权和架构
在数据网格架构中,定义域的含义非常重要。 在这种情况下,域(domain)指的是企业实体的任何子集或环境 ,其中可以包括员工、供应商、产品和客户。
面向域的数据所有权意味着没有任何一个实体可以控制数据的存储、分发或访问方式。 分散式数据管理的好处包括:
- 数据消费者可直接从数据所有者处获得数据产品,而无需通过多个中间商筛选才能获得所需信息
- 减少瓶颈和数据管道,确保多个实体之间的沟通更加顺畅
- 防止不同领域之间出现数据孤岛,避免数据资产被封锁,使需要数据的人无法获取数据
将数据视为产品
将数据视为产品是数据网格的另一个 强大成果,可让企业从其资产中获得最大价值。
虽然从技术上讲,被转来转去的数据并不是 B2C——它将被转给企业的其他员工——但产品思维对于保持系统顺利运行至关重要。 工人们还需要致力于无缝沟通和连贯的组织工作,才能出色地完成工作。
确保将数据视为产品所需的几个特征包括:
- 在集中式数据目录中轻松发现数据
- 组织内统一命名规范,避免混淆或浪费时间
- 质量控制功能,如在基本验证方法后审核数据
定义自助服务数据基础设施
让我们深入研究一下数据网格,了解分散式数据源在实际中是如何工作的。自助式数据基础架构可确保每个领域在维护数据资源方面都承担一定的责任。
无论业务领域如何,每个人都要在过滤、清理和加载数据方面发挥作用。例如,划分这一职责的方式可以是让数据工程师负责管理数据技术,而数据分析师则负责标记和整理数据。 如果你的团队规模较小,那么你可能会让更少的人承担更多的责任。 分散式数据管理可使用的工具和平台包括分散式存储、加密和区块链。
分解联合数据治理
最后但并非最不重要的一点是,数据网格需要较高的 安全级别才能正常运行。由于有多个域都在参与,因此每个人都必须确保他们遵循最佳实践,以保证数据使用的安全性。
每个域都可以根据自己的需求提供独特的标准和实施方式。例如,一个团队可能没有重命名数据的能力,而另一个团队可能无法在未经事先批准的情况下删除重复数据。
无论治理类型 ,都需要某种形式的治理,包括一致实施的标准、政策和实践,以及分析数据产品的使用方式和对象。
数据网格的优势
既然您已经了解了什么是数据网格以及数据网格的用途,那么是时候来分析一下数据网格为您的企业带来的经济效益了。仅仅创建数据产品是不够的,还需要考虑可扩展性、灵活性和质量。
可扩展性
扩大规模并非易事。 根据麦肯锡的调查,在过去十年中,只有 22% 的企业成功做到了这一点。数据网格使您能够在不大幅调整预算的情况下可靠地发展业务。
由于数据网格不依赖于集中的数据平台,因此责任分配更加均衡。这种分布式架构的主要优势之一是能够随时进行创新和重新设计,从而使数据使用者能够以新的方式处理数据。
自助式数据平台的独立治理提供了一定程度的自由,这是集中式数据结构所不具备的。即使一个团队因条件限制或最近的业务变化而陷入困境,其他团队成员也可以相对不受阻碍地继续工作。这种灵活性是下一节将介绍的另一个优点。
敏捷
在创建数据产品时,您必须考虑如何下载或重新分发这些数据。数据网格允许不同的域根据自己的最佳实践更快地处理数据,从而减少积压或等待时间。
从查询到发现,您的域可以更灵活地发挥作用,更高效地完成任务。这并不意味着任何人都可以为所欲为——最佳实践和业务限制仍然存在,但路障肯定会减少。
这种灵活性带来了显著的业务创新和市场响应能力。无论行业走向如何,您都可以相信您的自助服务数据平台能够迎接挑战。
提高数据质量
虽然数据湖由未经整理或过滤的原始数据组成,但数据网格本质上要求更高的数据质量。由于您将数据视为数据产品,因此您会按照交付给客户的相同标准来对待它。
那么,数据质量在实践中是什么样的呢? 数据质量可以是为领域团队提供经过适当分析和清除任何故障(如损坏文件或重复文件)的数据。 它也可以表现为给非结构化数据提供更好的组织,以便人们能够更容易地找到它。
提高数据质量可确保您的数据消费者能够更高效地完成工作,从而在整个业务中产生积极的连锁反应。 在数据网格中忽视数据质量可能会造成混乱、存储浪费或数据孤岛。
加强合作
从数据工程师到中央数据团队,每个人都需要能够高效地协同工作。数据网格通过为每个人分配收集、分析和使用数据的具体任务,增强了领域团队之间的协作。
由于数据网格需要持续维护,以确保数据的功能足以使用,因此协作是一项关键功能。 所有领域的团队都需要保持定期联系,以确保数据产品在业务功能方面保持一致的质量水平。总之,数据网格可提高跨职能部门的洞察力和数据驱动的决策。
数据网格 vs. 其他数据架构
数据网格并不是您可以用于业务的唯一架构。以下是您在进行更安全、更高效的数据操作时应该考虑的几种变化。
数据网格 vs. 数据仓库
由于数据网格和数据仓库(data warehouse)都要处理大量的数据产品,因此两者乍看 非常相似。 然而,数据仓库采用的是一种更为集中的方法,而数据网格则是去中心化的。
数据仓库非常吸引人,因为它简化了企业处理数据的方式,将所有数据整合到一个单一的存储库中。对于还不确定是否需要数据网格的规模和范围的小型企业来说,这种方法非常有用。 然而,数据仓库的缺点是难以扩展。 它的功能也比较有限,不如数据网格灵活。
数据网格采用了一种去中心化的方法,让多个领域团队负责数据的存储、分类、分发和使用。
数据网格与数据湖
二者在概念上几乎处于两个极端。 数据湖提供了一个原始、非结构化数据的存储库,而数据网格则需要更高水平的组织。
这是否意味着其中一个自动比另一个更好? 不完全是。 对于需要尽快收集大量数据的小型企业来说,数据湖非常有用。 它入门门槛低且基础灵活,是成长型企业有用的工具。
尽管如此,数据湖的功能仍然有限。 由于其数据是原始数据,文件损坏、文件重复和文件杂乱等问题很快就会暴露出来。
数据网格 vs. 数据编织(Data Fabrics)
最后但并非最不重要的一点是,我们还要考虑到数据编织。虽然数据网格采用去中心化的基础来分发和使用数据,但数据编织则需要一种集中的数据处理方式。
数据编织不仅需要集中的数据结构,而且比数据网格更加自动化。 数据编织架构只需要很少的监督,就能从多个来源收集数据,并将其集中在一个简单的位置供人们使用。 这种超自动化方法对那些有特定工作方式并需要尽可能节省时间的企业来说非常有吸引力。
您准备好迎接数据网格了吗? 关键问题
既然您已经了解了数据网格的工作原理及其对企业的益处,您可能会想知道是否应该实施数据网格。在此之前,请先考虑这些关键问题,以便更好地了解自己可以如何受益。
组织规模和复杂性
关于数据网格,您首先要问自己的业务规模和复杂性。您的组织是否足够庞大和复杂,可以从分散式方法中获益?
您还应该提出以下几个问题:
- 您目前的数据架构是否存在任何可扩展性问题?
- 您是否有多个领域团队需要更好的交叉协作?
- 在未来几年的业务计划中,是否有涉及扩大组织规模的内容?
数据管理挑战
数据管理是一个复杂的问题,从安全问题到适当的组织都是如此。大多数组织都将数据管理视为成功的关键,因此您不能不提出以下问题。
- 是否有任何数据瓶颈、孤岛或质量问题阻碍您的运营?
- 您是否需要提高数据管理的可扩展性和灵活性?
- 您想要集中式方法还是分散式方法?
员工的领域专长
数据网格的好坏取决于使用它的数据消费者。如果您的领域专业知识需要磨练,那么数据网格可能有点过于投入。
请就您的数据平台团队构成提出以下问题,看看您是否应该进行转换:
- 您的团队是否拥有强大的特定领域知识?
- 特定领域知识的种类有多少?
- 您认为您的团队准备好将其数据作为产品所有权了吗?
即使您对其中一些问题的回答是否定的,但这并不意味着您不能制作数据网格。只要确保在没有解决这些问题的情况下,你不会继续前进,因为缺乏准备绝对会成为日后的问题。
文化准备
数据网格既是一种理念,也是一种数据管理系统。 实施一项计划需要一定程度的承诺、协作和成功的决心。
- 贵组织的文化是否符合分权原则?
- 您的团队愿意接受向数据所有权和协作的文化转变吗?
- 您的团队在管理或分发数据时是否反应迅速、积极主动?
您的资源可用性
与数据湖相比,数据网格需要更多的监督。如果你认为自己没有足够的资源来维护数据网格,就没有必要贸然进入数据网格。
- 您有资源投资自助服务基础设施或管理框架吗?
- 贵组织是否致力于为改进数据管理提供持续支持和改进?
- 您知道要使用哪些资源来创建数据网格结构吗?
有效实施数据网格
如果您已经回答了上述有关数据网格的问题,并希望实施数据网格,那么现在就应该考虑实施问题了。虽然创建一个自助数据平台因其规模庞大而看似令人生畏,但它可以被缩减为几个步骤。
评估与规划
第一步是将数据视为数据产品。这是一种观念上的转变,是改变组织结构所需的评估与规划过程的一部分。
评估组织的准备情况可能需要确定关键领域和利益相关者。您想通过业务实现什么目标,混乱的数据是如何阻碍您实现这些目标的?
建立领域团队
在建立数据网格时,您的领域团队需要明确角色和职责。 一个团队可能负责收集数据,而其他团队可能负责分析数据以做出业务决策。
培训和入职你的“域团队”对于创建一个运行顺畅的自助服务数据平台至关重要。 精心策划的培训计划可提高员工的参与度。 如果考虑到数据网格是一种以用户为中心的方法,那么让用户持续投入就符合您的最佳利益。
构建自助式数据基础设施
一旦您对领域团队的运作方式和整体业务目标有了更好的了解,就该建立自助式数据基础设施了。 在这一阶段,您开始选择不同的工具和平台来帮助您管理域数据。
您应优先考虑那些具有可扩展性和灵活性的工具。 例如,云存储解决方案可以让您根据需要进行扩展,或提供更深入的域数据洞察。 您还可以寻求能对敏感活动进行持续分析的安全服务。
治理与合规
您的数据产品需要一致的管理和合规性,以确保全面的最佳实践。 你最不希望的就是让不合适的人访问你的领域数据或对其进行不当处理。
制定治理框架涉及为每个领域团队创建一套标准。 例如,您可以根据个人的团队角色提供特定的访问权限。花时间制定数据质量、安全性和互操作性政策,将确保您的域数据始终安全可用。
迭代实施和改进
当你确定了数据网格的功能后,就不必全力以赴地去实现它了。在初步接触数据产品及其带来的新期望时,从试点项目开始是明智之举。
从试点项目入手可以让你收集反馈并持续改进。 您可能会发现自己其实想要一个中央数据团队,或者意识到您的数据科学家需要自己的领域团队。虽然您完全可以向其他企业学习他们处理数据的方法,但有些知识只能从试验和错误中获得。
为什么 InterSystems 是创建数据网格的最佳选择?
组建数据网格不一定是一个人的项目。确实,数据网格本质上是为了通过人性化的方式协作转化你的数据产品而设计的。
我们为你提供访问数据并更有效地利用数据的手段,以及全面的数据解决方案。我们提供先进的数据管理和集成能力,以建立可扩展的可靠数据基础设施。我们云优先的数据平台使您能够便捷、安全、一致地访问数据。
InterSystems 先进的数据平台,包括对分散式数据管理的支持,有助于创建和维护自助式数据基础设施。多年来,我们帮助医疗机构、船运公司和投资银行等企业管理和组织数据。
Chess物流技术公司
Chadwicks Grou、Murata Machinery和 Chess物流技术公司 是我们帮助解决过数据孤岛和数据驱动决策问题的几家客户。无论您是担心数据产品的可行性,还是希望升级数据湖,我们都能为您提供帮助。
InterSystems致力于不断改进和保持数据技术的领先地位。 我们将为您的企业提供持续的支持与合作,以确保您的数据网格计划取得成功。
当您准备打造数据网格范例时,请联系 InterSystems。