数据治理基础
视频号
微信公众号
知识星球
- 30 次浏览
【数据架构】数据架构和数据治理:关系是什么?
视频号
微信公众号
知识星球
蝙蝠侠和罗宾。汉斯·索洛和丘巴卡。马里奥和路易吉。就像这些著名的配对一样,数据架构和数据治理也是如此。他们以各种方式相互支持。
这个数据管理二人组的首要任务是什么?他们的共同目标是创建支持企业的标准和指南。(思考:提高运营效率、降低成本、降低风险等)
数据治理如何支持数据架构
您组织的架构小组应制定并实施政策和原则,以确保任何新技术实施都遵循最佳实践。您的数据治理团队(DGT)可以将这些策略转化为业务需求和指南,并从业务角度帮助实施这些策略。例如,DGT可以举办培训课程,帮助业务方了解数据架构的重要性以及在不遵守其指导原则时的影响。这种教育可以帮助企业方进行项目规划过程,并为可能的情况设定期望。在没有DGT作为论坛的情况下,这种知识转移只会在一个项目一个项目的基础上进行,而且通常只有在提出请求时才被拒绝,因为它不遵守数据架构政策和原则。
数据建模是数据架构的重要组成部分,也是数据治理的关键。业务方很少参与数据建模(甚至非常关心数据建模),这使DGT在理解数据建模方面发挥了至关重要的作用。DGT可以解释为什么它反映了数据的运营使用,同样,它也反映了客户参与度、产品定位和其他关键业务运营。例如,DGT为反映客户的观点而创建的层次结构和数据关系需要在适当的数据模型中实例化。
如果没有对数据建模的高级理解,业务人员可能无法将数据的操作使用转化为数据所在的系统。本质上,数据模型需要反映业务模型,DGT可以充当翻译者和促进者,以确保实现这一点。
数据架构如何支持数据治理
数据架构提供了对数据存在的位置以及数据如何在组织及其系统中传播的理解。它突出显示了数据从一个系统移动到另一个系统时所做的更改和转换。这些数据清单和数据流程图提供了DGT正确制定数据政策和标准所需的信息和工具。当业务端提出数据问题时,这些工件也有助于DGT执行根本原因分析,这些工件有助于解决这些问题。
数据清单和数据流图也有助于确定可以测量的内容、时间和方式。他们可以通过了解谁使用系统以及出于什么目的,帮助识别与提高系统中数据质量相关的可能业务影响,并帮助创建度量和度量。此外,这些图表可以帮助确定如何根据谁创建和更新数据以及在哪些系统中衡量标准的遵守情况。数据清单和数据流程图以及数据责任和所有权是识别责任和所有权中任何差距的关键。
DGT还可能发现这些工件有助于教育团队了解团队可能认为他们的数据来源和使用情况。在许多情况下,业务利益相关者表示,他们希望更好地了解数据环境以及数据如何在整个组织中移动。DGT在教育组织了解这些信息并将其与架构政策和标准相结合方面的作用有助于确保数据在其整个生命周期中的准确性和完整性。
强大的数据管理二人组
通过促进治理和架构团队及其人员、流程和策略之间的协同作用,您的数据管理领域将获得更强大的结构的回报,从而更好地与您的组织目标保持一致。
- 64 次浏览
【数据治理-】数据治理-快速和好奇
视频号
微信公众号
知识星球
学会开车可能是对神经的一种考验。操作一台不熟悉的复杂机器,遵守道路规则,再加上被监护人或驾驶教练监视和建议的压力,这是一种平衡。最大的担忧是故障(即崩溃)的成本,这可能对健康和经济产生重大影响。
“数据治理”一词也可能引起类似的不安。我们知道管理和保护数据的责任是巨大的。通过推动我们的新数据生态系统,既有风险,也有巨大的机会。然而,失败的代价(例如数据被盗用)可能会对声誉、道德、监管或潜在的法律产生重大影响。
传统上,中央数据团队负责维护数据系统,并向组织的其他部门提供数据资产。中央团队如何提供看门人角色;本质上是判断你是否被允许开车?项目是否应该访问历史零售销售数据来建立客户流失模型?分析师的请求是否具有PII、PCI或道德含义?将访问密钥交给不合适的驱动程序会产生什么后果?原地踏步也不是答案,花太长时间交钥匙对收入有什么影响?
在现代数字企业中,组织中的每个人都必须理解数据的根本重要性。将此功能集中化或使此功能成为瓶颈是不可行的。就像路上的每一位新司机一样,每个项目也是一个数据项目,因为它产生和消耗数据,并影响组织中的整体数据流。值得关注的数据治理问题包括平衡道德、风险管理、同意管理、灾难恢复计划、安全、隐私、完整性、事件响应、访问管理和问责制。
Data proficiencies of a modern digital business
就像我们的道路,有很多车辆类型和相互竞争的利益;数据生态系统是流动的,我们可以为更安全的驾驶制定我们的公约——ahh数据访问。只有在红绿灯、车辆检查、驾驶员培训和测试等驾驶惯例的出现下,我们繁忙道路上的交通才有可能得到安全管理。同样,在数据领域,我们看到了流程、系统和治理的演变,以及围绕数据治理的经济、文化、合规和人类风险来治理生态系统的更好方法。个人决定开车旅行或城市决定在哪里铺设新的公交路线,类似于数据生产者和消费者在组织数据治理问题的范围内协商创造组织价值的最佳方式。
无论你称之为数据网格还是更普遍的“去中心化治理”,产品数据所有者都是真正的领域专家,可以帮助制定驱动数据系统的规则。与安全驾驶一样,企业范围的数据治理定义了数据提供商和数据消费者的权利和义务。
对您的数据治理策略不确定?联系我们,我们总是很乐意帮助您安全地开车前往目的地。
- 7 次浏览
【数据治理】2023年将遵循的7项数据治理最佳实践
视频号
微信公众号
知识星球
实施数据治理最佳实践对于确保您的数据保持准确、可靠和安全至关重要。
7项基本数据治理最佳实践
帮助您改进数据治理的七个数据治理最佳实践如下:
- 用你的“为什么”来引导
- 采用“数据产品”思维
- 在日常工作流程中嵌入协作
- 尽可能自动化
- 通过DataOps确保数据支持
- 投资正确的技术
- 不断改变和调整您对数据治理的看法
在这里,我们将探索和理解数据治理项目中采用的这些最佳实践。
什么是数据治理最佳实践?
数据治理最佳实践是成功的数据团队为有效地扩展其数据治理工作而采用的一套指南。
您可以将其视为帮助您回答问题的护栏和政策,例如:
- 您的组织有哪些数据?
- 这些数据在哪里?
- 它在哪里以及如何流经您的组织?
- 它是用来做什么的?使用这些数据生成了哪些报告或指标?
- 如何访问此数据?
- 谁拥有这些数据?
- 谁定义、修改和使用这些数据?
- 能否共享此数据?
让我们更深入地了解7个数据治理最佳实践中的每一个。
1.用你的“为什么”来引导
总体目标的需要
大多数数据治理框架都是从一个原因开始的——一个目标、一个公司驱动因素,或者一个治理战略和愿景的战略层。“为什么”帮助您定义您的行动将如何实现价值并与组织的业务目标保持一致。
有一个总体目标也有助于组织中的员工培养目标感和参与感。根据热门职业咨询网站the Muse的联合创始人兼首席执行官凯瑟琳·明秀(Kathryn Minshew)的说法:
“年轻的员工希望相信自己工作的价值。他们希望被倾听,不太可能在没有上下文的情况下听从命令。”
创建和传达“为什么”如何帮助您的团队?
从你的“为什么”开始并让你的人参与这个过程的另一个原因是数据治理本身随着时间的推移而演变的方式。
在另一篇文章中,我们强调了现代数据治理不能是自上而下的方法,而是应该是分散的、社区主导的举措。在这样的环境中,数据治理成为组织中每个人的共同责任。
因此,让他们了解数据治理计划、政策和标准背后的目的至关重要。您可以首先询问您的团队,他们如何在未来12-18个月内可视化组织的数据文化。
2.采用“数据产品”思维
什么是数据产品?
数据产品是从数据中提取价值并帮助您产生有意义见解的任何东西。在《数据分析与Hadoop》一书中,数据产品的定义如下:
数据应用程序从数据本身获取其价值,并因此创建更多数据。它不仅仅是一个有数据的应用程序;这是一个数据产品。
因此,数据产品可以是原始数据、仓库、KPI仪表盘、域数据、算法等。
DJ Patil曾任美国科学技术政策办公室首席数据科学家,他在这里为该术语添加了更多的上下文:
当您更广泛地考虑数据产品时,您开始意识到,即使是公司内部的仪表盘也很重要。突然间,你的视野开阔了,你可以开始创建流程,让你了解、制造和大规模销售产品。
为什么要将产品思维应用于数据?
将产品思维应用于数据可以帮助您从大规模的数据中产生意义。
与服务不同,一个产品只需构建一次,几个客户就可以使用它来解决问题。产品可以进行更新和改进,以优化客户获得的价值,但前提不变。
以下是Atlan联合创始人Prukalpa Sankar如何强调产品思维对数据团队的影响:
衡量一个产品的不是它有多少功能,也不是工程师能多快地消除缺陷,而是它能多好地满足客户的需求。同样,数据产品团队应该以用户(即整个公司的数据消费者)为中心,而不是回答问题或构建仪表板。这使得数据团队能够专注于经验、采用和可重用性,而不是专门的问题或请求。
阅读更多信息→ 如何将产品思维应用于数据
您如何将产品思维思维模式应用于数据治理?
在数据治理的情况下,您可以将每个数据域标识为数据产品,并指定域数据所有者(即数据产品所有者)来管理他们创建的数据。当您将管理数据的责任交给创建数据的人时,处理数据责任和信任问题就变得更简单了。
数据产品的消费者-分析师、科学家、业务经理-应该被视为客户,为他们提供愉快的体验应该是每个数据产品所有者的基本目标。
因此,数据产品所有者有责任确保“数据产品”:
- 可重复使用的
- 可复制性
- 有据可查
- 可扩展性
- 可访问的
- 易于理解和使用,支持自助服务
3.在日常工作流程中嵌入协作
元数据在数据治理中的作用
数据治理的一个核心成果是使组织的数据易于访问、理解和使用。元数据在这一结果中发挥着核心作用,它提供了相关的上下文,使数据能够被消费者发现和理解。
然而,元数据不能容纳在数据团队必须切换以获取完整上下文的另一个工具中。Slack的软件工程师乔什·威尔斯(Josh Wills)在推文中描述了这个难题——他不想只访问第三个网站“浏览元数据”。
需要在我们的日常工作流程中嵌入元数据。来源:推特
什么是嵌入式协作?
嵌入式协作是指在你所在的地方进行工作,同时减少摩擦。
通过嵌入式协作,您可以回答关于数据来源和可追溯性的几个问题,这进一步简化了数据治理。
正如Atlan的联合创始人Prukalpa Sankar所说,“嵌入式协作可以统一数十个微工作流,这些工作流会浪费时间、造成挫折,并导致数据团队的工具疲劳,反而会让这些任务变得令人愉快。”
数据治理的嵌入式协作是什么样子的?
通过将元数据嵌入到团队的日常工作流程中,您可以帮助他们使用自己选择的工具进行协作和讨论数据。例如,他们可以使用Slack搜索数据定义,或者在不离开Looker的情况下跟踪沿袭。
因此,任何试图理解数据集的人都可以使用他们的BI工具来理解数据集,并获得该资产的所有上下文——词汇表定义、Slack讨论、查询、数据谱系映射等等。
4.尽可能实现自动化
自动化的兴起
自动化已经以RPA(机器人过程自动化)、CPA(认知过程自动化)和LPA(低代码自动化)的形式出现。可编程的智能机器人正在执行可重复和冗余的手动任务,自动化非常规任务,甚至复制需要人工判断的决策。
以下是Gartner副总裁分析师Cathy Tornbohm对RPA领域未来支出的描述:
“通过在2021实现31%的增长率,RPA市场的增长率远远高于16%的全球平均软件市场增长率。”
数据治理中的自动化是什么样子的?
这就是为什么您还应该利用自动化的潜力进行数据治理。
例如,您可以使用可编程机器人自动识别敏感的PII、HIPAA和GDPR数据。您还可以自动向下游和上游传播自定义分类。
5.通过DataOps确保数据支持
DevOps和软件开发
DevOps因其通过消除软件开发和运营中的筒仓来大规模交付应用程序和服务的使命而崭露头角。
它强调在运营和开发团队之间建立协作文化,并提倡使用自动化,通过CI(持续集成)、CD(持续交付)和CD(持续部署)加快软件交付速度。
SalesOps和销售生产力
同样,SalesOps也参与进来,以减少各种销售流程之间的摩擦。根据HubSpot的说法,SalesOps通过提供有关流程瓶颈的见解、帮助寻找新的潜在客户和潜在客户以及使用技术提高销售效率来支持销售团队。
DevOps和SalesOps都是哲学、实践和工具的集合,它们可以减少摩擦并促进团队间的协作。
数据产品也需要类似的做法,侧重于工具、流程和文化,以使组织的其他部分更加数据驱动,并有助于更好的数据治理。这就是DataOps可以帮助的地方。
实施DataOps以从数据治理提升到数据支持
根据Gartner的说法,DataOps是“一种协作数据管理实践,专注于改善整个组织中数据管理者和数据消费者之间的数据流的通信、集成和自动化。”
它将精益制造、敏捷方法论和DevOps的原则应用于数据。因此,DataOps确保您:
- 开发数据产品,目标是为最终用户和业务提供价值
- 使用敏捷方法和自动化(即CI/CD管道),像“软件产品”一样运送“数据产品”
- 将数据治理融入组织中每个人的日常工作流程
6.投资正确的技术
技术的消费化
在过去十年中,随着生产成本大幅下降,云计算已成为常态,技术发生了巨大变化。
因此,我们生活在这样一个时代:“最终用户也是企业的员工,他们对企业数字技术的期望取决于他们在日常生活中使用的技术。”
这种现象被称为技术的消费化,这就是为什么投资于正确的技术需要你寻找以下特征的原因:
- 直观、难忘的体验
- 超个性化
- 快速而敏捷
- 活着,不断适应
- 具有丰富交互的多种模式
- 随时随地
- 协作的
哪些工具对数据治理至关重要?
用于在整个组织中促进数据治理的工具必须体现这些特征。
为了确保您有一个能够接受数据治理最佳实践的解决方案,您选择的工具/平台必须具备以下功能:
- 具有360度数据资产配置文件的易于搜索的数据目录
- 可以根据用户角色、项目或数据域自定义的数据工作区
- 提供每个数据资产丰富上下文的业务词汇表
- 可编程机器人,用于自动化数据标记、分类等。
- 跨系统、列级数据沿袭
- 数据质量分析
- 细粒度、基于角色的访问控制
7.不断改变和调整您对数据治理的看法
数据环境和现代数据堆栈的演变
数据环境不断发展,现代数据堆栈不断升级。在二十年内,我们已经从关系数据库发展到云数据仓库,随着更多数据和分析用例的出现,生态系统将继续发展。
FirstMark的风投Matt Turck是这样描述这一演变的:
数据仓库解锁了围绕它们的工具和公司的整个生态系统:ETL、ELT、反向ETL、以仓库为中心的数据质量工具、度量存储、增强分析等。许多人将这个生态系统称为“现代数据堆栈”。
FirstMark的Matt Turck和John Wu的机器学习、人工智能和数据(MAD)景观。来源:Matt Turck
阅读更多信息→ 现代数据堆栈101和现代数据堆栈的未来
为什么持续审查您的数据治理方法是最佳实践?
虽然捕获和摄取大量数据变得更容易、更便宜,但跟踪所有数据、获取足够的上下文并将其用于决策仍然是一件痛苦的事。
这就是为什么数据工具生态系统有更多的发展空间。马特·图尔克(Matt Turck)接着提到,数据工程工具和实践仍然远远落后于其软件工程表兄弟的成熟度和自动化水平。
这就是为什么将数据治理视为一个不断发展的项目,而不是像数据堆栈的其他部分一样,将其视为一次性活动至关重要。
以下是Snowflake如何强调这一需求:
“随着数据量的增长、新的数据流的出现以及新的访问点的出现,您将需要一个策略来定期检查您的数据治理结构——本质上是数据治理过程的治理。”
为什么要遵循这些数据治理最佳实践?
因为它们为导致数据治理计划失败的挑战提供了解决方案
大多数组织已经制定了数据治理计划。然而,它的有效性远不能保证。
根据Gartner 2021的D&A治理调查,61%的人表示他们的治理目标包括优化业务流程和生产力的数据,但只有42%的人认为他们正在实现这一目标。
在同一项调查中,Gartner估计,到2025年,80%寻求规模化数字业务的组织将失败,因为他们没有采用现代的数据治理方法。这种方法应该是分散的、社区主导的和协作的。
数据治理最佳实践:下一步
采用“数据产品”思维方式、将协作嵌入日常工作流程、采用DataOps以及利用高度可定制和可编程的工具至关重要。
您可以首先确定数据治理的高ROI用例,并遵循上述最佳实践。一旦您看到了概念证明,就可以为剩余的数据和分析用例扩展数据治理。
- 222 次浏览
【数据治理】Microsoft Purview的数据治理解决方案是什么?
视频号
微信公众号
知识星球
- 数据映射
- 数据目录
- 数据产业洞察
- 数据共享
- 数据策略
- Microsoft Purview寻求解决的传统挑战
- Microsoft Purview的优势
-
区域内数据驻留
Microsoft Purview的数据治理解决方案为您创建了一个管理本地、多云和软件即服务(SaaS)数据的场所。使用Microsoft Purview Data Catalog、Data Map、Data Sharing、Data Estate Insights和Policies,您可以:
- 创建企业整个数据环境的最新地图。
- 让您的用户能够找到有用的、值得信赖的数据。
- 对您的敏感信息进行分类,使其可见,并且您可以对其进行管理。
- 自动映射数据的谱系,以便您可以看到数据的来源和去向。
- 为您的企业的数据管理员和安全管理员提供管理和保护您的数据资产所需的工具。
希望在Microsoft 365中通过保留您需要的内容和删除您不需要的内容来管理您的数据?使用Microsoft Purview数据生命周期管理。
数据映射
Microsoft Purview通过为您的数据庄园中的资产提供数据扫描和分类,实现了数据发现的自动化。元数据和已发现数据资产的描述集成到您的数据庄园的整体地图中。Microsoft Purview Data Map为数据发现和数据治理提供了基础。Microsoft Purview Data Map是一种云原生PaaS服务,用于捕获本地和云中分析和操作系统中存在的企业数据的元数据。Microsoft Purview Data Map通过内置的自动扫描和分类系统自动保持最新。业务用户可以通过直观的UI配置和使用数据地图,开发人员可以使用开源的Apache Atlas 2.2 API以编程方式与数据地图进行交互。Microsoft Purview数据地图将Microsoft Purview Data Catalog、Microsoft Purview Data Estate Insights和Microsoft Purview DataPolicy作为Microsoft Purview治理门户中的统一体验。
有关更多信息,请参阅我们对数据地图的介绍。
在数据地图上,有专门构建的应用程序,可以创建数据发现、访问管理和深入了解数据环境的环境。
App | Description |
---|---|
Data Catalog | Finds trusted data sources by browsing and searching your data assets. The data catalog aligns your assets with friendly business terms and data classification to identify data sources. |
Data Estate Insights | Gives you an overview of your data estate to help you discover what kinds of data you have and where it is. |
Data Sharing | Allows you to securely share data internally or cross organizations with business partners and customers. |
Data Policy | A set of central, cloud-based experiences that help you provision access to data securely and at scale. |
数据目录
使用Microsoft Purview Data Catalog,业务和技术用户可以使用基于术语表术语、分类、敏感度标签等镜头的过滤器,使用搜索体验快速轻松地找到相关数据。对于主题专家、数据管理员和官员,Microsoft Purview data Catalog提供了数据管理功能,如业务术语表管理和使用术语表术语自动标记数据资产的能力。数据消费者和生产者还可以直观地跟踪数据资产的谱系:例如,从本地操作系统开始,通过云中各种数据存储和处理系统的移动、转换和丰富,到Power BI等分析系统中的消费。有关更多信息,请参阅我们使用数据目录进行搜索的介绍。
数据产业洞察
通过Microsoft Purview Data Estate Insights,首席数据官和其他治理利益相关者可以鸟瞰其数据产业,并可以对治理差距获得可操作的见解,这些差距可以从经验本身中解决。
有关更多信息,请参阅我们对Data Estate Insights的介绍。
数据共享
Microsoft Purview Data Sharing使组织能够在组织内部或跨组织与业务合作伙伴和客户安全地共享数据。您只需点击几下即可共享或接收数据。数据提供商可以集中管理和监控数据共享关系,并随时撤销共享。数据消费者可以使用自己的分析工具访问接收到的数据,并将数据转化为见解。
有关更多信息,请参阅我们的数据共享简介。
数据政策
Microsoft Purview Data Policy是一套基于云的集中体验,可帮助您安全、大规模地管理对数据源和数据集的访问。
- 从单一的基于云的体验管理对数据源的访问
- 实现大规模访问资源调配
- 引入一种新的数据平面权限模型,该模型位于数据源外部
- 它与Microsoft Purview Data Map and Catalog无缝集成:
- 搜索数据资产,并通过细粒度策略仅授予对所需内容的访问权限。
- 支持SaaS、内部部署和多云数据源的路径。
- 用于创建利用与数据对象关联的任何元数据的策略的路径。
- 基于简单抽象的角色定义(例如:读取、修改)
有关更多信息,请参阅我们的入门指南:
- 数据所有者访问策略(预览):通过直观的创作体验,为用户和组提供细粒度到广泛的访问。
- 自助服务访问策略(预览):自助服务:由发现Microsoft Purview目录中数据资产的业务分析师发起的访问请求的工作流审批和自动调配。
- DevOps策略:为IT运营人员提供对SQL系统元数据的访问权限,以便他们能够监控性能、运行状况和审计安全性,同时限制内部威胁。
以下是数据策略应用程序的好处:
Principle | Benefit |
---|---|
Simplify | Permissions are bundled into role definitions that are abstracted and consistent across data source types, like Read and Modify. |
Reduce the need of permission expertise for each data source type. | |
Reduce effort | Graphical interface lets you navigate the data object hierarchy quickly. |
Supports policies on entire Azure resource groups and subscriptions. | |
Enhance security | Access is granted centrally and can be easily reviewed and revoked. |
Reduces the need for privileged accounts to configure access directly at the data source. | |
Supports the Principle of Least Privilege via data resource scopes and common role definitions. |
Microsoft Purview寻求解决的传统挑战
数据消费者面临的挑战
传统上,发现企业数据源是一个基于公共知识的有机过程。对于那些希望从信息资产中获得最大价值的公司来说,这种方法带来了许多挑战:
- 由于没有注册数据源的中心位置,用户可能不知道数据源,除非他们在另一个过程中接触到它。
- 除非用户知道数据源的位置,否则他们无法使用客户端应用程序连接到数据。数据消费体验要求用户知道连接字符串或路径。
- 除非用户知道数据源文档的位置,否则数据的预期用途对用户是隐藏的。数据源和文档可能存在于多个地方,并通过不同类型的体验进行消费。
- 如果用户对信息资产有疑问,他们必须找到负责该数据的专家或团队,并让他们离线参与。数据和了解数据背景的专家之间没有明确的联系。
- 除非用户了解请求访问数据源的过程,否则发现数据源及其文档将无法帮助他们访问数据。
数据生产者面临的挑战
尽管数据消费者面临前面提到的挑战,但负责生产和维护信息资产的用户也面临着自己的挑战:
- 用描述性元数据注释数据源往往是徒劳的。客户端应用程序通常会忽略存储在数据源中的描述。
- 为数据源创建文档可能很困难,保持文档与数据源同步是一项持续的责任。用户可能不信任被认为是过时的文档。
- 为数据源创建和维护文档既复杂又耗时。让每个使用数据源的人都能随时获得该文档,这一点甚至更为重要。
- 限制对数据源的访问并确保数据消费者知道如何请求访问是一个持续的挑战。
当这些挑战结合在一起时,对于那些希望鼓励和促进对企业数据的使用和理解的公司来说,它们是一个巨大的障碍。
安全管理员面临的挑战
负责确保其组织数据安全的用户作为数据消费者和生产者可能面临上述任何挑战,以及以下额外挑战:
- 一个组织的数据不断增长,并以新的方向存储和共享。发现、保护和管理敏感数据的任务永无止境。您需要确保与正确的人员、应用程序以及正确的权限共享组织的内容。
- 了解组织数据中的风险级别需要深入了解您的内容,查找关键字、RegEx模式和敏感数据类型。例如,敏感数据类型可能包括信用卡号码、社会保障号码或银行账号。您必须不断监控所有数据源中的敏感内容,因为即使是最少量的数据丢失也可能对您的组织至关重要。
- 随着内容的增长和变化,以及这些要求和策略的更新以适应不断变化的数字现实,确保您的组织继续遵守公司安全策略是一项具有挑战性的任务。安全管理员需要在最快的时间内确保数据安全。
Microsoft Purview的优势
Microsoft Purview旨在解决前几节中提到的问题,并帮助企业从现有信息资产中获得最大价值。目录使数据源易于被管理数据的用户发现和理解。
Microsoft Purview提供了一种基于云的服务,您可以在其中注册数据源。在注册过程中,数据保留在其现有位置,但其元数据的副本会添加到Microsoft Purview中,同时还会添加对数据源位置的引用。元数据也被编入索引,以使每个数据源都能通过搜索轻松发现,并为发现它的用户所理解。
注册数据源后,可以丰富其元数据。注册数据源的用户或企业中的其他用户都可以添加更多元数据。任何用户都可以通过提供用于请求数据源访问的描述、标记或其他元数据来对数据源进行注释。此描述性元数据补充了结构元数据,例如从数据源注册的列名和数据类型。
发现和了解数据源及其使用是注册数据源的主要目的。企业用户可能需要用于商业智能、应用程序开发、数据科学或任何其他需要正确数据的任务的数据。他们可以使用数据目录发现体验快速找到符合他们需求的数据,了解数据以评估其适用性,并通过在他们选择的工具中打开数据源来使用数据。
同时,用户可以通过标记、记录和注释已经注册的数据源来为目录做出贡献。他们还可以注册新的数据源,然后由目录用户社区发现、理解和使用这些数据源。
最后,Microsoft Purview Data Policy应用程序提供了一个卓越的解决方案来保护您的数据安全。
区域内数据驻留
Microsoft Purview处理数据并存储元数据信息,但不存储客户数据。数据在其数据区域中进行处理,客户元数据保留在部署Microsoft Purview的区域中。对于有数据驻留要求的地区,客户数据保留在其地区内,客户元数据始终保留在部署Microsoft Purview的同一地区内。
- 36 次浏览
【数据治理】dataversity谈数据治理与数据架构
视频号
微信公众号
知识星球
“虽然数据架构侧重于技术和基础设施设计,但数据治理包括支持治理所需的人员、流程、工作流程以及架构。因此,尽管数据架构对数据治理至关重要,但它只是更广泛的整体中的一小部分,”全球数据战略董事总经理唐娜·伯班克表示。她将数据治理与数据架构之间的差异比作旧故事中关于透视的大象:
“五个老人在看大象。一个看到尾巴,他觉得大象像绳子。一个看见树干,他说大象像蛇,一个看到脚,他说它像树干,他们都没事。”
每个人都从自己独特但有限的位置看到整个大象。“我认为,在数据治理方面,很多技术人员常常会感到困惑,”她说。一些IT员工认为数据架构与数据治理相同,但其范围远不止于此。一旦你包含了组织、流程、人员和文化,你就更有可能成功。
她说:“数据治理是数据架构所起作用的总体框架。我认为数据治理更为广泛,因为它涵盖了组织、人员和流程,而且——在很大程度上——创造了一种数据驱动的文化。”。
Figure 1: Data Architecture is Part of a Wider Data Governance Framework (Credit: Global Data Strategy)
这些概念是相互关联的,因此看起来可能与数据架构完全相关的流程可以在数据治理中发挥关键作用。例如,数据输入:“如果你在前面输入客户数据,而你输入错误,这就是治理,[因为]这会影响下游的事情。”她说,治理过程中创建的查找表可以通过更容易地正确输入客户数据来支持引用完整性。“所以,这是架构、人员和流程之间的来回转换。”
她说,数据体系结构和数据治理“互不相让”。“数据治理可以围绕数据体系结构制定规则,IT部门通常会接受这一点,因为他们希望有人能够将这些问题上报给他们。”
技术通过技术固有的结构或边界提供牙齿。
“在业务方面,你可以有一条非常好的规则,说某个领域的‘这些是有效的值’,但除非你的数据架构支持这一点,否则这只是一条规则,人们可以打破规则。因此,架构和治理不仅相互支持,而且可以帮助彼此更有效。”
对旧学派概念的兴趣与日俱增
伯班克认为,对人工智能和预测分析的兴趣推动了对数据治理和数据架构等基础概念的兴趣重新抬头:“除非你有好的数据,否则你不能做所有这些新的热门事情。这不是旧的对新的,也不是旧的学校对新的学校;而是你需要这些基础。”
她说:“对于那些在这个行业工作了很长时间的人来说,这可能像是陈年旧事。”
“一些在架构和治理方面进行了投资的公司已经能够更容易地实施一些新技术,因为他们拥有良好的数据基础。那些不经常需要追赶的公司。”
数据治理与数据架构:哪个先?
关于从何开始有不同的理论,但伯班克建议从基于框架的深度成熟度评估开始,该框架显示了愿景和战略与工具和技术的关系。她建议首先对框架中的每个框进行处理。她说:“这些都是非常简单的问题,但每个盒子里只有两个问题可以说得很清楚。”。
- 你为什么这么做,谁在乎?
- 它解决了什么问题?
- 谁将成为您的主要利益相关者?
- 谁将成为你的行政冠军?
- 你的投资回报率是多少?
- 哪些治理组织已经存在,谁参与其中?
- 你如何衡量数据的好坏?
- 如何跟踪结果?
- 人们对数据治理有积极的看法吗?
- 他们认为这是一种负担吗?
“像金字塔顶端的那些简单问题——这些问题是最重要的问题,因为它们推动了其他一切。”她说,工具和技术部分几乎可以是一个清单。提出诸如“您有哪些数据以及存储在何处?”以及“有数据模型吗?”
她说:“你不必从一个巨大的评估开始。在每一个盒子里都有几个问题是一个很好的开始方式,人们可能可以自己做很多事情。”。伯班克的客户会得到一系列更广泛的问题,包括详细的步骤。“对于组织和个人,你有指导委员会吗?指导委员会有可操作的结果吗?不仅仅是‘是’或‘否’:有很多细节。”
评估的粒度性质不仅显示了差距的位置,而且有助于发现这些差距的原因。她说:“很多人都有一个指导委员会,但什么都没有做,那么指导委员会是如何成立的?数据管理是如何成立?”这两个领域都需要同样强大。“如果其中任何一项存在差距,那可能是你拥有所有的工具、技术和流程,但文化却不存在。”她的客户的最终结果是一项用颜色编码的成熟度评估,其中优势区域用绿色表示,需要改进的区域用红色表示。
以快速取胜鼓励强大的数据文化
她说,人们通常会将数据治理视为一种负担,但并不一定如此。
“你如何让人们对此感到兴奋?事实上,这种情况一直都在发生。从快速获胜开始,(你可以)实际上有人问,‘我能成为数据治理的一部分吗?’”
伯班克建议挑选一些“能给很多人带来好处”的小东西。例如,零售商可以定义他们的客户生命周期,记录流程和数据流,以便在他们第一次看产品、购买产品、续订产品以及在社交媒体上告诉朋友时跟踪客户。
“如果我们只是在所有这些筒仓中获得了正确的电子邮件地址,并且它是一致的,我们可以跟踪客户,从他们第一次向我们提供电子邮件地址到他们注册忠诚度计划。如果我们都进行了沟通,想想这会有多好。然后,如果我可以从另一个团队获得购买信息,那么超越这些筒仓的价值就变得很明显了。”
这是一个“对我来说有什么好处?”的问题,它是关于让它不被压倒,因为没有人想拥有这个庞大的项目,这将花费很多时间由其他人推动,但如果你能找到每个人都需要的东西。“很快就赢了,”她说。“然后人们肯定想要更多。”
数据治理与数据架构:什么更重要?
伯班克分享了一个故事,讲述了两个客户在成熟度评估中处于对立地位。
“一个小组将他们的商业目标和目标与一些法规和营销活动联系起来。他们有多个小组支持。它是市场营销,它是工程,它是合法的——他们有几个小组想要数据治理。他们确定了自己的目标,但其他方面都有点薄弱。他们还没有成立委员会,也没有任何工具。”
她说,他们的目标很好,但在评估中,他们只有一个绿色部分,其他所有部分都是红色的。“他们太失望了,我说,‘不,这是最好的地方,因为你有正确的目标。’”另一家公司的评估显示,技术、架构等方面大部分都是绿色的,但他们没有致力于一个共同的目标,也没有在整个团队中获得认同。
“他们拥有你能想象到的所有工具,他们拥有一切。选择一个工具——他们有六个——他们有多种竞争技术,但他们在文化中没有共同的认同,这是他们的红点。快进一年——拥有合适的驱动力和合适的人的人走得更远,因为他们赢得了人心。”。”
她说,从整体上看。“这是大象的一部分——有些人可能认为他们有数据治理,但他们还没有真正思考过围绕它的文化,所以他们还没有完成。”她说,最好的开始是让人们保持一致。“当人们有正确的目标时,你可以做任何事情,对吗?”
- 20 次浏览
【数据治理】什么是数据治理模型?
了解数据治理和数据治理模型,这些关键要素通常包含在政策、收益、风险和最佳实践中。
数据治理是识别组织的关键数据并确保数据质量和数据安全的过程。它还涉及从公司数据中提取价值以提高业务绩效。
根据 Experian 的说法,“数据治理是确保数据在输入系统时符合精确标准和业务规则的过程。数据治理使企业能够对数据资产的管理施加控制。该流程包括确保数据适合其预期目的所需的人员、流程和技术。”
根据 IDC 2018 年 11 月的一份报告,“全球数据圈”——包括在全球范围内捕获、创建或复制的所有数据——在 2018 年达到 33 ZB(zettabytes)。IDC 预测全球数据总量将继续增加呈指数级增长,到 2025 年达到 175 ZB。到 2020 年,估计每秒为世界上的每个人创建 1.7 MB 的数据。拥有如此大量的数据,组织需要以更结构化和更安全的方式管理他们的数据。这提出了对数据治理的需求。
什么是数据治理模型?
数据治理模型是一个框架,它概述了数据创建、数据存储和维护以及数据处置的流程和系统。不是每个组织都使用单一的数据治理模型,而是有几种类型的数据治理模型。模型因创建和使用数据的人员而异。 NTT DATA 概述了四种常见的数据治理模型,包括:
- 具有单个业务单元的去中心化数据治理模型 - 具有单个业务单元的去中心化数据治理模型通常由创建、管理和使用自己的数据的单个业务用户组成。
- 具有多个业务单元的去中心化数据治理模型 - 在具有多个业务单元的去中心化数据治理模型中,各个业务单元可能共享客户、供应商和其他利益,因此它们共享一组主数据。
- 集中式数据治理模型——在集中式数据治理模型中,可能有单个或多个业务单元集中维护主数据。业务部门或数据消费者提出请求,中央组织负责管理主数据。
- 具有去中心化执行的集中式数据治理模型 - 在具有去中心化执行的集中式数据治理模型中,有一个集中式数据治理实体负责定义数据治理框架和策略,各个业务部门负责创建和维护其部分主要的数据。
数据治理模型定义了主数据管理职责的基本结构,而数据治理策略定义了管理数据的人员、流程和技术。
数据治理政策中的关键要素
数据治理策略概述了如何管理和控制组织的数据。以下是数据治理政策通常涵盖的一些常见领域:
- 数据可用性(availability):这确保重要数据可供需要它的业务功能使用。
- 数据质量:这可确保数据准确、完整、一致和最新。
- 数据完整性:这可确保数据在从一个平台存储和传输到另一个平台时保持其基本品质。
- 数据可用性(usability):这可确保数据的结构和标签正确,便于检索。
- 数据安全性:这可确保敏感数据得到适当保护,从而最大限度地减少数据丢失的机会。
有效数据治理模型的好处
如前所述,数据量正以前所未有的速度增长,公司必须有效地管理数据以确保数据安全。通过数据治理模型,定义了收集、存储、使用和处置数据的系统和流程,并明确了决策者的角色。
系统具有透明度,可以查看数据的存储位置以及数据是否正确地从一个平台流向另一个平台。这种透明度有助于进行隐私检查,使数据更加安全。
组织需要先了解其数据,然后才能对其进行充分保护。如果你不知道它是什么、它在哪里以及它有多重要,你就无法保护它。数据治理可帮助您了解您拥有哪些数据、存储在何处、如何使用以及谁可以访问这些数据。它确保有一个流程可以在不再需要时安全地删除数据。
由于数据的参数现在扩展到供应商、合作伙伴、云供应商和其他方,企业不能再有边界保护。以负责任和结构化的方式管理数据非常重要,这样您的安全团队才能实施正确的保护措施和控制措施,以确保数据安全。
数据治理不善的风险
虽然许多公司都有内部 IT 团队,但企业数据的职责通常并不明确。当没有明确的规则和政策来定义谁对什么类型的数据负责时,就会产生安全漏洞并降低数据质量。由于数据质量差,业务流程效率低下,公司可能面临不遵守行业法规的风险。无效的数据治理流程可能会给需要遵守数据隐私法的公司带来问题,例如加州消费者隐私法 (CCPA) 和 GDPR。
有了数据治理模型,企业就有了明确定义的数据管理角色和责任,以及详细的政策,规定了根据适用法规收集、使用、存储和处置数据的适当流程。
数据治理最佳实践
数据治理计划应从管理层支持和利益相关者支持开始。最好从一个试点项目开始,并在一组数据上对其进行测试。试点项目是向利益相关者展示数据治理对关键业务目标(例如合规性和投资回报率)的影响的有用方式。
公司应仔细评估用于管理企业数据的软件和其他技术工具。选择可以容纳您的重要业务数据而不会引入不必要的安全漏洞和风险的解决方案。
在 2019 年发布的 Gartner 报告中,分析师 Saul Judah 解释了有效管理数据和应用程序的基础:
- 重点应放在组织价值和业务成果上。
- 应该就决策权和数据责任达成一致。
- 它应该是一个基于信任的数据治理模型。
- 决策过程应该是透明的。
- 风险缓解和数据安全应该是核心治理组成部分。
- 定期进行教育和培训以提高效率。
- 鼓励广泛参与的协作文化。
没有适合每个组织的单一数据治理模型。寻求所有业务部门和利益相关者的意见,并花时间开发满足贵公司需求的定制数据治理模型,这将提供一个强大的框架,使您能够从数据中获得最大价值,同时保持数据安全。
原文:https://digitalguardian.com/blog/what-data-governance-model
- 85 次浏览
【数据治理】什么是数据竖井,为什么它们有问题?
视频号
微信公众号
知识星球
数据仓库是跨不同部门、业务线或软件系统有机产生的独立数据存储。当不同的团队生成、存储和管理数据时,他们会开发自己的系统和数据库——通常不会相互通信以确保数据在整个组织中都可以访问。虽然这通常是无意的,但当数据变得孤立时,可能会给您的业务带来严重问题。
从阻碍数据治理工作到限制见解,数据孤岛是许多组织数据管理之旅中的一大障碍。在本文中,我们将讨论什么是数据竖井,为什么它们如此有问题,以及您可以做些什么来分解它们。
目录
- 什么是数据竖井?
- 数据仓库是如何发生的?
- 为什么数据仓库有问题?
- 如何分解数据仓库
- 通过主数据管理充分利用您的数据
- 分解数据仓库只是开始
什么是数据竖井?
数据思洛存储器是与企业其他部分断开连接或无法访问的数据存储库。数据仓库既可以是组织性的——各个部门或业务线都有自己的操作或分析用例——也可以在其他组可能无法访问的不同系统中物理分离。
以下是数据竖井的一些标志性特征和影响:
- 隔离如上所述,孤立数据不与其他数据存储库通信。这阻碍了数据的集成和正确管理,最终阻碍了协作,并限制了您从数据分析中获得的见解。
- 数据质量差。当数据被孤立时,数据治理无法正常工作。这往往会导致数据质量问题,如数据不一致和过时。
- 安全和合规风险。如果没有适当的数据治理,组织将面临更大的安全和法规遵从性问题风险。例如,孤立的客户信用卡数据可能在应该加密时意外地以纯文本格式存储,或者敏感的患者健康信息可能被医疗保健提供者以外的人访问。
- 重复。因为孤立的数据没有与其他数据存储库集成,所以同一数据很容易存储在多个不同的地方。这被称为数据复制,它可能会对收入、效率和利润产生有害影响。
- 效率低下。孤立的数据不仅会导致数据重复,还会导致业务流程效率低下。例如,要一起分析某些数据类型,数据分析师可能需要经历从一个数据库提取、加载一些数据并将其传输到另一个数据库的耗时过程,而这些数据本应一直集成在一起。这不仅浪费时间,还增加了人为错误的风险,可能会进一步损害数据质量。
数据竖井是如何发生的?
如果组织不小心,数据孤岛可能会以几种不同的方式出现:
- 数据被困在最初捕获或存储数据的系统中,例如销售点(POS)系统或客户关系管理(CRM)系统中,要么是因为它在技术上不可行,要么是组织缺乏员工或技能,要么是团队没有想到会以不同的方式操作
- BI和分析团队执行数据集成以组合独立的数据源,但最终业务用户或不同部门(有时称为信息孤岛)不容易访问他们生成的视图或数据产品
- 数据团队无法访问数据,有时是由于数据安全协议或权限,例如可能存在的保护个人信息的协议或权限
- 公司文化不能促进跨部门协作——这一问题在具有自上而下、分层组织结构的大型组织中尤为常见
正如你可能知道的,这里有一些共同的主题在起作用。技术可能被视为打破数据孤岛的最大障碍,但尽管在许多情况下这肯定是一个问题,但数据孤岛往往始于人。
努力构建一个更平坦的组织结构或更具协作性的工作环境,可以创造奇迹,减少孤岛,让数据获得更多价值。
为什么数据竖井有问题?
理想情况下,来自不同来源的数据应集成进行分析,以便分析领导者能够更好地了解其企业数据所讲述的全部情况。简单明了的是,数据孤岛阻止了这种情况的发生,并阻碍了组织从其数据中获得最大价值。
让我们进一步分解一下,看看数据仓库阻碍您的组织发展的一些具体方式。
1.数据孤岛导致重复工作
在组织内分解和孤立数据往往会导致工作和条目的重复。不同的团队或部门监督自己独特的数据存储库,因此信息通常记录在多个数据源中。这给各种数据分析或报告过程增加了不必要的步骤,浪费了时间、精力和资源。
2.数据孤岛损害协作和沟通
将企业的核心数据隔离在每个团队或部门之间,就像隔离每个团队成员,并将他们放在没有电话或互联网连接的独立隔音房间里。沟通是不可能的,他们不能共同努力实现一个共同的目标。
这正是数据竖井的情况。因为数据本身无法与其他系统通信,也无法在整个业务中进行协调,员工也无法。这减缓了项目进度,扼杀了创新。当你剥夺了一家公司访问和共享关键数据的能力时,你就会阻碍团队合作和整体生产力。
3.数据孤岛导致信息不一致
如果在不同的系统中以不同的方式、不同的标准输入相同或相似的数据,势必会出现不一致和不准确的情况。由于数据没有统一标准化,数据的完整性和一致性受到损害。
这导致组织利用质量较差的数据,对基础数据是否可信产生困惑和怀疑。如果数据不一致或不准确,则表明您的企业在报告、分析和决策方面存在差异。
4.数据孤岛可能导致错失机会
当你不能全面了解所有运动部件时,很难随时了解情况或了解最新情况。同样的原则也适用于孤立的数据源。如果一家企业不能看到或访问其所有关键数据组件,那么它就无法发现可能带来机会的有价值的见解。
孤立的数据使得预测市场趋势和确定整个业务的主要相关性变得困难。当洞察仍然被隐藏,数据没有被利用时,战略计划将遭受巨大损失。
5.数据孤岛导致资源分配不当
零散的数据会创建资源的零散视图。缺乏对组织资源可用性和利用率的全面了解会导致资源分配不当和运营效率低下。
无论是人员、设备、预算还是其他方面,宝贵资源的过度或分配不足不仅会降低生产力,还会导致整个企业的失衡,从而影响组织。
如何分解数据竖井
打破数据竖井并不是一项快速、一劳永逸的任务。这是一个持续的战略过程,需要有效的数据管理。在继续之前需要有一个最终目标,因为这涉及到管理和维护所有最关键的数据。
尽管您的组织的最终目标是提高性能、效率和生产力,但从战术上消除竖井的方法是跨多个域协调您的企业数据。
为了使您的数据保持准确、一致和可靠,它必须与每个系统进行通信。除非数据标准化,并且使用已建立的数据治理框架来实施政策或程序,否则这是不可能实现的。
采用数据治理
数据治理将您的数据策略和标准付诸实施,并使您在企业范围内了解数据管理实践。它构成了核心数据的主干,并定义了如何访问、输入和使用这些数据。
该框架还建立了数据环境的权限,允许使用分层结构。这包括数据所有权、可访问性、可共享性、安全性和集成准则。数据治理是启动流程的有效方式。
培养数据驱动的文化
虽然建立一个治理框架并实施满足您的数据和业务需求的综合解决方案是绝对必要的,但在组织内培养协作、数据驱动的文化则取决于领导力。这需要跨部门的定期沟通和跨职能举措,以实现数据共享。如果执行团队促进数据的可访问性,那么其他业务也将紧随其后。
维护数据驱动的文化是通过监控您的数据标准和集成来实现的,同时预测和防止潜在的竖井。
通过主数据管理充分利用您的数据
充分利用您的数据不仅可以消除数据孤岛,还需要一个建立在高质量主数据基础上的可信数据环境。
坚实的主数据管理(MDM)解决方案对于确保组织内多个系统和流程中的数据干净、准确和可信至关重要。执行一个成功的实施需要仔细的规划和有效的MDM策略。
以下是一些使用MDM提高组织生产力的有用提示。
1.确定目标和目的
在部署MDM解决方案之前,请确定需要改进的特定领域,并确定您想要的业务成果。在推出主要数据解决方案之前,您需要实现可实现的业务目标。
这可能包括由于消除了重复数据而减少重复发票,或者由于分析师不再需要每次手动清理数据而减少了季度财务报表的关闭时间等等。但在您开始旅程之前,您的组织需要就目的地达成一致。
2.使目标与数据质量问题保持一致
当您确定工作的优先级时,您需要确定对组织发展业务最重要的关键数据域。这些是要首先掌握和管理的数据元素。
在您的第一个MDM计划中,您需要向组织的其他成员证明其价值。向你的投资者和股东证明他们做出了正确的决定。将您的MDM工作重点放在您最需要的地方,并根据每个领域的战略重要性管理您的范围。
3.实现数据分析
在最终启动战略性MDM计划之前,您的数据需要进行诊断。执行数据分析以识别任何重复、不一致、孤立或缺失的值。了解您的数据质量的当前状态,可以了解MDM在哪些方面最有利于您的组织。
从那里,您可以开发必要的数据清理工具和流程来解决这些问题,以提供所需的准确可靠的数据,从而提高性能和生产力。
打破数据竖井只是一个开始
分解数据竖井是一个有效的MDM程序的关键组成部分。它为您的组织提供了统一的数据系统,并为值得信赖的高质量数据提供了一个集中的中心。但筒仓只是冰山一角!
阅读我们关于开发MDM战略的完整指南,了解更多关于如何通过主数据管理构建统一数据环境的信息。
- 73 次浏览
【数据治理】具有这四个重点领域的整体数据治理
视频号
微信公众号
知识星球
如今,数据的高速率、数量和多样性已使数据治理成为一项业务需求。考虑到内部生成的大量数据以及外部容易获得的数据,现在需要一种严格的方法来管理所有这些信息。
数据治理策略有助于维护数据隐私并满足法规遵从性和法规要求。这种战略包括政策、标准、角色和流程,以确保数据的正确使用、可用性、完整性、可用性和安全性。在分析支持、运营效率和消费者行为方面也有用例,这些用例可以提高运营效率、更好的预测结果、增加最终用户自助服务、增加一致性和成员增长。
拥有多个部门的大型企业往往会看到以不同的方式和格式收集相同的数据。有时,即使是特定捕获数据的值也可能因部门而异。
例如,一个业务函数可能通过不给一个值来将一个项属性为“missing”,而另一个业务功能可能使用特定的值来表示一个项是“missing”。这种数据的不一致性延伸到整个组织,并影响到整个过程和分析——就像使用这些数据创建预测模型时一样。
数据治理确保了跨部门和流程的一致性,并消除了组织的竖井。Thoughtworks Looking Glass 2022讨论了领导者应该如何考虑数据所有权在其组织中的位置,因为数据质量问题往往出现在组织结构和架构中,而这些结构和架构无法激励团队生产和共享他们所拥有的数据资源。
以下是我预计在不久的将来会受到更多关注的一些关键领域:
- 真相的来源:数据治理旨在理解和简化数据收集和集成的过程,以确定谁拥有数据和真相的来源。它可以被视为主数据管理(MDM)和数据质量管理的一部分。识别和维护数据的真实性来源将保证数据的一致性以及基于所述数据的分析和建模的准确性。然而,尽管这是一个重点领域,但说起来容易做起来难。
- 人工智能和机器学习中的数据治理:如今,数据和人工智能的大多数领域都需要数据治理。人工智能领域正在迅速发展,基于人工智能的模型的采用也在迅速增加。
- 虽然人工智能技术可以对社会和经济福利产生广泛而积极的影响,但需要制定立法来保障基本权利,防止用户的安全风险。目前,数据伦理更多是一个组织的“选择性”选择。这意味着,根据对组织的影响以及使其更负责任所需的努力,人工智能解决方案可能会出现一些失误。
- 数据存在偏见,并导致模型存在偏见。我预计会设计和采用具体的方法和框架来处理这种偏见。可解释的人工智能已经在市场上受到了追捧。我希望更多地关注人工智能和机器学习的可解释性,尤其是在决策可能对人们产生重大影响的情况下——银行和保险业、执法、教育和食品配送等都是如此。
- 适用于中小型企业:虽然大型企业从对人员/人才的投资中看到了价值,使其拥有与数据治理目标相一致的能力,但中小型企业也将开始从此类投资中看到价值——确保法律合规性,并保持对其产品和服务的信任。
- 提高整个组织的意识:跨角色和部门对数据治理的全面认识将促进数据质量、完整性和合规性。今年,我预计各组织将进行短期和小额投资,以提高对数据治理的认识。例如,世界银行一直在积极努力提高人们对这一领域的认识。
从数据专业人员到业务领导者,数据治理是每个人的责任。数据治理委员会是一个负责数据质量、数据政策和法规、最佳实践、制定战略和监督数据治理计划、提高组织内部对数据治理的认识等的机构。我相信,只会有更多的“数据治理委员会”出现,寻求多个利益相关者发挥积极作用。
- 14 次浏览
【数据治理】开源数据治理-2023年需要考虑的7个最佳工具
视频号
微信公众号
知识星球
找到一个好的开源数据治理工具可能很有挑战性。这有很多原因。首先,决定与数据治理相关的任何事情的最大障碍是缺乏标准化的方法——目标没有明确定义。
大多数开源工具的数据治理能力尚不清楚。你必须筛选文档页面和GitHub转发,以决定某个特定的工具是否能解决特定的用例。
为了简化您的评估过程,我们列出了在数据从业者中流行的7种开源数据治理工具。
2023年流行的7种开源数据治理工具
目录
- 流行的开源数据治理工具
- 1.Amundsen
- 2DataHub
- 3.Atlas
- 4.Magda
- 5.OpenMetadata
- 6.Egeria
- 7.TrueDat
- 开源数据治理工具:比较
- Atlan:轻松体验数据治理
- 数据治理工具:相关阅读
1.Amundsen
Amundsen概述
阿蒙森最初在Lyft建造,目前由LF AI&Data Foundation托管和维护。在数据治理方面,它主要解决了数据安全以及遵守数据隐私和主权法律的问题。其想法是对元数据层上的所有数据进行标记和分类。
使用Amundsen,您可以搜索元数据,了解谁在使用数据以及他们使用数据的频率。通过查看这些数据访问模式,您可以对数据有很大的了解,但这种方法更具反应性。对于更主动的方法,您需要有细粒度的访问控制,以防止人们根据团队、角色、个人、系统等的数据访问策略访问数据。
Amundsen数据治理功能
Amundsen中还没有RBAC(基于角色的访问控制),但您仍然有一些必要的数据治理功能,例如元数据的标记和分类。
利用默认neo4j后端的数据治理能力非常有限,因此Amundsen决定增加对Apache Atlas的支持。由于Apache Atlas是最成熟的元数据管理平台之一,许多功能已经在各种系统中进行了尝试和测试,为数据编目和治理解决方案带来了可靠性。Amundsen获得了对数据沿袭和标签/徽章传播(使用沿袭)的良好支持。
neo4j或Atlas后端通常适用于大多数企业;有些人希望从他们的数据编目和治理解决方案中获得更高级的功能。
Amundsen数据治理资源
Square创建了其版本的Amundsen,该版本支持额外的图节点类型,以更详细地表示列级元数据。
在Square博客上的这篇博客文章中阅读更多关于这方面的内容。其他一些公司也实现了他们的版本。一家爱沙尼亚公司致力于将自动化的列级跨系统谱系数据引入他们的阿蒙森环境。
Amundsen发布信息
阿蒙森2.5.1的最新发布时间是2021年3月18日。你可以密切关注这里的事态发展。
2.DataHub
DataHub概述
在WhereHows不再是满足元数据搜索和发现工具日益增长的需求的可行解决方案后,领英创建了DataHub。在DataHub之前,领英曾将其他工具与WhereHows结合使用,以添加一些数据治理功能。
DataHub数据管理功能
DataHub允许您对元数据进行细粒度的访问控制。访问由策略驱动,您可以从web UI和GraphQL API声明策略。DataHub的策略分为两层——平台和元数据。平台策略允许您控制DataHub的用户权限,例如,用户可以查看和使用哪些功能以及在何种程度上使用这些功能。您可以将这些策略应用于单个用户或组。另一方面,元数据策略允许您控制哪些用户可以访问不同的元数据实体(图表、数据源、仪表板等),以及他们可以对其执行哪些操作。然而,目前,DataHub不允许您控制读取权限。
其他几个功能是DataHub路线图的一部分,但到目前为止还没有明确定义的时间表。主要的数据治理功能之一是实体和方面(PDL记录)的RBAC(基于角色的访问控制)。RBAC不仅可以对元数据进行更精细的访问控制,还可以帮助实现更好的标签管理、数据预览访问控制等。
在治理/隐私方面:DataHub支持数据集级别的分类、受治理的数据移动、自动数据删除、数据导出等。他们计划开源一些合规功能,并将其列为路线图的一部分。
DataHub发布信息
总之,DataHub是一种以不同的复杂程度同时解决许多问题的工具。当你读到这篇文章时,一些组织已经在生产中部署了它。DataHub的最新版本为0.8.20,发布于2021年12月。
3.Apache Atlas
Apache Atlas概述
Apache Atlas是首批集成数据治理功能的开源数据目录之一。然而,这个项目的开发周期有点慢,更不用说这个项目是专门为Hadoop生态系统构建的。它可以很好地与任何与Hive集成的东西配合使用。
Apache Atlas数据治理功能
Apache Atlas在分类方面尤其出色。它可以动态创建数据敏感度、过期和质量分类。这给我们带来了数据沿袭,这是Apache Atlas备受追捧的另一个功能。Atlas实现了真正的数据沿袭,即沿袭是可操作的。使用沿袭数据,Apache Atlas可以将元数据属性传播到沿袭层次结构下的实体。这是一个在其他数据治理工具中无法很好实现的功能
Apache Atlas还具有一系列数据隐私和安全功能。它对实体和分类具有细粒度的访问控制。Atlas在实现数据授权和屏蔽方面也与ApacheRanger配合良好。当协同工作时,这些功能形成了一个有效的数据隐私和安全网,允许数据被屏蔽或分类为PII、敏感数据等。它还为您提供了控制谁可以访问PII和敏感数据的框架。
Atlas发布信息
Apache Atlas 2.2.0的最新发布时间是2021年8月。
4.Magda
Magda概述
Magda由CSIRO(澳大利亚联邦科学与工业研究组织)的数据科学部门Data61开发。MAGDA是一个缩写,意思是“让澳大利亚政府数据可用”。CSIRO部署Magda创建了一个开放的数据门户,其中包含澳大利亚联邦和州政府的70000多个数据集。他们还为其他人开放了项目的来源。
Magda数据治理功能
虽然Magda最丰富、最成熟的功能仍然是搜索和发现,但它也为标记和定义数据集主题提供了强大的支持。Magda还有一个内置的数据预览选项,包括电子表格和交互式图表。像阿蒙森这样的其他工具需要与Superset集成。需要注意的是:与Superset这样的用于数据预览的工具集成更具扩展性。
Magda目前不支持RBAC(基于角色的访问控制),但它支持一些功能,这些功能允许严格控制对Magda中资源的访问。Magda使用Kubernetes来保持与云无关。它使用Open Policy Agent标准来管理访问策略。这有助于实现不同类型的访问控制,例如基于角色的、基于属性的等等。
Magda发布信息
正如路线图所示,Magda肯定正在积极开发中。Magda 1.1.0的最新发布时间是2021年12月。
5.OpenMetadata
OpenMetadata概述
开放元数据于2021年8月发布。这个开源项目定义了规范,以使用模式优先的方法来标准化元数据。它由一个集中的元数据存储和一个支持数据堆栈中流行连接器的接收框架组成。
OpenMetadata数据管理功能
OpenMetadata采用了不同的标记方法。它允许您使用数据集标记数据所有者。它还允许您根据数据集的重要性将其标记为多个层次。OpenMetadata还实现了所有元数据的版本控制。这意味着,与数据库实体(表、视图、模式)、标记、数据集所有权详细信息和业务词汇表相关的所有元数据也都会被版本化——所有关于更改的信息,例如谁更改了更改以及何时捕获。
OpenMetadata发布信息
OpenMetadata是一个新的、快速发展的社区,您可以在这里遵循官方路线图。
6.Egeria
Egeria概述
Egeria于2019年推出,由Linux基金会的人工智能和数据部门维护。Egeria旨在以与供应商无关的方式实现工具和平台之间的元数据轻松交换。其他工具通过SDK和API实现了这一点,但它们的功能是有限的。Egeria擅长这一点是因为它是围绕平台独立性、易于扩展和数据可访问的原则构建的。
Egeria数据治理功能
虽然到目前为止我们所研究的所有其他工具主要从用户的角度处理元数据管理和治理问题,但Egeria试图为用户和系统解决这个问题。Egeria可以很好地与各种各样的数据工具配合使用。
Egeria通过治理区域、有效日期、元数据存档、元数据出处等功能,为您提供对元数据的精细控制。其中一些功能是Egeria独有的。它还提供了超过800种预定义的元数据类型,但并不局限于此。您可以根据业务需求定义自己的类型,这意味着Egeria足够灵活,可以根据您的业务需求进行调整。
Egeria发布信息
Egeria v1.0于2019年2月推出,自那以后开发速度相当快。三年后的2022年2月,Egeria推出了v3.5版本。您可以在官方路线图中查看有关即将推出的功能和修复程序的信息。
7.Truedat
TrueDat概述
最后,还有TrueDat,它可以说是这份名单上唯一成熟的开源数据治理工具。TrueDat是由BlueTab(现在是一家IBM公司)在了解了市场作为数据解决方案提供商的需求并发现了数据治理领域的差距后创建的。
TrueDat数据管理功能
TrueDat与上面提到的其他工具有一组重叠的功能。它有数据目录、搜索引擎、数据沿袭功能等等。不过,人们最喜欢的功能是业务术语表,以及在团队之间共享数据的能力,这些功能具有非常精细的控制,主要集中在数据管理和数据所有权管理、分类等方面。
还有其他功能使TrueDat在该列表中完全独一无二。其中一个功能是数据共享功能,它类似于Snowflake数据共享,使团队更容易进行更有效的共享和协作。此外,为了确保对数据的高度安全和控制,还提供了订阅和通知功能,可用于在审核跟踪中记录更改事件并实时监控。
TrueDat发布信息
随着2022年1月发布的最新稳定版本v4.35,这是目前最成熟的开源数据治理工具之一。
开源数据治理工具:比较
这里有一个简洁的矩阵,总结了您可能在数据治理工具中寻找的主要数据治理功能。为了简单起见,矩阵值保持为“是”和“否”,然而,这些工具实现了相同的功能,但具有不同的复杂度和成熟度。
Tool | Data Lineage | Business Glossary | Tagging/Classification | Tag/Classification Propagation | RBAC | ABAC | Data Sharing |
---|---|---|---|---|---|---|---|
Amundsen | Yes | No | Yes | Yes | No | No | No |
DataHub | Yes | Yes | Yes | Yes^ | Yes^ | No | No |
Atlas | Yes | Yes | Yes | Yes | Yes | No | No |
Magda | No | No | Yes | Yes | Yes | Yes | Yes |
OpenMetadata | Yes | No | Yes | No | Yes^ | No | No |
TrueDat | Yes | Yes | Yes | Yes | Yes | No | Yes |
Egeria | Yes | Yes | Yes | Yes | Yes | No | Yes |
数据治理工具:相关阅读
- Data governance vs. data management: What’s the difference?
- Data Governance in Action: Community-Centered and Personalized
- Data Governance and Its Importance in the Modern Data Stack
- Data Governance Framework — Examples, Templates, Standards, Best practices & How to Create One?
- Snowflake Data Governance — Features, Frameworks & Best practices
- Open Source Data Governance Tools - 7 Best to Consider in 2023
- Data Governance Policy: Examples, Templates & How to Write One
- 7 Best Practices for Data Governance to Follow in 2023
- Benefits of Data Governance: 4 Ways It Helps Build Great Data Teams
- Data Governance Roles and Responsibilities: A Quick Round-Up
- Key Objectives of Data Governance: How Should You Think About Them?
- The 3 Principles of Data Governance: Pillars of a Modern Data Culture
- A Guide to Gartner Data Governance Research — Market Guides, Hype Cycles, and Peer Reviews
- 5 Popular Data Governance Certification & Training in 2023
- 8 Best Data Governance Books Every Data Practitioner Should Read in 2023
- Automated Data Governance: How Does It Help You Manage Access, Security & More at Scale?
- Data Governance and Compliance: Act of Checks & Balances
- Data Governance vs. Data Management: What’s the Difference?
- Enterprise Data Governance — Basics, Strategy, Key Challenges, Benefits & Best Practices.
- 2938 次浏览
【数据治理】开源数据质量软件
视频号
微信公众号
知识星球
下表列出了可用的开放源码数据质量软件发行版,涵盖了数据质量评估的某些方面。
纳入标准
- 在其中一个存储库中可公开访问的任何开放源代码发行版。为简洁起见,当存储库包含许多不同的工具时,只提供一个链接
- 库/框架不必只关注数据质量,因为功能经常与数据清理或探索性数据分析捆绑在一起。
- 数据质量评估在广泛不同的环境/工作流程(从验证excel表到大数据管道,离线/在线等)中非常重要,因此该列表包含了不同的集合
- star/issue/fork计数作为成熟度的粗略衡量标准。使用风险自负
开源数据质量软件
1. Name | 2. Description | 3. Language | 4. Online Docs | 5. URL | 6. Stars | 7. Issues | 8. Forks |
---|---|---|---|---|---|---|---|
awslabs/ deequ |
Deequ is a library built on top of Apache Spark for defining "unit tests for data", which measure data quality in large datasets | Scala | github | 1328 | 90 | 256 | |
data-cleaning/ validate |
validate: Data cleaning for statistical purposes | R | docs | github | 236 | 21 | 18 |
datacleaner/ DataCleaner |
DataCleaner Community Edition | Java | docs | github | 371 | 172 | 136 |
daveoncode/ pyvaru |
pyvaru: Rule based data validation library for python | Python | docs | github | 14 | 1 | 3 |
great-expectations/ great_expectations |
Great Expectations helps data teams eliminate pipeline debt, through data testing, documentation, and profiling | Python | docs | github | 3127 | 147 | 348 |
OpenRefine/ OpenRefine |
openRefine is a tool for working with messy data | Java | docs | github | 7735 | 595 | 1376 |
pandas-profiling/ pandas-profiling |
pandas-profiling generates profile reports from a pandas DataFrame | Python | docs | github | 6338 | 44 | 962 |
pyeve/cerberus | cerberus is a lightweight, extensible data validation library for Python | Python | docs | github | 2246 | 33 | 202 |
ResidentMario/ missingno |
missingno is a missing data visualization module for Python | Python | github | 2540 | 15 | 334 | |
WeBankFinTech/ Qualitis |
Qualitis is a data quality management platform that supports quality verification, notification, and management for various datasources | Java | docs | github | 208 | 16 | 107 |
whylabs/ whylogs-python |
whylogs-python is a Python implementation of whylogs | Python | docs | github | 191 | 10 | 7 |
讨论:请加入知识星球【超级工程师】,微信【it_training】或者QQ群【11107767】
- 600 次浏览
【数据治理】引导您制定有效数据治理计划的 7 个步骤
内部数据治理:第 3 部分 |数据治理的 7 个步骤
在本系列的第一部分中,我们定义了数据治理并研究了导致大规模清理项目的失误。在第二部分中,我们检查了常见的数据治理模型,并回顾了哪些模型最适合不同类型的组织。在这篇文章中,我们将介绍数据治理的七个关键步骤。
即使您了解数据治理的主题,知道从哪里开始仍然是一个挑战。这些步骤将帮助您走上通往有效数据治理框架的正确道路:
1. 建立数据治理组织
第一步是评估各种数据治理模型并选择最适合您组织的模型。数据治理组织的角色因一种模式而异。然而,建立所有权、建立流程和程序对于所有模型都是通用的。以下是数据治理组织的一些共同职责:
- 制定主数据维护程序
- 明确销售、采购、财务等业务职能的规则、问题等
- 指定和开发支持主数据维护的工具
- 支持管理主数据对象的日常业务流程执行
- 主数据治理组织的任务可以是完全可操作的,也可以是具有明确目标的操作和基于项目的任务的混合
2. 识别战略主数据对象
数据治理无疑有助于提高数据的一致性,并使其与系统设计保持同步。但是,管理所维护的每条数据并不是一个好主意。必须识别需要治理的数据对象。为治理选择数据对象的一些关键考虑因素包括:
- 对公司的战略重要性
- 主数据对象在整个组织中全局使用
- 如果数据对象没有正确维护,对业务的影响很大
- 数据复杂度
- 主数据对象的维护不是主数据对象的任何用户的核心活动
3.分配所有权
在一段时间内导致不良数据的主要原因之一是没有定义特定数据元素的所有权。在数据治理中,主要目标之一是通过定义治理各个方面的所有权来消除这种混淆。
第一步是在全球或本地级别识别各种数据元素的所有权。战略数据对象和字段需要由一个全球团队拥有,其余的可以在本地级别处理。
下一步是确定以下内容的所有权:
- 数据字段 - 字段级别数据条目的所有权
- 用户指南 - 记录各个字段值的目的和含义以避免误解
- 治理——定义和修改当前字段值的所有权
- 技术 - 添加/删除和更新字段值的所有权
4. 确定主数据维护规则
这是必不可少的步骤,可能需要最长的时间。如果在实施过程中记录的数据迁移映射规则可能是一个很好的起点。通常,您需要记录以下内容:
- 字段值 - 跨越各种业务场景和业务单位的字段值数据维护规则
- 组织依赖性——当涉及多个业务单位或组织单位时,需要记录哪些字段值适用于哪些业务单位,哪些不适用
- 数据依赖——数据字段的交叉依赖
- 配置文件的使用(如果利用自动化工具)——当自动化工具发挥作用时,将多个规则分组并制作配置文件可以简化数据维护并提高一致性
5. 建立主数据维护程序
一旦规则被记录下来,下一步就是建立程序,作为实际维护数据的人的指南。建立程序并根据当前情况对其进行更新非常重要。数据治理团队应该拥有这些程序,并根据业务的输入对其进行更新。通常,程序会记录以下内容:
- 谁维护数据?
- 何时/多久?
- 基于什么?
- 如何?
- 特殊要求?
- 组织差异?
- 功能差异?
- 场地选择?
- 字段值?
6.建立主数据维护工具
构建用于维护和审计数据的工具在确保遵循流程和程序方面大有帮助。维护过程越困难,不遵循的机会就越大。利用各种工具很有意义,它们可以帮助:
- 数据维护
- 维护工作流程以进行批准和从一个到另一个移交
- 批量更改和批量上传
- 健康检查的定期审核
市场上有各种工具可以执行所有这些功能。 SAP MDG、Itelligence it.mds 和 SAP Information Steward,所有这些都内置了自动化各种治理流程和确保合规性的功能。
7. 建立主数据归档的规则和作业
虽然正确维护数据和快速捕获错误很重要,但如果不定义归档策略,治理策略是不完整的。这完成了信息生命周期,并就某些数据元素何时需要退休提供了指导。归档的各种好处包括:
- 这有助于将系统性能保持在最佳水平
- 在托管和使用内存数据库设备时减少数据库大小并降低维护成本
- 简化搜索和查找
需要为数据归档定义的一些关键方面是:
- 要归档哪些记录?
- 记录,标记为删除
- 记录,xx 个月未使用
- 归档的时间和频率是多少?
- 在哪里保存存档文件?
- 多长时间?
原文:https://nttdata-solutions.com/us/local-blog/grc-and-security-local-blog…
- 60 次浏览
【数据治理】数据架构与数据治理:一种主动的方法
视频号
微信公众号
知识星球
“数据架构是业务战略的实际实施,”全球数据战略E.M.E.A.首席顾问奈杰尔·特纳(Nigel Turner)在DATAVERSITY®企业数据治理在线会议上表示。“这是整个连续体中的一个关键部分,您需要在一个组织内构建,以有效地管理数据,”数据治理在这些战略和它们在业务中的实际实施之间形成了一个重要的桥梁。
数据架构:它是什么?
DAMA DMBoK2表示,数据架构“通过与组织战略相一致来定义管理数据资产的蓝图,以建立战略数据需求和满足这些需求的设计。”特纳指出了这一定义的三个关键部分,第一个是“蓝图”一词。“这意味着,任何没有实施计划的数据架构都可能会被搁置,直到永恒的迷雾升起。”
第二个关键部分是“与组织战略保持一致”。他说,数据架构必须与业务目标以及数据如何支持这些目标直接相关。第三部分是建立战略数据需求。因为“任何有效的数据架构都必须具有前瞻性。”
他引用了唐娜·伯班克(Donna Burbank)和查尔斯·罗(Charles Roe)撰写的题为《数据架构趋势》(Trends in Data Architecture)的DATAVERSITY研究报告,指出了对“什么是数据架构?”
“我们在数据管理中遇到的一个问题是,如果您采用任何数据管理概念、术语或规程,不同的人会以不同的方式对其进行定义。”
无论它是如何定义的,数据架构都必须有一些具体的可交付成果,例如规范、不同抽象级别的主设计文档,以及数据通过系统的所有容器和路径的描述。如果没有这些可交付成果,他说,“那么很明显,你实际上并没有为企业提供任何有价值的东西。”
数据架构的典型交付成果
标准可交付成果包括:
- 关于数据使用的政策、指导原则、使用意向声明和责任机制
- 数据模型,包括企业概念模型、逻辑数据模型、物理数据模型和特定于应用程序的逻辑数据模型
- 数据目录
- 数据源清单
- 主数据或参考数据,以及哪些数据被广泛共享
- 定义的关键数据,包括词汇表、字典、定义和应用的标准
- 元数据及其管理方式
- 系统中的数据沿袭和流动
- 实施路线图
“如果你把所有这些都准备好了,你就有很大的机会得到一个可行的数据架构。”
数据架构:如何失败
尝试设计一个包含管理、处理、收集和存储所有内容的架构:“避免让海洋沸腾。将架构重点放在对您的业务运作和运营至关重要的事情上。”
完全由IT部门管理、驱动和设计的数据架构最终可能成为新技术的购物清单,而不是支持业务战略的计划。“就IT部门的人员而言,他们并不总是了解数据如何支持业务战略的最佳人选,因此也不知道架构需要如何发展才能实现这一点。”
如果没有业务和IT方面的高级管理层的积极支持,成功是不可能的。“它不应该只被组织中的人领导和开发。”
如果您的架构过于复杂,它不太可能保持最新。特纳分享了一个他作为顾问合作的公司的故事。该公司有一个覆盖整个房间墙壁的非常详细的数据模型。他们对这一模型感到非常自豪,但在几年的时间里,特纳注意到同一个模型位于同一面墙上,没有变化,这意味着它除了用于墙壁装饰之外,没有其他用途。
长期规划很重要,但不要忽略具体的短期利益。他说,数据架构“如果你没有硬性的可交付成果,它仍然是一个梦想”。
正确构建数据架构
有效的数据架构的关键特征包括数据策略,该策略与业务驱动因素一致,以基本数据为目标,描绘清晰的活动和里程碑,并且足够灵活,能够随着业务需求和可用技术的发展而发展。最重要的是,架构必须是可管理的。“你不可能到处整理你的所有数据。你需要专注于真正有意义的事情。”
制定数据策略
特纳概述了数据战略的简单路径。从业务战略开始,确定哪些数据对支持该战略至关重要。评估您所拥有的数据,并决定它是否能够完成任务,如果不能完成,则决定需要什么来改进它。Turner指出,改进可能需要来自业务方面,而不是完全来自IT。例如,如果每个部门都使用不同的代码或术语来表示“客户”,“那么这显然会影响业务战略,而业务战略可能需要改变以适应这种障碍。”
今天的数据:范围、规模和复杂性
在过去十年中,公司和组织正在处理的数据量显著增加。目前存储的所有数据中,90%是在过去两年中创建的。换句话说:
“地球上有2.5万亿粒沙子。顺便说一句,5亿粒沙子是一个十八个零之后的数字。每天产生的数据字节数是这个数字的三倍。因此,这一数字的范围和规模绝对是惊人的。”
但他说,这不仅仅是范围和规模。复杂性也是一个因素。因为许多公司还没有掌握数据管理、数据质量以及确保使用的数据符合预期用途等基本知识,“忘记未来的所有新技术。这就是今天的现实。”
数据架构的业务驱动因素
商业智能和数据科学是数据架构的驱动力,因为它们是IT领域的强劲增长领域。同时,成本降低、效率提高和法规遵从性也给改善数据治理带来了压力。他说,另一个原因是,“我怀疑,大多数组织的数据管理现状仍然相当糟糕。”
他引用了去年发表在《哈佛商业评论》上的一项研究。研究人员对75家公司进行了调查,要求这些公司的高级管理人员检查一系列关键系统记录的准确性,这些系统被认为是公司高效运营的关键。“结果真的非常令人震惊,”他说,因为一百张记录中只有三张是没有错误的。“在这75家公司检查的所有记录中,97%的记录中存在一些可能影响业务绩效的关键错误。”
特纳表示,数据湖的最大问题是缺乏有效的数据治理。缺乏一致的数据定义和元数据,因此当人们访问这些数据湖中的数据时,“他们根本不知道这意味着什么。”
他说,那些拿着高薪从数据中发现真知灼见的数据科学家们,却把大部分时间花在了较低级别的任务上,只是为了让数据处于可用状态。
“大数据和分析带来了巨大的希望,公司现在正在收集所有这些数据——实际使用的数据不到1%。”
他将当前的形势比作救火过程,而不是创造一种预防火灾的积极方法。我们需要的是一个连贯有效的数据架构,并专注于识别问题、创建解决方案和构建预防性、主动性治理。“换言之,你要阻止火灾的发生,而不是等到火灾发生后,再以反应性的方式进行扑救。”
数据治理:从被动转向主动
特纳分享了《全球数据战略》对数据治理的定义:一个以业务为主导的持续改进数据的过程,造福于所有数据利益相关者。尽管最初的实现可能从一个项目开始,但“最终,您要确保它作为一个业务流程在后台运行,实际上,与所有其他业务流程一起运行。”
数据治理的七项关键原则
- 必须主动管理数据
- 企业应负责领导治理工作
- 业务部门必须确定改进数据的优先级、关注哪些数据以及应该产生哪些影响
- 数据所有者必须对关键数据负责
- 数据管理员负责数据改进
- IT提供了在物理世界中实现数据治理的技术
- 组织中的每个人都必须作为任何数据治理活动的一部分
“每个组织都需要数据架构,但应用数据架构的程度和位置因组织而异,没有人比治理专业人员更适合帮助架构师做出这些决策。”
他说,数据治理和数据架构相互支持和加强。特纳分享了一张幻灯片,概述了数据治理和数据架构之间的协同作用,并强调了两者的关键优势。
数据管理员能够识别关键数据以及这些数据的状态如何影响业务,这有助于确定架构的优先级和发展。数据所有者应向业务规则通报随后在架构中实现的数据。所有者和管理者处于一个很好的位置,可以成为拥护者,帮助架构师为更多的数据架构投资创造条件,因为“他们将了解数据不足的当前影响,以及以更结构化的方式管理数据的重要性,”他说。
数据架构可以通过在物理层面上制定治理策略来支持数据治理,从而使其能够在现实世界中实现,而不仅仅是作为抽象概念。数据模型可以说明哪些数据需要治理,并可以突出参考数据集和主数据集,Turner表示,“需要在组织内进行最密切的管理和拥有。”数据架构有助于围绕关键数据建立业务和IT共识,确保业务与IT合作以执行确定的优先事项。
使数据治理与数据架构保持一致
特纳说,从哪里开始并不重要。重要的是,数据架构和数据治理的学科结合在一起,形成一个持续的改进周期,确保“您的数据正在变得更好,并根据业务需求不断发展”
特纳以雅典卫城的照片结束了他的演讲,以说明持久建筑的重要性。为了建造一座能持续2500年以上的神庙,希腊人花费了大量时间平整和准备它所在的山丘的地基。
“任何希望在数据方面做到这一点的组织,换句话说,创建一个持久、持久的数据驱动业务,都应该认识到,您需要数据架构和数据治理,他们需要共同努力,为未来奠定基础。”
- 89 次浏览
【数据治理】数据治理与数据管理:区别是什么?
视频号
微信公众号
知识星球
数据治理与数据管理是一种常见的比较,因为它们是帮助您充分利用数据潜力的两种类似做法。
在这里,让我们了解比较的来源,了解数据治理和数据管理的基本原理,然后探讨它们之间的关系。
数据治理和数据管理之间的区别是什么?
数据治理是一套关于数据访问、使用和管理的程序和指南。同时,数据管理包括获取、存储、编目、准备、探索和转换数据的过程和工具,以便您可以将其用于决策。
这里有一个经常被引用的类比来解释数据治理与数据管理之间的区别。数据治理可以被视为构建新建筑的蓝图,而数据管理则是构建的行为。
《非侵入性数据治理》一书的作者Robert S.Seiner将数据治理与数据管理进行了如下比较:
数据治理侧重于我所说的“权利法案”。这一切都是为了让拥有“正确”知识的“正确”的人在“正确”时间以“正确”方式处理“正确”数据,从而做出“正确”决策。同时,数据管理是以成功的业务成果为目标的实践和流程的交付。
The overlap between the disciplines of data governance, data management, and information security, according to Robert S. Seiner. Source: TDAN
同时,国际标准化组织(ISO)强调了数据治理与数据管理之间的区别,如下所示:
数据治理规定了在数据管理中要做出哪些决策以及由谁做出这些决策。然而,数据管理可确保做出这些决定并采取适当的行动。
数据治理与数据管理:实际操作
例如,当您使用AWS S3存储数据或使用Fivetran设置数据管道时,这就是数据管理的一个实例。
然而,当您使用AWS S3中的数据资产定义或定义S3访问规则的平台来设置业务术语表时,您就实现了数据治理。
数据管理是否包括数据治理?
对数据治理是关于如何管理数据的。因此,数据管理包括数据治理,因为您必须记录处理数据的指导原则以及它们如何影响您的业务目标。
数据治理与数据管理:3个核心区别
我们可以从以下方面比较数据治理与数据管理:
- 过程
- 人
- 技术
数据治理与数据管理#1:流程
数据治理规定了“组织如何决定使用数据”。因此,所涉及的过程可以是:
- 设置数据质量检查
- 定义数据访问策略
- 遵守全球、地方和组织法规
- 设置和维护业务词汇表
同时,数据管理是关于“组织如何使用数据”的。这些流程遵循数据治理框架中概述的准则。
所涉及的过程可以是:
- 数据转换以保持数据格式一致
- 仓库、湖泊等中的数据存储
- 数据探索以解决运营和分析用例
数据治理与数据管理#2:人
传统上,数据治理被视为与业务和IT团队相关的功能。因此,实施数据治理将涉及业务经理、域数据所有者和其他此类业务利益相关者。
同时,数据管理将涉及执行——实施治理框架并影响组织的业务目标。这涉及到从定义数据存储规则到设置访问权限和控制的所有方面。
因此,它需要纯粹的技术角色,例如数据工程师、架构师或数据库管理员(DBA)。
数据治理与数据管理#3:技术
因此,数据治理工具用于记录这些规则,并将其纳入整个组织的数据资产。这包括数据字典和词汇表、数据目录等。
同时,数据管理工具更关注数据存储、处理和探索。
Data governance | Data management | |
---|---|---|
这是怎么一回事? | 在不损害数据安全性、完整性或隐私的情况下提高数据业务价值的做法 | 通过遵循数据治理准则支持数据消费的流程和工具 |
它做什么? | 定义用于存储、操作和使用数据的策略和控件 | 定义管理每个数据资产生命周期的工具、过程和方法 |
它回答了什么问题? |
1.您的业务应使用哪些数据源? 2.您将如何对来自不同来源的数据进行分类? 3.您将如何存储敏感数据? 4.谁拥有数据资产? 5.谁可以访问该资产?谁可以对其进行更改? 6.您的数据质量指标是什么? |
1.您将使用哪些工具存储数据? 2.如何使来自不同域或应用程序的数据互操作? 3.您将如何促进数据共享和协作? 4.您将如何确保数据质量并保持其相关性、准确性和更新? |
谁拥有它? | 责任在于每个人,但主要是企业负责人。例如,在去中心化模型中,数据域负责管理它们创建的数据。 | 责任在于数据团队的工程师和其他技术成员。 |
数据治理和数据管理如何协同工作?
没有治理的数据管理就像构建没有蓝图的东西。同时,没有管理的治理只是文档。数据治理和数据管理必须协同工作,这样才能从数据中提取价值。
以下是一些示例:
- 法规遵从性
- 基于角色的访问
- 数据编目
示例#1:法规遵从性
GDPR指南帮助您定义数据治理策略。例如,GDPR要求您在纳税年度/会计期结束后至少保留七年的记录。因此,您的数据治理策略必须确保您知道哪些数据应保留七年,存储数据的格式以及可以访问数据的人员。
在这种情况下,数据管理将涉及提取必要的数据并执行所需的转换,以便以正确的格式组织、分类和存储数据。数据管理还将涉及确保这些数据易于发现并供合适的人员访问。
示例#2:基于角色的访问
另一个例子是基于角色的访问。数据治理程序应确定用户角色及其数据访问权限。
数据管理将涉及组织内基于角色的访问的执行和监控。
示例#3:数据编目
数据治理要求您确保所有数据资产都定义良好,并提供必要的上下文,如资产来源、所有权、转换等。
数据治理将涉及建立一个数据编目平台,利用从所有数据源到地表资产描述、360度数据配置文件、谱系映射等的元数据。同时,数据管理将侧重于将各种来源的数据组织到数据仓库和湖泊中,并将这些来源与编目工具连接起来。
数据治理和数据管理:它们真的那么不同吗?
传统上,将数据治理和数据管理确定为两个独立的概念是有意义的,因为治理只涉及法规遵从性。因此,该工具侧重于访问控制和安全性。
同时,数据管理就是执行收集、存储和使用数据所涉及的各种过程。
如今,这些界限已经模糊,因为数据治理对于帮助数据团队更好地工作至关重要。这不再是“数据治理与数据管理”的局面。
让我们看看各个组织是如何定义它的:
“数据治理是将数据作为战略资产进行管理。数据治理实践对于帮助确保数据针对任何用途进行优化至关重要,从而能够深入了解我们的组织和职能边界。”-微软
“数据治理反映了组织在与数据管理相关的领域的战略方向和预期成果,包括质量和元数据管理、信息安全、架构和数据建模。”-德勤
“数据治理的基础是平衡中央监督、适当的优先级和一致性,同时确保创建和使用数据的员工是其管理层的领导者。”-麦肯锡
“数据治理推动了对数据团队面临的挑战的理解。最终,数据治理导致了一个数据驱动的组织,将继续在现代市场中竞争。*”-Fivetran
“数据治理是一个组织对其数据可用性、可用性、一致性、数据完整性和数据安全性的管理。”-Snowflake
这就是为什么数据治理和数据管理可以被视为看待同一问题的不同方式——同一硬币的两面。更好的治理将导致更好的数据资产管理,只有实现真正的治理,才能实现有效的数据管理。
- 242 次浏览
【数据治理】数据治理的三大原则:现代数据文化的支柱
视频号
微信公众号
知识星球
2023年,每个数据领导者都应该知道三个重要的数据治理原则:
- 数据治理应转向“数据和分析”治理
- 数据治理得益于去中心化、社区主导的方法,而不是集中式方法。
- 数据治理应该是日常工作流程的一部分,而不是事后的想法。
这些原则很重要,因为数据治理有时被视为一个限制性过程;约束高价值活动的一组规则。事实上,适当的治理对于一个正常运作的数据文化至关重要。亚当·斯密(Adam Smith)的《国富论》(the Wealth of Nations)中有一只看不见的手,这是一个有用的类比,在这只手中,某种程度的治理(如独立的法院系统)是必要的,以实现有益的突发结果。
治理不仅是必要的;它越来越成为数据民主化的主要限制因素。dbt的Tristan Handy在《现代数据堆栈:过去、现在和未来》一书中解释说,在2012年10月亚马逊Redshift发布的催化下,现代数据堆栈从2012-16年经历了寒武纪大爆炸,我们正处于第二次寒武纪爆炸的边缘。一个需要加强和成熟数据治理以成为数据消费和使用的推动者的治理;与其说是控制,不如说是上下文。
现代数据治理的关键原则是什么?
1.从数据治理转向“数据和分析”治理
大数据经常将其与加州淘金热相提并论。成千上万的公司如雨后春笋般涌现,帮助组织从数据中获得价值。根据TOGAF标准体系结构原则,“数据是一种对企业有价值的资产,并得到相应的管理”。TOGAF是一种企业架构方法,60%的财富500强公司都使用它,它进一步指出,数据需要是可共享的,用户可以轻松访问,以执行他们的项目。
数据治理一直将数据视为一种资产——治理本身是在遵守隐私法规的同时从数据中提取价值的关键。正在发生变化的是,数据治理在数据资产的整个生命周期中发挥着更大的作用。重点正在扩大,包括用于从数据中获得见解的所有基础设施和流程,而不仅仅是集中于数据资产本身。例如,治理在机器学习/人工智能程序中发挥着重要作用,这需要有效的治理才能取得成功。
这种转变意味着,随着每个团队都能够共享和使用有关数据的信息,治理、BI/分析和数据管理团队之间的竖井正在瓦解。First San Francisco Partners的创始人兼首席执行官凯尔·奥尼尔(Kelle O'Neal)在一次DATAVERSITY采访中表示:“人们认识到,BI和分析并不是独立于数据治理的,它们只是处于连续统中的另一个位置。”。
2.与其采取集中的方法,不如采取分散的、社区主导的方法
现代数据治理最令人兴奋的事情之一是,它通过使项目合作更容易,为优秀的团队奠定了基础。
例如,我们在Atlan的团队开始使用数据来解决印度政府(以及其他组织)面临的巨大而复杂的问题。在内部,我们在最初的演讲中有一个不同的个人名册,包括社会科学家、政治科学家、数据工程师和地理空间科学家。
我们的Slack频道每天都充斥着关于专栏代表什么的问题,或者访问数据的请求。随着规模的增长,我们意识到,从根本上说,我们最大的挑战是合作,而不是技术或基础设施。
我们为解决这些问题所做的努力使我们构建了一个内部工具,作为数据消费者的协作工作空间,就像GitHub对于工程团队来说一样。我们在创纪录的时间内为印度政府建立了一个集中的数据平台。如今,它被10万名政府官员、国会议员和司法助理用作数据驱动决策的支柱。
“如果你能够为这些不同的人创造一种真正有效地合作的方式,成为一个梦想中的数据团队,让他们相互信任,能够有效地合作,那么魔法就会发生。”-Atlan联合创始人Prukalpa Sankar
3.从事后想法转变为日常工作流程的一部分
数据治理传统上被视为事后诸葛亮,但数据治理现在正在发展成为一套嵌入日常工作流程的实践,并实现数据团队之间的深度安全协作。
使治理成为常规做法的一部分是确保参与数据资产的每个人——从数据资产的策划人到最终访问和使用数据资产进行决策的人——都了解与他们的工作相关的数据治理方面。
重要的是要有合适的工具来尽可能地自动化数据治理。现代数据平台提供了许多使民主化治理成为现实的功能,包括:
- 基于用户角色的可自定义访问策略
- 与Slack、Microsoft Teams和Jira等平台轻松集成,使元数据可以在本地工作流和工具中访问。
- 自动化数据沿袭,使您能够跟踪数据资产的来源和演变
- 允许数据团队和消费者在一个地方管理分布式数据的数据目录
数据治理的支柱及其如何支持多样化的数据文化
长期以来,数据治理一直被视为数据团队的障碍,而不是福音。为了使治理发展成为一种积极工作以使数据实时可用和共享的功能,组织需要一种包括上述三个原则的治理方法:转向数据和分析治理,专注于协作,并将治理纳入日常工作流程。
实现这一点的一个简单方法是实现一个数据治理平台,该平台是为满足这些目标而构建的。
为了帮助理解Atlan的数据治理方法,以及它如何帮助促进不同数据消费者之间的合作,请阅读我们的指南《第三代数据目录入门》。
数据治理原则:下一步行动
实施数据治理计划是一项艰巨的任务。这就是为什么一个坚实的计划、有影响力的目标、相关和实时的指标,以及对持续沟通和协作的重视,是需要采用的重要数据治理最佳实践。
准备好让数据治理变得轻而易举了吗?
尝试Atlan-在不影响数据民主化的情况下,自动构建数据沿袭并部署一流的数据访问治理。
数据治理原则:相关阅读
- Data governance and its importance in the modern data stack
- 6 commonly referenced data governance frameworks in 2023
- 8 best practices for a robust data governance program
- Objectives and goals of data governance: Data democratization & data security
- Data governance policy: Examples, templates & how to write one
- 24 次浏览
【数据治理】数据治理的好处:4种帮助构建强大数据团队的方式
视频号
微信公众号
知识星球
2016年左右,现代数据堆栈成为主流。这是指帮助当今企业存储、管理和使用其数据的一系列技术、工具和功能。这些工具由三个关键思想统一起来:
- 自助数据分析
- “敏捷”数据管理
- 云优先和云原生
尽管现代数据堆栈使数据的获取和转换变得更加容易,但治理已成为真正数据民主化道路上的最大障碍之一。
在这里,让我们探讨在您的组织中实施稳健的数据治理计划的重要性和好处。
目录:
- 什么是数据治理?
- 为什么数据治理很重要?
- 数据治理如何使组织受益?
- 数据治理的4个关键好处
- 如何实施有效的数据治理?
- 要旨
有关数据治理好处的相关阅读
什么是数据治理?
在深入了解数据治理的好处之前,让我们快速回顾一下这个概念:
根据Gartner的数据:
“数据治理是一种决策权规范和责任框架,以确保在数据和分析的评估、创建、消费和控制方面的适当行为。”
这里有一个更简单的理解方法:数据治理只是决定如何决定。它是一套收集、管理和存储数据以实现更好决策的策略、流程和标准。
阅读更多关于什么是数据治理以及它为什么重要的信息?
为什么数据治理很重要?
为什么数据治理是必要的?因为它确保我们的行为符合每个人的最大利益。
无论是地区、国家、企业还是数据,治理本质上确保为每个人提供公平的解决方案,维护每个人的权利。这是我们大多数人所忘记的,因为传统的数据治理带来了被视为严格规则的包袱,而这些规则是由上而下用重拳处理的。固有的控制权而非特权。
数据治理需要经历一次复兴,它需要在多个层面进行范式转换。
这里有一篇很棒的博客,讲述了如何改变围绕数据治理的叙事,将有助于更好地回答数据治理的原因,并将获得组织中每个人的无缝支持。
从根本上讲,数据治理确保了有效的协作和数据民主化。
数据治理如何使组织受益?
数据治理确保在整个组织中正确和及时地使用数据。以下是一些示例:
- 设置数据质量标准-数据资产的准确性、一致性、及时性和完整性。
- 设置数据访问控制策略和定期监控质量、安全和隐私检查的程序。
- 帮助降低暴露数据的重大中断风险。
- 定义数据保留和数据删除策略。
- 使数据资产能够在整个生命周期中进行审计,从而遵守数据保护法律法规。
- 提高风险评估和业务决策的一致性和信心,从而最大化数据资产的ROI。
处理大量数据的组织明白,数据治理不再是好的,它是必须的。但他们真的能最大限度地发挥数据治理的真正潜力吗?一旦您了解了数据治理的起源及其真正意义,数据治理的真正好处就可以真正释放出来。
汇编数据治理的4个关键好处
- 实现真正的数据民主化
- 建立团队之间的有效协作
- 保护数据的完整性和相关性
- 帮助遵守数据保护法律法规
数据治理的有效实施将对数据质量、数据分析、数据报告和数据相关决策产生无数积极影响。
让我们详细了解其中的每一项,以及它们如何帮助数据团队更好地合作:
好处#1-实现真正的数据民主化
每个人都有权获得有助于他们做出更好决策的数据。数据治理确保您可以维护这一权利,而不会损害数据安全。使用正确的现代数据治理平台,您可以创建细粒度和自定义的基于标记的访问策略。标记的示例包括与业务相关的元数据、技术元数据,甚至安全分类。这样的系统还确保了对哪些团队成员有权访问某些数据,哪些成员无权访问这些数据的决策是透明的。
好处#2-建立团队之间的有效协作
明确了解谁应该访问数据,谁不应该访问数据也可以减少同一团队或不同团队中不同数据从业者之间的摩擦。例如,查看受限数据资产的人知道谁拥有该资产,并可以通过单击按钮快速请求访问。此外,如果某个特定数据是可公开发现的,无论它是否在不同的域中,数据用户都不需要等待几天,it部门就可以让他们访问该数据,或者域专家就可以传递该数据的实际含义。
好处#3-保护数据的完整性和相关性
为了使数据成为有影响力的决策的基础,它必须具有相关性、准确性、可信赖性、易用性和高质量。数据治理通过采用以下措施确保:
- 借助数据目录跟踪和管理组织中的所有数据。
- 创建业务词汇表以便于理解此数据。
- 设置数据沿袭以启用根本原因分析和影响分析。
- 通过既定和沟通的政策管理数据访问。
好处4-帮助遵守数据保护法律法规
最后但并非最不重要的是,大多数组织开始考虑数据治理的原因是遵守数据保护法律法规。即使是轻微违反GDPR或CCPA法规,也会让组织损失一大笔钱。良好的数据治理工具和流程可确保自动遵守此类法规和法律。它们为数据的结构化创建、存储和删除创建了通用指南。
要旨
如果实施得好,数据治理的好处是无穷的。随着我们周围的数据消耗和使用率呈爆炸式增长,组织将受益于将数据治理作为其数据管理原则的核心,而不是事后考虑或作为检查表的一部分。
- 63 次浏览
【数据治理】数据治理角色及其职责:全面综述
视频号
微信公众号
知识星球
大多数组织采用以控制为中心的方法进行数据治理。因此,他们制定了一个计划,其中包含限制访问的策略,并设计数据治理角色和责任来执行这些规则。
这些计划包括严格的安全措施,以保护数据、管理风险并确保法规遵从性。然而,这种方法无法实现数据协作和数据驱动的决策。这就是为什么随着时间的推移,数据治理似乎已经成为一件令人恐惧的事情,而它应该得到庆祝。
各种数据治理角色及其职责
一个强大的数据治理团队由数据管理员、管理员、保管人和用户组成。
下面是一个表格,总结了每个数据治理角色。
Aspect | Data Admin | Data Steward | Data Custodian | Data User |
---|---|---|---|---|
Definition | 监督整个数据治理计划的实施 | 充当业务和IT之间的桥梁,以便业务用户能够访问正确的数据 | 处理数据的移动、安全、存储和使用 | 利用数据从中获取见解,用于商业决策 |
Top responsibility |
- 1. 处理和转换用于建模的数据,同时确保其完整性和可用性 -2。用作解决所有与数据相关的冲突的升级点 |
- 1. 帮助标准化数据定义、规则和描述 -2。帮助定义访问策略并优化与数据相关的工作流程和通信 |
-1. 监督数据访问和存储 -2。确定不同数据域的数据管理员,并在数据质量问题上与他们合作 |
- 1. 了解数据治理策略、标准、规则和定义。 -2.使用现代数据堆栈中的工具从数据中提取价值 |
Technical or business? | Both | Business | Technical | Business |
The ideal fit | 经验丰富或经验丰富的数据团队成员,精通业务和技术 | 资深数据团队成员,具有深厚的领域知识并熟悉数据堆栈 | 数据团队中能够浏览现代数据堆栈的高级工程师或科学家 | 营销人员、销售人员、研究人员、高级管理人员和业务经理 |
目录
- 各种数据治理角色及其职责
- 谁负责数据治理?
- 数据管理员
- 数据管理员的角色和职责
- 数据管家
- 数据管理员的角色和职责
- 数据保管人
- 数据保管人的角色和责任
- 数据用户
- 数据用户的角色和责任
- 数据治理的角色和责任:下一步是什么?
- 数据治理角色和责任:相关阅读
Gartner表示,类似地,
Gartner副总裁兼分析师Saul Judah表示:“应对当今世界不同程度的不确定性需要速度和灵活性,而传统的数据治理方法正变得过时。”。“典型的‘一刀切’、基于指挥和控制的IT治理能力既不具备满足数字业务需求的范围,也不具备满足数字化业务需求的灵活性。”
Modern business and data analytics teams require adaptive data governance. Source: Gartner
这意味着传统意义上的数据治理需要范式转变。既然我们已经了解了现代数据治理方法的变化,第一步就是建立正确的团队。
谁负责数据治理?
数据治理团队有几个角色,每个角色都在引导您的企业走向以数据为中心的文化方面发挥着关键作用。
虽然每个组织都有独特的目标、需求和结构,但以下是四个最常见的数据治理角色:
- 数据管理员
- 数据管家
- 数据保管人
- 数据用户
让我们探讨一下在制定数据治理政策、标准和功能方面的每一个角色及其作用。
数据管理员
谁是数据管理员?
数据管理员负责监督整个数据治理计划的实施,并作为解决所有数据相关冲突的升级点。
从功能上讲,数据管理员负责处理数据并将其转换为最佳数据模型。
数据管理员的角色和职责
数据管理员的职责是:
- 确保数据的有用性:这包括监督数据转换、监控组织内的数据流以及设计数据模型。它还需要规划、实施和维护数据存储库,如数据库、仓库和湖泊。
- 为决策启用数据分析:这涉及到处理技术和业务用户的所有培训和入职要求。
- 确保数据完整性:这需要在整个组织中跟踪数据沿袭,以确保数据是可信的、相关的和更新的。
根据组织的不同,数据管理员还可能负责数据库管理任务,例如维护数据字典、选择正确的工具(软件和硬件)以及监控数据库性能。
此外,由于数据管理员可操作整个数据治理计划,因此您应该在数据团队中寻找经验丰富、对业务有良好掌握的成员。
数据管家
谁是数据管理员?
数据管理员确保业务用户能够始终如一地访问高质量的数据。以下是《颠覆数据治理》一书的作者Laura Madsen的说法:
“数据管理员的目的是帮助巩固这种黏糊糊的东西……他们会说信息技术的语言,并将其转化为业务。这个角色需要幼儿园老师的耐心和成功谈判人质情况的能力。”
数据管理员是业务和IT之间的桥梁,其核心功能是实现协作和数据民主化。
此外,它们通过评估数据治理策略、流程和实施,帮助组织遵守不断变化的法规。
数据管理员的角色和职责
数据管理员的职责因其组织和角色而异。
然而,他们的一些主要职责包括:
- 创建数据资产:数据管理员拥有数据资产创建、策略和安全性。
- 确保数据质量:数据管理员帮助标准化数据定义、规则和描述。这为数据资产提供了上下文。数据管理员还与数据治理团队的其他成员一起评估、管理和监控整个组织的数据质量。
- 保护数据资产:数据管理员在建立符合组织数据治理目标、策略、标准和法规遵从性要求的数据安全协议方面至关重要。他们还评估数据安全的潜在威胁,并与IT团队协商以缓解这些威胁。
- 定义访问策略:访问策略规定哪些数据用户可以访问特定的数据资产。数据管理员帮助设置它们,以便正确的用户能够立即访问他们需要的所有数据。
- 优化工作流程和通信:数据管理员帮助技术和业务数据用户搜索、发现、信任和使用他们需要的数据。这就是为什么它们在数据协作和共享中发挥着至关重要的作用。
在聘请数据管理员担任数据治理角色时,您应该寻找一位将工程或分析技能与他们的商业头脑和深层领域知识相结合的高级数据团队成员。
数据保管人
谁是数据保管人?
另一个至关重要的数据治理角色是数据保管人。数据保管人负责数据的移动、安全、存储和使用。
对于大多数企业来说,数据管理员(data steward)和数据管理员(data custodian)之间没有区别。然而,随着数据治理的日益复杂,两者之间的分离开始出现。
数据保管人的角色和责任
与数据管理员不同,数据管理员的角色更多地是在技术方面。
他们的一些职责包括:
- 控制数据访问:数据保管人授权并控制对数据的访问。他们负责管理设置和实施权限控制的技术方面。
- 与数据管理员合作:管理员为每个数据资产或域确定数据管理员。他们还与数据管理员合作,解决任何数据质量或完整性问题。
- 监督数据存储:数据保管人处理数据存储的技术方面,对主数据进行版本控制,并设置系统备份和灾难恢复计划。他们还处理数据治理团队的人员配置需求。
在招聘时,你应该在数据团队中寻找一位能够在现代数据堆栈中无缝导航的高级工程师或科学家。
数据用户
谁是数据用户?
数据民主化的目标是使数据能够在组织内使用。因此,如果不包括数据用户,数据治理角色就不完整。
数据用户是指组织中从数据中提取价值的任何人。数据用户包括营销人员、研究人员、高管、业务经理、高级管理人员等。
数据治理框架通常不考虑数据用户,但他们在组织数据治理框架的成功中发挥着关键作用。
如果没有数据用户,数据治理就不会有效。所有其他数据治理角色——数据管理员、数据管理员和数据保管人——的存在是为了帮助数据用户进行数据驱动的决策。
数据用户的角色和责任
数据用户的主要作用是推动组织内数据资产的用例实施,并支持数据驱动的决策。
在组织中,数据用户的职责是:
- 参加有关数据管理、访问和使用的培训和教育课程
- 使用数据字典、目录和知识库等工具从数据集中查找和提取值
- 与数据治理团队的其他成员(如数据管理员和数据保管人)互动,以理解和使用数据
- 让数据治理团队注意存在质量或可信度问题的数据集
- 确保他们遵循适当的安全措施来保护敏感数据
数据治理的角色和责任:下一步是什么?
虽然每个团队成员都有不同的角色,但这些数据治理角色相互依赖。因此,他们必须进行有效的协作,以帮助他们的组织实现其业务和数据目标。
尽管这些角色拥有独特的技能,但他们在数据治理团队中通过协作、共享和透明的沟通实现了最佳效果。
组建合适的团队只是在您的组织中有效利用数据治理的众多步骤之一,想了解更多吗?
数据治理角色和责任:相关阅读
- Data Governance in Action: Community-Centered and Personalized
- Data Governance and Its Importance in the Modern Data Stack
- Data Governance Framework — Examples, Templates, Standards, Best practices & How to Create One?
- Snowflake Data Governance — Features, Frameworks & Best practices
- Open Source Data Governance Tools - 7 Best to Consider in 2023
- Data Governance Policy: Examples, Templates & How to Write One
- 7 Best Practices for Data Governance to Follow in 2023
- Benefits of Data Governance: 4 Ways It Helps Build Great Data Teams
- Data Governance Roles and Responsibilities: A Quick Round-Up
- Key Objectives of Data Governance: How Should You Think About Them?
- The 3 Principles of Data Governance: Pillars of a Modern Data Culture
- A Guide to Gartner Data Governance Research — Market Guides, Hype Cycles, and Peer Reviews
- 5 Popular Data Governance Certification & Training in 2023
- 8 Best Data Governance Books Every Data Practitioner Should Read in 2023
- Automated Data Governance: How Does It Help You Manage Access, Security & More at Scale?
- Data Governance and Compliance: Act of Checks & Balances
- Data Governance vs. Data Management: What's the Difference?
- Enterprise Data Governance — Basics, Strategy, Key Challenges, Benefits & Best Practices.
- 1752 次浏览
【数据治理】数据管理与数据治理:导论
视频号
微信公众号
知识星球
如果说今天有什么能定义成功企业的话,那就是对公司数据的成功理解、使用和战略。了解您的数据并确定如何实施,会带来用户和利益相关者提出的一系列问题:
- 数据是如何存储的?
- 我们如何知道它是及时和准确的?
- 我们能相信吗?
- 对于我的问题,什么是最好的数据?
这些问题的答案并不容易,但有几个领域提供了组织和解决这些问题的方法:数据管理和数据治理。尽管这些术语经常互换使用,但它们是完全不同的程序。在本文中,我们将澄清有关数据管理和数据治理的任何困惑。
数据管理:一种IT实践
让我们从更基本的部分开始——数据管理。毕竟,如果你没有坚实的数据管理,那么数据世界的其他部分就遥不可及。数据管理最好被视为一种IT实践,其目标是组织和控制您的数据资源,使其在用户调用时能够访问、可靠和及时。
从这个管理角度来看,负责数据管理的IT团队可能依赖于一个全面的、定制的实践、理论、流程和系统集合——一整套工具——来收集、验证、存储、组织、保护、处理和以其他方式维护数据。毕竟,如果数据处理不当,数据可能会损坏或不可用,变得完全无用。
重要的是,数据管理涵盖了数据资产的整个生命周期,从数据的初始创建到数据的最终报废。数据管理可以包括许多相关的字段和类别,包括与您的公司相关的以下任何字段和类别:
- 数据治理和数据管理
- 数据架构
- 数据质量管理
- 数据仓库
- 商业智能和分析
- 元数据管理
- 数据安全管理
数据治理:一种商业战略
如果说数据管理是数据的物流,那么数据治理就是数据的战略。数据治理应该比数据管理更大、更全面,因为它是:作为一项重要的业务计划,治理需要政策,最好通过公司内部的共识达成。
数据治理的目的是为公司如何确定数据的财务效益并确定其优先级,同时降低不良数据的业务风险提供切实可行的答案。数据治理需要确定哪些数据可以在哪些场景中使用——这需要确定什么是可接受的数据:
- 什么构成数据?
- 它是在哪里收集和使用的?
- 它必须有多准确?
- 数据必须遵循哪些规则?
- 谁参与了数据生命周期的各个阶段?
重要的是,数据治理必须超越IT,并包括整个企业的利益相关者。为了确保所有数据的安全性、可靠性和可信度,治理要求所有业务领域的利益相关者都参与进来。考虑另一种选择:如果每个业务竖井采用不同的数据策略,最终结果是混乱的,不够全面,不足以发挥作用。
确定您的数据治理可以包括广泛的流程、实践和理论。它可能与许多数据领域重叠,如安全性、合规性、隐私性、可用性和集成。最终结果可能是某种系统,它决定了流程和个人的决策权和责任,比如何时使用哪些数据流程,以及哪些人可以在特定情况下采取某些行动。
最终目标是确定一种控制数据资产的整体方法,使公司能够从数据中获得绝对最大的价值。
战略,而非技术
确定数据治理的好方法是什么?它不是由技术来定义的。相反,技术应该通过自动化、扩展和增强来支持数据治理。数据治理一开始是一种理论(或几种),但当您创建以下内容时,您的策略可以变得切实可行:
- 数据质量定义,它决定了数据的状况,以及数据的可信度和对数据策略的遵守程度
- 业务术语表,记录所有数据的含义,确保清晰并防止不必要的重复
- 角色和责任,为谁关心和维护哪些数据提供了组织结构
- 治理的数据目录,用于定位和促进对数据的理解。更高级的目录甚至可以根据以前的用户访问数据的方式,将数据分组到各种相关的集合中,这可以提供额外的意义、见解和组织。
- 元数据创建,将技术流程与特定的数据实现以及任何产生、使用或影响数据的内容联系起来。这甚至可以跟踪数据的“谱系”,或不同部分之间的数据关系,例如含义相似的数据、业务流程数据,以及特定于部门、业务单元、应用程序、其他产品,甚至内部或外部地理位置的数据。
例如,许多数据治理专家还推荐了一种组织数据系统的方法,以促进公司员工的积极参与。这可以允许用户指示数据何时不正确或直接修复数据,这既可以提高数据质量,又可以相信数据是强大和准确的。
数据治理的好处
一旦建立了数据管理流程,数据治理是合乎逻辑的下一步,因为此类指导可以提供许多好处,包括:
- 提高公司数据的价值
- 通过了解您将重点关注的内容和选择跳过的内容,降低其他数据管理子集的成本
- 整体增加企业收入
- 标准化数据系统、策略和程序
- 确保正确的监管和合规程序
- 帮助解决数据问题
- 提高透明度
- 围绕数据建立培训和教育
无论是在概念上还是在实践中,数据管理和数据治理都不是一回事,但它们对于确保公司成功和有价值地使用数据都至关重要。
- 15 次浏览
【数据治理】第一部分:利用联邦治理利用数据的潜力
视频号
微信公众号
知识星球
这是关于数据治理的两部分系列文章的第一部分。在这里阅读关于在实现数据网格驱动的治理时需要考虑的事项的第二部分。
数据无处不在,正如人们渴望利用它一样。而且,组织越来越认识到它的潜力。数据生产呈指数级增长,其复杂性也是如此。以下趋势正在推动组织如何利用数据:
- 喜欢在决策中使用数据的庞大用户群
- 合作伙伴生态系统与其他组织的数据交换以及平台的出现
- 法规的复杂性和收紧性
- 越来越多的业务用户正在消费数据,同时通过降低技术壁垒来减少数据延迟
这些趋势也带来了一些挑战,我们将其归类为外部和内部风险。
数据管理的外部风险
- 安全和隐私:组织负责保护数据主体的安全和隐私。不这样做代价高昂——数据泄露的全球平均成本为386万美元,数据泄露中每个丢失或被盗记录的平均成本为1.5亿美元。
- 合规性:一个全球性组织需要遵守其运营所在所有国家的法规。这些法规可能多种多样,有时甚至相互矛盾。除了正在出现的许多新法律之外,还有一些特定于数据的法规,如GDPR、CCPA等。不合规可能代价高昂。
- 品牌和声誉:事件发生三年后,数据泄露公司的股价平均比纳斯达克指数低13%。除此之外,他们还有更大的社会责任义务。
内部生产力挑战和治理风险
- 信任:最大的挑战是数据发现和信任。当很难找到存在的数据、以前是如何使用的、来自哪里等时,用户往往不太信任它。为了满足业务的生产力需求,数据应该易于访问、可发现和值得信赖。
- 治理风险:了解谁访问数据、他们对数据做什么、他们把数据放在哪里以及数据如何在下游被消费是至关重要的,因为这会直接影响数据的安全性。
为了克服这些挑战并充分利用数据的潜力,组织需要稳健的数据治理。
良好的治理需要平衡和调整,如果做得好,它可以在不损害安全的情况下推动数字创新。
格雷戈里·维亚尔
蒙特利尔高等商学院信息技术助理教授
了解数据治理
数据治理是一种数据管理功能,可确保组织收集的数据的质量、完整性、安全性和可用性。良好的数据治理可以:
- 遵守安全和治理誓言
- 对数据提供高效、透明的控制
- 促进和支持联合交付
- 使数据可见且值得信赖
- 去中心化数据所有权
传统上,数据治理是一种集中式功能,但数据网格范式需要联邦数据治理来支持数据的分布式域驱动架构和产品思维。最重要的是,它可以通过两个基本框架确保对数据的信任,包括可发现性、安全性和问责制:数据目录和数据质量。
联邦数据治理的关键原则
数据目录
数据目录是作为元数据清单的数据描述,为用户提供评估数据可访问性、健康状况和位置所需的信息。它们帮助用户定位相关数据并绘制清晰的数据表示。为了提高效率,组织需要自动化、可扩展和分布式的数据目录。这包括:
- 技术元数据:描述数据对象的组织和结构,如表、事件、对象、属性及其类型、长度、索引和连接
- 所有权:捕获数据关系和来源的信息
- 数据沿袭:促进分布式发现,包括具有映射上游和下游依赖关系的自动化表的字段级沿袭
- 业务术语表:提供对关键业务概念、术语及其之间关系的一致理解
数据质量
自助服务数据质量使组织能够定义和实施质量规则。数据质量的差距导致缺乏可信度,并因暗数据资产而失去机会。而高质量的数据能够:
- 数据发现和信任
- 避免数据偏斜
- 自动错误检测
- 视觉沿袭
- 授权最终用户导出、报告和编辑规则
- 假定企业安全问题
- 筒仓破碎
数据所有权
数据治理不仅仅是一种技术实现。这是一种由数据管理员、数据产品经理和数据域所有者促成的文化变革。为了成功过渡到数据所有权,Vial提出了三种基本机制:
- 包括组织要素的结构机制,如设立特殊角色、官方政策和规则
- 组织用于确保遵守结构机制的程序性机制,如数据审计和审查。我们还将为这个桶增加激励措施
- 包括沟通和非正式员工辅导等关键活动的关系机制
随着数据量、种类和速度的增加,新的挑战也将出现。在动态环境中遵守法规遵从性要求将更加复杂。工具的集成可能会变得困难,通常与组织需求不兼容。此外,变更管理可能需要时间。
组织需要一种战略方法来实施组织范围内的计划,同时考虑到以上所有因素。在这个由两部分组成的数据治理系列的下一个版本中,我们将探讨如何成功地做到这一点。
- 111 次浏览
【数据治理】第二部分:联邦数据治理的四步框架
视频号
微信公众号
知识星球
这是由两部分组成的数据治理系列的第二版。请在此处阅读关于利用良好治理的数据潜力的第一部分。
健全的数据治理将带来全组织的成果。通过编目和质量管理,数据治理确保了对数据的信任。它将通过确保可发现性、透明度、可访问性和易用性来缩短上市时间。它还将促进整合,以扩大合作伙伴生态系统和参与开放数据倡议。
不用说,数据治理使组织能够高效、有效、安全地利用其数据。但是,实现一个组织范围的数据治理计划并不是一件容易的事。根据我们与丹麦一家领先投资银行合作的经验,我们概述了在实施数据治理计划时需要牢记的首要事项。
步骤1-从“现状”状态分析和利益相关者参与开始
在开始绘图之前,先了解数据治理计划的愿景和关键驱动因素。在进行任何解决方案之前,先评估当前状态。基于这一理解,对不同的数据利益相关者进行人物访谈,并记录他们的痛点和目标。构建一个与数据治理解决方案的期望以及功能的优先级和关键性相对应的功能矩阵。
我们以以下方式对我们的经验教训和项目期望进行细分:
Business |
Process |
Technical |
Financial |
World-class customer experience |
Federated governance |
Alignment to data mesh |
Total cost of ownership |
Package and sell asset management products |
Self-serve platform |
Alignment of the current implementation and target data architecture |
Reduced operating costs |
Introduce subscription models to clients |
|||
Industrialize the wholesale offering |
第2步-选择工具
选择适合组织环境的工具是至关重要的。在执行此操作时,请记住:
- 没有一种工具可以满足所有要求
- 商业工具有一长串的功能,但越多越好
- 对于开源工具,工具背后的社区、路线图可见性、体系结构、可扩展性等都很重要
考虑到这一点,请仔细选择您的工具:
- 分析当前的数据生态系统(源/分析存储、数据处理和管道、消费应用程序等)。基于此分析,列出您的不可协商事项和优先级。例如,您可能需要一个能够与数据网格原理保持一致或启用数据办公室的工具
- 从开源和商业产品中确定候选工具。使用特征矩阵进行第一次消除,反映现有数据生态系统中的差距、利益相关者的优先事项和对该工具的特征期望
- 基于二次研究、概念验证、研讨会和演示以及与产品供应商的互动,最终确定工具包。使用预定义的问卷来指导对话
步骤3-实施工具
我们建议采取以下步骤:
- 在现有客户端生态系统中安装和配置工具
- 在云上或预处理环境中部署该工具
- 设置DevOps管道
- 创建分叉/同步策略
- 实施可观测性和警报机制
在实现数据目录的同时,将技术元数据、所有权、沿袭和业务术语表结合在一起,通过定义的API/接口推动元数据存储库,并通过发现接口使其可用。
对于数据质量实施:
- 定义DSL,以便于数据生产者创建推送到相应域存储库的质量规则
- 构建管道以提供自动化作业、执行数据质量检查并发布结果
- 收集质量结果/指标,推送到指标商店,并将其提供给生产商/消费者
建立数据域所有权文化。组建一个具有明确角色和职责的数据治理委员会。创建域所有权,其中域团队负责拥有和管理数据。
第4步-赋予利益相关者权力
成功实施后,您的利益相关者——消费者和数据产品所有者——可以执行特定的功能。
Consumer |
Data product owner |
|
|
这样的数据工作台将使领域团队能够为消费者发布透明和值得信赖的数据,并为更有信心地加入新的合作伙伴铺平道路。
数据治理对于任何处理大数据的组织来说都是至关重要的,因为它的影响不仅仅是技术。它是跨领域的,涉及数据收集和存储、明确和衍生的个人身份(PII)数据的数据安全、同意管理、算法设计、产品设计、组织激励等。
这为利用技术和工作模型消除数据驱动解决方案中的风险和偏见提供了一个独特的机会。好的解决方案需要多样化的多学科团队、可以自主使用的工具、可扩展的治理模型等等。数据网格非常适合这个用例。
数据治理的未来:数据网格
新兴技术总监兼Data Mesh创始人Zhamak Dehghani将其定义为一个新概念,通过将分布式领域驱动的架构、自助平台设计和产品思维与数据相融合,拥抱组织中无处不在的数据。以下是使其与众不同的功能:
- 数据作为产品(过程和数据)
- 按域分散的数据责任
- 数据生产者是数据所有者,并由自助服务平台/功能授权)
- 联合治理实现了集中的数据治理、数据质量和数据生命周期
要了解有关数据网格的更多信息,请单击此处。
本博客是第21届国际电子商务会议(ICEB 2021)白皮书的简短版本。
- 62 次浏览
【数据治理】自动化数据治理:它如何帮助您大规模管理访问、安全等?
视频号
微信公众号
知识星球
数据正在爆炸式增长:估计每天会产生2万亿字节的数据。鉴于数据的规模和速度,自动化数据治理越来越有必要,以确保用户能够找到和使用相关的数据。
在这里,我们介绍了自动化数据治理的以下方面:
- 什么是自动化数据治理?
- 为什么我们需要自动化数据治理?
- 自动化数据治理的实例
- 数据治理自动化:下一步行动
从历史上看,组织已经开发了各种机制来满足对治理良好的数据的需求,通常是由治理团队监督的手动流程。这导致了一个品牌问题,即治理被视为阻碍更多战略工作的控制学科。
要有效地实施协作而不是控制数据治理程序——在规模上,自动化是关键。通过应用自动化的数据治理,您可以对重复的治理任务进行编码,以确保它们以可持续和无错误的方式发生。同时,您的数据治理委员会、数据管理员和部门代表可以自由地共同制定和实施总体战略。
自动化数据治理是什么样子的?在这里,我们将探讨自动化数据治理的高级视图,并提供一些用例来帮助您了解它如何使您的组织受益。
什么是自动化数据治理?
自动化数据治理将最重复的治理任务编入法典,用可持续和可复制的流程取代了容易出错的手动方法。除了建立数据沿袭和确保策略合规性外,自动化还可以用于监控对数据资产的访问等任务,从而确保正确的用户能够在保持数据安全的同时利用数据。
根据西班牙和比利时科学家团队的ResearchGate出版物,“大数据系统中存在的大量异构数据要求采用自动化数据治理协议,我们认为该协议应包括但不限于以下元素:
- 数据来源,与如何追踪任何一段数据到源以重现其计算结果以进行谱系分析有关
- 衡量数据质量,提供准确性、完整性、可靠性和及时性等指标
- 数据的生动性,利用活动元数据,记录何时使用数据以及用户从中体验到的结果
- 数据清理,包括一套提高数据质量的技术,如标准化、重复数据消除、错误定位或模式匹配…”
为什么我们需要自动化数据治理?
自动化可以用来完成许多与数据治理相关的任务。采用自动化的一些动机因素包括:
- 不断增加的数据量和速度
- 企业中越来越多的独特数据源
- 全球对网络安全的认识提高,隐私法规也相应加强
- 数据生产者和消费者的多样性
不断增加的数据量和速度
2020-22年,企业数据总量预计将翻一番以上,从大约1 PB增加到超过2 PB(Statista)。数据治理需要一种能够大规模处理此类卷的方法。
特别是,通过手动干预来跟踪、管理、分类和执行政策非常繁琐,并为试图运行分析和获得基于数据的见解的个人带来了瓶颈。所有这一切都变得非常容易,因为自动化已经到位,可以管理和简化细节。
成长中的企业中越来越多的独特数据源
一项针对拥有1000多名员工的北美组织的调查发现,每个组织的平均数据源数量为400个(Matillion和IDG Research)。在不断增长的数据源中查找和编目数据资产需要尽可能实现数据治理自动化,因此用户可以快速高效地定位和访问相关数据。
全球对网络安全的认识提高,隐私法规也相应加强
数据呈指数级增长,尤其是需要隐私措施的敏感数据,以及影响《财富》500强企业和联邦机构的公开数据泄露,意味着各国正在密切关注隐私权。据估计,到2023年,全球65%的人口的个人数据将受到现代隐私法规的保护。
组织需要确保每个查询都符合这些法规,同时不妨碍工作流程——如果没有自动化的帮助,这项工作很难实现。
数据生产者和消费者的多样性
现代数据团队包括所有部门和角色的数据公民,从应付账款部门的Arnold到法律部门的Latasha。他们在处理数据时可能会有问题:
- 谁拥有数据集?
- 最近更新了吗?
- 如果我更正了一条错误的数据,会发生什么?
- 这些数据是否经过了业务领域专家的验证?
例如,财务团队成员可能必须每个季度联系销售人员,以确认他们的数字是否最终确定。该过程可以使用标记到数据资产的质量检查来实现自动化。自动化还可以用于跟踪和共享有关数据的信息,以便用户能够理解与之相关的沿袭和上下文。
自动化数据治理的实例
将自动化数据治理付诸实践需要评估自动化可以提供帮助的特定领域。治理并不存在于真空中:相反,它通过提供自动化数据管理和使用的工具,与现代数据堆栈的其他部分(如Snowflake数据库)协同工作。以下是一些例子。
细粒度柱级访问控制
访问控制是遵守有关隐私的组织、行业和政府法规的关键。通过对用户、组和团队使用细粒度访问控制,您可以自动授予或限制对数据库、模式甚至基于标记的数据资产组的访问权限。这可以用来遵守有关敏感数据的隐私法规,例如,通过标记任何受保护的数据并确保只有授权用户才能访问它。
自动构建的数据沿袭
跟踪数据沿袭的能力很重要,尤其是在金融等监管严格的行业,它可以用来证明合规性,但使用手动流程跟踪沿袭效率低且容易出错。自动构建的数据谱系可以用SQL解析取代手动过程,SQL解析可以自动理解并创建数据谱系的可视化表示。
例如,如果业务用户想要更新数据集,但担心它可能对下游仪表板产生的影响,他们可以使用自动构建的数据谱系来了解数据的使用方式,而无需联系工程团队。
通过沿袭自动传播策略
策略应通过沿袭进行传播,以确保敏感数据不会以不匹配的权限加载到列或表中。重要的是要有一种方法来自动对从敏感列派生的每个表或列进行分类,以便分类标记通过沿袭传递下去。
例如,销售部门的成员可能希望将区域销售数据列用于将在外部显示的仪表板。如果该销售数据包含个人可识别信息(PII),则仪表板将自动分类,以防止该信息泄露给公众。
自动生成的审核日志
审核日志是了解哪些用户正在访问敏感数据、谁访问了特定项目以及更广泛的数据使用模式的一种强大方法。手动跟踪将是一项乏味且容易出错的工作。因此,这是一个理想的自动化设置,可用于检测访问并在后台构建审计日志。
例如,假设营销团队构建了一组客户数据,并希望了解该数据集的有用程度,以便评估是否继续维护该数据集。使用自动生成的审计日志,他们可以查看用户访问该数据集次数,并对哪些部门使用该数据集有更深入的了解。
数据治理自动化:下一步行动
很明显,扩展数据治理策略需要某种形式的自动化。自动化的数据治理使您能够将治理活动嵌入数据用户的日常工作流程中。它还颠覆了围绕数据治理的说法,即它是关于控制的,并确保治理促进了从业者主导的数据计划,从而跟上当今数据治理应如何体现的最佳实践。
阅读本案例研究,了解东南亚最大的中小企业数字金融平台的数据治理之旅,该平台正在利用自动化数据治理推进数据民主化工作。
实施数据治理计划是一项艰巨的任务。这就是为什么一个坚实的计划、有影响力的目标、相关和实时的指标,以及对持续沟通和协作的重视,是需要采用的重要数据治理最佳实践。
准备好让数据治理变得轻而易举了吗?
数据治理自动化:相关阅读
- Data governance and its importance in the modern data stack
- 6 commonly referenced data governance frameworks in 2023
- 8 best practices for a robust data governance program
- The 3 principles of data governance: pillars of a modern data culture
- Data governance policy: Examples, templates & how to write one
- 37 次浏览
【数据治理和管理】数据管理与数据治理:差异解释
视频号
微信公众号
知识星球
最简单地说,数据治理围绕数据建立政策和程序,而数据管理则制定这些政策和程序来汇编和使用这些数据进行决策。为了进一步阐明这一观点,有助于理解这些概念中的每一个,从而更好地理解它们在实践中是如何共同运作的。
什么是数据管理?
数据管理是指创建和实施体系结构、策略和过程,以管理组织的整个数据生命周期需求。制定这些政策和程序对于分析复杂的大数据至关重要。当数据被视为重要的公司资产时,需要对其进行管理。数据管理包括几种不同类型的数据项目,其中之一是数据治理。在关注数据治理和数据管理如何协同工作之前,我们将快速回顾数据管理的其他常见元素。
- 数据准备是清理和转换原始数据以进行准确分析的过程。这一关键的第一步有时会在匆忙的报告和分析中被忽略,组织发现自己用糟糕的数据做出了糟糕的决策。
- 数据管道用于将数据从一个系统自动传输到另一个系统。
- 数据提取、转换、加载(ETL)意味着将数据转换为加载到组织的数据仓库中。ETL一旦建立,通常是自动化的过程,通常需要准备和管道工作。
- 数据目录通过管理元数据以及使数据更容易查找和跟踪,帮助创建数据的完整视图。
- 数据仓库通过整合所有数据源为数据分析提供了一条清晰的路线。
- 数据治理有助于定义维护数据安全和法规遵从性的策略和程序。
- 数据架构将是管理数据流的正式结构。
- 数据安全包括保护您的数据免受未经授权的访问或损坏的过程。
什么是数据治理?
数据治理是数据管理的一个关键组成部分,即管理如何通过组织处理所管理的数据的实践。数据治理有助于回答以下问题:
- 谁拥有数据的所有权?
- 谁可以访问哪些数据?
- 有哪些安全措施来保护数据和隐私?
- 我们有多少数据符合新法规?
- 批准使用哪些数据源?
我们可以将这些模型分为两组,即内容和数据。这里,内容是指数据用于创建的仪表板、分析和故事。在内容和数据中,我们可以通过内容管理、内容授权、数据源管理和数据安全等各个领域进行工作。治理模型和实践不会在每个组织中都相同,但这些模型是流程的关键部分。
- 数据质量是数据源管理的支柱。如果你没有高质量的数据,那么你的治理程序有多强大并不重要。拥有准确、完整和可靠的数据是任何数据驱动组织的基石。
- 数据安全和合规性是根据数据源的风险级别定义和标记数据源,然后创建安全访问点,在用户交互和安全之间保持平衡的做法。
- 数据管理有助于监控团队如何使用数据源,管理员以身作则,确保数据访问、安全和质量。
- 数据透明度很重要,因为流程中的每一个环节和您实施的所有程序都应该在透明的模型中运行。分析师和业务用户应该能够轻松地发现他们的数据来自何处,并知道是否有任何特殊考虑。
- 38 次浏览
【数据治理政策】数据治理政策-示例、模板和如何编写
视频号
微信公众号
知识星球
什么是数据治理策略?
数据治理政策是一系列原则、框架、计划、角色和责任的集合,有助于管理数据资产在其整个生命周期中的数据收集、存储、访问、使用、质量和归档。
此外,数据治理政策还定义了最佳实践,以确保数据资产的隐私和安全,并遵守监管机构的规定。
数据治理策略有助于您的员工了解为什么要制定程序,谁负责这些程序,以及应该如何管理这些程序。以清晰、简洁和合乎逻辑的方式起草本文件,使整个组织的所有员工和团队都能站在同一页上,以便他们理解对他们的期望。
在整个组织中实施数据治理需要跨团队协作,以确保概述的流程是可管理的和可适应性的。确保这些标准和程序易于在公司内采用的一个重要方法是建立数据治理策略。
目录
- 什么是数据治理策略?
- 数据治理策略示例和模板
- 数据治理策略的重要部分
- 如何编写数据治理政策文档?
- 创建和实施有效数据治理策略的基础
- 有关数据治理策略的相关阅读
在本文中,我们将探讨一些良好的数据治理策略示例,回顾数据治理策略的解剖结构,并为您提供一种格式来帮助您开始您的数据治理。
数据治理策略示例和模板
如果您的组织正处于围绕数据建立最佳实践和标准的早期阶段,那么很难知道从哪里开始制定数据治理策略。
例如,以下是一些优秀的公开可用数据治理策略,您可以将其用作自己策略的模型。
- 俄克拉荷马州管理和企业服务办公室-这个例子对政策和程序进行了非常高层次的介绍,但在讨论数据治理所涉及的小组以及每个小组的角色和责任时会非常详细。
- 新罕布什尔州教育部-这项政策也确定了角色和责任,但更深入地探讨了关键个人的具体工作职责。它还概述了该政策的预期结果,这对于决定整个数据治理的成功至关重要。
- 悉尼新南威尔士大学(UNSW)-这所大学将其数据治理分为两项政策。他们有一个标准的数据治理政策和一个研究数据治理和材料处理政策。如果您的组织管理多个类别中的大量数据,并且这些数据具有不同的角色和过程,那么创建多个策略是一种有效的方法。
- 布兰迪斯大学-该大学制定了这项数据治理政策,其关键的第一步是:识别组织中的所有数据源。在文档的后面,他们将每个数据源绑定到一个“数据受托人”。这确保了在整个环境中对每个数据源进行托管,并降低了影子IT的风险。
- 内华达大学拉斯维加斯分校(UNLV)-UNLV数据治理政策包括数据访问、使用和完整性部分。将类似的语言纳入您的政策将建立减少数据滥用的标准和期望,并在整个组织中建立数据信任。
这些只是数据治理策略的几个例子。选择一个最全面地代表你的目标,或者将几个目标的优点拼凑在一起,作为你建立自己目标的指南。
为了更好地理解数据治理政策的样子,让我们更深入地了解数据治理政策到底是什么。
什么是数据治理策略?
数据治理政策是一份文件,概述了整个组织中个人和团队的数据管理期望、责任、程序和目标。
正如维基百科上所解释的,政策“是一种意向声明,并作为一种程序或协议来实施。”这也是你理解数据治理政策的一个很好的起点。
数据治理策略记录了您组织中的数据治理愿景,还进一步列出了可操作的步骤,以及实现该愿景所必需的注意事项。从本质上讲,它还应该包括“确保组织的数据和信息资产得到一致管理和正确使用的指导方针”
数据治理策略的重要部分
“在数据治理方面,几个政策对项目的有效运行至关重要,”EWSolutions,Inc.教育副总裁兼首席方法学家Anne Marie Smith博士写道。作为国际公认的数据治理专家,她认为四个基本数据治理政策对于解决数据治理项目的结构是必要的。
- 数据治理结构政策
- 数据访问策略
- 数据使用策略
- 数据完整性和集成策略
由于数据治理作为一项原则包括跨人员、流程和技术的指令,因此数据治理政策应该同样全面。让我们分别来看这四种策略中的每一种,以进一步充实它们在数据治理中所扮演的角色。
数据治理结构政策
建立数据治理结构意味着确定被确定为数据管理关键参与者的个人和团体的角色和责任。典型的结构包括企业数据管理领导者、数据治理领导者、执行发起人、数据用户和数据管理员等角色。这些人中的每一个人都应该有一套明确的职责,您可以根据组织的具体情况或标准角色定义来确定这些职责。
此外,许多公司组织了一个数据治理委员会和/或企业数据管理委员会来监督该战略并确保其执行。
数据访问策略
数据访问策略正是它听起来的样子:一种允许合法员工和第三方访问数据资产的策略。从安全角度来看,这项政策非常重要——2018年,Forrester报告称,80%的数据泄露与被泄露的特权凭据有关。
数据访问策略将明确列出谁应该访问您的数据生态系统中的哪些资产,将制定哪些安全协议来强制执行,以及如何通过预先确定的流程批准访问请求。
数据使用策略
随着GDPR和HIPAA等法规的实施,以及失误带来的大量后果,个人身份信息(PII)的道德使用比以往任何时候都更加重要。
数据管理员在这方面发挥着重要作用。他们必须确保为需要各级许可并了解相关PII法律的员工提供读取、创建、更新和外部传播数据的权限。
数据完整性和集成策略
数据完整性策略的关键目的是确保您的业务部门能够访问他们可以依赖的数据。数据必须跨源、系统、应用程序和工具进行集成,而不会损害完整性,这不是一件小事。组织应在数据下面创建业务流程,以验证准确性,管理数据集的更改或更新,并跟踪整个管道中数据的演变。
维护每个底层流程和数据元素的文档,包括术语定义、用法和技术元数据,将在团队管理数据资产时对其进行检查,并确保数据的准确性。
需要注意的是,应该始终从协作的角度来处理数据治理。如果政策是在没有组织内个人参与和讨论的情况下编写和传播的,那么你就有失去认同的风险。将关键参与者及其团队召集到谈判桌前,共同制定这些政策。
如何编写数据治理政策文档?
在起草数据治理政策文件时,重要的是要牢记受众和目标。你希望你的政策能达到什么目的?它如何使个人和整个组织都受益?您的团队会对冗长的文档做出更好的回应,还是对切中要害的文档做出回应?
豌豆荚数字实验室数据治理和质量经理Eugenia Moore在2022年数据治理和信息质量会议演讲中说得很漂亮:
“我的建议是保持政策简单、重点突出、简短。如果政策超过两页,没有人会读,你将很难实施。”
Moore还建议在数据治理政策文件中包括五个关键部分。
- 目的/范围-为什么存在该政策,以及它如何支持业务目标?
- 适用性政策对谁有影响?
- 定义和首字母缩略词-为了文件的目的,定义哪些短语和首字母缩写词很重要?
- 负责任的利益相关者-您定义了哪些角色,谁将承担这些角色,他们的责任是什么?
- 相关政策和参考资料哪些其他文件与政策相关?你如何为你的团队连接点?
创建和实施有效数据治理策略的基础
现在,您已经很好地理解了什么是数据治理策略,为什么它很重要,以及它应该包括的结构和部分。是时候真正制定政策了。
为了帮助您入门,请查看2022年数据治理与信息质量会议的视频,以进一步了解治理政策的基本原理。
创建和实施有效的数据治理策略
如果你仍然觉得被卡住了,可以考虑回到最基本的问题上来。查看数据治理及其目的、好处和最佳实践的概述。
准备好让数据治理变得轻而易举了吗?
试试Atlan——在不影响数据民主化的情况下部署同类最佳的目录、元数据管理和数据治理。
有关数据治理策略的相关阅读
- Data Governance in Action: Community-Centered and Personalized
- Data Governance and Its Importance in the Modern Data Stack
- Data Governance Framework — Examples, Templates, Standards, Best practices & How to Create One?
- Snowflake Data Governance — Features, Frameworks & Best practices
- Open Source Data Governance Tools - 7 Best to Consider in 2023
- Data Governance Policy: Examples, Templates & How to Write One
- 7 Best Practices for Data Governance to Follow in 2023
- Benefits of Data Governance: 4 Ways It Helps Build Great Data Teams
- Data Governance Roles and Responsibilities: A Quick Round-Up
- Key Objectives of Data Governance: How Should You Think About Them?
- The 3 Principles of Data Governance: Pillars of a Modern Data Culture
- A Guide to Gartner Data Governance Research — Market Guides, Hype Cycles, and Peer Reviews
- 5 Popular Data Governance Certification & Training in 2023
- 8 Best Data Governance Books Every Data Practitioner Should Read in 2023
- Automated Data Governance: How Does It Help You Manage Access, Security & More at Scale?
- Data Governance and Compliance: Act of Checks & Balances
- Data Governance vs. Data Management: What’s the Difference?
- Enterprise Data Governance — Basics, Strategy, Key Challenges, Benefits & Best Practices.
- 87 次浏览
【数据治理模型】数据治理模型│哪种模型最适合您的组织
内部数据治理:第 2 部分 │数据治理模型
在本系列的第一部分中,我们定义了数据治理并研究了导致大规模清理项目的失误。 在这篇文章中,我们将研究常见的数据治理模型,哪些模型最适合不同类型的组织。
没有单一的数据治理模型适合所有组织。 在当今的业务中通常会使用各种模型,其中一些模型更适合较小或较大的组织,而另一些模型更适合各种结构或业务需求。 让我们看一下四种最常见的数据治理模型:
1. 去中心化执行——单一业务单元
这种数据治理模型的特点是各个业务用户维护自己的主数据。 该模型确保数据由本地用户创建,这些用户通常是该主数据的消费者。
用户、好处和注意事项:
- 最适合小型组织,例如单个工厂或单个公司
- 提供更简单的数据维护
- 需要很大的敏捷性才能设置主数据
- 不与其他业务部门共享主数据
- 缩短主数据的生命周期
虽然这个模型更简单,并且可以更快地设置主数据,但除非管理得当,否则用户也会看到数据中的巨大不一致。以下策略和策略有助于确保该模型有效运行:
- 明确定义数据所有权并将其限制为组织内的少数专家
- 确保清楚地记录每个字段的填充方式以及每个字段的每个值的含义
- 如果预算允许,自动化工具可以控制数据的一致性
- 设置控制和审计以快速修复任何不一致
- 将数据治理组织的角色限制为构建流程和程序以及执行定期数据审计
2. 去中心化执行——多个业务单元
这种数据治理模型的特点是各个业务用户维护自己的主数据。在这种情况下,我们有多个业务部门与共享的客户、材料和供应商合作。
用户、好处和注意事项:
- 最适合涉及多个工厂和/或多个公司的中小型组织
- 提供更简单的数据维护
- 需要很大的敏捷性才能设置主数据
- 允许与其他业务部门共享主数据
- 缩短主数据的生命周期
如前所述,虽然这种数据治理模型更简单,并且可以更快地设置主数据,但它也可能导致数据不一致,在涉及多方时产生深远的影响。确实需要控制此模型,因为非常常见的副作用,如重复的主数据和不一致的数据导致不一致或无意义的报告可能会变得很麻烦。为了使该模型有效地工作,关键是:
- 利用可以确保数据一致性的自动化工具——与谁创建主数据无关
- 限制维护的字段数量,让其余字段根据各种自定义配置文件派生
- 确保清楚地记录每个字段的填充方式以及每个字段的每个值的含义
- 设置控制和审计以快速修复任何不一致
- 确定对部门和业务单位有影响的受控字段,然后对维护这些字段的人员实施严格控制,并明确定义每个字段的含义
- 数据治理组织的角色不应仅限于构建流程和程序以及执行定期数据审计,还应包括拥有自动化工具并使其适应业务需求
3. 集中治理——单个或多个业务单元
第三种数据治理模型的特点是单个或多个业务部门集中维护主数据。在此模型中,一个中央组织负责根据来自主数据消费者的请求设置主数据。
用户、好处和注意事项:
- 最适合拥有多个工厂和/或多家公司的大中型组织
- 带来复杂的数据需求
- 支持更长的主数据生命周期、更长的产品生命周期以及与客户和供应商的长期关系
- 涉及很多法律问题,必须根据政府法规等外部因素保持最新
- 允许与其他业务部门共享主数据
- 需要更大的系统环境,并需要将主数据分发到各种系统
这种数据治理模型可以确保对主数据的高度控制,但它的特点往往是建立主数据的延迟,需要一个正式的和更大的数据治理组织。同样,在此模型中,创建的主数据很可能是一致的,并且由于设置主数据的用户数量有限,因此引入更改和流程改进的速度更快。为了改进模型,组织应该:
- 构建自动化流程,为主数据维护流程提供透明度和可见性
- 为不同的主数据请求建立KPI,确保数据治理组织的规模根据需求进行扩展
- 确认业务和主数据团队之间进行有效沟通,以确保主数据规则适应业务和产品的变化
- 数据治理组织的作用不应仅限于流程和程序,还应包括维护主数据,包括调整流程以满足业务需求
4. 集中数据治理和分散执行
最后一种数据治理模型的特点是由一个集中的治理机构定义控制框架,各个企业创建其各自的主数据部分。
用户、好处和注意事项:
- 最适合拥有多家工厂和/或多家公司的大中型组织
- 带来复杂的数据需求,但需要灵活地创建主数据
- 支持更长的主数据生命周期、更长的产品生命周期以及与客户和供应商的长期关系
- 涉及很多法律问题,必须根据政府法规等外部因素保持最新
- 允许与其他业务部门共享主数据
- 需要更大的系统环境,并需要将主数据分发到各种系统
这种数据治理模型可以确保敏捷性,但同时组织必须确保在需要时实施适当的控制。在此模型中,数据治理组织和业务之间存在共同责任。
为了有效利用这种模式,组织必须:
- 识别影响跨部门和业务单位的受控字段,然后分配所有权以集中维护
- 构建自动化工具以避免源头重复数据删除
- 当发生冲突时,确保一个中央组织在各个部门和业务单位之间进行调解
- 自动化请求流程并利用自动化工具帮助本地企业持续管理数据
- 设置控制和审计以快速修复任何不一致
- 数据治理组织的作用不应仅限于流程和程序,还应包括维护部分主数据,包括进行流程调整以满足业务需求。在这里,主数据团队还对业务起到指导作用,以确保一致性
只要有适当的控制框架,无论是手动还是自动,所有四种数据治理模型都可以工作。所需的自动化水平取决于多种因素,包括:
- 公司规模
- 公司架构
- 公司主数据的复杂性
- 创建和更新的主数据记录数
- 主数据生命周期长度
- 从报告和法律角度看主数据的影响
了解有关数据治理的更多信息
想了解更多关于如何管理您的主数据? 有关 it.mds 的更多信息,请访问 NTT DATA Business Solutions Addstore。 您将深入了解 it.mds 如何使您的主数据面向业务,在整个业务中提供更好的治理,并通过业务驱动的工作流提供更高的合规性。
在本系列的第三部分中,我们将介绍数据治理的七个关键步骤。
原文:https://nttdata-solutions.com/us/local-blog/grc-and-security-local-blog…
- 64 次浏览
【数据洁净室】什么是数据洁净室?它是如何工作的?
视频号
微信公众号
知识星球
第三方cookie是识别不同网站上的个人的主要机制,目的是向他们展示个性化广告、设置频率上限、衡量活动表现和进行归因。
但众所周知,第三方cookie对隐私不太友好,而且一次只能关闭一个网络浏览器。
苹果的Safari和Mozilla的Firefox已经默认屏蔽了第三方cookie,谷歌Chrome将在2023年关闭对它们的支持。
那么,广告商如何在没有第三方cookie的情况下运行个性化广告、测量和归因,同时确保一定程度的用户隐私保护呢?
针对这个问题已经出现了各种解决方案,其中数据洁净室是主要的解决方案之一。
在这篇博客文章中,我们解释了什么是数据洁净室,它们是如何工作的,它们的优缺点,以及为什么一些品牌正在建立自己的数据洁净室。
观看下面对Aqiliz首席执行官Gowthaman Ragothaman的视频采访,或阅读Decentriq的Juan Baron的问答,了解更多关于数据洁净室如何运作的信息。
什么是数据洁净室?
数据清理室是一种软件,它允许品牌和广告商进行有针对性的广告活动,应用频率上限,测量和报告活动的表现,以及进行归因——所有这些都是以一种隐私友好的方式进行的。他们可以通过上传第一方数据并将其与数据清理室中的汇总数据进行比较来实现这一点,其他公司也添加了这些数据。
与其他类型的数据合作不同,公司直接交换用户级数据,如cookie ID、设备ID和从散列电子邮件地址创建的ID,数据清理室将品牌和广告商提供的第一方数据匹配在一起,但防止任何用户级数据在数据清理室之外被访问。所有第一方和用户级别的数据都保存在数据清理室中,不与其他人共享。
数据洁净室是如何工作的?
第一步是公司将其第一方数据添加到数据清理室。下一步,将对数据采取各种安全和隐私保护措施,如假名化、限制访问、差异隐私和噪声注入。第三阶段包括将数据放入队列中。
然后可以激活数据,即用于各种广告和营销过程,如目标定位、测量和受众分析。
广告商和出版商可以分析数据清理室提供的报告,以改进他们目前正在运行或将来将要运行的活动。
要了解数据洁净室是如何工作的,可以想象一个沿着单向传送带移动的金属盒子。使用这个类比,以下是该过程的工作原理:
加载
广告商把他们的第一方数据包放在腰带上。该包可以包含用户级数据以及事务和历史数据。在传送带的另一侧,另一个广告商或出版商将他们的第一方数据包放在传送带上。
打扫
传送带将包裹带到金属盒中,金属盒是数据洁净室。在该框中,来自双方的数据被匹配和清理,即受众被匹配,并应用加密、哈希、假名化、限制访问和噪声注入等隐私技术。
随时可用
从那里,你可以向目标受众的成员展示广告并接收报告,然后你可以分析这些报告并将其用于其他广告相关活动。
因为隐私是数据清理室的重点,所以您将收到基于汇总数据的报告。因此,你会知道有多少人点击了你的广告,但你对他们一无所知,例如,你不会收到ID等用户级别的数据。
数据洁净室的主要使用案例
网络浏览器和移动应用程序中的各种隐私变化,以及新的隐私法,正在为消费者和互联网用户创造一个更美好的世界,但也使公司过去依赖的数字广告活动变得更加困难。数据清理室在保护用户隐私和允许公司接触目标受众、衡量其活动绩效以及将印象和点击归因于转化之间提供了良好的平衡。
数据清理室还可以让公司通过识别彼此共享的客户来建立共同营销合作伙伴关系,并通过分析匿名报告来创建更详细的用户档案。
使用数据洁净室的优点、缺点和风险
与每一项技术一样,数据洁净室既有积极的一面,也有消极的一面。
使用数据清理室的优点:
- 一个隐私友好的解决方案,用于分析受众、定位广告和衡量绩效。即使用户级数据被添加到数据清理室,它也不会暴露给其他公司。
- 一些数据清理室提供了跨各种分销渠道的活动绩效的整体视图。
- 添加到数据清理室的数据不会与其他公司共享,从而使数据所有者能够保持对数据的控制。
使用数据洁净室的缺点:
- 用于报告和广告定位的汇总数据将不如基于ID的数据准确。
- 在将数据上传到数据清理室之前,必须将其统一为一种格式才能使用。
- 不愿共享第一方和交易数据可能会对数据清理室的整体有效性以及它可以为使用它的公司执行的各种功能产生不利影响。
- 许多数据清理室适用于特定的平台(例如,谷歌或脸书)。这意味着广告商被迫手动组合来自不同数据清理室的结果。
- 由于数据清理室是一种相当新的工具,因此目前还没有实现这些工具的通用标准。
使用数据清理室的风险:
- 为了产生洞察力,广告商必须交出他们有价值的第一方数据。在最坏的情况下,数据泄露可能会导致巨额罚款,更不用说声誉和客户损失了。
- 手动管理的数据清理室很容易受到人为错误的影响,例如将访问权限授予不应该拥有它的人、错误地制定查询以及在不安全的环境中交换数据。
- 为了维护隐私,不同的组织必须创建不同级别的安全。添加到数据清理室的数据类型可能因因素而异,例如:
- 行业和垂直领域:与汽车行业相比,医疗保健行业的脆弱数据更多。
- 共享客户数据的欲望:一家公司可能愿意将所有客户数据纳入数据清理室,而另一家公司则可能只添加一半的客户数据。
尽管使用数据洁净室有缺点和风险,但它们为程序化广告行业当前面临的挑战提供了一个非常有前途的解决方案,即以隐私友好的方式运行广告流程,如广告定位和测量。
CDP和数据清理室之间的区别是什么?
广告商和出版商都从不同的来源收集有价值的第一方数据。为了帮助他们收集和管理这些数据,他们可以使用自定义数据平台(CDP)。数据清理室扩展了CDP的功能,并将数据管理提升到了一个新的水平。
但是CDP和数据清理室之间的主要区别是什么?
- CDP允许您收集、共享和处理第一方,但您专注于用户级别的数据和ID。对于数据清理室,重点是使用匿名的第一方数据。
- 与数据洁净室中的高安全级别相比,具有基本安全级别(例如,授予访问权限)的CDP更容易发生数据泄漏,因为使用各种数据安全技术对数据进行匿名化。
- 您无法在CDP中分析其他公司的数据,但通过数据清理室,您可以获得基于聚合数据的匿名报告,您可以从中提取见解。
数据洁净室的隐私替代方案是什么?
几年来,第三方cookie的可用性一直在下降,当世界上最受欢迎的网络浏览器谷歌Chrome宣布将关闭对第三方Cookie的支持时,各种替代方案开始出现,如数据清理室。
数据洁净室基本上有三种主要替代方案:
- 通用ID:尽管第三方cookie正在消亡,但程序化广告对ID的依赖并没有消失。通用ID已经取代了第三方cookie,即使用电子邮件地址创建哈希ID。点击此处了解有关各种ID解决方案的更多信息。
- 谷歌Chrome的隐私沙盒:一系列标准专注于更好地保护用户隐私,同时允许广告商和出版商运行、衡量和报告程序化广告活动。最新的标准,主题API,是一个允许广告商根据用户感兴趣的主题向用户展示广告的标准。
- 情境广告定位:这是1994年在线广告开始时第一种可用的广告定位方法,由于隐私环境的变化,它正在卷土重来。上下文定位允许广告商根据页面或移动应用程序的上下文向用户显示广告。虽然这听起来像是一种非常原始的目标定位方法,但实际上它可以非常有效,甚至可以通过使用发布者的其他数据片段来增强。
未来还可以探索许多其他替代方案,例如旨在通过化身代表人们的加密身份。该技术能够在不共享个人身份信息(PII)的情况下匹配、获取和测试数据。
哪些公司提供数据洁净室?
数据洁净室有三种。第一种由AdTech的围墙花园提供,第二种由独立公司提供,第三种由拥有大量用户和内容的公司所有。
它们之间有什么区别?
- 在第一种情况下,谷歌、亚马逊和脸书都经营着媒体清理室,每家公司都在那里向使用其广告平台的公司提供哈希和聚合数据。
- 在第二种情况下,两个数据所有者,例如出版商和广告商,将他们的数据放入一个中立的房间,并在彼此之间安全共享。
- 在第三种情况下,拥有大量用户数据和内容的公司,如迪士尼、Spotify和TikTok,建立了自己的数据清理室。
现在让我们来看一些提供数据洁净室的公司的例子。
谷歌广告数据中心
谷歌广告数据中心是一个基于谷歌云的隐私安全数据仓库解决方案。它提供了创建不包含个人身份信息(PII)的自定义报告的工具。数据来源来自Google Campaign Manager、Display&Video 360(DV360)、Google Ads和YouTube。
亚马逊营销云(AMC)
亚马逊营销云(AMC)是一个基于亚马逊网络服务的整体数据洁净室解决方案。它通过匹配和分析两种数据来源:广告商的数据集和亚马逊广告活动提供的数据集,帮助公司发现跨媒体投资的真正影响。
InfoSum
InfoSum创建了一个隐私增强环境,最大限度地尊重数据的安全性。InfoSum的数据洁净室背后的机制在一个完全去中心化和云无关的房间中处理数据,消除了与集中式数据湖或仓库相关的所有数据泄露风险。
Snowflake
有了Snowflake,广告公司可以构建一个能够处理共享数据集的环境。Snowflake的洁净室提供实时信息,同时隐藏客户的个人信息。
Aqilliz
Aqiliz为目前脱节的数字营销生态系统提供了一种新时代的中间件技术。Aqiliz植根于分布式账本上的差异隐私和联合学习的支柱,通过提供协作解决方案,确保在洞察、激活和测量方面采用符合隐私的方法,从而提高生产力,从而使品牌、平台和消费者都受益。
迪士尼广告销售
迪士尼广告销售部于2021年推出了洁净室。云无关解决方案由迪士尼精选数据和迪士尼广告的受众图提供支持。关键的云战略合作伙伴是Habu、InfoSum和Snowflake。
为什么品牌要使用(并建立)数据洁净室?
我们观察到了围绕建立数据洁净室的三种不同趋势,零售业是最具适应性的行业之一。
好时旨在收集零售商的忠诚度卡数据
好时是一家寻求发展广告战略并收集有关其广告活动表现的新见解的公司的例子。这家糖果制造商在整个零售商网络中销售其产品,但对其业务的某些关键领域缺乏深入了解,例如其忠诚度计划的有效性。
通过建立自己的数据净化室,好时可以说服零售商与生产商分享他们的第一方数据,检查重复广告的数量,分析忠诚度计划,并为他们的广告活动选择正确的方向。零售商将忠诚卡数据与好时的广告数据一起存储,并在好时的数据清理室中共享数据集。
联合利华解决跨平台测量问题的方法
联合利华正在使用数据清理室来识别哪些平台向同一用户显示了广告内容,但没有产生积极的零售效果。该公司将其广告相关记录和数据集发送给尼尔森和Kantar等测量公司,然后在谷歌、脸书和推特等平台上分析结果。
迪士尼改善广告
迪士尼推出了数据洁净室解决方案,为营销人员提供定制和未来的前瞻性解决方案。通过与数据清洁供应商Habu、InfoSum和Snowflake合作,迪士尼能够为其广告客户提供一种隐私友好的方式,以接触迪士尼的观众并获得有价值的消费者见解。
结论
由于谷歌浏览器中第三方cookie即将结束,企业正在寻找继续其广告流程的方法,如广告定位和测量,同时尊重用户的隐私。
数据洁净室是解决这一问题的解决方案之一。为了使用数据清理室,两个实体(例如广告商和出版商)准备数据包并将其上传到数据清理室。然后,对数据进行加密和匿名处理。双方都以队列和汇总报告的形式获得信息。
数据洁净室主要用于广告定位和个性化、频率上限、测量和归因目的。
当然,还有其他选择,如通用用户ID、谷歌隐私沙盒和上下文定位。
随着第三方cookie的终结越来越近,数据清理室市场正在迅速增长和加速。有三种类型的数据洁净室;由围墙花园(谷歌、Meta和亚马逊)提供的,来自独立供应商的,以及由品牌和内容所有者建造的定制花园。
- 153 次浏览