阅读 110

数据管理指南之引用数据和主数据

为了便于理解权威的数据管理体系,计划对DMBOK2进行拆解学习,按照原有章节进行梳理;

本文仅仅为学习交流使用,全部摘录于DMBOK2(原版第二版),如有版权问题将即时撤稿!

备注:下文的引用数据被我改为了字典数据,以便于理解,因为我们的系统里的引用数据统一叫字典;

主数据管理上下文

组织内部,需要跨业务领域、跨流程和跨系统使用的数据,也就是需要一致化的共享数据,称之为“主数据”;

在数据体系里字典和主数据都具备这类特征,所以MDM核心是管理字典和主数据;

对于字典来说,MDM系统管理期定义和值域,以确保组织能够访问一套准确且最新的值;

对于主数据来说,MDM系统管理主数据的值和标识符,以确保当前值的准确性和可用性;

字典管理:数据源标识、标准管理、映射管理、人工修正、可信数据下发;

主数据管理:数据源标识、主数据管理、映射管理、人工修正、可信数据下发;

主数据管理是一个全生命周期的管理过程,关键活动包括:

1. 建立主数据实体的上下文,包括相关属性的定义及其使用条件,并加以治理;

2. 识别出在单个数据源内以及多个数据源中代表同一实体的多个实例;构建并维护标识符和交叉引用,以支持信息整合;

3. 协调和整合不同来源的数据,以提供提供主记录或事实的最佳版本。合并记录提供了跨系统的信息合并视图,并视图解决属性命名和数据值不一致的问题;

4. 识别出那些未被正确匹配或合并的实例,确保他们得到修正,并关联到正确的标识符;

5. 通过直接存取、使用数据服务,或通过复制反馈到交易系统、数据仓库或其他分析型数据存储系统,实现可信数据的跨程序访问;

6. 在组织内强制使用主数据。该过程还需要数据治理和变更管理的支持,以确保共享的企业视角。

主数据管理的关键处理步骤:

1. 数据模型管理:定义一致性的逻辑数据和其属性;

2. 数据采集:

(1)接收并应对新的数据源的采集需求;

(2)使用数据清理和数据分析工具进行快速、即时、匹配和高级的数据质量评估;

(3)评估数据并将数据整合的复杂性传递给请求者,以帮助他们进行成本效益分析;

(4)试点数据采集及其对匹配规则的影响;

(5)为新数据源确定数据质量指标;

(6)确定由谁负责监控和维护新数据源数据的质量;

(7)完成与整体数据管理环境的集成;

3. 数据验证、标准化和数据丰富:目的是实现输入数据的一致性,减少关联记录的风险和错误:

(1)验证,识别那些被证明是错误的或可能是不正确或默认的数据;

(2)标准化,确保数据内容符合取值范围、标准的格式(如电话号码)或字段(如地址);

(3)数据丰富,添加可以改进实体解析服务的属性;

例如如下 标化了地址、电话:

输入源数据
标化后的数据

4. 实体解析和标识符管理:包括实例提取、实例准备、实例解析、身份管理、关系分析;

(1)通过匹配识别不同记录如何与单个实体相关联,有可能造成假阳性和假阴性;可以通过确定性匹配和概率性匹配进行算法判断;

(2)身份解析,通过多字段进行数据匹配;

(3)匹配类型包括特定数据的重复去辅助人工判断、链接、合并,规则会随着新数据的引入而变化,可信度也是,所以需要定期重新评估匹配合并规则和匹配链接规则,最好提供数据值的统计相关性,以帮助建立置信级别;

(4)主数据ID管理:全局标识符和交叉引用信息。

(5)主数据之间的关系管理,父子关系、从属关系等;

尽管算法可以实现大部分主数据的自动化,但是仍需要一些管理工作来解决数据错误匹配的情况,并不断改进匹配算法从而减少人工工作;

5. 数据共享和管理工作;

从全局来看,主数据管理步骤:

(1)识别驱动因素和需求;

(2)评估和评价数据源;

(3)定义架构方法;

(4)主数据建模;

(5)定义管理职责和维护过程;

(6)建立治理制度,推动主数据使用;

主数据治理核心过程关注点:

(1)要整合的数据源;

(2)要落实的数据质量规则;

(3)遵守使用规则的条件;

(4)要监控的行动和监控频率;

(5)优先级和数据工作响应等级;

(6)如何展示信息以满足利益相关方的需求;

(7)字典和主数据管理部署的标准授权和预期;

主数据管理度量指标:

 (1)数据质量和遵从性,通过数据质量仪表盘描述数据质量,说明主题域实体或相关属性的置信度(百分比),以及他在整个组织中符合实际需求的使用价值;

(2)数据变更活动,审核可信数据的血缘,展示数据值的变化率,帮助大家理解,并用于调整算法;

(3)数据获取和消费,通过指标展示数据的上游供应系统、下游的消费系统和流程;

(4)服务水平协议SLA;

(5)数据管理专员覆盖率,识别对数据内容负责的个人或团队,展示评估频率;

(6)维护的总成本;

(7)数据共享量和使用情况,指标展示数据共享环境中流入和流出数据的定义、纳入和订阅的数量和速率;

作者:弹指数据之禅

原文链接:https://www.jianshu.com/p/57ad52f20b07

文章分类
后端
版权声明:本站是系统测试站点,无实际运营。本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 XXXXXXo@163.com 举报,一经查实,本站将立刻删除。
相关推荐