数据治理-数据分析方法论

2021-12-14 08:59:52
李娇
文章摘要: 竞品对比分析主要是抽样统一社会信用代码长度不同的数据,获取竞品数据和公司数据,以工商登记作为参照机构并作为评价标准,得出竞品与参照机构一致性数据占比和公司与参照机构一致性数据占比。

什么是数据治理?

数据治理(Data Governance)是组织中涉及数据使用的一整套管理行为。由企业数据治理部门发起并推行,关于如何制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流程。数据治理的最终目标是提升数据的价值,数据治理非常必要,是企业实现数字战略的基础,它是一个管理体系,包括组织、制度、流程、工具。

数据治理目前市面上有很多大厂都有相关的数据治理平台,比如网易猛犸、火山引擎、阿里datawork等。

我本次做的工作内容还没有涉及到数据治理产品平台化,主要是基于现有数据做质量都分析。所以本次主要分享数据治理的数据分析方法论。图片

数据质量分析的方法

数据质量分析按分析力度不同,分为字段质量分析、表(功能模块)质量分析、系统数据库质量管理分析。我本次针对工商注册企业的统一社会信用代码做质量分析。工作流程为:

一、了解字段含义

统一社会信用代码是一组长度为18位的用于法人和其他组织身份识别的代码。国家标准委发布了强制性国家标准《法人和其他组织统一社会信用代码编码规则》。该标准于2015年10月1日实施。我国以统一社会信用代码和相关基本信息作为法人和其他组织的“数字身份证”,成为管理和经营过程中法人和其他组织身份识别的手段是主体的认证标准。

二、内部处理机制

和相关的负责人了解数据从爬取、etl处理、上线整个处理流程,并形成处理流程图进行确认。了解此流程目的主要是分析后期问题产生原因。

三、数据分析方法

1、总量分析

2、质量分析

重复性分析

第一步获取重复数量总和和占比;

筛选存在重复统一信用代码的样例,对样例进行分析从中找到可能存在共性的问题。

按照重复数量多少,生成柱状图查看分布情况。

--统一社会信用代码重复数量

select sum(t.num)as num2

from(

select字段A,count(字段A)as num

from表名

where ds=20211109 and字段A!=""and(字段A=""or字段A is null)

group by字段A

having num>1

order by num desc

)as t

;

完整性分析

统计字段值为空的数据总和和占比;

抽样查看空值数据的样例,查看官方是否存在,并评估是否可以优化和完善。

--统一社会信用代码为空按照不同维度分布统计:base数据源、机构类型

select base

,count(base)as num

from表名

where ds=20211014

and字段名is null

group by base

order by num desc;

有效性分析

有效性分析主要针对数据的长度进行分析,社会统一信用代码标准长度为18位,查看18位占比,以及其他长度占比,并分析原因。

select length(字段A)as长度

,count(length(字段A))as数量

from表名

where ds=20211109

and字段A is not null

group by length(字段A)

order by count(length(字段A))desc

;

正确性分析

正确性分析是抽样统一社会信用代码长度不同的数据,与工商对比查看是否一致,如一致则正确,否则为不正确。根据抽样的结果获取正确性的占比。

竞品对比分析

竞品对比分析主要是抽样统一社会信用代码长度不同的数据,获取竞品数据和公司数据,以工商登记作为参照机构并作为评价标准,得出竞品与参照机构一致性数据占比和公司与参照机构一致性数据占比。

信息化软件服务网 - 助力数字中国建设 | 责编:夏丽
文明上网,理性发言!请遵守新闻评论服务协议
评论