火狐体育官方版

加强技术投入,共享技术成果

火狐体育官方版:企业数据治理方法论4000字精华教你落地数据治理


更新日期:2022-10-09 06:10:52 来源:火狐体育官网app下载ios 作者:火狐体育娱乐app下载

  作者简介:许可,光点科技CEO,数据治理专家。专注数据治理20年,数据治理实战派。分享数据治理解决方案与数据治理实践经验

  不吹不擂,这些年我服务过的公司早就超过了100家,涉及的行业包括智慧城市、园区、政府、集团企业、金融、制造、能源、电信、工程、教育、检验检测等。

  我发现一个突出的现象,90%的公司存在的数据问题都惊人的相似,不外乎数据不可取、数据不可用、数据管理无规划、数据智能程度低。

  作为了一个从项目助理一路干到项目总监,到现在开公司当CEO的人,在数据行业也算摸爬滚打了接近20年。

  既能够感受到各行业数据方面的痛点,又能站在数据治理服务商的专业角度提出解决方案。所以今天特别写一篇深度文章,给各位有数据治理需求的CEO、领导们提供一个指南,掌握了这套方法论,数据治理就好干了。

  根据多年的实践经验,我把整个数据治理过程,当做一个项目来做,如图所示主要分为四个阶段。

  后期我们需要告诉各个系统的供应商,这些数据怎么集成怎么共享,数据怎么传输,这是一个标准化的东西。

  一般来说数据中台都是有个数据仓库,这个阶段要做的事情,就是设计好数据仓库的架构,分层分类的存储和管理数据。

  这里就不用多说了,每个领域,每个行业都有自己的数据特点,需要根据实际情况确定最适合的方式。大多数情况下,都依赖于服务商成熟的实施经验。应用到的技术其实都不难,熟手跟生手比起来,可以节省很多是错的成本,效率也会更高。

  这个阶段要做的事情就很简单,不断的集成系统,采集数据,然后对数据进行开发治理。

  成果无非就是两个,第一个就是数据共享,第二个就是数据可视化,给领导提供决策支持。

  理论上,走完这四个阶段,数据中台实施项目过程就算结束了。但实际情况却不是这样的,因为公司的业务系统和数据在持续不断地增加,数据治理也处在一直运行的状态,这是一个长期运营的过程。

  每接入一个新系统,每增加一类新数据,可能都要把上面的数据治理过程走一遍,这是数据治理的常态。

  常见的主数据包括组织、人员、设备分类、物资分类、供应商名单、客户名单等等。

  可能每个企业对主数据的定义不一样,但大部分都是这些,这也是企业最关键的数据。

  数据标准的核心,就是数据源。那什么是数据源呢?我打个比方,数据源就是一张数据表中的一个具体的字段。

  比如说,我们公司有很多设备,很多台电脑。这些电脑就会有对应的数据,电脑的品牌、电脑的型号、电脑的编号、电脑的使用者等等,这些都可以称作是数据源,记录这些数据的方式,就是在数据库表里面写入一个个字段。

  我们为了更好地记录这些电脑设备的数据,就需要制订一套数据标准,定义好每个字段的基本属性和描述。

  接下来要做的事情就是,要把这些数据标准绕入到数据治理服务平台这个工具里面。为什么要这么做呢?它有两个作用。

  第一个是指导我们建立主数据库,既建立主数据库模型。 第二个,我们可以通过这一套数据标准,来稽核采集到的数据的质量。

  比如说,关于人员的姓名、身份证号码、性别、学历、毕业院校等基础数据,都是可以通过制定好数据标准来校验,数据是否填写正确。

  什么时候都应该因地制宜,做数据治理也是一样的。需要根据企业现状,制定整体数据架构规划,明确数据中台建设思路。

  经验分享:数据架构的规划应全面,但建设范围应逐步推进,聚焦于核心业务,不宜贪大求全。

  最底层,业内一般叫做ODS层。它存放的是我们原封不动,从数据源系统搬过来的这个主数据,也就是业务数据。什么都不做,就把数据放在那里。

  现在还有种说法,叫做数据湖。 把所有的数据全搬过来,堆在一起。按照数据来源去分类。

  再往上一层,叫做中间层。一般会根据需要,将最底层的原始数据整理成标准数据,再形成一个个分析专题库。

  像人资基础库、财务基础库、设备基础库,都属于标准数据。假设领导想要通过数据大屏,看一下分公司上一个季度的人员成本支出以及设备使用情况,这就需要搭建一个分析专题库。

  常见的场景就是跨部门合作,需要共享数据,这些数据一般就取自最底层,也就是基础数据层。

  举一个例子,规模稍大的公司,每个业务部门都有各自熟悉的供应商。这些供应商的数据一般都存在部门的数据库里面,如果需要拿另外一个部门的供应商数据,就需要找对应的业务部门。

  这时候如果有个统一的基础数据库,需要找供应商就不用每次都问其他部门要了,种类全信息也准确,这样效率也会提高不少。还可以避免出现供应商重复出现在数据库里。

  企业里都会存在多种多样的数据,有结构化的、半结构化的、非结构化的数据。还有很多数据很难采集到,不能通过数据库拿到的,可以通过API接口,或者爬虫机器人来采集。

  一般来说,数据集成是最苦最累的。不过光点科技有自研的一套数据治理工具,可以通过可视化配置的方式,不用写代码就可以采集到各种类型的数据,极大地提升了数据集成的效率。

  接下来,就需要通过数据治理开发,让企业的数据更一致、更准确、更可信、更易用。

  我们一般会将质量规则分为唯一性、完整性、准确性、规范性、一致性、及时性六个维度。

  这6个质量规则已经内置到我们的工具了,大家也可根据实际需要自己来定义拓展更多的质量规则来提升数据质量。

  定义好这些数据规则之后,只需要将规则与数据库中的字段进行关联,就可以来校验这些数据的质量了。

  如果使用我们光点的工具,可以自动来校验数据质量,还可以定时输出数据质量分析报告、通过数据看板来查找数据质量问题。

  业内常见的数据开发方法,都是通过ETL工具来处理数据。我们以前都是通过自研的数据治理服务平台帮助客户进行数据开发。

  我们把常用的数据转换能力,如去重、过滤、合并、计算、字段选择、算法等能力封装为一个个组件,通过图形化拖拽方式设计数据开发流程,做数据融合加工就非常省时省力。

  通过可视化的方式,编排调度任务,支持流程化、跨类型、分布式的任务调度和实时监控,处理复杂的多任务协同数据开发治理时一点都不慌。

  让数据高效流转利用,促使多业务系统数据充分融合,为企业带来新的价值增长点

  信息化的部门,就找数据提供方,因为数据不是信息化部门的,他需要找数据提供方去申请。

  提供方就说我要找领导审批一下。过一会儿,也或者过个两三天,审批完之后 OK 了,信息化人员就去找数据。

  协商完了,数据使用方提供数据共享的环境,信息化人员来配置一个共享的服务,然后一起联调测试过了就 OK 了。

  发布上来之后,使用数据的人只需要到共享平台上去看,去找有没有想要的数据。

  有的话提交一个使用申请,经过数据提供方审批后,系统自动把这些数据封装成一个服务,这过程不需要人去干预。

  只需要联系数据共享平台管理员,让管理员去找数据提供方把这个数据发布到共享平台上面来,

  数据中台建了半天,领导什么都看不到,肯定以为中台白建了,白花钱了,这肯定不行。

  具体可视化通过什么形式呈现就得结合实际情况了。可以做成采用二维模型构建的数据大屏,做个驾驶舱,也可以做成数字孪生那样的三维模型。这样数据才更直观,还能有一些数据交互,一看就很高大上。

  所以,我把数据治理方法论分享给大家,特别是意识到公司存在数据问题的各位CEO们。不求大家都可以让自家技术按照这个方法论去搞数据治理,至少希望能够帮各位在寻找服务商的时候可以少踩一些坑,少被忽悠点钱,那样也够了。

  光点科技是一家在政企数据治理、数据中台建设、数据展示分析方面有着丰富经验的公司,已经服务过超100家政府单位和企业,涵盖智慧城市、园区、政府、集团企业、金融、制造、能源、电信、工程、教育、检验检测等多个行业 。在帮助客户进行数字化转型方面也有一定的心得。