楼主: 秒秒说数据
391 0

[新手尝试] 企业数据集成是什么呢? [推广有奖]

  • 0关注
  • 0粉丝

高中生

97%

还不是VIP/贵宾

-

威望
0
论坛币
10 个
通用积分
0.0040
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
450 点
帖子
20
精华
0
在线时间
4 小时
注册时间
2022-7-6
最后登录
2022-9-20

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

企业数据集成是将不同来源的数据整合在一个数据库中的过程,即异构数据之间的同步。将不同种类,不同版本的数据库、文件、Mail等之间进行同步。由于不同的数据源定义属性时命名规则不同,存入的数据格式、取值方式、单位都会有不同。因此即便两个值代表的业务意义相同,也不代表存在数据库中的值就是相同的。因此需要数据入库前进行集成,去冗余,保证数据质量。数据集成可以认为是ETL(BI上的定义为:抽取——转换——清洗——过滤——加载);但更强调自动化过程管理。

在实现机制上,应包括常见的集成模式:Split/Merge/Route/PS等;另外还应该具备建模(元数据管理)和治理(Governace)功能。

数据集成有什么意义呢?

数据集成意义主要是实现数据中心,例如企业级SID;或者遗留系统在数据层面的集成。在建立全局SID的基础上,可以构建很多有意义的东西:例 如Portal/CMS,报表,数据搜索,挖掘等等,这些可以概括地称为BI,即商业智能。

因此,数据集成有两个层面的意义

1)操作层面

2)分析层面


数据集成的实现步骤:

1.界定数据交互的项别与内容,如:PDM系统和ERP系统之间的BOM数据;

2.指定数据交互周期,一天一次,还是一周一次;

3.选择交互方式,通过数据库,还是中间件技术来交互;

4.由ODS数据交互调度程序实现数据上载或是由外围系统自行实现数据下载,从而实现数据的集成。

数据集成会出现的问题:

1.数据重复

检查数据重复一般需要通过主要关键词,最好对主要关键词进行优化,过滤重复数据。在数据结构尽量调研每个字段的含义,拆分或整合。重复数据入库,不仅会给日后的数据关联造成极大的影响,也会影响数据分析与挖掘的效果,应尽量避免。

2.数据冲突

数据冲突就是两个数据源中同样的数据,但是取值记录的不一样。造成这种情况除了有人工误入,还有可能是因为货币计量的方法不同,汇率不同,税收水平不同、评分体系不同等等原因。

对待数据冲突问题,就需要对实际的业务知识有一定的理解。同时,对数据进行调研,尽量明确造成冲突的原因。如果数据的冲突实在无法避免,就要考虑冲突数据是否都要保留、是否要进行取舍,如何取舍等。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:企业数据 数据集 数据分析与挖掘 PORTAL porta

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-28 11:42