数据迁移工具的选择_历史数据迁移测验_数据迁移后的校验
数据迁移工具的选择
数据迁移工具的开发、部署主要有2种选择,即自主开发程序或购买成熟的产品。这2种选择都有各自不同的特点,选择时还要根据具体情况进行分析。纵观目前国内一些大型项目,在数据迁移时多是采用相对成熟的ETL产品。可以看到这些项目有一些共同特点,主要包括:迁移时有大量的历史数据、允许的宕机时间很短、面对大量的客户或用户、存在第三方系统接入、一旦失败所产生的影响面将很广。同时也应该看到,自主开发程序也被广泛地采用。
目前,许多数据库厂商都提供数据抽取工具,如Informix的InfoMover、Microsoft SQLServer的DTS和0raele的Oracle Warehouse Builder等。这些工具在一定范围内解决了数据的提取和转换。但这些工具基本都不能自动完成数据的抽取,用户还需利用这些工具编写适当的转换程序。
例如Oracle的Oracle Warehouse Builder(OWB)数据抽取工具提供的功能包括:模型构造和设计,数据提取、移动和装载,元数据管理等。但OWB提供的流程繁琐,维护很困难,不易于使用。
在第三方产品中,Ascential Software公司的DataStage是一套相对比较完善的产品。DataStage可以从多个不同的业务系统、从多个平台的数据源中抽取数据,完成转换和清洗,装载到各种系统里面,其中每步都可以在图形化工具里完成;同样可以灵活地被外部系统调度,提供专门的设计工具来设计转换规则和清洗规则等,实现了增量抽取、任务调度等多种复杂而实用的功能。其中简单的数据转换可以通过在界面上拖拉操作和调用一些DataStage预定义转换函数来实现,复杂转换可以通过编写脚本或结合其他语言的扩展来实现,并且DataStage提供调试环境,可以极大地提高开发和调试抽取、转换程序的效率。
历史数据迁移测验
数据迁移重要利用在新老系统到切换,重要有两种种类,一种是将老系统的数据全副迁移到新系统中,业务上只利用新系统,老系统不再利用,另外一种是,老系统的局部功能在新系统中临时无法告终,然而在业务上必需利用新系统,必需将新系统中发生到数据导入到老系统到数据库中,做特异用处。
将老系统中到数据迁移到新系统中
重要到计策有:
1. 察看老系统中到数据是否全面迁移到新系统中
要保证新老系统到无缝切换,定然要保证数据的准确性,而将老系统中到数据迁移到新系统,率先即将保证所迁移的数据量是统一的,凡是在保证数据量统一的情形下,能力举行其他方面到测验,万一数据量都不统一,解释迁移措施可能脚本即便讹谬到,必需寻找起因。
2. 察看新老系统数据库表构造改变
1) 哪些新表字段在老库中无数据,而新库定然有,这些数据无则默认给什么值
2) 哪些数据字段一局部有数据,一局部无数据;迁移到新库中无数据这局部如何处理
3) 旧数据库中的表联系到新库中的表联系有什么改变
3. 察看新老系统中,雷同字段不同志态的改变
因为新老系统在业务表示上会有定然到差异,用来表示业务事态的标明也会存在有改变,就定然当心新老系统在表示雷同业务事态的差异,等闲,这种情形会做相应的照射,必需依据照射联系,察看迁移后的数据是否准确。
4. 察看新老系统中各个字段转换是否准确
在举行字段察看测验之前,必需准备测验数据,测验数据到准备良好是能够将每个字段到不怜惜况都琢磨到,能够利用矩阵法,用起码的数据遮蔽到最多的事态。准备好数据后,依据迁移法定,能够察看各字段迁移后到数据是否准确,等闲来说,迁移法定有以下几种。
1>直接迁移,本来是什么即便什么,原封不动照搬到来,对这么的法定,万一数据源字段和目标字段长度或精度不符,必需尤其当心看是否真的能够直接照射还是必需做一些容易计算,还要察看,迁移脚本中是否对长度或精度举行打听决,测验时,也必需准备长度精度不统一到数据举行测验,察看是否能够准确迁移。
2>字段计算,数据源的一个或多个字段举行数学计算获得的目标字段,这种法定等闲对数值型字段而言。
3>比照转换,在转换中等闲要用数据源的一个或多个字段作为Key,去一个关系数组中去搜查特定值,而且该当只能获得单一值。等闲来说,这么的重要实用于某些相仿于id的字段
4>字符串处理,从数据源某个字符串字段中经常能够获得特定消息,例如身份证号。而且,经常会有数值型值以字符串形式揭示。对字符串的垄断等闲有种类转换、字符串截取等。然而由于字符种类字段的容易性也构成了脏数据的隐患,因而在测验这种情形的时候,定然要琢磨异常情形。
5>空值推断,对于老系统中空值字段,不能容易的感受迁移后还是空值,必需依据切实的情形,琢磨该字段在新库中该当为哪个字段,还要琢磨,万一老系统中该字段不为空的情形。
6>日期转换,必需琢磨新老系统对日期到不同表示措施。
7>聚集计算,对于事实表中的气度字段,他们等闲是穿越数据源一个或多个字段利用聚集函数得来的,这些聚集函数为SQL规范中,包括sum,西门子助听器count,avg,min,max。
8>既定取值,这种法定和以上各种种类法定的差异就在于它不依靠于数据源字段,对目标字段取一个安宁的或是依靠系统的值。
5. 察看迁移后的数据在业务逻辑上是否准确
利用从老系统中迁移到来的数据,在业务系统中举行流程测验,功能测验确保迁移后到数据可用。
数据迁移后的校验
在数据迁移完成后,需要对迁移后的数据进行校验。数据迁移后的校验是对迁移质量的检查,同时数据校验的结果也是判断新系统能否正式启用的重要依据。
可以通过以下2种方式对迁移后的数据进行校验:新旧系统查询数据对比检查,通过新旧系统各自的查询工具,对相同指标的数据进行查询,并比较最终的查询结果;先将新系统的数据恢复到旧系统迁移前一天的状态,然后将最后一天发生在旧系统上的业务全部补录到新系统,检查有无异常,并和旧系统比较最终产生的结果。
对迁移后的数据进行质量分析,可以通过数据质量检查工具或编写有针对性的检查程序进行。对迁移后数据的校验有别于迁移前历史数据的质量分析,主要是检查指标的不同。迁移后数据校验的指标主要包括5方面:完整性检查,引用的外键是否存在;一致性检查,相同含义的数据在不同位置的值是否一致;总分平衡检查,例如欠税指标的总和与分部门、分户不同数据的合计对比;记录条数检查,检查新旧数据库对应的记录条数是否一致;特殊样本数据的检查,检查同一样本在新旧数据库中是否一致。


雷达卡





京公网安备 11010802022788号







