|
作业调度
正常情况下的作业调度,对整个ETL过程进行调度,提供分段提交处理和自动提交处理功能。
可调度的Job类型
1) C程序(清洗),ETL调度提供与C程序的接口,从而可以对C程序进行调度。
2) 用C封装的SQLLDR(加载),将ORACLE SQLLDR封装在C程序中进行调度。
3) PROC程序(合并、转换),对合并和转换过程,调度提供相应的接口,从而对ORACLE的PROC程序进行调度。
4) 存储过程(转换),将存储过程封装在PROC程序中进行调度。
5) DataStage(PI加工),调度系统提供了与DataStage的接口,可以对DataStage各个种类的Job进行调度。
二 ETL总体流程
? 作业步(ETL_Step)的功能类型及数据处理
0. 文件FTP: 将各个分行的源业务系统(NLNS、SBS、NACS)的以预定的文件格式以FTP方式通过中行网络传输到QUICK WIN项目系统的ETL服务器。
1. 文件注册:0中FTP的源数据文件,经过解压缩后,必须在QUICK WIN项目系统中注册,只有经过文件注册过程后QUICK WIN项目系统才能确认“那些分行的源数据” 已经正确到达,ETL系统就可以相应的处理流程。
2. 数据清洗:从各分行FTP来的源数据文件,可能存在非法数据或冗余数据或者数据规则标准不统一,而且文件格式上也不能被QUICK WIN项目的ETL过程立即使用,因此必须对数据文件进行数据清洗(删除非法、冗余数据、统一数据规则标准、转换成QUICK WIN项目的ETL过程能“加载”处理的文件格式)。
3. 数据加载:将清洗后的数据(文件格式)通过SQL LOADER加载到ORACLE数据库相应的数据库表中。
4. ODS数据合并:将各个分行的相同类型的源业务系统数据合并到ORACLE数据库中同一张数据表中。
5. LDM数据加工:面向业务生产数据(ODS数据库表中的数据)根据“QUICK WIN分析模型”将数据转换、加工成面向分析主题的“分析型数据”。
6. PI加工:根据业务需求、业务规则和分析模型,从LDM数据表中加工出QUICK WIN所需的PI。
7. 报表加工:根据业务需求、业务规则和分析模型,从LDM数据表和PI表中中加工出QUICK WIN所需的报表。
8. ETL调度程序:调度ETL加工各个过程的运行。
9. 监控程序:监控ETL过程的运行状态(加工进度、加工效率、成功、警告、错误等)信息,及时向系统的运行维护人员报告系统运行状态。
? 作业步(ETL_Step)的流程和依存关系。
1) 清洗类型的Job的运行依赖于相应下传文件的状态,必须是在下传文件检查及登记后才能进行清洗Job的调度。
2) ODS层加载类型Job的运行依赖于相应的清洁文件是否由清洗程序生成,即相应的清洗Job是否正确运行完成。
3) 从ODS到LDM的数据转换依赖ODS层的相关数据是否齐备,即相应的加载Job是否正确运行完成。
4) PI加工的进行依赖LDM层数据,即相应的转换Job是否正确运行完成。
|