摘要:越来越多的商业银行正在加快搭建大数据分析平台,为了充分体现大数据平台收集的数据价值,统计分析在商业银行大数据内部审计中扮演着重要角色。本文在梳理大数据统计分析概念基础上,以A商业银行小微企业信贷为例,结合内部审计项目目标,基于大数据平台搜集数据,构建研究指标体系,运用描述性统计、关联分析、Malmqiust-DEA效率评价和LARS-Lasso算法回归等统计分析方法,充分体现大数据统计分析在商业银行内部审计中的应用效果,并提出提升大数据分析平台质量、加强大数据统计分析应用和加快复合型人才培养等建议。
正文:当前,大数据技术的快速发展带动了各行业、各机构的快速发展,基于大数据的分析方法也随之在各领域中得到应用。同样,大数据技术对内部审计的环境、流程、方法和质量产生了重要影响和变化,传统的审计技术方法正逐渐被大数据等新信息技术的应用所替代。商业银行是金融领域改革的前沿,大数据等新信息技术浪潮也正在加速促进商业银行的发展,商业银行快速发展成果体现的是大量的数据,大数据不仅是数据量“大”,也需要得到合理、充分的应用。基于大数据的统计分析如何在商业银行内部审计中得到恰当的应用,如何利用统计分析方法才能充分挖掘大数据的价值、得出隐藏在数据背后的重要结论,是当前商业银行内部审计着重应考虑的研究内容。
一、大数据统计分析概述(一)搭建大数据分析平台
大数据等新信息技术带来各行各业的改革发展,为充分利用大数据技术,为内部审计创造良好的环境,前提是搭建大数据分析平台。以商业银行为例,大数据分析平台应综合外部监管、业务发展、效益、考核等方方面面的数据,并且应根据实际情况不断完整、丰富、更新数据内容。大数据的采集是进行统计分析的重要前提,也是最初的环节,数据的完整性是保障内部审计项目顺利开展的前提条件,构建大数据分析平台,为内部审计人员提供能够利用大数据信息进行分析的有利条件,避免非现场审计时需要搜集大量的数据而导致工作效率下降。
(二)利用大数据进行统计分析
利用大数据分析平台采集到的海量数据,结合内部审计项目工作目标和任务,构建非现场数据分析指标体系,运用已嵌入到大数据分析平台中的统计分析模型进行分析。如大数据分析平台中现有的统计分析模型难以满足非现场审计需求,则应导出分析指标数据并进行备份,利用STATA、R、SPSS、MATLAB等统计软件进行分析。首先,需要做好数据的预处理,使导出的数据信息转化为结构化的数据;其次,根据构建的指标体系,建立统计分析模型,利用统计分析软件,对预处理的数据进行分析;最后,根据统计分析软件运行的结果,围绕审计目标,形成有价值的分析结果。
(三)充分利用大数据统计分析形成的结果
为充分体现大数据统计分析在内部审计项目中的良好运用,体现其分析结果的价值,提升审计效能,应充分利用大数据统计分析得到审计目标的发展趋势、分布状况、综合评价、成因和异常数据信息等等,以大数据分析结果指导现场审计工作,从而整体提升内部审计工作成效。
促进小微企业的发展是商业银行履行金融社会责任的重要一部分,为进一步促进我国小微企业的快速发展,缓解小微企业当前存在的“融资难”问题,我国商业银行积极创新小微企业信贷产品,一方面满足小微企业的融资需求,另一方面能够提高商业银行的贷款利息收入,提升自身小微企业信贷效率。本文以A商业银行基于信贷担保模式的小微企业信贷创新效果评价审计调查项目为例,审计A商业银行是否有效履行了社会责任,是否有效提升了A商业银行的信贷收入。本文依托A商业银行的大数据分析平台,运用描述性统计、关联分析、效率评价、回归分析等统计分析方法,探析大数据统计分析方法在商业银行内部审计中的应用。
二、统计分析方法及其应用(一)构建研究指标体系
按担保方式,商业银行贷款通常分为抵押、质押、保证金、保证贷款和信用贷款。根据内部审计项目工作目标,综合、客观评价A银行基于担保模式的小微企业信贷创新效果,分析影响其信贷利息收入的因素。本文构建了基于担保模式的小微企业信贷投入产出指标体系,根据投入产出效率评价统计分析模型,将反映银行的盈利能力高低的信贷利息收入作为评价信贷效率的产出变量。选用的投入指标主要有:从业人数反映商业银行对小微企业信贷规模的人力投入,开办机构数反映商业银行的营业设施和业务开办机构数量上的投入,信贷的放款量、收回量与核销额均会影响到商业银行的贷款利息收入,将贷款利息收入作为产出指标。投入产出评价指标体系如表1所示。
表1 基于担保模式的投入产出指标一览表
(二)描述性统计法
在大数据统计分析中,描述性统计是最为常用的一种方法,以平均值、最小值、最大值、标准差等数据分析结果,反应出大数据的分布状况和集中趋势。内部审计人员能够根据描述性统计分析的结果,对审计目标的特征有个初步了解,以便于后续大数据统计分析和审计分析。本文以A商业银行为例,在A商业银行大数据分析平台中,梳理出2007年至2018年时期内的327942条小微企业客户明细数据。其中,缺失关键指标数据为5794条,有效数据为322148条,并对缺失关键指标数据的进行删除,运用R软件,表2给出了审计对象的描述性统计结果。为满足后续大数据统计分析模型的研究需要,以及对该商业银行经营数据进行保密要求,文中对该26个指标数据进行统计初步整理及标准化预处理。其中,因变量为信贷利息收入(Y),自变量为不良贷款核销(U)、业务发展(L)、业务收回(R)、开办机构数(K)、从业人数(J)5个影响因素,担保模式为抵押(dy)、质押(zy)、保证(bz)、保证金(bzj)、信用(xy)5种。表2 贷款利息收入及其影响指标体系一览表
(三)关联性分析法
在商业银行内部审计中,对大数据进行关联性统计分析是较为基本的一种分析方法,对大量指标数据进行关联性分析,能够探索各指标数据间的相互关系。本文从指标间的共线性角度来体现其关联度,能够更好发现评价指标体系中可能存在的异常指标值,借此对具体审计项目的价值进行优化,也借此避免因关联度高导致探索影响因素的回归分析失真。本文运用R软件,对抵押担保方式核销额等25个自变量间的共线性进行描述,发现各自变量间均存在高度共线性,最高的是信用担保模式的开办机构数(K.xy),共线程度高达111893.7,最低的是质押担保模式的收回量(R.zy),共线程度为20.6,具体情况如表3所示。
表3 自变量共线程度表
(四)效率评价法
效率评价是对审计目标主体的客观、综合性评价,根据构建的评价指标体系,全面综合性地评价审计目标主体的效用,并用具体的效率值来体现其效用值,效率评价法是大数据统计分析中常用的分析方法,评价效率常用的方法为参数和非参数两种。本文选择能够对面板数据进行分析研究的Malmquist-DEA模型,整体评价各担保模式的信贷效率变迁。当效率水平表示生产率呈增长趋势;反之,则呈下降趋势。
本文运用MAXDEA软件和Malmqiust-DEA效率评价方法,将A商业银行贷款利息收入作为产出,将经办客户经理数量、开办机构数、不良贷款核销额、贷款放款量、贷款收回量作为投入,测算了该银行的小微企业信贷整体效率及其各担保模式的信贷效率变动指数,结果如表4所示。表4 A商业银行小微企业信贷及其担保模式的Malmqiust效率变动指数
由表4可知,2007年至2018年,A商业银行的小微企业信贷整体的Malmquist变动指数均值为1.71,说明样本期内A商业银行小微企业信贷整体效率较高,处于长期增长趋势。其中,除2018年A商业银行小微企业信贷整体效率的Malmquist变动指数值小于1外,2007年至2017年Malmquist变动指数值均大于1,并于2014年至2015年期间达到最高值,为10.74。
从担保模式来看,发现各担保模式的小微企业信贷效率Malmquist指数变化呈现如下特征:一是抵押、质押、保证、保证金和信用担保模式的Malmquist变动指数平均值均大于1,分别为1.14、1.53、1.34、1.49、1.96,均处于增长趋势;二是只有信用担保模式的Malmquist变动指数平均值高于信贷整体效率,为1.96,高出整体效率平均值的0.25;三是各担保模式的Malmquist变动指数值于2014年至2015年期间达到最高值,于2017年——至今,变动指数值开始下降,处于增长速度减缓趋势;四是传统意义上的“抵押+保证”担保模式的Malmquist变动指数平均值均小于质押、保证金和信用担保模式的指数变动值,各担保模式的Malmquist变动指数平均值大小依次是信用(1.96)、质押(1.53)、保证金(1.49)、保证(1.34)和抵押(1.14)。
(五)回归分析法
经过大数据描述性统计分析、关联分析、效率评价模型分析得出审计目标的客观情况后,通过回归分析法能够较好地探析影响审计目标的主要因素,有针对性的提出审计建议,才能更好地提升内部审计效果,促进商业银行稳健发展。为提高回归分析模型的精确性,避免多重共线性问题带来的模型失真风险,本文运用Tibshirani(1996)提出的一种有偏估计算法Lasso(Least absolute shrinkage and selection operator)对变量进行分析,能够有效解决多重共线性问题。同时为提高模型分析高维数据的效率,本文运用Efron(2004)提出的Least Angel Regression(LAR)高效变量选择方法,能够有效解决Lasso计算效率不高的问题。
为了更详尽地分析影响信贷效率的因素效应,避免上文分析的多重共线性问题对回归拟合效果的影响,本文运用R软件和LARS-Lasso方法对样本数据进行回归拟合分析,得出的回归模型系数如下表5所示。
表5 LARS-Lasso算法回归结果
根据大数据LARS-Lasso回归模型分析结果,得出如下非现场审计发现:一是质押、保证金和信用担保模式对贷款利息收入产生一定的正影响。LARS-Lasso回归分析模型结果显示,从业人数和放款量是影响贷款利息收入的主要因素。其中,质押、保证金和信用担保模式对贷款利息收入均产生一定的正影响,从业人数中的质押、保证金和信用担保模式的模型系数值分别为0.184、0.1009、0.0483,放款量中的保证金和信用担保模式的模型系数值分别为0.8775、0.1609;二是放款量指标对小微企业贷款利息收入的影响力较大。从LARS-Lasso回归分析模型的各自变量系数来看,放款量项下的两个担保模式的模型系数值均高于从业人数项下的担保模式模型系数值,最高的是保证金担保模式放款量(sL.bzj)系数值,为0.8775。
三、促进大数据统计分析在商业银行内部审计中应用的对策建议审计人员将统计分析应用到大数据等新信息技术中,可在短时间内分析出被审计单位的异常点,客观进行综合性评价并找出影响因素,快速、精准、高效地发现被审计机构的问题,并集中力量攻破,能够有效提升非现场审计工作效率和效果,充分利用、展现大数据的价值和隐藏在数据背后真实的结论。在应用大数据统计分析的过程中,也同样存在大数据信息不完整、不全面,统计分析能力不足,在内部审计中大数据统计分析应用着陆点较少等难点。因此,为促进大数据统计分析在内部审计中得到更好的应用,提出如下对策建议:
(一)搭建并提升大数据分析平台质量
目前,大数据已应用于金融、互联网、商超等领域,一些大型商业银行已搭建了大数据分析平台,但部分已搭建平台的商业银行仍然存在数据完整性不足、数据处理效率慢、内嵌统计分析模型少、数据价值利用低等问题,亟需商业银行加大资金投入进行研发,完善大数据平台、提升平台数据及分析质量,并应用到内部审计等领域中。对于难以做到独自研发大数据分析平台的商业银行,可以与大数据研发机构、高校进行合作,开发一个涉及内部审计的子平台,加强推动大数据统计分析在内部审计上的规模化应用。
(二)加强大数据统计分析在内部审计中的应用
由于大数据涉及的数据量大、统计分析方法多,应在结合内部审计项目目标的基础上,构建研究评价指标体系,从海量数据中获取审计目标数据,选择恰当的统计分析方法,除上文提到的描述性统计分析、关联分析法、效率评价法和回归分析法外,还可运用聚类分析、因子分析、主成分分析等统计分析方法,并在基础分析方法上,根据审计目标数据的特性,选择前沿的、合适的统计分析方法才能得出有效的分析结果。为确保大数据统计分析价值得到充分利用,应对分析结果全面的、深入的研究,对异常点进行验证,以便正确指导现场审计,发现被审计机构的不足、风险点,从而提出有建设性的建议。
(三)加快复合型人才培养
商业银行应加快培养内部审计人员学习大数据等新信息技术能力,一方面,可与高校、互联网企业等科研机构合作,针对内部审计方面的专业人才,开设一些大数据统计分析技术培训班,加强内部审计人员的知识学习;另一方面,基于研发的大数据分析平台,倡导商业银行内部审计人员在非现场审计时积极应用大数据平台,并在获取数据后,发散思维,运用统计分析方法进行深入分析,从而丰富并提高商业银行内部审计人员的技能和自身专业能力水平,达到既了解大数据技术又了解商业银行内部审计知识的复合型人才。
原文发表于《中国内部审计》2019年第11期。