应用Benford法则和Apriori算法对海量数据的审计分析
来源:岁月联盟
时间:2014-01-04
3.1.3.1 数位的选取
以凭证T2000001和T2000002为例解释数位选取方式,如我们选取凭证编号T2000001的金额栏1 000元的第一、二位数值为”10”,作为该笔记录的第一、二位数;我们选取凭证编号为T2000002的借方金额栏3 029元的第一、二位数值为”30”,作为该笔记录的第一、二位数,如表2所示:
3.1.3.2 数位分析
对记账凭证表accvouch中的借方金额字段前两位进行分析,第一、二数值为10的凭证纪录有540笔,全部记录有10 149笔,因此第一、二位数为”10”频率为5.3%(540/10 149)。部分结果如图2所示。
3.1.4 分析频率偏差
根据Benford分布的数字频率上限、数字频率下限和分布概率Z统计量的公式计算得到图2所示数据。
分析图2数据可以得出:
(1)第一、二位数为”10”的实际频率为5.3%,高于Benford法则的理论上限4.53%,计算其Z统计量的值,Z值为5.844 4,也大于1.96,因此我们初步判定存在错误、潜在舞弊行为或者人为的偏差。
(2)第一、二位数为”11”的实际频率为3.25%,低于Benford法则的理论下限3.4%,虽然Z值为3.038也大于1.96,但可能是由于数位为”10”超过Benford法则的理论频率过大从而导致其频率偏低,因此应该属于无异常。
3.2应用Apriori算法对审计疑点的关联规则挖掘
3.2.1获取并整理疑点数据
为了进一步明晰数据间的关系,观察数据的规律性,对疑点数据(首一二位数为“10”)通过关联查询筛选出来,形成审计中间表,部分数据如表3所示。
3.2.2运用Apriori算法探索关联规则
步骤一:以表3中的第1列、第3列、第4列和第5列数据建立事务集D,由D建立候选1-项集C1,部分数据如表4所示。
步骤二:假设最小支持记录数为100,将支持度不足的项去掉,得到频繁1-项集L1,如表5所示。
步骤三:循环步骤一和步骤二,得到最终的频繁3-项集L3,如表6所示。
步骤四:根据最终的频繁3-项集L3和设置的最小置信度100%得出表7所示的强规则。
步骤五:由业务审计人员确定强规则的业务价值,进行人工排查后,确定编号为1的强规则为有意义的规则。
4结论
在实际的审计项目中,对于大量的企业财务数据和业务数据,可以运用Benford法则和Apriori算法的关联数据挖掘手段进行分析,一般能够发现有业务意义的强规则,这些强规则能够解释数位发生偏差的原因,而这种偏差一般是由于潜在的舞弊或违规行为所导致的。