应用Benford法则和Apriori算法对海量数据的审计分析
来源:岁月联盟
时间:2014-01-04
[关键词] Benford法则; Apriori算法;关联规则; 审计数据分析
1 技术简介
1.1 Benford法则简介
1.1.1 Benford法则[1]的定义
1938年,通用电气公司物理学家Frank Benford收集了大量的数据集合后发现,人们处理较低数字开头的数值的频率较大。
1.1.2 Benford法则的Benford分布
Benford分布属于第二代(second generation)分布,描述了数据总体的客观分布规律,数据总体由其他分布中的抽样数据组成的分布。
2004年Utah State University的Cindy Durtschi的研究[2]表明:
(1)数字出现概率的期望值的标准偏差为:
Z=(|P0-Pe|-1/2n)/Si
(2)分布概率的Z统计量为:
P0:实际的数据出现比率;Pe:根据Benford法则的预期出现比率;Si:某个数字的标准偏差;n:目标数据集的记录数。
1.1.3Benford分布中的数字频率上下限
(1)数字频率的上限:
(2)数字频率的下限:
1.1.4Benford法则的应用范围
(1)可以针对海量数据进行挖掘分析,数据规模越大,分析结果越精确。
(2)会计舞弊调查[3-5]、审计[6-8]、税收监管[9]、金融分析和反洗钱[10]。
1.2Apriori算法简介
Apriori算法[11]是一种对布尔关联规则频繁项集进行挖掘的算法。Apriori算法使用一种逐层搜索的迭代方法,即使用k-项集用于探索(k+1)-项集,其中k=1,2,3,…,n,n∈N,直到最终无法找到频繁(k+1)-项集,从而确定最终的频繁k-项集。
2应用Benford法则和Apriori算法对海量数据的审计分析
Benford法则和Apriori算法的联合数据挖掘在审计中的应用主要围绕为以下两个核心步骤展开:
2.1应用Benford法则发现审计疑点
(1)判断数据的来源是否符合Benford法则的应用范围。
(2)对总体数据的一、二位有效数字进行Benford法则的符合性测试,初步发现对数据进行深入钻取的线索。
(3)对标准分布频率和实际分布频率进行比较,分析频率偏差,确定合理的钻取重点。
(4)根据分析结果和实际需要,进行更多位数字的进一步数据钻取和分析,直至发现目标数据。
钻取过程如图1所示。
2.2 应用Apriori算法分析审计疑点
(1)采集通过Benford法则分析后输出的疑点数据集。
(2)整理疑点数据集以建立事务集,即Apriori算法要求输入的数据集合。
(3)扫描事务集产生候选数据集合,并依据最小支持度筛选出频繁项集。
(4)频繁项集进行自关联,迭代第三、第四步,确定最终的频繁项集。
(5)依据最小置信度从频繁项集产生强规则。
(6)对强规则进行人工审计业务分析。
3应用案例
3.1应用Benford法则对审计疑点的发现过程
3.1.1 确定审计数据和目标字段
分析某企业的凭证数据,从其记账凭证表accvouch摘取字段结构如表1所示:
3.1.2 数据导入
将相应的目标数据表导入审计人员使用的数据库。