正交试验结果的统计软件两步分析
【摘要】 本研究用SAS、SPSS、DPS 3种统计软件的两步使用,实现对正交试验结果的完整分析,并对数据输入、输出结果、交互搭配、多项指标、操作难易5方面进行综合评价。
【关键词】 正交试验; 统计软件; 两步分析
1 问题的提出
用正交表安排试验并进行试验结果分析的统计方法,称为正交设计。极差分析可以完成正交试验结果的统计描述,但是因素的极差大或小到何种程度,方能算主要或次要因素,往往需要主观界定。方差分析可以完成正交试验结果的统计推断,但是太复杂太困难,往往让统计学教师及医药科研工作者感到苦恼。
SAS(Statistical Analysis System,统计分析系统)和SPSS(Statistical Product and Service Solution,统计产品与服务解决方案)是美国著名统计软件,DPS(Data Processing System,数据处理系统)是国内优秀的统计软件。本研究用这3种统计软件对正交试验结果进行两步使用,实现对正交试验结果的完整分析。
正交试验结果方差分析的条件是:留出空白列或进行重复试验。空白列的平方和及小于空白列的平方和构成第一类误差,重复试验数据构成第二类误差。软件分析的困难,体现在重复试验数据的格式、误差平方和的确定和交互作用的搭配3个地方,其要害是误差平方和的确定。
为此,任何统计软件均需要使用两次。第一次探索分析,排除空白列,确定平方和小于空白列者及各水平优劣。第二次补充分析,排除平方和小于空白列的变量,确定主要因素及重要交互作用。主要因素取好水平,重要交互作用取好搭配,次要因素按实际问题取水平,得到最优试验方案。统计软件的这种两步使用,可以实现对正交试验结果的完整分析。
2 不同软件的两步分析
考虑最复杂的混合水平正交设计,因素A为4水平,因素B、C、D为2水平,交互作用A×B、A×C及B×C。在混合表L16(4×212)安排A、B、C、D于1、2、6、11列,第12、13列空白,2次重复试验结果见表1。
表1 提取麻黄碱正交设计2次重复试验结果(略)
2.1 SAS9.0操作
第一次调用glm过程作试探分析,确定空白列x1、x2的平方和,编辑程序为:
data L1; /*麻黄碱正交设计第一次探索分析*/
input A B AB1 AB2 AB3 C AC1 AC2 AC3 BC D x1 x2@@;
do i=1 to 2; input y@@; output; end;
cards;
1 1 1 1 1 1 1 1 1 1 1 1 1 61 75
1 1 1 1 1 2 2 2 2 2 2 2 2 83 84
...........................
4 2 1 1 2 2 1 1 2 1 2 2 1 80 70
;
proc glm; class A B C D; model y=A B A*B C A*C B*C D x1 x2;
means A B A*B C A*C B*C D/snk; run;
程序运行后,交互作用BC、因素D平方和42.7813、124.0313小于空白列x1、x2平方和相加57.7813+132.0313=189.8125,应当合并到一类误差中。由多重比较,因素C的水平2较好,交互作用A×B的搭配A1B1较好。
第二次调用glm过程作补充分析,修改程序L1.sas最后语句为:
proc glm; class A B C D; model y=A B A*B C A*C; run;
运行得到的程序L2.sas, Model的F=7.89、P<0.0001,当前模型有统计学意义。因素C的F=31.95、P<0.0001,为主要因素。交互作用A×B的F=10.16、P=0.0003<0.01,为重要交互作用。
指标为产率,越大越好。由多重比较的输出结果,因素C取2水平,交互作用A×B取搭配A1B1。根据实际,因素D取D2较好。故最佳试验方案为A1B1C2D2,即用4倍量0.1%的盐酸,浸煮1(h,调pH=12。
2.2 SPSS13.0操作[1]
以A、B、AB1、AB2、AB3、C、AC1、AC2、AC3、BC、D、x1、x2为分组变量,y为数据变量,前面13列反复2次输入正交表各列,建立配伍格式数据文件。
第一次试探分析,选择General Linear Models→Univariate命令,指定y为Dependent variable变量,A、B、C、D、x1、x2为Fixed Factors变量。
鼠标击Model按钮,指定A、B、A*B、C、A*C、B*C、D、x1、x2为Model变量。
击Options按钮,指定A、B、A*B、C、A*C、B*C、D为Display Means for变量→Compare main effects→LSD。
输出结果,交互作用BC、因素D平方和42.781、124.031小于空白列x1、x2平方和相加189.812,应当合并到一类误差中。由多重比较,因素C的水平2较好,交互作用A×B的搭配A1B1较好。
第二次补充分析,选择General Linear Models→Univariate命令,把x1、x2从Fixed Factors变量删除。
鼠标击Model按钮,把B*C、D、x1、x2从Model变量删除。
击Options按钮,把A、B、A*B、C、A*C、B*C、D从Display Means for变量删除。
输出结果, Model的F=7.893、P=0.000,当前模型有统计学意义。因素C的F=31.95、P=0.000,为主要因素,应当取好水平。交互作用A×B的F=10.156、P=0.000,为重要交互作用,应当取好搭配。
2.3 DPS7.55操作[2]
在区域A1:O16,前13列输入正交表的各列,第14、15列输入各次试验的结果。
第一次试探分析,选定数据块,选择"试验统计"菜单→"正交试验方差分析"命令,指定第12、13列为空白列。
交互作用BC、因素D平方和42.781、124.031小于空白列x1、x2平方和相加189.812,应合并到一类误差中。由极差分析因素C的水平2较好,直接得到交互作用A×B的搭配A1B1较好。
第二次补充分析,选定数据块,选择"试验统计"菜单→"正交试验方差分析"命令,指定第10、11、12、13列为空白列。
因素C的F=31.95、P=0.000,为主要因素,应当取好水平。交互作用A×B的3列F=10.84、4.81、8.81,P=0.00、0.04、0.00,为重要交互作用,应当取好搭配。
3 综合评判
从数据输入来看,重复试验结果分析,SAS与DPS只需要一次性输入正交表各列,SPSS需要重复输入正交表各列。
从输出结果来看,SAS与SPSS能把多列交互作用合并输出,能把多列一类误差列合并输出,DPS则不能。
从交互搭配来看,SAS与SPSS能输出交互作用的搭配,DPS则不能。
从多项指标来看,DPS需要以各项指标,分别进行多次分析,根据各次输出结果,使用综合平衡法得出结论。SPSS可以选择Multivariate(多变量)命令,SAS可以在程序中直接读入多个数据变量,同时得到多指标的输出结果。
从操作难易来看,DPS两步分析只需修改空白列,而SAS需要需要修改程序,SPSS需要修改各项参数的选择,均比DPS复杂。
综上所述,可以建立参评因素集"输入、输出、搭配、指标、操作"到评判集"SAS、SPSS、DPS"的模糊关系矩阵,即:
R=0.350.300.35
0.350.350.30
0.350.350.30
0.350.350.30
0.300.300.40
再根据参评因素集在检验中的重要程度,建立权重矩阵为:
W=(0.30,0.30,0.20,0.10,0.10)
用先乘后加,计算评价值,即:
W ?R=(0.3,0.3,0.2,0.1,0.1)0.350.300.35
0.350.350.30
0.350.350.30
0.350.350.30
0.300.300.40
=(0.345,0.330,0.325)
完成正交试验结果分析,SAS、SPSS、DPS的各为0.345,0.330,0.325。
【】
1 周仁郁,主编.SPSS13.0统计软件.成都:西南大学出版社,2005,4,112~117.
2 周仁郁,主编,中医药统计学.北京:中医药出版社,2004,9,221~223.
3 方积乾,主编.卫生统计学.第5版.北京:人民卫生出版社,2003,145~147.
4 金丕焕,主编.医用SAS统计分析.上海:上海医科大学出版社,2000,135~142.
5 洪楠,等编著.SAS for Windows统计分析系统教程.北京:出版社,2001,335~340.