本站应用实例四:
掌握数理统计技术应用的方法和实例
鹰蛇软件工作室(原文署真名)
(中国石油化工股份有限公司巴陵分公司编织袋部,湖南岳阳,414003)
(Woven Bag Department Of Baling Petrochemical Company, Sinopec, Yueyang, 414003)
摘 要 分析掌握数理统计技术实际应用的难点,提出解决方法,并以实例说明计算机软件在简化数理统计技术应用方面的巨大作用和具体作法。
关键词 数理统计技术、应用、难点、方法、实例
众所周知,质量管理发展的三个阶段中我国跳跃式地省略了第二个阶段,即统计质量控制阶段,虽然迅速跟上了世界质量管理的发展步伐,但也带来了负面影响,那就是数理统计技术的应用在许多行业和企业得不到充分应用。即使已获ISO9000质量体系认证的企业,也仍然停留在简单的统计技术应用层面上,未能充分发挥数理统计技术的巨大作用。
质量管理的八项原则中,“以事实为基础进行决策”要求“有效决策是建立在数据和信息分析的基础上”。但很多时候虽然收集到了大量数据,这些数据所包含的潜在信息和内在规律并不是自明的,不可能通过简单的统计量分析发掘出来,需要用到相对较为“高级”的统计技术如方差分析、回归分析等才能发现和揭示这些信息和规律。
笔者曾多次运用数理统计技术分析数据并解决诸如数据间的差别、变量间的关系、影响质量关键因素的确定等问题,从而变事后把关为事前控制,降低了质量成本,并略有心得体会,整理成本文。
1 掌握数理统计技术应用的难点和解决方法
掌握数理统计技术应用的主要难点可归结为以下四个方面:
1.1 难理解
数理统计技术原理很抽象,非常难以理解,需具备一定的逻辑思维能力和高等数学知识,即使在西方国家推行统计质量控制时也只是由少数专家来完成,无法普及到每个员工。
解决方法:重视应用、弱化理解。采取避重就轻的措施,把培训和学习的时间和精力放在应用方法上。只要掌握应用的步骤、计算方法,并将其程式化,能够进行实际应用,普通技术人员完全没有必要掌握原理,有初步了解完全足够。
1.2 计算量大
常规统计量使用科学计算器可以完成计算,但进行假设检验、方差分析乃至回归分析等,计算量非常惊人,一般工程技术人员无法用计算器完成。特别是多元回归分析需要解多元线性方程,如果没有线性代数等相关知识和足够的细心和耐心是不可能完成的。
解决计算量大的问题非常简单,采用计算机软件即可,但要选用合适的软件。大型统计软件诸如SPSS、SAS功能多但难学会,并不适合普通技术人员使用。笔者采用很常见的Excel软件,操作简单,容易掌握,另外还自编小型统计软件SQCS(统计质量控制系统)进一步简化操作,非常完美地解决了这一难题,即使没有数理统计知识的人也可无障碍使用。应用实例后文详述。
1.3 易遗忘
由于数理统计技术原理难以理解,故若非经常使用则很容易遗忘其使用方法,需临时查阅书籍,难以做到熟练自如。
解决方法:多进行实际应用,勤加练习,应用中结合实际问题理解原理,即可熟能生巧。
1.4 不受重视
企业领导层大多不了解数理统计技术的巨大作用和重要性,技术人员也是如此,没有把它作为发现和解决问题的有力工具。
数理统计技术适用于各行各业,很有推广价值。笔者写作此文的目的之一就是为解决这一难题尽绵薄之力,希望能引起相关人员的注意和重视。
2 数理统计技术应用实例一:多元回归分析
中石化巴陵分公司编织袋部拉丝机用于将聚丙烯颗粒加工成生产编织袋用扁丝。根据塑料挤出理论,挤出机的挤出量取决于螺杆转速,与主电机电流和机头压力关系不大,但事实是否如此还有待实测证明。且每台挤出机的挤出量与螺杆转速的具体表达式各不相同,找出这个表达式对控制扁丝的线密度(通常用纤度表示)具有非常重要的指导作用。
挤出量现场测试数据如表1:
表一:1#拉丝机实测数据表
|
序 号 |
螺杆转速 (r/min) (X1) |
主电机 电流(A) (X2) |
机头压力 (0.1Mpa) (X3) |
挤出量 (kg/min) (Y) |
|
1 |
30 |
93 |
85 |
1.50 |
|
2 |
35 |
95 |
90 |
1.75 |
|
3 |
40 |
102 |
95 |
2.03 |
|
4 |
45 |
110 |
100 |
2.28 |
|
5 |
50 |
113 |
105 |
2.49 |
|
6 |
55 |
118 |
110 |
2.76 |
|
7 |
60 |
121 |
112 |
2.96 |
2.1 用Excel进行回归分析
2.1.1 相关系数分析
将表一中的数据输入到Excel工作表中。从“工具”菜单→“数据分析”,从分析工具列表中选“相关系数”,选定“输入区域”为刚刚输入的全部数据,选定“标志位于第一行”,并选定输出区域,单击“确定”即可得到单相关系数如表二:
表二:单相关系数表
|
|
螺杆转速X1 |
主电机电流X2 |
机头压力X3 |
挤出量Y |
|
螺杆转速X1 |
1 |
|
|
|
|
主电机电流X2 |
0.989138852 |
1 |
|
|
|
机头压力X3 |
0.996089718 |
0.992152096 |
1 |
|
|
挤出量Y |
0.997463874 |
0.993041043 |
0.999285912 |
1 |
表二表明各变量间都成强正相关,这是因为各自变量间相互影响的结果。
2.1.2 获得回归方程
单击数据区域以外的任意单元格,例如A10,输入回归分析函数=LINEST(D2:D8,A2:C8,TRUE,TRUE),这里D2:D8为Y的数据区域,A2:C8,为各X的数据区域,第一个TRUE表示输出截距b值,第二个TRUE表示返回附加回归统计值。选定从输入了公式的A10开始的5行(固定为5行)4列(变量的总个数为4),按F2键,再按Ctrl+Shift+回车即可输入数组公式,得到回归分析结果如表三。
表三:回归分析结果
|
0.033386824 |
0.004130068 |
0.012314189 |
-2.077913851 |
|
0.010748934 |
0.005960738 |
0.008589698 |
0.526740606 |
|
0.999249617 |
0.020016182 |
#N/A |
#N/A |
|
1331.652218 |
3 |
#N/A |
#N/A |
|
1.600569486 |
0.001201943 |
#N/A |
#N/A |
查看Excel帮助文件可知表三中的数据含义如表四。
表四:分析结果参数说明(对应表三)
|
a3:X3的斜率 |
a2:X2的斜率 |
a1:X1的斜率 |
b:Y的截距 |
|
Se3:X3的误差 |
Se2:X2的误差 |
Se1:X1的误差 |
Seb:截距b的误差 |
|
r2:回归系数平方 |
Sey:Y的误差 |
|
|
|
F:F分布通计量 |
Df:自由度 |
|
|
|
ssreg:回归平方和 |
ssresid:剩余平方和 |
|
|
得到回归方程:
Y=0.012314189X1+0.004130068X2+0.033386824X3-2.077913851
2.1.3 回归结果分析
(1) r2分析和F检验
回归系数平方(r2)为0.999249617,非常接近1,表明相关程度很大,无需进行回归系数检验,可直接进行F检验。
假设各自变量间不存在相关性(本例事实并非如此),如果F观测值大于F临界值,则表明自变量和因变量间存在相关性。查表得单侧检验,显著性水平α为0.05,自由度f1=k=3,f2=N-(k+1)=3(其中k为自变量个数,N为试验次数)的F临界值F0为9.28。F观测值为1331.652218,远大于F0,可以用本回归方程进行扁丝纤度预测和控制。
(2) t检验
采用t检验可以判别每个自变量的显著水平。t观察值为自变量的斜率系数除以标准误差,例如机头压力的t值:
t3=a3÷Se3=0.033386824÷0.010748934=3.11
查t分布表,得单侧试验、自由度为3、显著性水平α为0.05的t临界值t0为2.353。因t的绝对值大于t0,可知机头压力是显著自变量。同法可检验其它自变量的显著性如表五
表五:各自变量的t值。
|
自变量 |
t值 |
t0值 |
显著性 |
|
螺杆转速(X1) |
1.43 |
2.353 |
不显著 |
|
主电机电流(X2) |
0.69 |
|
不显著 |
|
机头压力(X1) |
3.11 |
|
显著 |
表中只有机头压力的t值的绝对值大于t0,因此,只有机头压力是显著因素,可用来估算扁丝纤度,螺杆转速和主电机电流是两个不显著的因素,可忽略。这个结果与塑料挤出理论相悖,是因为Excel进行回归分析时没有剔除自变量间的影响,期待微软改进。
2.2 用自编软件SQCS进行回归分析
以上采用Excel软件进行分析虽然操作不是很复杂,但步骤较多,需人工查表,多元回归分析未剔除自变量间的相互影响。笔者的自编软件SQCS只要输入数据,按相应按钮即可完成回归分析全过程,且剔除了自变量间的影响。
2.2.1 单相关系数和偏相关系数
输入数据,进入多元回归分析功能界面,软件可输出单相关系数和偏相关系数如表六和表七
表六:各变量之间的单相关系数表
|
变量 |
X1和X2 |
X1和X3 |
X2和 X3 |
X1和Y |
X2和Y |
X3和Y |
|
R值 |
0.9927 |
0.9953 |
0.9955 |
0.9991 |
0.9949 |
0.9974 |
表七:各变量之间的偏相关系数表
|
变量 |
X1和X2 |
X1和X3 |
X2和 X3 |
X1和Y |
X2和Y |
X3和Y |
|
R值 |
-0.1327 |
-0.2758 |
0.3844 |
0.9051 |
0.2408 |
0.5483 |
软件查表得显著性水平α为0.05时的相关系数临界值R0为0.7067,表六中单相关系数均大于R0,说明四个变量两两之间均有显著的相互作用,表七中偏相关系数只有X1与Y之间大于R0,也就是说剔除自变量之间的相互影响,只有X1(螺杆转速)与Y(挤出量)之间有显著相关关系,这与塑料挤出理论是相符合的。
2.2.2 多元回归分析
软件进行三元回归分析得到回归方程和相关统计量:
Y=-0.9739+0.0324X1+0.0040X2+0.0135X3
剩余平方和Q=0.0012、回归系数R=0.9996、回归系数临界值R0=0.9750。
软件采用标准回归系数比较法和偏回归平方和比较法进行自变量对因变量的影响程度比较,都得出相同结论:X1是对Y影响最大的因素且不可忽略,而X2和X3影响很小,均可忽略,并列出首先应忽略的自变量为X2,得到忽略X2后的二元回归方程:
Y=-0.9049+0.0331X1+0.0168X3
软件继续进行同样的分析,得出结论X3也可忽略,得到一元回归方程:
Y=0.0620+0.0487X1
软件继续进行同样的计算和分析,相关系数检验结果为在显著性水平α为0.01下显著相关,方差分析也有同样的结果。也就是说三元回归最终变成了一元线性回归,因相关程度很大,可采用一元回归方程进行扁丝纤度的预报和控制,这与塑料挤出理论完全符合。生产实际应用中也取得了很好的效果(根据现螺杆转速预测挤出量波动范围和根据确定的挤出量计算螺杆转速的控制范围)。
3 数理统计技术应用实例二:假设检验
Excel中提供的假设检验功能很少,这里以SQCS软件进行检验。
2002年编织袋部购买了1台新拉丝机,经观测生产的扁丝纤度偏差比原拉丝机更小,但没有充分的科学依据来确定纤度偏差已显著变小。采用假设检验即可判定。
从旧拉丝机生产的扁丝纤度数据中随机抽取17个样本(利用SQCS的随机数发生器功能抽取)如表八:
表八:旧拉丝机纤度测试数据(样本A)
|
899 |
910 |
877 |
930 |
921 |
927 |
907 |
910 |
804 |
957 |
|
967 |
986 |
961 |
932 |
931 |
912 |
907 |
|
|
|
同法抽取新拉丝机的19个样本如表九:
表九:新拉丝机纤度测试数据(样本B)
|
910 |
845 |
787 |
843 |
839 |
800 |
856 |
834 |
821 |
839 |
|
834 |
850 |
865 |
853 |
860 |
830 |
808 |
838 |
816 |
|
输入数据,运行假设检验功能中的双样本方差齐性检验,可直接输出以下结果:
统计量:样本A均值为919.9、方差为1648.6;样本B均值为838.3、方差为721.0;F观测值为2.2865
软件查表得F(16,18,0.050)=2.2540,F(18,16,0.100)=1.9100、F(16,18,0.100)=1.8800;(注:括号内参数依次为自由度f1、f2和显著性水平α)
因为F≥F(16,18,0.050),故可知表八中数据与表九中数据的方差有显著差异。
因为F≥F(16,18,0.100),故可知表八中数据的方差比表九中数据的方差大。
从而可得出结论:新拉丝机纤度偏差比旧拉丝机纤度偏差更小。
4 结论
掌握数理统计技术的应用有一定难度,但可采取不同方法来解决,其中计算量大这一难题可采用合适的计算机软件来解决。Excel软件操作简单但功能不够全面且有瑕疵,自编软件SQCS除了操作简单外自动化程度高,用户介入少,即使没有数理统计知识的人员也可以毫无障碍地进行数理统计技术应用,为数理统计技术应用的普及提供了软件支撑。
参考文献:
1、陈国铭。统计质量控制1-10[M]。北京:中国石化出版社,1995年
2、概率论及数理统计。化工企业全面质量管理乙编上册。北京:中国化工质量管理协会,1982年
3、全面质量管理基本知识普及教材(新版)[M]。湖南长沙:湖南省质量协会,2001.68
4、章立民。Visual FoxPro6.X中文版程序设计(应用务实篇)[M]。北京:中国铁道出版社,1999.182~267
The Method and example to master the application of statistical technology
(Woven Bag Department Of Baling Petrochemical Company, Sinopec, Yueyang 414003)
yuan guosheng
Abstract Analyzed the difficulty of master the application of statistical technology, put forward the method to solve it, using instance to explain the huge function and the concrete method of computer software for simplifying the application of statistical technology
Keywords statistical technology application difficulty method example
作者简介:
鹰蛇,男,1966年4月出生,1987年6月毕业于吉林大学化学系,学士,中石化巴陵分公司编织袋部生产室主管,工程师,有多项省级市级和分公司级优秀成果。通讯地址:湖南岳阳七里山巴陵分公司编织袋部,邮编:414003,电话:0730-8537285