摘自余松林教授主编(2002年)“人民卫生出版社”出版
七年制全国规划教材《医学统计学》
第十三章 诊断试验的评价 (作者:本站站主)
随着先进技术的迅猛发展,各种诊断试验(包括诊断设备、试剂、方法等)层出不穷,但并不是每一种诊断试验肯定比常规或旧试验好,经过一段时间的临床应用,不少试验被淘汰。如果医学工作者,特别是临床医生,能够掌握一些评价与解释诊断试验的有关知识,及时取舍或灵活运用新的诊断试验,不但可提高自身的业务素质,而且还能减少患者的不必要经济开支,更好地为患者服务。
第一节 贝叶斯公式
对于诊断试验(diagnostic
test)的评价,首先应知道受试者(人、动物或影像等)的真实类别,即哪些属于对照组(或无病组,正常组,噪声组等),哪些属于病例组(或有病组,异常组,信号组等)。划分病例与对照这两个组的标准就是金标准(gold
standard)。医学研究中常见的金标准有:活组织检查、尸体解剖、手术探查和跟踪随访结果等。尽管金标准不需要十全十美,但是它们应比评价的诊断试验更加可靠,且与评价的诊断试验无关。对于按金标准确定的二项分类总体,如病例与对照(分别记为
与
),采用诊断试验检测的结果可分别写成阳性与阴性(记为
与
),资料可列成表13-1的四格表形式。表中有四个可能结果,其中两个是正确的,即病例被诊断为阳性(真阳性,TP)和对照被诊断为阴性(真阴性,TN);两个是错误的,即病例被诊断为阴性(假阴性,FN)和对照被诊断为阳性(假阳性,FP)。
表13-1 诊断资料
四格表
|
诊 断 结 果
( |
金标准( |
合 计 |
|
|
病例( |
对照( |
||
|
阳 性(
阴 性( 合计 |
TP(真阳性) |
FP(假阳性) |
TP+FP |
|
FN(假阴性) |
TN(真阴性) |
FN+TN |
|
|
TP+FN |
FP+TN |
N |
|
为了确定诊断试验检测结果阳性时患病的概率有多大,可利用下列贝叶斯(Bayes)公式:
(13-1)
式中
称为先验概率(prior
probability),它不依赖于其它变量的变化而变化,在人群研究中称为患病率,此概率一般可从各种有关报道或参考书中获得,也可通过流行病学调查得到;
;
是病例组中诊断试验检测结果为阳性的概率,也就是后面提到的灵敏度或真阳性率;
是对照组中诊断试验检测结果为阳性的概率,也就是后面提到的(1-特异度)或假阳性率;
为后验概率(posterior
probability),也就是后面提到的阳性预报值,一般情况下该指标难以直接得到,需要采用贝叶斯公式计算。
例13-1 以往调查得知,某人群2000名成年男子中有1人患有冠心病。采用心电图(electrocardiogram,ECG)作为诊断工具,金标准确诊的冠心病病例组中98%为ECG阳性,未患该病的对照组中1%为ECG阳性,问ECG诊断为阳性时成年男子实际患冠心病的概率是多少?
解:已知![]()
,
,
,
![]()
根据式(13-1)有:
![]()
由此得到诊断为阳性时成年男子实际患有冠心病的概率是4.67%,这说明ECG阳性提供的患冠心病信息很少,说明心电图(ECG)用于该人群的诊断价值很低。
但在临床上,ECG仅用于怀疑患有冠心病者,这样先验概率
较高,获得的后验概率
将比以上要高得多,如当
=10%=0.1时,得到
=91.59%,因此在临床上ECG具有较好的诊断价值。
实际上,Bayes公式的通用形式应该是:
(13-2)
对于表13-1资料,A为金标准诊断结果
与
,
为诊断试验检测结果
与
,具体到式(13-1),B只取
。
第二节 诊断试验中常用的评价指标
例13-2 采用ECG对具有急性持久胸痛的700名患者进行诊断,经证实有520例出现心肌梗塞,其余180例没有出现(见表13-2),试计算ECG诊断试验的几个常用评价指标。
表13-2 ECG诊断试验的结果
|
ECG诊断结果 |
心肌梗塞 |
合 计 |
|
|
出现 |
不出现 |
||
|
阳 性 阴 性 合计 |
416(TP) |
9(FP) |
425 |
|
104(FN) |
171(TN) |
275 |
|
|
520 |
180 |
700(N) |
|
评价诊断试验的常用指标有一致百分率、灵敏度、特异度、Youden指数、阳性似然比、阴性似然比、阳性预报值和阴性预报值。
一.一致百分率
一致百分率是病例正确诊断为阳性与对照正确诊断为阴性的例数之和占总例数的百分率。计算公式为:
![]()
其标准误为
![]()
![]()
![]()
一致百分率很大程度上依赖于患病率,如某病的患病率为5%,即使不采用诊断试验,且将所有研究个体划归为阴性,也可得到一致百分率为95%;其次,它没有利用假阴性和假阳性的信息,相同的一致百分率可能有十分不同的假阴性和假阳性;第三,它还受诊断界点(cut-off point)(见图13-1)的限制。因此,诊断试验评价只用该指标粗略地表达诊断试验的一致性,更常用的诊断试验评价指标是灵敏度、特异度等。
二、灵敏度
实际患病且被诊断为阳性的概率就是灵敏度(sensitivity,Sen),也称为真阳性率(true positive rate,TPR),即:
(13-3)
其标准误为:
![]()
本例Sen=416/520=0.8, 即真阳性率TPR=0.8,80%出现心肌梗塞患者被ECG诊断为阳性;其标准误为
![]()
该指标只与病例组有关,反映了诊断试验检出病例的能力。
三、特异度
实际未患病且被诊断为阴性的概率就是特异度(specificity,Spe),即:
(13-4)
其标准误为:
![]()
本例Spe=171/180=0.95,
即95%未出现心肌梗塞患者诊断结果为阴性。其标准误为![]()
该指标只与对照组有关,反映了诊断试验排除非病例的能力。
由式
(13-3)可导出漏诊率
,漏诊率也就是假阴性率;由式(13-4)可导出误诊率
,误诊率也就是假阳性率(false
positive rate,FPR)。
本例漏诊率
1-0.8=0.2;误诊率
,即假阳性率FPR=0.05。灵敏度、特异度、漏诊率、误诊率之间的关系可用图13-1表示。此图中间的垂线与横轴的交点称为诊断界点,它是定义诊断试验为阳性与阴性的临界点。

图13-1 灵敏度,特异度,漏诊率,误诊率图示
灵敏度与特异度具有不受患病率影响的优点,其取值范围均在(0, 1)之间,其值越接近于1,说明其诊断试验的价值越好。
当比较两个诊断试验时,单独使用灵敏度或特异度,可能出现一个诊断试验的灵敏度高、特异度低,而另一个诊断试验的灵敏度低、特异度高,无法判断哪一个诊断试验更好。由此,有人提出了将灵敏度和特异度结合的诊断试验评价指标,如Youden指数、阳性似然比、阴性似然比等。
四、Youden指数
真阳性率与假阳性率之差就是Youden指数(Youden’s index, J),即:
(13-5)
其标准误为:

本例
,即Youden指数为0.75;其标准误为:
Youden指数的取值范围在(-1, +1)之间,其值越接近于+1,诊断准确性越好。
五、阳性似然比
真阳性率与假阳性率之比,即灵敏度与误诊率之比就是阳性似然比(positive
likelihood ratio,
),
(13-6)
本例
,即阳性似然比为16。
的取值范围为(0,
∞),其值越大,检测方法证实疾病的能力越强。
的标准误涉及到对数变换,这里不予给出;以下几个指标的标准误计算也较复杂,也不予给出。
六、阴性似然比
假阴性率与真阴性率之比,即漏诊率与特异度之比为阴性似然比(negative
likelihood ratio,
),
(13-7)
本例
,即阴性似然比为0.2105。
的取值范围为(0,
∞),其值越小,检测方法排除疾病的能力越好。
七、阳性预报值
在通常的情况下,当要对某疾病作出诊断时,并不知道金标准的结果,只知道诊断试验是阳性或阴性。而临床医生更想知道的是:当诊断试验阳性时,受试者真正有病的概率有多大;阴性时又有多大把握排除此病。这就需要引入阳性预报值(positive
predictive value,
)与阴性预报值的概念。
试验结果阳性时,受试者实际为病例的概率就是阳性预报值,这实际上就是本章开始时提到的贝叶斯公式的后验概率,
![]()
(13-8)
式中
表示先验概率,在医院中为怀疑患有某病的概率,而在总体人群中就是患病率;![]()
;
与
分别表示灵敏度与特异度。由上式可以看出,当灵敏度与特异度为常数时,增加患病率,将降低
,增加
的值,从而整个分母的值减少,阳性预报值增加。
本例Sen=0.8,Spe=0.95,假如人群患病率
0.0005,代入式(13-7)得:
![]()
即采用ECG诊断整个人群时,在约126例阳性结果的受试者中,仅有1例出现心肌梗塞。此结果表明,ECG在该患病率下,阳性预报价值不高。如果患病率扩大为
0.2,可获得
,此时阳性预报价值大大提高。
八、阴性预报值
诊断试验结果阴性时,受试者实际为非病例的概率就是阴性预报值(negative
predictive value,
)。如果式(13-2)中
仍然为金标准诊断结果
与
,但
为
,根据贝叶斯定理有:
![]()
(13-9)
上式中符号的意义与前面相同。当灵敏度与特异度为常数时,增加患病率将降低阴性预报值。
将
0.0005,Sen=0.8,Spe=0.95,代入式(13-9)得:
![]()
即在约10000例诊断试验结果为阴性的受试者中,有9999例未出现心肌梗塞,但有1例出现心肌梗塞,说明ECG在该患病率下的阴性预报价值较高。如果患病率扩大为
0.2,获得
,此时阴性预报价值有所降低,但降低幅度不明显。
必须注意,当且仅当样本患病率
等于总体人群患病率
时,式(13-8)可简化为:
(13-10)
式(13-9)可简化为:
(13-11)
假如按式(13-10)和式(13-11)求预报值,本例得到
=416/425=0.9788;
=171/275=0.6218。此结果与式(13-8)和式(13-9)计算结果相去甚远。这是因为本例的样本患病率
,而总体人群患病率
0.0005的缘故。
如果所研究的病例组和对照组不是从确诊的患者和非患者两个亚群体中分别抽取的两份样本,而是从总体人群中抽出的一份随机样本,然后按金标准分成病例组和对照组,这时可用样本患病率
代替总体人群患病率
。
式(13-10) 和(13-11)一般用于某特定人群,如例13-2限定研究对象为“进入某医院的急性持久胸痛病人”,这类人群的患病情况往往在不同级别医院不一样,因此适合大医院或教学医院的诊断标准不能轻易照搬于基层小医院或流行病学现场。
和
的取值范围在(0,
1)之间;对于相同的患病率,其值越接近1,检测方法的诊断价值越高。
第三节 ROC曲线
尽管前面所列的Youden指数、阳(阴)性似然比、阳(阴)性预报值等指标综合利用了真阳性率(TPR)与假阳性率(FPR)的信息,但这些指标都与诊断界点(或阈值)的选取有关。例如,同一项检测方法,采用不同的诊断界点就有不同的TPR与FPR。为了更全面地评价检测方法的诊断价值,必须考虑各种可能的诊断界点。
接收者工作特征(receiver operating characteristic)或相对工作特征(relative operating characteristic)曲线简称ROC曲线(ROC curve)。ROC分析于二十世纪五十年代起源于统计决策理论,后来应用于雷达信号接收能力的评价;自从八十年代起,该方法广泛应用于医学诊断试验性能的评价。通过改变诊断界点,获得多对TPR与FPR值,以FPR为横坐标,TPR为纵坐标,绘制ROC曲线,计算与比较ROC曲线下面积,以此反映诊断试验的诊断价值。
一、ROC工作点的计算
ROC分析资料可大致分为连续型资料与有序分类资料两种形式。连续型资料常见于某些定量检验。有序分类资料多见于医学影像诊断或心理学评价。
例13-3 假设某诊断试验的病例组和对照组分别有5个和4个受试者,其检测结果见表13-3。试计算所有可能的TPR和FPR值(显然,样本含量太少,这里只是为了便于叙述)。
表13-3 假想的连续性资料
|
金标准 |
检测结果 |
||||
|
病例组 |
16.5 |
13.5 |
12.8 |
11.2 |
5.0 |
|
对照组 |
8.5 |
6.4 |
4.6 |
1.7 |
|
将这9个数据从大到小排列,以前8个数(不考虑最小值1.7)分别作为诊断界点,大于等于诊断界点者判为阳性,小于该值者判为阴性。这样,可整理成8个四格表。
诊断界点=16.5 诊断界点=13.5 诊断界点=12.8 诊断界点=11.2
|
诊断结果 |
金标准 |
|
诊断结果 |
金标准 |
|
诊断结果 |
金标准 |
|
诊断 结果 |
金标准 |
|||||
|
病 例 |
对 照 |
|
病 例 |
对 照 |
|
病例 |
对 照 |
|
病 例 |
对照 |
|||||
|
+ |
1 |
0 |
|
+ |
2 |
0 |
|
+ |
3 |
0 |
|
+ |
4 |
0 |
|
|
- |
4 |
4 |
|
- |
3 |
4 |
|
- |
2 |
4 |
|
- |
1 |
4 |
|
诊断界点=8.5 诊断界点=6.4 诊断界点=5.0 诊断界点=4.6
|
诊断结果 |
金标准 |
|
诊断结果 |
金标准 |
|
诊断结果 |
金标准 |
|
诊断 结果 |
金标准 |
||||
|
病 例 |
对 照 |
|
病例 |
对 照 |
|
病 例 |
对 照 |
|
病 例 |
对照 |
||||
|
+ |
4 |
1 |
|
+ |
4 |
2 |
|
+ |
5 |
2 |
|
+ |
5 |
3 |
|
- |
1 |
3 |
|
- |
1 |
2 |
|
- |
0 |
2 |
|
- |
0 |
1 |
每个四格表可计算一对(FPR, TPR),称为ROC曲线工作点(见表13-4)。如果有多个检测结果相同,则只保留一个值作为诊断界点。
表13-4 表13-3资料不同诊断界点的FPR和TPR值
|
|
诊 断 界 值 |
||||||||
|
|
|
16.5 |
13.5 |
12.8 |
11.2 |
8.5 |
6.4 |
5.0 |
4.6 |
|
FPR |
0 |
0 |
0 |
0 |
1/4 |
2/4 |
2/4 |
3/4 |
|
|
TPR |
1/5 |
2/5 |
3/5 |
4/5 |
4/5 |
4/5 |
5/5 |
5/5 |
|
例13-4 有109份CT影像,其中有51份采用金标准确诊为异常,58份确诊为正常。某放射科医生对这些CT影像的异常程度按1、2、3、4、5的顺序进行分类,结果见表13-5。试计算所有可能的TPR和FPR值。
表13-5 109份CT影像分类
|
金标准 |
诊 断 分 类 |
合计 |
||||||
|
|
|
1 |
2 |
3 |
4 |
5 |
|
|
|
异常 |
3 |
2 |
2 |
11 |
33 |
51 |
||
|
正常 |
33 |
6 |
6 |
11 |
2 |
58 |
||
对于这种5级分类资料,按级别从大到小排列,以前4个分类(即不考虑最小的分类)作为诊断界点,大于等于诊断界点者为阳性,小于该值者为阴性。这样,可整理出以下4个四格表,
诊断界点=5 诊断界点=4 诊断界点=3 诊断界点=2
|
诊断结果 |
金标准 |
|
诊断结果 |
金标准 |
|
诊断结果 |
金标准 |
|
诊断结果 |
金标准 |
||||
|
异 常 |
正常 |
|
异常 |
正 常 |
|
异 常 |
正 常 |
|
异 常 |
正常 |
||||
|
+ |
33 |
2 |
|
+ |
44 |
13 |
|
+ |
46 |
19 |
|
+ |
48 |
25 |
|
- |
18 |
56 |
|
- |
7 |
45 |
|
- |
5 |
39 |
|
- |
3 |
33 |
每个四格表对应的ROC曲线的工作点见表13-6。
表13-6 表13-5资料不同诊断界点的FPR与TPR值
|
|
诊断界点(诊断分类) |
|||
|
5 |
4 |
3 |
2 |
|
|
FPR |
0.0345 |
0.2241 |
0.3296 |
0.4310 |
|
TPR |
0.6471 |
0.8627 |
0.9020 |
0.9412 |
注意,以上都假设诊断试验结果较大者被判为阳性,如果检测结果较小者被判为阳性,则应按检测结果从小到大排列,小于等于诊断界值者为阳性,大于诊断界值者为阴性。
二、ROC曲线的构建
以假阳性率FPR【即(1-特异度)】为横轴,真阳性率TPR(即灵敏度)为纵轴,横轴与纵轴长度相等,形成正方形,在图中将ROC曲线工作点标出,用直线连接各相邻两点构建未光滑的ROC曲线。ROC曲线一定通过(0,0)和(1,1)两点,这两点分别对应于灵敏度为0而特异度为1,和灵敏度为1而特异度为0。表13-5资料对应的未光滑ROC曲线见图13-2。

图13-2 未光滑的ROC曲线
理论上,当诊断试验完全无价值时,有TPR=FPR,是一条从原点到右上角的对角线,这条线称为机会线(chance line);ROC曲线一般位于机会线的上方,离机会线越远,说明诊断准确度越高;最好的诊断试验在图中表现为ROC曲线从原点垂直上升至左上角,然后水平到达右上角。
三、ROC曲线下面积的计算
ROC曲线下面积(记为
)可反映诊断试验的准确性大小。这一指标取值范围在0.5至1之间,
完全无价值的诊断
=0.5,完全理想的诊断
=1。一般认为
为0.5~0.7时,表示诊断准确性较低;为0.7~0.9时,表示诊断准确性为中等;为0.9以上时表示诊断准确性较高(Swets,
1988)。
的计算方法主要有双正态模型参数法、Hanley
和
McNeil非参数法、Delong,Delong和
Clarke-Pearson非参数法等等,其计算比较复杂,需要采用计算机程序来完成(见第五节)。
Hanley 和
McNeil非参数法的计算相对简单,容易理解。下面给出这些计算的基本公式。假设对照组有
个观察值,记为
(j=1,2,…,
);病例组有
个观察值,记为
(i=1,2,…,
)。如果观察值大判归为病例,根据Wilcoxon
Mann-Whitney统计量,ROC曲线下面积(
)就是病例组每个观察值大于对照组每个观察值的概率,用公式表示为:
(13-12)

该公式为病例组的
个
与对照组的
个
比较,如果前者大于后者则比较结果为1,相等时为0.5,否则为0,将
×
个比较结果相加取平均即得
。如果观察值小为异常,则改变公式中的大于与小于符号即可。
的标准误的计算公式为
(13-13)
![]()
其中
为
的标准误,
是两个随机选择的病例组观察值比一个随机选择的对照组观察值都将有更大可能划归为病例的概率。
是一个随机选择的病例组观察值比两个随机选择的对照组观察值将有更大可能划归为病例的概率。
得出的ROC曲线下面积是否与完全随机情况下获得的
=0.5有统计学差异,可近似采用标准正态离差
作检验。根据
±![]()
可计算
的100(1-α)%可信区间。
如果需要比较的两个诊断试验曲线下面积分别为
和
,对应的标准误分别为
和
,且面积之间的相关系数很小时,可利用公式
(13-14)
比较两ROC曲线下面积。当两比较曲线下面积间的相关系数较大时,则需要考虑其相关性问题,计算与比较的公式更复杂(Hanley and McNeil, 1982;1983),这里不予介绍。
第四节 决策分析及其有关问题
一.决策树
诊断试验应用于实际当中,能否获得较好的社会和经济效益,需要根据每种结局发生的概率及其可能的治疗成本(包括给可疑病人带来的不便)、阳性预报值、阴性预报值、易患人群的患病率等情况,利用决策树(decision tree)进行决策分析。

图13-3 临床决策树
图13-3是一个假想的临床决策树。对于可疑病人来说,有接受(结点A)与不接受诊断试验两种情况,接受诊断得出试验结果阳性(结点B1)时,医生将采取治疗措施,而试验结果阴性者(结点B2)与未接受试验者(结点B3)将不接受治疗。经金标准证实,诊断试验阳性者中有的得到正确诊断(结点C1,真阳性),有的被误诊(结点C2,假阳性);诊断试验阴性者中也有的得到正确诊断(结点C4,真阴性),有的被漏诊(结点C3,假阴性);未接受诊断试验者也有两种可能,实际患病(结点C5)与实际未患病(结点C6)。结点C4与C6是理想的情况,其它结点均有完全康复、部分康复与死亡三种可能。
对图中每种可能的结局给出一个概率值,并记为Pi
(
)。最后一列给出了相应的效率(utility),根据专业知识,令完全康复的效率为1,部分康复为0.7,死亡为0。
假定阳性预报值为90%,阴性预报值为80%,图中分别以p1、p4表示,p2=1-p1,p3=1-p4。p5是可疑病人群体的患病率,本例假定为30%。p6=1-p5=70%。从图13-3中的右至左计算期望收益(expected benefit)得:
在结点
C1处,期望收益=![]()
C2处,期望收益=![]()
C3处,期望收益=![]()
C4处,期望收益=![]()
C5处,期望收益=![]()
C6处,期望收益=![]()
进一步计算得:
在结点
B1处,期望收益=![]()
B2处,期望收益=![]()
B3处,期望收益=![]()
从以上计算出的期望收益来看,未接受诊断试验的结点B3处期望收益为0.88;接受诊断试验且诊断结果为阴性的结点B2处期望收益略有增加,为0.92;接受诊断试验且诊断结果为阳性的结点B1处期望收益最高,为0.97。接受诊断试验的最高期望收益仅比未接受诊断试验的期望收益高0.09,表明该诊断试验具有一定的帮助作用,但作用并不大。如果该诊断试验十分昂贵,或给病人带来众多不便的话,那么就应作出不采用此诊断试验的决定。
二.何时不用诊断试验
有的诊断试验危险性很大,实施这类诊断试验有无必要,或者说实施该诊断试验对治疗有无较大帮助,这是临床医生十分关心的问题。假使试验前根据症状体征等正确判断某病的概率小于
(如10%),那么就没有必要作这一试验,而应继续观察病人;此外,假使试验前根据症状体征等正确判断该病的概率大于
(如80%),那么也没有必要作试验,可直接对病人实施治疗。如果判断概率在
与
之间,诊断试验的结果将有助于指导医生作出医疗处理。
假定
,这两个概率可根据下列公式计算:
,
(13-15)
式中的
分别为真阳性率、假阳性率、真阴性率、假阴性率;此外还需要凭借经验估计以下指标:
![]()
![]()
![]()
例13-5
急性肾衰是一种严重疾病,早诊断早治疗十分重要,但早期症状无特异性,很难作出明确诊断;未患该病而得到不恰当的治疗(透析或药物治疗),除了给病人带来不必要的经济损失外,还可能导致严重的栓塞与电解质失衡等并发症。尽管采用肾活检有助于诊断,但需冒较大风险。现假定病人得到恰当治疗的平均净收益
,未患该病而接受治疗的平均净损失
,诊断试验的风险
,诊断试验的真阳性率、假阳性率、真阴性率、假阴性率分别为
0.90、
0.25、
0.75、
0.10,求
与
,并作出何时不用诊断试验的结论。
解:根据式(13-15),有
, ![]()
如果以上假定正确,则可得出以下结论:如果临床医生诊断的把握小于5%,那么就不必使用该试验,而应继续观察病人直至病情变得更加明了为止;如果临床医生诊断的把握大于42%,那么可不实施诊断试验,可直接采取治疗措施。如果概率在5%~42%之间,那么可采用肾活检诊断结果帮助医生作出医疗处理。
三、诊断试验的联合作用
临床实践中,许多诊断试验不够完善,灵敏度与特异度并非都很高,这就需要由两个或两个以上的试验联合来进行诊断。两种主要的联合形式是:串联(series)与并联(parallel)。
当一系列诊断试验的每一个检验结果均为阳性时,才考虑受试者为病人,只要其中有一个诊断试验为阴性,那么就将受试者划归为非病人。串联的诊断方法使得划归为“病人”很难,而划归为“非病人”很容易,由此导致了假阴性即漏诊的增加。串联的诊断试验常出现灵敏度、阴性预报值降低,特异度、阳性预报值升高的情况。
同时进行多个诊断试验,任何一个试验结果为阳性都足以将受试者划归为“病人”,每个试验均为阴性才将受试者划归为“非病人”,这种试验称为并联。这种情况下很容易导致假阳性即误诊的增加。并联的诊断试验常出现灵敏度、阴性预报值升高,特异度、阳性预报值降低的情况。
安排两个或多个试验是串联还是并联,需要考虑试验的目的和疾病的性质。如果治疗药物疗效好,费用低,副作用少,诊断出的病人可得到有效治疗,则希望有较高的灵敏度,减少漏诊,这种情况下可安排并联试验;反之需要采用串联试验。
第五节 SAS与SPSS软件实现ROC分析
一、 SAS软件实现ROC分析
SAS 6.10以上版本可以 “金标准” 二分类结果为因变量,每组的测量值(或有序分类值)为解释变量,利用LOGISTIC过程,获得每个可能截断点对应的灵敏度、(1-特异度)等指标,并可获得非参数法估计的曲线下面积。对于类似表13-3资料的连续型数据实现ROC分析见SAS程序13-1。
SAS程序13-1 表13-3资料的ROC分分析
|
行号 |
程序 |
行号 |
程序 |
|
01 |
10 |
||
|
02 |
INPUT group $ num; |
11 |
8.5 6.4 4.6 1.7 |
|
03 |
DO i=1 TO num; |
12 |
; |
|
04 |
INPUT test_val@@; |
13 |
PROC LOGISTIC DATA= samp13_3; |
|
05 |
OUTPUT; |
14 |
MODEL group=test_val/ |
|
06 |
END; |
|
SCALE=none OUTROC=roc1; |
|
07 |
CARDS; |
15 |
PROC PRINT; |
|
08 |
case 5 |
16 |
RUN; |
|
09 |
16.5 13.5 12.8 11.2 5.0 |
|
|
SAS程序13-1说明:02行中group的case表示病例组,control表示对照组,09行和11行所给数据分别为每组测量值个数(见表13-5),test_val表示诊断试验测量数据。输出结果有:
|
预报概率与观察的反应之间的相关性 |
||||
|
一致百分率(percent concordant) |
90.0 |
|
Somer’s D |
0.80 |
|
不一致百分率(percent discordant) |
10.0 |
|
Gamma |
0.80 |
|
持平百分率(percent tied) |
0.0 |
|
Tau-a |
0.444 |
|
对子数(pairs) |
20 |
|
c |
0.90 |
以上的c=0.900,相当于非参数法计算的ROC曲线下面积。该程序也可输出各种可能截断点对应的灵敏度(即真阳性率)与(1-特异度)(即假阳性率),这正是绘制未光滑ROC曲线所需要的工作点数据。
对于类似表13-5资料的有序分类数据实现ROC分析见SAS程序13-2。
SAS程序13-2 表13-5资料的ROC分分析
|
行号 |
语句 |
行号 |
语句 |
|
01 02 03 04 05 06 07 08 |
DATA samp13_5; DO group=1,0; DO test_val=1 TO 5; INPUT freq@@; OUTPUT;END;END; CARDS; 3 2 2 11 33 33 6 6 11 2 |
09 10 11 12 13 14 15
|
; PROC LOGISTIC DESCENDING; MODEL group=test_val/ SCALE=none OUTROC=roc1; FREQ freq; PROC PRINT; RUN;
|
SAS程序13-1说明:02行中的group=1表示病例组,group=0表示对照组,分类1~5赋值到变量名test_val(03行)。因每一分类下数据是频数,所以程序中采用了FREQ语句(04行)。07和08行输入数据(见表13-5),该程序得到非参数法计算的ROC曲线下面积为0.893。其它输出的有关结果如下,后两列的结果与表13-6相同。
|
真阳性 |
真阴性 |
假阳性 |
假阴性 |
灵敏度 |
1-特异度 |
|
_POS_ |
_NEG_ |
_FALPOS_ |
_FALNEG_ |
_SENSIT_ |
_1MSPEC_ |
|
33 |
56 |
2 |
18 |
0.64706 |
0.03448 |
|
44 |
45 |
13 |
7 |
0.86275 |
0.22414 |
|
46 |
39 |
19 |
5 |
0.90196 |
0.32759 |
|
48 |
33 |
25 |
3 |
0.94118 |
0.43103 |
注意,以上两个例子都是测量值(或有序分类值)(即变量test_val)越大,越有可能判归为阳性,此时获得的变量test_val的参数为正值。如果测量值越小,越有可能判归为阳性,则变量test_val的参数为负值,否则应在LOGISTIC过程的后面选用或不用“DESCENDING”选项。
二、SPSS软件实现ROC分析
SPSS 9.0以上版本可进行ROC分析。下面是SPSS 10.0进行ROC分析的操作方法。
|
步骤 |
操作(路径\填表\选项) |
|
1.定义列变量名并输入数据 |
(1)诊断分类值或检测结果(test) (注:如有多个诊断试验则定义test1,test2,…) (2)金标准类别(group) (注:1=病例组,0=对照组) (3)分类频数(freq) (注:类似表13-5的资料需要,且需进一步执行第2步) |
|
2.说明频数变量 |
路径:Data\Weight Cases…,选项:Weight cases by,填表:Frequency Variable(freq) |
|
3.ROC分析 |
路径:Graghs\ROC Curve… 填表:Test Variable(test), State Variable(group), Value of State Variable(1) 选项(Display):ROC Curve, With diagonal reference line(机会线), Standard error and confidence interval(面积的标准误及其可信区间) Coordinate points of the Roc curve(ROC曲线的坐标点) Options…→ Test Direction (注:如果检测值小划归为阳性,则需选用) Confidence level ( )% (注:如果需要除95%以外的可信度时,可在此定义) |
如果是类似表13-3的连续型测量资料,则不需要第1步的(3)及第2步。
在提供的ROC分析选项及结果方面,与SAS 6.12版本的LOGISTIC过程相比,SPSS 10.0版本相对较多。
思考与练习
1. 某医院以骨髓穿刺为金标准诊断缺铁性贫血,对病例与对照各100例采用血液化验方法得到下列诊断结果。
(1) 试计算灵敏度、特异度、Youden指数、阳性(阴性)似然比。
(2) 直接用(13-10)式和(13-11)式计算阳性(阴性)预报值。如果病例所在人群的患病率为10%,再计算阳性(阴性)预报值,并比较这两种方法计算获得的结果有何不同?
|
血液化验 |
骨髓穿刺 |
合计 |
|
|
病例 |
对照 |
||
|
+ |
66 |
11 |
77 |
|
- |
34 |
89 |
123 |
|
合计 |
100 |
100 |
200 |
2. 采用骨髓诊断作为金标准,将100例患者中的34例确诊为缺铁性贫血(病例组),其余66例确诊非缺铁性贫血(对照组),事先测得每个患者的红细胞平均容积(MCV)如下,试采用ROC分析评价MCV诊断缺铁性贫血的能力。
|
骨髓诊断 |
红细胞平均容积MCV结果 |
|||||||||||||||||
|
病例组 |
52 |
58 |
62 |
65 |
67 |
68 |
69 |
71 |
72 |
72 |
73 |
73 |
74 |
75 |
76 |
77 |
77 |
|
|
|
78 |
79 |
80 |
80 |
81 |
81 |
81 |
82 |
83 |
84 |
85 |
85 |
86 |
88 |
88 |
90 |
92 |
|
|
对照组 |
60 |
66 |
68 |
69 |
71 |
71 |
73 |
74 |
74 |
74 |
76 |
77 |
77 |
77 |
77 |
78 |
78 |
|
|
|
79 |
79 |
80 |
80 |
81 |
81 |
81 |
82 |
82 |
83 |
83 |
83 |
83 |
83 |
83 |
83 |
84 |
|
|
|
84 |
84 |
84 |
85 |
85 |
86 |
86 |
86 |
87 |
88 |
88 |
88 |
89 |
89 |
89 |
90 |
90 |
|
|
|
91 |
91 |
92 |
93 |
93 |
93 |
94 |
94 |
94 |
94 |
96 |
97 |
98 |
100 |
103 |
|
|
|
注:资料来自JR Beck, EK Shultz, Arch Pathol Lab Med,1986.
3. 某医生按肯定正常、可能正常、异常可疑、可能异常、肯定异常(分别记为1、2、3、4、5)对对照组样本193份,病例组样本41份影像资料进行诊断分类,频数资料见下表。问该医生对这类影像资料的诊断能力如何,并绘制ROC曲线。
|
分类 |
1 |
2 |
3 |
4 |
5 |
合计 |
|
对照组 |
35 |
68 |
49 |
29 |
12 |
193 |
|
病例组 |
2 |
3 |
8 |
16 |
12 |
41 |
4. 如果部分康复的效率为0.8,阴性预报值为90%,患病率为10%,其它数据与第四节相同,试评价该诊断试验的诊断价值。
5.
如病人得到恰当治疗的平均净收益
,未患该病而接受治疗的平均净损失
,诊断试验的风险
,某诊断试验的真阳性率、假阳性率、真阴性率、假阴性率分别为
0.90、
0.250、
0.80、
0.10,问何时可不用该诊断试验?
6. 什么时候应该采用串联或并联诊断试验?
(宇传华)