第八章 临床生化诊断试验的诊断性能评价
第一节 概述
临床诊断试验(diagnostic test)是指临床上用于某种疾病诊断的诊断方法。广义上讲,临床诊断试验不仅包括各种实验室检查、影像诊断和仪器诊断,也包括一些病史及临床检查提供的资料。随着科学技术的进步与发展,用于疾病诊断的临床诊断试验层出不穷,但是,并不是所有的新的临床诊断试验均比常规方法或旧的方法好。新的临床诊断试验的性能如何,必须用合理的评价方法进行评价确定。
临床诊断试验的性能评价内容包括技术性能评价、诊断性能评价、临床效应评价和经济效益评价。诊断性能评价的方法是基于有关流行病学调查为基础,对某种疾病的诊断方法进行评价的临床试验。它侧重于对一种新的诊断方法,包括症状、体征、检查和检验等进行临床试验评价。
临床生化诊断试验是指临床生化实验室中用于某种疾病诊断、筛查和监测的检查方法或项目。临床生化诊断试验的诊断性能评价,不同于技术性能的方法学评价,它以流行病学调查为基础,评价某种临床生化诊断项目在某种疾病诊断方面的诊断价值。
一、临床诊断试验的数据与患病情况的关系
诊断试验分定性试验和定量试验。定性试验的结果分为阳性和阴性结果,定量试验的结果为一系列连续的计量数据,这些数据可被分界值将其分为两个部分,也可判断为阳性和阴性结果。一般情况下,由?quot;正常人"与"病人"的诊断试验的结果的分布有部分重叠,因此,诊断试验的结果和患某病的情况之间可能出现四种关系:①真阳性(True positive,TP)指经试验而被正确分类的患者的数目。②假阳性(False positive,FP)指经试验而被错误分类的非患者的数目。③真阴性(True negative,TN)指经试验而被正确分类的非患者的数目。④假阴性(False negative,FN)指经试验而被错误分类的患者的数目。结果见图8-1。
二、临床诊断试验的诊断性能评价的层次
(一)诊断试验对疾病诊断的准确性、有效性和可靠性
诊断试验提供的数据有两个方面的作用:①对疾病的状态识别,即鉴别有无疾病。②对疾病的状态预测,即阳性结果时患病可能性的预测和阴性结果时患病的否定作用的预测。因此,诊断试验对疾病诊断能力的评价指标包括:对疾病识别的准确性评价指标(如敏感性、特异性);对疾病预测的有效性评价指标(如预测值),以及两个方面同时评价指标(如似然比)。可靠性指重复进行试验得到相同结果的稳定程度。可靠性直接影响准确性和有效性。因此,对诊断试验对疾病诊断的准确性、有效性和可靠性进行评价,是建立或选择一个新的诊断试验的前提和重要依据。
(二)诊断试验的临床意义--数据解释的合理性
对诊断试验的数据结果进行合理解释应包括:①建立判断机体是否健康的合理的参照标准(如参考值),用于判断机体有无疾病。②建立在疾病发生、发展不同阶段或过程中的临床判断水平值(如危急值、医学决定水平),用于判断疾病程度,评价治疗效果和预测其发展。
对诊断试验的实验室数据的合理解释,是临床实验室开展与临床的合作和对话,将数据转化为高层次的临床判断分析信息的基础。
第一节 临床生化诊断试验的诊断性能评价指标
一、临床生化诊断试验的准确性评价指标
准确性(accuracy,AC),又称真实性(validity)是诊断试验测量值与实际值的符合程度,即判断受试者有病与无病的能力。
(一)常见评价指标
1.灵敏度 灵敏度(sensitivity, Sen)又称敏感性、真阳性率(True positive rate,TPR),指在患病者中,应用该诊断试验检查得到阳性结果的百分比。灵敏度反映诊断试验正确地识别患病者的能力, 该值愈大愈好。
灵敏度= ×100%= ×100%
理想试验的诊断灵敏度为100%。灵敏度高的诊断试验,通常用于①拟诊为严重但疗效好的疾病,以防漏诊;②拟诊为有一定治疗效果的恶性肿瘤,以便早期确诊及时治疗;③存在多种可能疾病的诊断,可排除某一诊断;④普查或定期健康体检,能筛选某一疾病,以防漏诊。
2.特异度 特异度(specificity, Spe)又称特异性、真阴性率(True negative rate,TNR),指在非某病者中,应用该试验获得阴性结果的百分比。特异度反映诊断试验正确地鉴别非患病者的能力,该值愈大愈好。
特异度= ×100%= ×100%
理想试验的诊断特异性为100%。特异度高的诊断试验,常用于 ①拟诊患有某病的概率较大时,以便确诊;②拟诊疾病严重但疗效与预后均不好的疾病,以防误诊,尽早解除病人的压力;③拟诊疾病严重且根治方法是具有较大损害时,需确诊,以免造成病人不必要的损害。
敏感性与特异性均高的试验,常用于病情十分危急,需要尽快作出特殊处理的疾病,如急性中毒时的抢救。
3.漏诊率和误诊率 与灵敏度和特异度互补的两个指标是漏诊率和误诊率。漏诊率(β),又称假阴性率(False negative rate,FNR)。反映将患者诊断错误的概率,该值愈小愈好。误诊率(α),又称假阳性率(False positive rate,FPR)。反映将非患者诊断错误的概率,该值愈小愈好。
漏诊率(β)= =1-Sen
误诊率(α)= =1-Spe
4.诊断一致性指标 反映诊断试验结果与患某病情况的一致性程度,主要有以下指标。
(1)诊断准确度(accuracy,AC):又称总符合率、诊断效率(diagnostic efficiency,DF),是指在患病和非患病者中,用诊断试验能准确划分患者和非患病者的百分比。反映诊断试验正确诊断患者与非患者的能力。
诊断准确度= ×100%= ×100%
理想试验的诊断准确度为100%。准确度高,真实性好。受发病率的影响很大。
(2)正确指数:又称尤登指数(youden index,YI),表示诊断试验发现真正的患病和非患病者的总能力。
尤登指数(YI)=Se+Sp-1=1-α-β
其值于0-1之间变动,其值愈大,诊断试验的真实性愈好。该指标较稳定。
(3) Kappa指数:又称为rater一致性,它比较稳定,不易受发病率的影响。
Kappa指数=
以上指标中,灵敏度和特异性是最基本的指标,而且是稳定的指标。一般来说,准确度的值愈大,诊断性试验的真实性愈好,诊断效率愈高。
(二)准确性评价指标之间的关系
1.由于灵敏度与漏诊率、特异性与误诊率存在互补关系 漏诊率和误诊率可以通过灵敏度与特异度体现出来并求得,因此,灵敏度与特异度是评价一项诊断试验真实性的两个基本指标。从理论上讲,一项理想的诊断试验其灵敏度、特异度最好均为100%,即假阳性与假阴性均为零,无一漏诊与误诊。
2.灵敏度和特异性之间的关系 对于一项诊断试验,可以通过调整分界值提高灵敏度或特异性,但二者不能同时提高。提高一个,必然降低另一个,因此,选择分界时必须权衡,使两者得到兼顾。
在大多数情况下,如单独使用敏感性很高的诊断试验,虽然漏诊率低,但由于其特异性相对较差,结果误诊率必然较高;如单独使用特异性很高的试验诊断,虽然误诊率低,但由于其敏感性相对较低,结果漏诊率必然较高。此时可采用敏感度与特异性均高的试验相对结合的方法。
二、临床生化诊断试验的有效性评价指标
(一)临床诊断与诊断概率
1.诊断试验与疾病诊断 虽然诊断试验在对疾病的诊断中起着重要的作用,但它的任务仅仅是为临床医师对疾病的诊断提供证据。无论诊断试验的结果如何,它都不等于诊断,而只是提供受检查者患某病的证据和可能性。例如,常作为肿瘤等疾病的诊断金标准的病理学检查结果,就是指病理学检查结果是临床医师对肿瘤作出诊断的最好证据。有时虽然某项诊断试验的结果为阳性,但不一定就被诊断为患某病。
2.验前概率和验后概率 临床医师对就诊者作出诊断的过程是一个对各种证据进行筛选、综合分析的过程。在对就诊者进行问诊和查体之后,就会得到对该就诊者是否患病、患何种疾病的初步印象;在进行相关诊断试验检查之后,根据检查结果,作出该就诊者是否患病的估计或诊断。临床医师对就诊者可能患何种病的初步印象的量化指标,称为验前概率(pretest probability),验前概率的大小在总体上必须符合该病的流行率,因此,在进行计算时,验前概率等于该病的流行率。结合诊断试验的结果,得出就诊者患病可能性大小的估计称之为验后概率(post test probability),也称为预测值。
(二)常见有效性评估指标
1.预测值 预测值(predictive value,PV)也称预告值或诊断价值,包括阳性预测值和阴性预测值,分别表示诊断试验结果确定或排除某种疾病存在与否的诊断概率。预测值受流行率的影响,不同流行率的人群中疾病的预告值不同。
(1)阳性预测值: 阳性预测值(positive predictive value,PPV或+PV)表示在诊断试验结果为阳性的人数中,真正患病者所占的百分率,即试验结果阳性者属于真病例的概率。也叫患病的试验后可能性。
阳性预测值= ×100%= ×100%
理想试验的阳性预测值为100%。阳性预测值主要受流行率的影响,流行率越高,则阳性预测值也高;临床医师根据某病的流行率和诊断试验的阳性结果就能预测就诊者患某病的可能性大小;当流行率一定时,诊断试验的特异性越高,阳性预测值越准确。
(2)阴性预测值: 阴性预测值(negative predictive value,NPV或-PV)表示在诊断试验结果为阴性的人数中,非患病者所占的百分率,即试验结果阴性者属于非病例的概率。也叫非患病的试验后可能性。
阴性预测值= ×100%= ×100%
理想试验的阴性预测值为100%。当流行率一定时,诊断试验的敏感性越高,则阴性预测值越高。
(3)流行率: 流行率(Prevalence,P)表示在受检对象的总人数中,真正患病者所占的百分率,也叫患病的试验前可能性或患病率。
流行率= ×100%= ×100%
流行率可从流行病学调查资料查知,也可以是临床医师在长期的医疗实践中,对门诊就诊者患某病的比例的经验认识;由于在不同的地区、不同级别的医院、普通医院和专科医院,其就诊者的组成差别可能很大,因此,同样的疾病在不同医院的流行率也不同,临床医师必须根据具体情况确定流行率,才能得出较为准确的阳性预测值。
(4)预测值与流行率的关系:诊断试验的预测值与试验的灵敏度、特异度及受试人群中所研究疾病的流行率有关。三者有下列关系:①特异性越高,假阳性率越低,阳性预测值越高;②灵敏度越高,阴性预测值越高;③受检人群研究疾病流行率越高,假阳性率越低,阳性预测值越高,阴性预测值越低。
流行率对阳性预测值的影响见表8-1。由表可以看出,即使诊断敏感度和特异度都达到99%,只有在流行率达到50%时,才有较高的阳性预测值。所以在临床诊断中,应先询问病史,后对怀疑的病人做诊断试验。同时也说明部分临床上很好的试验,用作普查效果并不理想。
表8-1 流行率对阳性预测值的影响
流行率(%) 阳性预测值(%)
灵敏度=95 灵敏度=99
特异度=95 灵敏度=99
0.1 1.9 9.0
1.0 16.1 50.0
2.0 27.9 66.9
5.0 50.0 83.9
50.0 95.0 99.0
根据某试验的灵敏度、特异度和群体中研究疾病的流行率,预测值亦可以用Bayes理论公式估计:
阳性预测值= ×100%
阴性预测值= ×100%
2.似然比 预测值和流行率随检查人群的不同而改变,诊断敏感性和特异性虽不随被检对象中患病者与非患病者的不同比例而改变,但敏感性和特异性难于帮助医生直接判断就诊者的患病可能性,因而引进拟然比的概念。
验后概率较之验前概率的符合程度和变化方向取决于诊断试验的特性,表征这种特性的量化指标称为似然比(likelihood ratio ,LR)。是诊断试验结果的某一特定水平在患病者中出现的可能性与在未患病者中出现的可能之比。似然比包括阳性似然比和阴性似然比。拟然比性质稳定,不因流行率的改变而改变。
(1)阳性似然比:阳性似然比(positive likelihood ratio,+LR或LR(+))是指用诊断试验检测患病人群的阳性率与非患病人群的阳性率之间的比值,即真阳性率与假阳性率之比。可用以描述诊断试验阳性时,患病与不患病的机会比。LR(+)提示正确判断为阳性的可能性是错误判断为阳性的可能性的倍数。LR(+)数值越大,提示能够确诊患有该病的可能性越大。因真阳性率为敏感度,假阳性率与特异度成互补关系,所以,也可表示为敏感度与(1-特异度)之比。
阳性似然比= = = ÷
真阳性率愈高,则阳性似然比愈大。
(2)阴性似然比:阴性似然比(negative lidelihood ratio,-LR或LR(-))是指用诊断试验检测患病人群中的阴性率与非患病人群的阴性率之间的比值,即假阴性率与真阴性率之比。可用以描述诊断试验阴性时,患病与不患病的机会比。LR(-)提示错误判断为阴性的可能性是正确判断为阴性的可能性的倍数。LR(-)数值越小,提示能够否定患有该病的可能性越大。阴性似然比也可表示为(1-敏感度)与特异度之比。
阴性似然比= = = ÷
拟然比可直接判断一个诊断试验的好坏。例如LR(+)>1.0 ,其超过1.0 的大小是当试验结果为阳性时,试验提示患病可能性增高能力的一种度量。LR(+)=2.0-5.0, 认为该试验不太好;超过10.0 ,认为是好的。相反,LR(-)<1.0 ,其小于1.0的大小是当试验结果为阴性时,试验提示患病可能性降低能力的一种度量。LR(-)=0.5-0.2 ,认为该试验不太好,而小于0.1 ,可认为是好的试验。
拟然比虽可直接评价诊断试验的好坏,但在评价和比较试验性能方面不是一种特别好的工具。拟然比的主要用途在于有了诊断试验的拟然比,又知道试验前患病可能性(验前概率)。就可以通过Bayes'公式或诺模图求出试验后病人患病可能性(验后概率)。
式中PTL(+)为阳性结果的试验后患病可能性,PTL(-)为阴性结果的试验后患病可能性。
除进行单项目诊断试验的验后概率的计算外,还可进行多重诊断试验的连续验后概率的计算,以及多水平似然比的计算和比较。 三、临床生化诊断试验的可靠性评价指标
诊断试验的可靠性(reliability),又称重复性(repeatability)、精密度(precision),是诊断试验在完全相同的条件下进行重复试验得到相同结果的稳定程度。
(一)常见可靠性评估指标
理想的诊断试验应有较好的可靠性。对一项诊断试验或方法的可靠性可以用变异系数或符合率来表示。
1.变异系数 评价计量资料精密度的指标为标准差和变异系数等。用变异系数则有利于相互比较。变异系数愈小,表示可重复性愈好。
变异系数= ×100%
2.总符合率 评价计数资料可靠性的指标为总符合率、Kappa指数等。方法是用同一诊断试验方法对同一批受检对象进行重复检测,将检测结果列四格表,然后用上述公式计算总符合率、Kappa指数等指标,进行可靠性评价。总符合率愈高,试验的可靠性愈好。
3.影响诊断实验可靠性的因素 影响因素主要是生物学变异和测量变异,后者包括观察者的变异和试验方法差异。减少影响可靠性的方法是临床诊断试验的标准化,观察者的严格训练等。
(1)生物学变异:包括研究对象的个体内变异和个体间的变异。如同一测定者以同一方法测量同一受试者的血压,结果可因测量的时间、地点及受试者的情绪等而异。
(2) 观察者的变异:也称观察变异,即由观察者对测定结果判断的不一致所致的差异。包括同一观察者内的变异(如不同时间、条件时)和不同观察者之间的变异。观察者的变异可以用符合率或Kappa值予以描述。
(3)试验方法差异:包括仪器、药品和试剂、以及条件等因素引起的变异。
(二)准确性和可靠性之间的相互关系
真实性与可靠性不是必定相关,因此,在评价诊断试验时两类指标均不可忽视。真实性与重复性的关系有四种情况:真实性与重复性都好,真实性好但重复性差,真实性差但重复性好,真实性与重复性都差。
四、临床诊断试验评价指标的应用
以检测血清铁蛋白诊断缺铁性贫血(IDA)为例说明以上指标的计算方法。
经诊断金标准诊断,患IDA者809人,非IDA者1770人;<65mmol/L者共1001人,其中731人为IDA患者;>65mmol/L者1578人,其中1500人为非IDA患者。
1.将有关数据填入四格表(表8-2)。
表8-2 血清铁蛋白水平诊断缺铁性贫血检测结果
血清铁蛋白水平 缺铁性贫血
有病 无病 合计
阳性
(<65mmol/L) a
(731) b
(270) a+b
(1001)
阴性
(>65mmol/L) C
(78)
D
(1500) c+d
(1578)
合计 a+c
(809)
b+d
(1770) a+b+c+d
(2579)
2.诊断试验评价指标计算。
(1) 敏感性(SEN) = a/(a+c) = 731/809 = 90%
(2) 特异性(SPE) = d/(b+d) =1500/1770 =85%
(3) 阳性似然比(+LR) = SEN/1-SPE = 90%/(1-85%) = 6
(4) 阴性似然比(-LR) = (1-SEN)/SPE = 10%/85% = 0.12
(5) 阳性预测值 = a(a+b) = 731/1001 = 73%
(6) 阴性预测值 = d/(c+d) = 1500/1578 =95%
3.判断 以上四格表计算结果,+LR为6,表示以65mmol/L为临界点时,IDA患者出现阳性结果的概率是非IDA患者的6倍,而-LR为0.12,表示在该临界点时,IDA患者出现阴性结果的概率仅为非IDA患者1/50。
诊断试验的评价指标中,稳定的指标有敏感性、特异性、阳性似然比和阴性似然比。由于它们都是以诊断金标准确诊的病人来测定和计算的,所以,除了可将其用于对临床医师的诊断提供量化指标外,还可将敏感性、特异性等指标用于对诊断试验的方法学研究进行评价。
因阳性预测值和阴性预测值随流行率而变化,它们在指导临床医师作诊断时很有帮助,但不能作为评价诊断试验本身价值的指标。
第二节 参考值与医学决定水平
80年代以前,诊断学上普遍应用"正常值"与"正常范围"作为判断健康人的参照标准。80年代以后,通过对正常值概念的讨论、越来越多的医学家接受?quot;参考值"与"参考范围"的概念,澄清了对"正常值"的模糊认识,使检验数据的解释建立在较为客观与合理的基础上。但是,每一项具体试验的健康组与疾病组的数据分布,往往或多或少的存在交叉,生理与病理状态的划分不可能只靠几项诊断数据,所以,改用参考范围后的参照标准问题--这一诊断学上的难题仍旧没有得到完全解决。以参考范围为基础,根据各种不同目的(早期诊断、疗效观察等)通过流行病学调查,把诊断试验的敏感性、特异性和诊断效率等指标放在适当的水平,指定"分界值"作为判断参照标准的方法则更加合理、可行。综合分析参考值与病理值的分布范围及医生的临床经验,制定出医生必须采取措施?quot;医学决定水平",会使诊断试验发挥更好的作用。
一、参考值
(一)正常值概念的质疑
在临床生化检验中,欲判断一个检测结果(观察值)是正常还是异常,通常需要一个参照标准。在20世纪80年代以前,人们都以"正常值"一词来表示健康者的生理数据,并作为参照标准。在应用的过程中,许多学者认为实验诊断上"正常值"的概念含糊,易使人产生误解,因此,这个概念受到多方质疑。
1.从健康的概念来看 世界卫生组织制定的"健康"定义包括身体、精神及社会生活的完全良好状态。要达到这个标准在现阶段是不现实的,只能作为人类的奋斗目标。
2.从正常范围的界定来看 以健康人群的95%分布面积作为"正常范围",存在5%的"正常人"在此范围之外。从超出"正常范围"的机率P=1-(95%)n (n 指试验项目数)估计可以看出,试验做得越多,出现假阳性的机会越多。
3.从疾病的本身来看 绝大多数疾病有一个发生和发展的过程,早期可能没有任何症状,诊断试验也可能是阴性。也就是说,平时所谓健康人群包含了少数处于疾病早期的病人。同时,隐性基因传递,使有遗传性疾病的人混杂在"正常人"内而难于估计,如易发生痛风的家族中,不少人无痛风的临床现象,可是血中尿酸超过357 μmol/L(6mg/dl)。
4.从临床检验方面看 诊断指标往往显示从健康到疾病的转变是逐步的,不少指标在疾病明显时才会超出正常范围。同时,个体差异,生理阶段的差异始终存在,人的老化处于分子的、亚细胞的、细胞的、组织器官及系统的不同水平,人为地将个体健康水平固定在某一级才视为正常,这显然是不合理的。
由于正常组与病理组分布曲线总有不同程度的重叠,严重地限制了正常范围的实际应用。如果简单地承认正常的概念,把正常范围看作从健康到疾病的分界范围,那显然是错误的。用参考值一词代替正常值一词有助于防止上述的错误观点的误导。
(二)参考值的建立与应用
1.参考值的概念 1967年Grasbeck等首先提出参考值(Reference value)的概念,1970年IFCC成立了参考值专家委员会,随后发表了相关的文件和研究报告,1977年以后参考值的观点被越来越多的人所接受。参考值与参考范围的概念是指对某一规定人群进行抽样测定,由此得到的均数值及分布范围,它只能作为它所代表人群的判断参考标准。
依据制定参考值的标本来源,参考值及参考范围有个体参考值及参考范围与群体参考值及参考范围两种类型。个体参考范围代表生物个体内变异,而群体参考范围反映生物个体间变异。
2.参考值的建立 建立参考值时,首先应阅读有关资料,使设计尽量合理,结果令人信服,才有实际应用价值。参考值的建立系指在一个地区的健康人群中,规定若干条规格标准,从参考总体中抽取一定数量的参考个体进行调查测定,将测定结果经统计学处理,求出均值()和标准差(S),通常将 定为参考值,将95%的分布区间定为参考范围(正态分布以 ±2S表示,非正态分布用百分位数表示)。
参考值的建立包括参考个体、参考总体、参考样本、参考值、参考值分布、参考限、参考值范围等。所谓参考个体指选择用于决定界点的个体;参考总体或参考人群指所有可能参加抽样的参考个体,即参考值所反映的人群总体;参考样本指反映总体的被观察对象;参考值指反映总体的观察值;参考值分布指参考样本观察值的分布;参考限指根据制定的目的与参考分布而确定的上限与(或)下限;参考值范围又称参考区间,指上下两个参考限之间的距离。参考值有关名词及相互间的关系如下:
参考个体(按预定标准选择的个体)
↓组成
参考总体(包括尽可能多的参考个体,参考人群的人数通过估算获得)
↓选定
参考样本(从参考人群中选择一定数量的参考个体,它们足以代表参考人群)
↓进行体液成分测定,获得
参考值(为参考样本中所有参考个体测定结果经统计处理求得的均值)
将病人 ↓由此可观察
某项指 参考值分布(常态或偏态)
标测定 ↓计算
结果与 参考限(由参考分布按选择的统计方法计算的标准差)
之比较 ↓确定
参考值范围(一般用 ±2S)
3.参考值的移植 群体参考范围可以来源于文献报告,但采用文献报告要慎重,仪器厂商与商品试剂盒提供的参考范围更不可轻易引用。一般来说,引进一种新方法,应该首先进行小样本量的参考值调查,如果结果与文献或厂家提供的数据相一致,就可以不再调查,否则应做进一步的调查,确定本实验室的参考范围。确定参考值必须明确规定所依据的条件,所选参考组的健康水平,选择中排除了哪些情况,包括了哪些情况(如无关的疾病),影响参考值的各类因素及调查中应注意之点。在做数据资料统计时,应根据资料的分布性质(是否属正态分布),采取适当的方法计算出参考值限度。
4.建立、移植参考值及其范围的注意事项 研究参考值及其范围应着重考虑如何保证样本的代表性和可用性。主要注意事项:①正确选择受检对象,以受检对象的确对所反映的总体具有代表性和不存在对指标具有影响的因素为原则;②合理规定参考人群的条件,如年龄、性别、民族、职业、女性的月经期、妊娠和哺乳,以及标本采集的时间和地区因素等;③保证一定数量的受检人数,一般应有100例以上,若指标分布呈偏态时应在120例以上,特殊情况至少也应30例以上;④测定方法应标准化,保证测定结果的可靠性和可比性。⑤根据专业知识确定单、双侧位界,严格按照统计要求进行测定结果的处理。
5.参考值在临床应用中应注意的问题 ①参考值的使用有一定的范围,仅适合于符合参考个体要求的参考人群。②参考值范围通常定为 ±2S,有时称为95%可信区间,即此范围仅覆盖研究人群的95%,因此,参考值范围不能盲目地作为正常与疾病的分界点。③综合评价,参考值在作为诊断和监测目的使用时,应注意年龄、性别、饮食、药物、个人习惯和体力锻炼等因素的影响。
二、分界值
(一)分界值的概念
分界值(cut off value)又称阈值、临界值、鉴别值、指定值等,指划分诊断试验结果正常与异常的界值。参考值概念的提出虽然澄清了正常值概念的模糊观点,但是当用医学试验作为过筛试验、确诊或排除疾病等不同用途时,单一个参考值不能满足不同的要求。为了提高诊断指标临床使用效果,不仅要研究基本健康者的参考值,也要研究其他无关疾病患者的参考值及有关疾病在不同病情中的测定数据,即根据不同的目的,研究健康(或称非病理的)与病理的分界水平。
(二)分界值的选择
分界值高低的确定直接影响诊断试验评价指标。当健康人的分布与病人的分布没有重叠,如图8
(三)分界值的选择方法
一般是先初步确定几个分界值,分别计算真阳性、真阴性、假阳性、假阴性数值,进一步计算诊断敏感性、诊断特异性等指标,最后根据早期诊断、疗效观察、流行病学调查等各种不同目的确定分界值。
三、医学决定水平
(一) 医学决定水平的概念
为了使诊断试验的应用更加合理,不仅应了解健康人的参考值范围与其他无关疾病患者该试验结果的分布范围,而且必须掌握该试验在本病不同病情时的变化范围。也就是不仅要有区分健康/非本病与本病的界值,还应有需要治疗与判断预后的界值。所谓医学决定水平,就是临床按照不同病情给予不同处理的指标阈值。医学决定水平是临床处理病人?quot;阈值",不同于一般所谓的分界值(高限或低限),同一试验可以定几个医学决定水平。检查所得数据高于或低于某个医学决定水平时,医生应采取对策。
一个诊断试验一般确定三个决定水平:①提示需要制定进一步检查计划的阈值,相当于待诊值;②提示需要采取治疗措施的界值,相当于确诊值;③提示预后或需要紧急处理的界值。Statland在其实验室提出的生物化学检验医学决定水平①、②、③见表8-3 。
表8-3 常用生化检查项目的医学决定水平
成分(单位) 参考值 水平① 水平② 水平③
Na+ (mmol/L) 138~146 115 135 150
K+ (mmol/L) 3.7~5.3 3.0 5.8 7.5
CL- (mmol/L) 98~109 90 112 -
TCO2 (mmol/L) 23~30 6.0 20 33
Ca2+ (mmol/L) 2.25~2.65 1.75 2.75 3.38
Mg2+ (mmol/L) 0.6~1.2 0.4 0.9 2.5
P3+ (mmol/L) 0.81~1.62 0.5 0.8 1.7
BUN (mmol/L) 2.9~9.3 2 10 18
Cr (μmol/L) 62~133 50 140 530
UA (mmol/L) 0.15~0.41 0.12 0.47 0.63
CH (mmol/L) 3.90~6.50 2.4 6.50 10.4
TG (mmol/L) 0.22~1.98 0.22 2.0 4.4
Glu (mmol/L) 3.30~5.23 2.48 6.6 10.0
Fe3+ (μmol/L) 9.0~29.5 7 40 70
Bill (μmol/L) 1.7~20.5 25 40 350
Alb (g/L) 35~50 20 35 52
TP (g/L) 60~80 45 60 80
ALP (U/L) 成人 25~90 - - -
小儿 50~350 50 135 400
ALT (U/L) 5~30 20 60 300
AST (U/L) 8~30 20 60 300
CK (U/L) 10~120 60 200 1500
LDH (U/L) 100~320 200 450 800
AMY (U/L) 110~330 90 225 370
GGT (U/L) 5~30 15 45 150
(二)危急值
危急值(Panic Values)是累积临床的经验而得的,它不可能用参考值估出。例如成人的血?gt;39.2mmol/L或<2.2 mmol/L;血钙>3.5mmol/L或<1.5mmol/L等都属于危急值。危急值是指需要立即采取临床干预的测定值。
有些试验是非特异性的或特异性较低,往往同一试验的不同水平可能与不同疾病有关。如甲胎蛋白(AFP),参考值上限为25 ?g/L,25 ?g/L~350 ?g/L,可能是肝炎、肝硬变等非肝癌病变所致,但如果>400?g/L,则提示原发性肝癌的存在的可能。>400 ug/L为原发性肝癌的阈值,这个值是参考值的16倍。从诊断肝癌的观点来看,AFP的参考范围是没有意义的。因此,设置同一试验对不同疾病的判断界限也是很有必要的。
(三)医学决定水平的制定
医学决定水平的制定不萁】等巳翰慰贾担惨菸薰丶膊』颊叩牟慰贾导坝泄丶膊』颊叻中停制诘牟舛ㄖ担被挂悸俏南鬃柿霞疤《允笛檎锒嫌蟹岣痪榈囊缴囊饧M?-3 说明医学决定水平与参考范围的关系,A 组系健康状况良好的人群,所得出的参考范围在两箭头之间。B 组是某种疾病患者。DL1 为一决定水平,此值的左侧可排除B疾病;DL2为另一决定水平,该值的右侧数值可确信患者有B疾病。
(四) 医学决定水平与数据合理适用
1.质量管理 医学决定水平的提出给实验室工作者提出了更高、更明确的要求。由于医生将根据医学决定水平作出生命攸关的决定,要求在这些水平上诊断试验有更好的准确度和精密度。在质控工作中,质控血清中分析物的浓度最好设在医学决定水平上。在进行方法学评价时,最重要的是考察在医学决定水平上诊断试验的准确度和精密度,即在这些水平上的随机误差、比例误差和恒定误差。例如饭后二小时血糖6.66 mmol/L(120mg/dl)是正常的,7.22 mmol/L(130 mg/dl) 水平将进一步考虑有糖尿病的可能。因此6.66 mmol/L 代表一个决定水平,要求测定方法在这个水平上具有更高的准确度和精密度,而11.1 mmol/L(200mg/dl)与13.88 mmol/L(250 mg/dl)之间差别不改变诊断, 也不改变治疗措施。
2.检验数据的使用 检验科通过开展室内质控和参加卫生部、省临床检验中心组织的室间质评活动,对一些检查项目测定的准确度和精密度进行了监测,从而能为临床医生提供更准确的资料和方法学数据。医生要善于利用这些数据,使检验结果发挥更好的作用。例如,临床医生了解实验室分析方法的精密度,即常规变异系数,就不致使自己对化验报告单中无价值的变化而作出错误的判断。一般认为,如果同一病人前后两次标本的测定结果的差异落在分析精密度的三个标准差之内,这种变化是没有生物学意义的。
在接到检验科的报告以后,如与临床情况不符合,最好及时与检验科联系,以便及时复查,进一步决定诊疗措施。
另外,许多资料是来自国外资料,不一定完全符合我国的情况,应该结合临床实践,注意不断总结经验。通过临床医学家和临床化学家的共同努力,今后将会提出结合我国具体情况的医学决定水平。
第三节 受试者工作特征曲线
一、受试者工作特征曲线的概念
受试者工作特征曲线(receiver operator characteristic curve, ROC曲线),最初用于评价雷达性能,又称为接收者操作特性曲线。ROC曲线是根据一系列不同的二分类方式(分界值或决定阈),以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标绘制的曲线,见图8-4。
评价试验的临床准确性以往普遍采用的方法是点图和频数分布直方图。利用点图可直观反映两组资料的重叠情况,但难以评价不准确性的程度。从直方图也难以描述重叠的程度和比较两个试验的准确性。一个试验的临床准确性可以用诊断敏感性和诊断特异性来测量,但仅仅报告敏感性和特异性一对数值可能产生误导和对准确性评价的过于简单化,它们不能提供试验准确性的完全图象,全面描述试验的性质。传统的诊断试验评价方法有一个共同的特点,必须将试验结果分为两类,再进行统计分析。ROC曲线的评价方法与传统的评价方法不同,无须此限制,而是根据实际情况,允许有中间状态,可以把试验结果分为多个有序分类,如正常、大致正常、可疑、大致异常和异常五个等级。因此,ROC曲线兰鄯椒ㄊ视玫姆段Ц惴骸?/p>
二、受试者工作特征曲线的主要作用
1.ROC曲线能很容易地查出任意界限值时的对疾病的识别能力 ROC曲线图上的每一点代表某一分界值的一对敏感性和特异性,ROC曲线包含着选择任意界限值时的敏感度和特异性。它能反映不同界限值时两者的变化。
2.选择最佳的诊断界限值 ROC曲线是表示灵敏度与特异度之间互相关系的一种方法,所得的曲线可以决定最佳分界值。一般多选择曲线转弯处,即敏感度与特异度均为较高的点为分界值。
3. 两种或两种以上不同诊断试验对疾病识别能力的比较 根据诊断试验的ROC曲线,可以比较两种或两种以上不同诊断试验对诊断同种疾病的可靠性,ROC曲线可以帮助医师作出最佳选择。
一个完美的试验(病与非病两个分布没有重叠)的ROC图通过左上角,其真阳性率为1.0或100%,即所有病人均显阳性;假阳性率是0 或特异性为100%,即正常人均为阴性。如两个分布一致,不能鉴别病与非病的试验的ROC图是45。的对角线。大多数试验的ROC图是介于上述两种极端之间。ROC曲线越靠近左上角,试验的准确性就越高。最靠近左上角的ROC曲线的点是错误最少的最好阈值,其假阳性和假阴性的总数最少。
在对同一种疾病的两种或两种以上诊断方法进行比较时,可将各试验的ROC曲线绘制到同一坐标中,以直观地鉴别优劣,靠近左上角的ROC曲线所代表的受试者工作最准确。亦可通过分别计算各个试验的ROC曲线下的面积(AUC)进行比较,哪一种试验的AUC最大,则哪一种试验的诊断价值最佳。
三、受试者工作特征曲线分析的主要步骤
1.ROC曲线绘制 依据专业知识,对疾病组和参照组测定结果进行分析,确定测定值的上下限、组距以及截断点(cut-off point)(或判定值),按选择的组距间隔列累积频数分布表,分别计算出所有截断点的敏感性、特异性和假阳性率(1-特异性)。以敏感性为纵坐标代表真阳性率,(1-特异性)为横坐标代表假阳性率,作图绘成ROC曲线。
通常的临床生化检查,结果多为连续的变量,可以选择任意点为判定值计算敏感性和假阳性率。按诊断等级进行分类评价时,最少应将诊断结果分为五级:正常、大致正常、可疑、大致异常和异常。
2.ROC曲线评价统计量计算 ROC曲线下面积(AUC)及其标准误(SE)的计算方法很多,统计学方法可用Wilcoxon非参数方法进行推算,目前已有相应的计算机软件可供使用。另一方法是将实际画出的图形描到方格纸上测定面积,该方法操作简便、精密度较高,但较繁琐。
ROC曲线下的面积值在1.0和0.5之间。在AUC>0.5的情况下,AUC越接近于1,说明诊断效果越好。AUC在0.5~0.7时有较低准确性,AUC在0.7~0.9时有一定准确性,AUC在0.9以上时有较高准确性。AUC=0.5时,说明诊断方法完全不起作用,无诊断价值。AUC<0.5不符合真实情况,在实际中极少出现。
3.两种诊断方法的统计学比较 这种比较可以在相同的特异性下比较它们的敏感性或在相同的敏感性下比较它们的特异性。但一个全面的方法是比较整个ROC图。通过计算ROC曲线下的面积,不同试验之间的临床准确性可以通过它们的各自面积进行定量比较,但单看面积这一数值,可能丢失一些信息,如两条ROC曲线形状不同,但它们有相似的面积。
两种诊断方法的比较,根据不同的试验设计可采用以下两种方法:①当两种诊断方法分别在不同受试者身上进行时,采用成组比较法。②如果两种诊断方法在同一受试者身上进行时,采用配对比较法。
四、受试者工作特征曲线的优点与局限性
1. 应用ROC曲线图的优点 ROC曲线的基本思路源于统计学决策理论,运用ROC曲线图进行评价具有许多优点:
(1)该方法简单、直观,通过图示可观察分析方法的临床准确性,并可用肉眼作出判断。
(2)ROC曲线将灵敏度与特异性以图示方法结合在一起,可准确反映某分析方法特异性和敏感性的关系,是试验准确性的综合代表。
(3)与阳性预测值不同的是ROC曲线评价方法与群体患病率无关。但实际工作中取患者与非患者的数目相等最好。
(4)ROC曲线不固定分类界值,允许中间状态存在,利于使用者结合专业知识,权衡漏诊与误诊的影响,选择一更佳截断点作为诊断参考值。
(5)提供不同试验之间在共同标尺下的直观的比较,ROC曲线越凸越近左上角表明其诊断价值越大,利于不同指标间的比较。曲线下面积可评价诊断准确性。
2.应用ROC曲线图的缺点
(1)ROC曲线图上显示的不是真正的判断值,实际的分界值通常没有在图上表示出来。
(2)研究分析对象的数目也没有在图上表示出来。
(3)当样品数减少,图形呈锯状和崎岖不平,即使样品数目大,也可能是崎岖不平。
(4)当没有微机时,画图和计算均比较繁琐。
五、受试者工作特征图与其他评价指标的关系
ROC图是临床医学中一个基本的评价工具,在试验评价过程中占有关键的位置(图8-5)。
第四节 诊断试验诊断性能的评价方法
临床医学实验室工作不仅要对检验项目的实验方法进行选择和评价,保证临床检验质量;还应对检验项目的检验效能与应用价值作出科学评价,从而有利于合理选择诊断实验,正确解释其试验结果,推广新的诊断试验,提高临床检验的质量。对于新的诊断方法,除专业要求外,还必须符合统计学要求。诊断试验一般分定性和定量两种,临床生物化学检验大多为定量诊断试验。衡量一个新的计量资料试验,必须具备线性范围、精密度、准确度、稳定性、比较试验和参考值范围等统计学要求。本节主要介绍诊断试验诊断性能的评价方法。一、诊断试验的统计评价方法
(一)评价的基本方法
医学诊断试验临床应用价值评定的基本方法是将待评价的诊断试验和标准诊断方法检测相同的受检对象,并进行盲法比较。根据标准诊断的结果将受检测对象分成病例组(患病组)和非病例组(对照组),依据待评价的诊断试验得出阳性和阴性结果并汇入四格表中,然后对诊断试验的真实性进行评价。试验可能出现四种结果:真阳性和真阴性的试验结果是正确的,假阳性和假阴性的试验结果是错误的(见表8-4)。
表8-4 评价诊断性试验四种可能的结果
诊断试验 标准诊断方法 合计
患某病 未患某病
阳性
阴性 真阳性a
假阴性 c 假阳性b
真阴性d a+b
c+d
合计 a+c b+d N
(二)评价研究的设计要点
诊断试验评价研究的设计包括以下方面:①诊断标准;②研究对象,包括选择研究对象、估算样本含量和防止选择偏奇与错误分类偏奇;③测量,包括确定测量方法、选择测量指标、同步盲法测量、注意可靠性测量和防止测量偏奇;④资料整理与分析,包括均衡性检验、选定截断点或诊断界限、计算评价指标和两个诊断试验比较。其设计要点如下:
1.确立诊断标准 诊断标准必须是金标准(gold standard)(或称规范标准),金标准指当前国内外公认的、诊断某种疾病最可靠的、在临床上能获得肯定结论的方法。如诊断肿瘤的金标准一般是病理学检查,诊断冠心病的金标准是冠状动脉造影,诊断肾炎的金标准是肾活检,诊断胆结石的金标准是手术所见,诊断心肌病的金标准是心肌活检等。金标准能正确地区分受试者患病与否,当然这是相对而言的。若金标准选择不妥,可造成错误分类,影响对诊断试验的正确评价。
需要说明的是,在进行诊断试验研究的评价时,必须与金标准进行比较非常重要。但是,由于金标准的方法往往费用高、需时长、创伤性大,有时还会涉及医德问题,因此,在实际工作中常难以完全用金标准方法来做研究。此时,可用经金标准方法严格比较的参照试验方法来进行弥补。
2.选择研究对象 研究对象选择的关键是选择的研究对象要能代表目标人群,即诊断试验的对象总体。根据金标准,用于评价诊断试验的受试对象将被分为病例组和对照组。
病例组是其总体的一个随机样本。可能影响试验结果的因素,如性别、年龄、疾病类型、病情等应能代表整个患病人群。病例组疾病的类型应包括各型病例,如典型和不典型病例,早、中、晚期病例,轻、中、重病病例,有、无并发症病例,经过治疗与未经过治疗的病例。对照组除被证实未患该病之外,在其他可能影响诊断试验结果的因素方面应与病例组有可比性。对照组应包括各种非该病者,特别是与所研究的疾病容易混淆,需要鉴别的病例。对照可以是健康者,也可以是其他疾病的患者。
诊断试验在检验前不分组,整理资料时才按金标准分组,所以属于内对照设置。
3. 估算样本含量 诊断试验需要有足够的样本含量。病例组或对照组的样本含量可用公式计算法或查表法估计,但不论采用哪一种方法,均可参照下列参数估算:显著性水平值α一般取0.05、容许误差值W(或δ)一般在0.05~0.10之间、率的估计值p由灵敏度(病例组)和特异度(对照组)估计。一般诊断性研究的样本量不小于100例,特殊情况下样本量不小于30例。
在初步了解诊断敏感性和诊断特异性后,病例组或对照组样本含量的估计可通过下列公式计算:
其中, 表示正态分布的面积,当采用95%可信限时,α= 0.05 ,Z=1.96;病例组P表示诊断敏感性,为对照组P为特异性;W 表示诊断敏感性或特异性允许波动范围。如波动范围为±0.05,W=0.1。
4.确定测量方法 测量方法应标准化。所谓标准化指要有具体的规定、明确的标准,如详细描述诊断方法及材料等。
5.选择测量指标 诊断试验的诊断指标有主观指标(如研究对象的主诉)、半主观指标(或半客观指标,如观察者看到的体征)和客观指标(如用仪器测量的数据)三类指标。观察指标要客观、特异,判断结果要标准明确、具体。
6.同步盲法测量 将病例组或对照组样本用金标准与待评价诊断方法进行同步盲法测量比较。测量在不了解其他情况下进行,金标准和所研究的试验一般要同步进行,并用盲法,即试验操作者不知道谁有病,谁无病;医生也不知道谁的结果阳性,谁的结果是阴性。同步是指同时间、同地区、同人群。
7.均衡性检验 均衡性指两种诊断方法或两组之间应该在基础参数、实验条件各方面均衡一致,才有可比性。如受试对象的基础参数指种属、性别、年龄、体重、血压等。当样本数目很大时,只要严格按照随机化方法抽样及分组,即可大体做到均衡。当样本数目很小时,则要求提高样本的均一性和采用配对分配或多组分配的随机方法。
8.选定截断点或分界值,计算评价指标 分界值的选定一般可采用以下方法:统计学方法(包括正态分布法和百分位数法)、受试者工作曲线法、两组分布交叉法、尤登指数计算法。
ROC 曲线法的基本步骤是先画频数分布图,选若干个分界值,计算评价指标(敏感性和特异性),画ROC 曲线,再根据不同目的,选择不同的分界值,最后再计算其他评价指标,一般选取假阴性和假阳性最少的点,也就是犯错误最少的点。
9.防止偏奇 通过选择可靠的金标准以及严格地选择研究对象以避免选择偏倚。应在相同的条件下以盲法同步地而被研究、评价的试验方法测试所有研究对象,以避免信息偏倚。此外,在数据处理时亦应注意统计学的正确使用。二、诊断试验的评价原则
从总体来说,一种新诊断试验应当满足科学性,先进性与实用性的要求。
(一)科学性
科学性指从诊断试验的研究方法上评价其真实性的问题,即试验本身的确能真实地反映疾病的本质或病理过程。
其评价的原则是:①必须将诊断试验与标准诊断方法(金标准)进行比较研究。这是评价诊断试验科学性的最重要的前提。②研究对象应具有代表性。这是决定诊断试验研究结果可信度的基础。研究对象应包括各种类型的临床病例,以及患有极易混淆的疾病患者。应介绍研究对象的来源,避免选择性偏倚。使研究对象中患某病与未患某病的两组有较好的可比性。③有足够的样本含量。④有合理可靠的临界值。即选择划分阳性和阴性的截点要恰当。⑤同时评价诊断试验的真实性和可靠性,评价指标计算正确,解释合理。⑥介绍研究方法应明确、具体。具体执行过程是否采用了盲法,一般多主张将标本重新排列,另行编号,以保证测试者无法知晓所测标本的原始诊断,可防止检查者主观因素的干扰。⑦所确定的参考值合理。⑧联合试验的评价应得当,临床实用性评价是实求实。
(二)先进性
先进性要求新试验本身与原试验相比应在某项或某些方面具有优越性;敏感度与特异度是最基本的比较指标,理想的情况是二者均有所提高。如实在无法达到理想的要求,可根据临床要求,在敏感度与特异度之间权衡利弊,侧重于其中之一。阳性预告值与阴性预告值也希望都能提高,但要结合二组试验人群的患病率一并比较。似然比是对比中的重要指标。阳性似然比越大,肯定诊断的价值越大;阴性似然比越小,否定诊断的意义就越大。重复性越好结果越稳定。
(三)实用性
实用性就是要求新试验比原试验在某项或某些方面更易于推广应用。包括仪器设备、试剂的费用大小、来源、操作难度及效率、效益、效能、副作用、对病人的危险性、病人的依从性等也应列为评价实用(可行)性的指标。
三、提高临床诊断效率的方法
(一)选择高患病率的人群,提高阳性预告值
从前述的Bayes公式可知,当诊断方法的敏感度与特异度不变时,阳性预告值随患病率(验前概率)的升高而变大。因此,临床上可通过询问病史、体格检查或高危人群的筛选等一般的实验室检测手段,减少假阳性病例数来提高患病率,进而提高阳性预告值,使病人得到及时确诊。
(二)利用联合试验来提高诊断敏感性或诊断特异性
临床上常用的诊断方法都是不够完善,敏感性和特异性均低于100%,因此,只靠单项试验来诊断疾病的情况很少,通常联合使用两种或更多种的试验来提高诊断敏感性或诊断特异性。
1.平行试验(并列法) A、B两试验同时做,有一项为阳性者就判断为阳性。可见平行试验可提高诊断敏感性,但降低了特异性。
2.系列试验(序列法) A、B两试验中,先做A,A为阳性者再做B,A、B都为阳性就判断为阳性。可见系列试验可提高特异性,但降低了敏感性。系列试验中,应先做特异性高的试验。



