现在已有许多核查表可用于诊断性试验研究的评价和严格评价,然而目前关于这些核查表的报告信息通常并不充分[1][2]。也许具体提法不一,但它们都包括了以下三个关键问题[2][3]:

  • 这项研究是否可靠?
  • 所评估的诊断性试验是否能够准确区分患有和未患有特定疾病的人群?
  • 我可以将这一有效、准确的诊断性试验应用于特定患者吗?

评价

我们如何评价一项诊断性试验研究是否可靠?

我们可以通过考虑以下问题来评价我们的研究是否可靠:

1.是否与诊断参考(金)标准进行独立施盲的比较?具体意思是什么

  • 研究中的患者应接受待评价的诊断性试验和诊断参考(金)标准试验的检查。为什么?为了确认或否定待评价试验的结果。相比于在不知道是否患有目标疾病的试验人群中实施待评价诊断性试验和金标准诊断性试验,初始在已经确定患病的人群中实施待评价诊断性试验,然后再在健康的人群中实施待评价诊断性试验(病例对照研究的方法),可能会高估该诊断性试验的准确性[4]。
  • 评估待评价诊断性试验结果的人员不应知道参考诊断性试验的结果。为什么?为了避免对待评价诊断性试验和参考诊断性试验的结果产生偏倚。在已知参考诊断性试验结果的情况下解读待评价诊断性试验结果,可能会导致过高评估待评价试验的准确性,在参考诊断性试验结果需主观解读的情况下尤其如此[4]。如果诊断性试验的结果是客观的(例如,结核病的血清学诊断:对痰培养结果进行分析),相比于一项需要基于临床解读的结果(例如,使用 MRI 诊断肩袖损伤),施盲就不那么重要了。

2. 诊断性试验是否在合适的患者群(类似于临床医生在临床实践中见到的患者)中进行了评价?具体意思是什么?

  • 研究是否纳入了具有目标疾病所有常见表现、早期症状、更严重症状的人群,和/或诊断时患有易与目标疾病混淆的其他疾病的人群?为什么?如果研究只纳入有明显症状的人和没有症状的人,则该研究不太有帮助!如果能用眼睛直观地诊断某些东西,为什么还需要诊断性试验?

3. 是否在不考虑待评价诊断性试验结果的情况下应用了参考标准试验?具体意思是什么?

  • 如果患者接受待评价诊断性试验检查后结果为阴性,那么研究者有时不会进行参考诊断性试验来确认阴性结果,特别是在参考诊断性试验有创或具有风险的情况下,因为这可能是不符合伦理的。为了克服这一点,研究人员采用另一种参考标准来证明患者未患有目标疾病,即进行长期随访以评估在没有实施任何治疗措施的情况下,患者没有任何与目标疾病有关的不良反应。为什么?为了确认待评价诊断性试验的准确性:换句话说,待评价诊断性试验的阴性结果实际上是正确结果,即患者(他/她)确实不患有这种疾病。

4. Was the test validated in a second independent group of patients? What does that mean?具体意思是什么?

  • 当评估一种新的诊断性试验时,存在这样的风险,即初始评估结果可能是由其他因素引起的:例如,关于该研究纳入的特定患者组别的一些情况(例如,他们仅代表具有晚期疾病症状的患者)。因此,为了证明结果的可靠性和可复制性,应该在第二个独立(或检验)组别的患者中对新的诊断性试验进行评估。为什么?如果第二组患者的结果与第一组患者的结果相似,那么我们可对诊断性试验的准确性感到放心。如果没有进行检验集研究,那么也许我们需要对判定持保留意见。

结论:如果我们正在评估的研究不符合这四项标准中的任何一项,我们需要考虑研究的缺陷是否导致结果无效。

 

我们如何评价诊断性试验结果?

诊断性试验研究通常报道的结果有两种类型。一种结果关注诊断试验的准确性,由敏感性和特异性来反映,通常被定义为诊断性试验能够发现疾病为真阳性(敏感性)或真阴性(特异性)的能力。理想的诊断试验应没有假阳性,并且同时不会漏诊任何存在这种疾病(没有假阴性)的患者——而这些说起来容易却做起来难!

另一种结果关注诊断性试验是如何在被检查人群中实施的,通过预测值(也被称为验后概率)和似然比来反映。为了给出一些术语简短的定义,请参考下面这个例子(基于参考文献[5]):

对 1000 名疑似痴呆的老年人进行待评价诊断性试验和参考标准诊断性试验检查。该组痴呆的患病率为 25%。其中 240 名老人的待评价诊断性试验和标准诊断性试验结果均呈阳性,600 名老人的两项检查结果均呈阴性。其余 160 名的检查结果不准确。

第一步是绘制一个2 x 2表格,如下图所示。我们已知痴呆的患病率是 25%;因此,我们可以最后一行填写总数:1000 名的 25% 是 250 名,所以 250 名老人会患痴呆,750 名老人不会患痴呆。我们也知道两种诊断性试验结果均呈阳性或均呈阴性的人数,所以我们可以填写表格中的另外两个单元格。

通过做减法,我们可以轻松完成表格:

现在我们准备计算各种不同的指标。

术语 定义 实例
验前概率=(真阳性人数+假阳性人数)/总人数 该指标告诉我们在进行诊断性试验之前患有目标疾病的概率 在这个例子中:390/1000 = 0.39。含义:在本研究中,进行诊断性试验之前,受试者患有痴呆的概率
敏感性性 (sensitivity, Sn)=在患有疾病的受试者中,检查结果为阳性的受试者所占比例 敏感性告诉我们该试验能在何种程度上识别出患者。高敏感性的检查不会漏诊很多患者 在我们的例子中,Sn = 240/250 = 0.96。含义:10 名 (4%) 痴呆患者被错误地认定为未患有痴呆,被正确识别出痴呆的患者则有 240 名 (96%)。这意味着该检查对识别疾病非常有帮助
特异性性 (specificity, Sp)=在未患疾病的受试者中,检查结果为阴性的受试者所占比例 特异性告诉我们该试验能在何种程度上识别出未患该疾病的人。高特异性的检查不会将许多人错误地识别为患有该疾病 在我们的例子中,Sp = 600/750 = 0.80。含义:有 150 名 (20%) 未患痴呆的受试者被错误地认为患有痴呆。这意味着这个诊断性试验在识别未患该疾病的人方面,仅有中等良好的效果
阳性预测值 (positive predictive value, PPV)=在具有阳性检查结果的受试者中,患有疾病的受试者所占比例 该指标告诉我们该试验在该人群中的表现如何。这取决于该试验的准确性(主要是特异性)和疾病的患病率 在我们的例子中,PPV= 240/390 = 0.62。含义:在检查结果为阳性的 390 名受试者中,实际上有 62% 的受试者患有痴呆
阴性预测值(negative predictive value, NPV)=在具有阴性检查结果的受试者中,未患疾病的受试者所占比例 该指标告诉我们该试验在该人群中的表现如何。这取决于该试验的准确性和疾病的患病率 在我们的例子中,NPV= 600/610 = 0.98。含义:在 610 名具有阴性检查结果的受试者中,98% 的受试者未患有痴呆
阳性结果的似然比 (likelihood ratio for positive results, LR+)=敏感性/被错误识别为患有该疾病的人所占百分比 该指标告诉我们该试验在该人群中的表现如何。这取决于阳性试验结果的诊断准确性(敏感性)以及被错误识别为患有该疾病的人所占比例。似然比> 1 表示试验结果与该疾病相关 在这个例子中,LR+ = 96/20 = 4.8。含义:患有痴呆的人获得阳性试验结果的可能性为未患痴呆者的 4.8 倍
阴性结果的似然比 (likelihood ratio for negative results, LR–)= 患有该疾病却被该试验诊断为未患该疾病的受试者所占百分比/特异性百分比 该指标告诉我们该试验在该人群中表现如何。这取决于阴性结果(特异性)的诊断准确性和患有该疾病却被该试验诊断为未患有该疾病的受试者所占比例。似然比<1 表示试验结果与不存在疾病具有相关性 在这个例子中,LR- = 4/80 = 0.05。含义:患有痴呆的人有 0.05% 的几率得到阴性试验结果

 

如何将诊断性试验应用于特定患者:

找到有效的诊断性试验研究后,如果确定其具有足够高的准确度,可以作为有用的工具,那么在将该试验应用于特定患者时,需要考虑以下几点:

  • 在我们的机构中,该试验是否可用、价格合理且准确?
  • 能否根据个人经验、患病率统计数据、临床实践数据库或原始研究对患者的验前概率进行临床合理估计?
  • 研究中的患者是否与正在讨论中的患者相似?
  • 我们正在分析的研究的即时性如何——自研究发表以来,是否有证据更新?

验后概率是否会影响对特定患者的管理?

  • 结果能否使临床医生跨过检查-治疗阈值 (test-treatment threshold):例如,依据检查结果,能够避免实施所有进一步的诊断性试验?也就是说,能够将目标疾病排除在外,这样临床医师将不再探索目标疾病发生的可能性,或者能够明确诊断为目标疾病,使重心转移到选择适当的治疗方案上。
  • 患者是否愿意接受该检查?
  • 检查结果是否会帮助患者达到他们的目标吗?

严格评价

基于以上评价部分给出的信息,下表列出了在严格评价诊断性试验研究时要查看的一些基本检查点。这份核查单不可能面面俱到,但是应该涵盖了所有的主要问题。核查单的主要关注点是前两个基于有效性和结果重要性的问题。

阅读更多相关信息

参考文献

  1. Bossuyt PM, Reitsma JB, Bruns DE, et al. Towards a complete and accurate reporting of studies of diagnostic accuracy: the STARD initiative. Clin Chem 2003;49:1–6. https://www.ncbi.nlm.nih.gov/pubmed/12507953
  2. CASP UK. Critical Appraisal Skills Programme (CASP) https://www.casp-uk.net (last accessed 9 March 2017)
  3. Sackett DL, Straus SE, Richardson ES, et al. Evidence-based medicine; how to practice and teach EBM. 2nd ed. Edinburgh: Churchill Livingstone, 2000.
  4. Lijmer JG, Mol BW, Heisterkamp S, et al. Empirical evidence of design-related bias in studies of diagnostic tests. JAMA 1999;282:1061–1066. https://www.ncbi.nlm.nih.gov/pubmed/10493205
  5. Centre for Evidence Based Medicine. https://www.cebm.net/likelihood-ratios/ (last accessed 9 March 2017).