评价证据
对文献的评价通常有许多阶段。例如,基于摘要的“首次评价”:减少无关“噪音”的影响,选取与疾病(例如慢性哮喘、偏头痛等)相关且运用正确方法学的高质量研究(例如系统评价、随机对照临床试验 [randomised controlled trial, RCT]、诊断研究等)。
一旦进行了系统检索,对于所检索出论文的标题/摘要,需要使用针对具体回顾/问题的标准进行评估(通常由进行检索的人员来完成)。如果一项研究的摘要表明这项研究确实不符合标准,那么您可以排除它。如果首次评价者不能通过标题/摘要中的信息明确排除该研究,那么他们将会把该文献纳入到筛选后的参考文献库中,以便进一步考虑。
基于全文的“二次评价”
对于需要进一步筛选的参考文献,将被继续进行全文评估,以决定在最终内容中将使用和引用哪些文章(通常由主要作者完成)。如果他们正在进行一项系统评价/概述,他们还需要证明他们希望排除该研究的理由是恰当的。他们会在评价中保留这些被纳入/排除研究的表格,以便可以生成一个关于被排除研究的列表,并记录他们对于被排除研究的决定。
基于全文的“三次评价”(QA 检查)
对于已完成的系统研究报告,通常需要对所选材料进行进一步评估,如果恰当,可以验证所纳入研究的质量和相关性。这一过程可以在报告最终定稿前,由合作作者或编辑/最终评估者独立完成。
平行评价
通常情况下,系统评价的作者至少要有两名人员在摘要和全文阶段对参考文献进行独立评估,讨论意见并解决分歧(必要时,需要由额外的评估者充当最后的仲裁员),对研究的纳入和排除达成共识。如果您希望按照循证的方式方法选择研究,通常建议在参考文献的评价和选择阶段,应有一名以上的人员参与。
评价研究方法的质量
应注意,没有研究是完美的。出于实用的目的,考虑与研究方法有关的以下三种可能情况可能对您有帮助:
- 如果方法是合理的——我们会纳入该研究。
- 如果方法是次佳的——我们会纳入该研究,但对于结果的解读,我们会持保留意见,并给予适当提醒。
如果方法不合理,即存在一种致命的缺陷或者结果偏倚的合理可能性——我们将排除该研究。
评估研究以判断它们是否具有最低质量标准(即,在最低可接受的样本量、随访、盲法质量[如果可以采用盲法] 和随访时长等方面)。然而,最低质量标准就是最低标准。例如,可能有一项试验将自身表述为随机试验,但进一步阅读后明显可以看出,治疗是在入院当天或者进行交替分配的。那么我们将这项试验表述为半随机试验,并可能因此而排除它。
类似地,关于系统评价,就所使用的方法和数据报告涉及的范围和程度而言,不同评价之间的质量可能存在很大的差异。的确,如果某篇回顾没有准确地报道其所使用的检索方法,有时很难确定该篇评价是否具有系统性。很难将所有可能出现的方法学问题或它们的相对重要性考虑得面面俱到。例如,一个有显著缺陷的因素可能会导致研究的全部结论被质疑(一种“致命的缺陷”)。
评估系统评价时可能考虑的质量问题包括:
- 此篇系统评价是否明确陈述了其问题和方法?
- 是否描述了检索方法,这些检索方法是否全面且可重复?
- 是否采取明确的方法来确定哪些研究被纳入到评价中?
- 是否评估了原始研究的方法学质量?
- 原始研究的选择和评估是否合适、可重复,并且没有可能的偏倚?
- 是否充分解释了个别研究结果的差异?
- 原始研究结果的合并方法是否合适?
- 评价者的结论是否有引用数据的支持?
评估 RCT 时可能考虑的质量问题包括:
- 是否清晰描述了研究背景和研究人群?
- 组间分配是否真正具有随机性,以及是否记录了组间相似性?
- 研究组的分配是否对受试者和研究者充分隐藏?
- 盲法质量如何?
- 是否报告了所有临床相关结局?
- 研究结论是否基于超过 80% 的研究对象的结果?
- 研究组的 RCT 分析是否基于被随机分组的人群(意向性分析)?
- 统计结果的统计学意义和临床重要性是否均被考虑?
考虑伤害相关的证据
在所有的研究类型中,严格进行的 RCT 或针对 RCT 的系统评价能提供最佳的因果关系证据,即一种治疗相比另一种治疗更有效。通常情况下,您也会报告所纳入 RCT 的或者针对 RCT 系统评价的任何不良反应数据。然而,RCT 常常不足以发现不良反应,其中一些可能是严重但很少见的不良反应。正因为如此,某些情况下,您可能还需要纳入能够提供不良反应信息的非 RCT 数据,以增强您研究发现的实用性和临床相关性。
应该指出,观察性研究的数据可能更容易出现混杂或偏倚。队列研究和病例对照研究更可能出现因组间不具有可比性而产生的偏倚。病例系列研究或病例报告研究是最弱的证据形式,但是病例报告中有害相关性常常在之后得到证实,并且有时能够为特定的治疗与不良反应间的相关性提供首次提示。