我已经运行临床检索引擎 Trip Database 近二十年,随着它的发展,我有与其他持不同观点的机构或个人一起工作的机会。最近涉及到的是学术信息检索领域:与格拉斯哥大学学者们一次偶然对话,改变了我对检索的看法。我了解到的一个非常重要的概念是点击流数据:数据网站收集用户与站点的交互信息。例如,在 Trip 网站,这个数据就等同于使用的检索词和用户点击的文章。

有一件事很肯定,即 Trip 有很多这样的数据流。自从我们开始收集数据流以来,每个月的检索量能够达到一百万次以上(绝大多数来自医疗卫生专业人员),至今我们已经积累了数亿的数据点。这符合作为大数据的要求。就像所有的大数据项目一样,诀窍似乎就是弄懂这些数据的意思,我觉得这是一项我们刚刚开始的工作。

例如,用户检索“痤疮和米诺环素”,我们可以推断用户对米诺环素治疗痤疮的疗效感兴趣。之后用户可能会点击 Cochrane 系统评价“米诺环素治疗寻常痤疮:疗效和安全性”,这可能会加强上述推论。如果孤立地来看,其价值可能非常有限,但把成千上万人的检索行为汇集在一起,将会揭示行为模式,由此可以洞察临床医生不确定的问题。如果我们只看到一个“米诺环素和痤疮”的检索,我们可能会得出结论,医疗卫生专业人员对这一问题的兴趣有限,这也许只是一个随机检索。然而,如果在一个月内这一词条被检索了一百多次,则可能会提示医疗卫生专业人员对这个问题明显感兴趣以及不确定。

Trip 自 2010以来就已经开始捕获使用数据(也被称为点击流数据),目前已经积累了数亿个数据点。但是这些数据有用吗?第一个利用 Trip 数据的主要分析是描绘在用户同一个检索过程中所查看的文章情况。下图为一个例子:

在这一张图片中,我们选择检索尿路感染 (UTI),并描绘出连接情况(当用户在同一检索过程点击同一篇文章时,就出现了连接——用户根据自己的意图进行链接)。可以看到,这些文章按照不同的主题汇集在一起。在左下角有一组很明显的文章是关于 UTI 和蔓越莓的。似乎可以合理地认为,这 19 篇文章构成了关于这一主题的核心文章;所有文章都是由 Trip 用户选择的。同样有意思的是那些从来没有点击过的文章,那么哪些文章对用户没有吸引力呢?随着“影响”成为一个越来越重要的概念,人们不看的文章应该与点击的文章一样有趣。

最近,作为 Horizon 2020 资助的 KConnect project 项目的一部分,我们的工作/分析得到了维也纳科技大学 (Technical University of Vienna, TUW) 的推动。TUW 提供给我们的工具使我们能够更好地理解数据。虽然 Twitter 问答小测验可能只是针对数据的表浅使用,但是已经证明这具有洞察力。第一个小测验询问在痤疮、湿疹和银屑病中,用户检索最多的是哪一个。超过一半的人认为最常检索的是痤疮,而实际上却是银屑病。同样地,当我们询问在流感、麻疹、寨卡和疟疾中哪一个最常被检索时,大多数用户 (80%) 说是寨卡,实际上是流感。虽然数量相对较小,但这也表明个人不容易猜测到真正存在不确定性的问题。因此,数据驱动(“循证”)分析似乎是揭开临床不确定性的有用工具。

对数据进一步分析表明,当人们检索流感相关内容时,最常检索奥司他韦和流感病毒疫苗。在检索寨卡时,最常检索疫苗、胚胎病和成像!

对数据进一步分析表明,当人们检索流感相关内容时,最常检索奥司他韦和流感病毒疫苗。在检索寨卡时,最常检索疫苗、胚胎病和成像!

可以每周分析一次数据,无论是检索词还是查阅的文章。通过这种分析,可以发现关于某主题的趋势。有些事情可能是很大不确定性的来源,但随后的新证据或指南可能会给医疗卫生专业人员带来所需要的确定性,从而减少了对检索答案的需求。例如,我们已经发现与 Google Flu Trends service 所发现类似的趋势,即:所收到的查询数量与报告的流感发病率紧密匹配。

最初我们仅仅是好奇,用户与网站的互动方式是否会提供有价值的信息?我们认为肯定很有意思而且有潜在的应用价值。例如,我们已经在讨论与大型研究资助者一起使用这个数据,帮助确定新研究的优先次序。虽然双方都没有给出明确答案,但却可能是在理解不确定性的过程中的一步。这样会使目前使用的劳动密集型系统更具价值。

作者:Jon Brassey

Jon Brassey 是 EBM 检索引擎 Trip Database 数据库的创建者和负责人。此外,他还担任威尔士公共卫生局 (Public Health Wales) 的知识运用领导、牛津循证医学中心 (Centre for Evidence-Based Medicine, Oxford) 的名誉研究员。点击流分析是 Trip 正在发展的一个领域,将来可能会带来一些商业利润。