骑行活动策划方案:PubMed及类似网络检索系统的分析

来源:百度文库 编辑:偶看新闻 时间:2024/05/04 10:05:46

        高通量技术和大规模数据处理技术在过去10年发展迅猛,作为二者载体的文献也呈现爆炸性增长的势头。文献的阅读对于许多从事生物医学研究的科学家和医务工作者都是至关重要的,但是囿于文献数量的庞大和迅速增长,想要全面掌握和跟踪最新的科学进展显得尤为困难。为此,NCBI不断地为PubMed添加功能,使之更加有利于用户的使用;同时,一些其他机构(如Google Scholar)也投入到文献服务中来,开发出一系列更加适于用户使用的文献服务工具。这些尝试与文字信息挖掘(text mining)技术一起提供了更加先进的网络工具,使PubMed的检索质量进一步提高。NCBI的Lu回顾了28种与PubMed相关的工具,阐明了它们的创新点、与PubMed及互相之间的关系,并前瞻了PubMed未来的发展方向。

巨量文献需要更有效的检索工具

    文献检索即是指检索人根据不同的需求通过工具来查找所需文献的过程。在本文中检索工具是网络为基础的在线系统,文献仅限于生物医学领域,检索人包括对特定内容感兴趣的用户和需要特定文章中数据的用户。2010年,PubMed中已有两千多万文献。PubMed是NCBI数据库系统的一个组成部分,提供38个数据库的检索。现在PubMed包括5000余种从1948年起生物医学杂志的全文或摘要,成为至今为止最重要的生物医学检索工具,为全世界的研究人员提供最新的医学信息。

    尽管PubMed是一种强劲的检索工具,但是对于个人来说,迅速检索到自己感兴趣的文章越来越难。结果,用户经常被成百上千的条目所困:1/3在PubMed上进行的检索,其结果超过100条文献。NCBI不得不建议用户用更加精确的检索词来回避这种信息超载,除此以外,PubMed的公开性使得一些外部的工具得以替代PubMed成为更加有效的检索方法。

    对于这些替代工具以前也有过介绍,但本文与之不同的是首先大部分替代检索系统以前未经过详细的介绍或是2008年以后出现的系统;其次我们使用了不同的分类标准来对系统进行分类和比较,以便使用户可以更加详细地了解这些系统的异同;第三,我们提供了这些系统的细节,并提供了我们对于PubMed认识的第一手资料;最后我们建立了一个这些工具的统一接口并且为将来新系统的注册提供地址(http://www.ncbi.nlm.nih.gov/CBBresearch/Lu/search/)。我们提供了文献检索的一站式服务(one-stop shopping)。

PubMed的工作方式

    PubMed提供自然语言(英语)检索,自由写入文字,反馈给用户与检索词匹配的文献列表。搜索策略有两点特征:首先PubMed具有词汇自动转换功能(Automatic Term Mapping),这包括MeSH转换表(MeSH Translation Table),包括MeSH词、参见词、副主题词等;刊名转换表(Journal Tanslation Table);短语表(Phrase list)及著者索引(Author Index)。并且支持布尔运算。

    其次,PubMed的文献排序并不以相关性而以时间为准,即所谓的逆时间排序。

类似检索系统及特征比较

    在本文中,我们选择检索工具的原则有三:首先,它们应当基于网络而提供的内容应当与PubMed相同。所以超出摘要检索的检索工具例如以全文为检索对象的谷歌学术(google scholar)、PubMed central和以图/表格为检索对象的Biotext、耶鲁大学的Yale image finder被排除在外。由于我们只关心生物医学领域,所以一些更加普遍的工具例如谷歌被排除在外;第二,这些工具应当涵盖大多数的生物医学领域,换言之,能够提供更加广泛的背景材料;第三,这些工具必须免费。以上面三点为标准,一共入选28种检索工具,详见表1及表2。表1所表示的是这些工具在何时面世以及各自的基本技术特征,表2则对28种工具及PubMed之间做出比较。这种比较的结论是基于我们所做的一项研究所得出的,以PubMed为参照,比较这些工具与PubMed的检索结果的区别。

共同特征

    通过表1及表2,我们很明显可以得出以下结论:

  1. 大多数的工具的名称都包含“Pub”或“Med”,表现出这些工具与PubMed的相关性
  2. 这些工具均是过去10年中开发出来的,这也正是文字信息挖掘技术取得进展并成熟的一个阶段。
  3. 大多数此类工具都是大学或学院开发的。也有少数工具属于个人。
  4. 大多数此类工具的查询结果以条目的方式列出,也有一类工具提供了查询词的聚类查询。
  5. 尽管仅有少数几个工具提供全文链接,并且可通过文献管理软件来导出查询结果,但几乎所有的工具都提供对PubMed的链接。
  6. 衡量下来,参考文献排序类的工具占大多数,体现了现有技术的方向。

(一)查询结果排序

  1. RefMed基于用户的反馈来进行持续改进的排序算法。
  2. Quertle是一种语义检索平台,由Quertle公司与PubMed联合推出。其技术核心是允许用户将查询结果与生物医学概念相结合,这样更容易使用户获得一种纵观的印象并易于进一步的查询。
  3. MedlineRanker使用贝叶斯模型对某一主题进行阐释,当一些关键词被提出来之后,某一主题的大致样貌便浮出水面,然后利用贝叶斯模型来进行修改。这样更有利于当新文献出现后可以对某一主题重新审视。
  4. Misearch也是种基于用户反馈的排序系统,与RefMed不同的是它可以记录用户的检索词,然后根据这些有反馈的检索词以及用户点击文章的顺序来获得用户的实际需求。
  5. Hikia是一个封闭系统,由专业公司提供,它包括数千万个条目,但具体排序算法未知。
  6. Semantic MEDLINE与Hikia类似,基本算法未知,但可能是以检索词概念和认知理论为基础。
  7. MScanner与MedlineRanker最为相似,它不使用检索词,而使用期刊缩写和Mesh。
  8. eTBLAST专注于相关文献,与PubMed不同的是它首先使用文字统计来获得两篇文章重叠的部分。
  9. PubFocus则利用一些特定的参数来控制文献排序,例如影响因子、每一作者的贡献、文献历史、文献动态(reference dynamics)。
  10. Twease采用传统的BM25排序算法。

    (二)参考文献聚类

  1. Anne O' Tate将PubMed的检索结果作为初步结果,以关键词、MeSH主题词、相关性、附属关系、作者等实现设定含义的参数为指标对结果进行分类。
  2. McSyBi最重要的一点是可以确定参考文献间的相关性,并允许用户对其进行重排。
  3. GOPubMed GO即是基因实体(gene Ontology),它允许用户在以下四个方面对文献进行聚类:生物医学概念、作者、文献所在期刊以及日期。
  4. ClusterMed允许用户进行如下排序:①标题、摘要、MeSH;②标题、摘要;③MeSH;④作者名;⑤从属关系;⑥日期。
  5. XplorMed则代表一种逼近算法,当用户获得文献后,既可以继续下一步的查询,也可以分析现有文献中的关键词以便进一步地进行分析,或者对参数进行限定来获得更精确的检索结果。

(三)基于语义的结果扩充

  1. MedEvi提供10类生物研究实体(例如基因、蛋白),这样检索结果便可以附着于每类实体的后面。
  2. EBIMED提取每篇文章中的概念实体(药物、蛋白)将其汇总在一起。这样之间的关系就更为明确。
  3. CiteXplore则将生物数据提取出来,除了PubMed中的数据之外,它还提供欧洲专利局的专利和中科院上海生命信息中心的数据。
  4. MEDIE则将每个MeSH嵌合到摘要的句群中,来获得生物实体间的相互关系。这一点与下面的iHOP类似。
  5. Pubnet其中的net表示的是生物实体间的相互关系,当查询结果出现后实际上输出为XML语言的网络图。

    (四)改善的检索界面

  1. iPubMed是一个互动的检索窗口,随着查询词的不断增加,参考文献的数量不断减少。
  2. PubGet直接显示PDF。
  3. Babelmesh提供非英语的查询。
  4. Hubmed包括多种文献的显示方法,既有以日期和相关性为基础的文献排序,也包括文献聚类。
  5. askMEDLINE,所谓ask就是提出真正的问题而非检索词来让PubMed回答,例如一些临床上处置的问题。
  6. SLIM提供滑块界面。
  7. PICO主要面向临床医生,以问题的形式进行查询。
  8. PubCrawler每日的更新提醒。

(五)其他有益的尝试

  1. iHOP以摘要的句子为基础,每句话一个条目。这样便可以得到最迅速的关于某个基因的信息。
  2. PubMed Assistant、alibaba、PubMed-EX三者都是基于网络的查询助手,其中PubMed Assistant提供关键词强调、易于导出到文献管理软件等功能,而alibaba、PubMed-EX则属于基于语义的结果扩充工具,同时alibaba还以图表形式提供生物实体间共出现的频次。

对于新特征的讨论

  •     查询的相关性

    由于多数的查询者仅仅关心极少量的查询结果,所以文献的相关性就显得尤为重要。目前有十种工具可以解决这一问题。尽管它们都是用户输入关键词然后将结果反馈给用户,但是它们处理这些关键词的方法不尽相同。例如与PubMed的词汇自动转换功能类似的,Twease在反馈参考文献时还反馈相关的MeSH,这样检索者就可以沿着MeSH继续查询,这一点对于检索结果为0篇及1篇时尤为重要。另外,检索结果排序是针对PubMed默认排序的有效补充,但这种排序的技术路线又有很大差别,从最初的用户排序,到相关性排序算法,再到特定领域重要因素算法以及一些未知的算法。

  •     结果分析

    PubMed的默认搜索结果为一个长的条目,每页20个,点击每个条目后将显示文献的基本信息和摘要。现有的其他系统对PubMed的查询结果改善包括两个方面。第一个方面是由于PubMed的检索结果总是一列条目并且需要手动检索,参考文献聚类下面的各个工具则是为了把这个长的条目缩减为短的、意义明确的聚类条目,参考文献被分配在条目之下,这样当检索者查看文献时就会迅速地找到他们感兴趣的文章。有鉴于此,选择合适的主题词汇到合适的聚类下面成为此类工具开发的中心。现在所有的主题词都是生物医学参照词汇(例如MeSH)。

    第二种拓展来源于信息挖掘技术,而基于语义学的数据挖掘有可能成为检索技术的一项里程碑。基于词汇内涵的数据挖掘和生物信息提取技术使“基于语义的结果扩充”一类的工具有了长足的发展,不管这项技术将来的发展程度如何,疾病、药物、基因、蛋白及它们之间的相互关系可能会在信息检索之外的领域中大放光彩。

  • 界面和易用性
    为了改善PubMed的检索质量,一些工具从不同的角度对其进行了改良,例如用户特定的问题、非英语人士文献检索、新的限定条件的技术方法。结果输出和直观性改善则表现为两个主要的方面,添加图表显示以增加摘要的可读性,及提供更便捷的PDF下载。

PubMed的改变及未来趋势

    为了满足文献搜索的需要,PubMed自身也有了很多变化,在过去的10年中,28种工具因运而生。它们之间有可能会互相学习,例如“相关文献”是由PubMed首先提出的,而邮件更新提醒则是由其他工具提出的。PubMed也一直致力于生物医学数据的整合,例如基因和蛋白序列等信息,现在已在较为醒目的位置给予检索者提示。

    其他值得一提的还有为了提醒检索者其他一些重要的参考文献或综述,PubMed还提供了相关文献的窗口。虽然eBLAST也提供类似的服务,但两者获取相关文献的算法并不相同。另外,对于临床研究人员来说,有时仅需获得临床上的数据便可,所以PubMed最近又提供了临床查询界面,使文章仅限于临床报道。另外一个例子是PubMed所提供的参考文献匹配器(citation matcher)。最后为了改善从一长串文献列表中提取出最重要的文献,“also try”按钮为检索者提供包含有检索词的最重要的文献。

    考虑到界面和易用性,PubMed为所有的用户提供特定的服务,例如用户可以自己添加喜好和筛选参数。另外2009年PubMed重新设计了检索界面和主页,使用户更容易使用。

    为了使用户跟上日益增长的新文献,PubMed利用数据挖掘和提取技术使文献检索能力更加符合科学,同时,PubMed还整合了上述各种工具在同一页面下,使得“一站式”检索成为可能。这样也使当某种更加先进的检索工具进入人们视野时可以更容易与现有检索技术相融合。