基于PubMed记录角度分析数据库检索方法

2022-09-13 版权声明 我要投稿

检索PubMed时, 自动词语匹配检索和主题词检索保证了较高的检索质量。自动词语匹配检索是系统对输入的检索词在MeSH主题词转换表、刊名转换表、著者全称转换表或著者索引中进行匹配、转换和检索。如果找不到匹配的词, 系统将词组或短语拆分为单词, 再依次匹配、转换和检索。主题词检索是PubMed最有特色的检索方法, 主题词对同一概念的不同表达方式进行了规范, 可以通过组配副主题词和限定主要主题词使检索结果更加专指、准确, 还可以利用主题词的树状结构扩大或缩小检索范围。在实际应用过程中, 建议采用主题词检索与自动词语匹配检索相结合的方式, 本文从PubMed记录的角度分析其原因。

一、PubMed记录

在检索结果页面, 选择MEDLINE格式, 显示记录的全部字段, PubMed记录随着加工标引流程变化, STAT (Status) 记录状态字段呈现以下几种状态:

(一) MEDLINE记录

显示STAT-MEDLINE, MEDLINE记录又分为两种情况[1]:

(1) 在检索框输入medline[sb], 检索结果为MEDLINE记录, 是PubMed主体内容, 每条记录呈现完整的记录格式, 包括完成日期字段 (DCOM) 、子集字段 (SB) 和主题词字段 (MH) 等[2], 标注[Index for MEDLINE]。

(2) 在检索框输入jsubsetom, 即Journal subset OLDMEDLINE, 检索结果显示1940年—1968年度《医学累积索引》 (Cumulated Index MedicusCIM) 和《医学文献现期目录》Current List of Medical Literature (CLML) 收录的文献记录[3]。jsubsetom的检索结果包含在medline[sb]中。查看期刊的Search in NLM Catalog信息, In字段显示In:OLDMEDLINE, Current Indexing Status字段显示为Not currently indexed for MEDLINE或Currently indexed for MEDLINE, 有主题词字段, 标注[Index for MEDLINE]。OLDMEDLINE记录没有摘要, 作者关键词以字段Other Term[OT]的形式显示, 以星号表示主要概念。在PubMed中, 以haskeyword为检索式, 可以检索到有作者关键词的所有文献。

(二) PubMed-not-MEDLINE记录

以Pubmednotmedline[sb]为检索式检索PubMed-not-MEDLINE记录, 记录没有子集字段 (SB) 和主题词字段 (MH) 。PubMed-not-MEDLINE记录通常由In-DataReview记录转化而来。PubMed-not-MEDLINE记录包括以下几种情况[2]:

(1) MEDLINE收录期刊中非生物医学文献, 如《SCIENCE》是MEDLINE期刊但是其中收录了大量PubMed-not-MEDLINE的文献。

(2) 非MEDLINE期刊收录的文献, 即标注Not currently indexed for MEDLINE的期刊文献。

(3) 2003年后添加PubMed中, 出版日期早于MEDLINE标引日期的期刊文献。如The London medical journal创刊于1781年, 1791年被Medical facts and observations取代, 1781~1790年的文献都是PubMed-not-MEDLINE, 所有文献记录的修改日期 (LR) 字段为20171219, 即2017年12月19日。

(4) 依据NIH公共存取政策 (Public Access Policy) 提交的PMC引文, 包括作者手稿或出版商提供的非MEDLINE期刊记录, 用pubstatusnihms或pubstatuspmcsd进行检索[1]。

(5) 《美国内科医师学会杂志俱乐部》 (ACP Journal Club) 、《循证医学-精神健康》 (Evidence-Based Mental Health) 、《循证护理》 (Evidence-Based Nursing) 等期刊中发表的循证医学评估和总结相关的分析摘要属于PubMed-not-MEDLINE。记录的出版类型 (PT) 字段为COMMENT, 分析摘要与原文之间用“Comment on/Comment in”链接, 原文可以通过主题词检索。

(三) inprocess[sb]检索记录

以inprocess[sb]为检索式, 检索正在加工处理的MEDLINE期刊文献, 记录提供了基本的引文信息和摘要, 进入MEDLINE之前要进行信息校验和MeSH主题词标引。通常inprocess[sb]检索记录除具有进入pubmed、medline、entrez时间字段外, 还有received时间, 即接收稿件的时间;revised时间, 即出版社或作者修改稿件的时间;accepted时间, 即同意出版的时间。inprocess[sb]检索记录包括以下两种[1]:

(1) In-Data-Review记录是出版商提交NLM的电子记录, 要经过期刊级别的校验, 如:期刊名称、出版日期和卷、期等。与NLM存储的印刷版期刊、网络版期刊进行核对, 记录以In-Data-Review状态呈现。这些情况下, 因为印本期刊还没有到NLM, 数据没有经过准确验证, In-Data-Review记录在加工处理过程中可能会发生变化[4]。对In-Data-Review记录的期刊级别校验是质量控制的第一步。In-Data-Review记录通常转为In-Process状态记录, 最后变为MEDLINE或PubMed-not-MEDLINE最终记录状态[3]。

(2) In-Process记录In-Data-Review状态记录无论是否经过引文级别的校验全部转化为In-Process记录, 他们有相同的PMID号。In-Data-Review记录是经过期刊信息的校验, In-Process记录是引文级别的校验, 即核对作者姓名、文章标题和页码。大部分In-Process记录经过主题标引最终转为完整的MEDLINE记录, 一些MEDLINE收录的期刊 (主要是科学概论类期刊和化学类期刊) 中非生物医学文献, 转为PubMed-notMEDLINE状态, 极少部分记录被删除[3]。

(四) Publisher记录

以publisher[sb]为检索式检索PubMed中数据状态为Publisher的记录, Publisher记录包括以下几种情况[3]:

(1) PubMed中少部分非MEDLINE期刊的回溯数据。

(2) 正式成为MEDLINE期刊以前的回溯数据。

(3) 出版商以电子方式提交的期刊引文数据, 标注[Epub ahead of print]。发行印本期刊或电子版期刊后进行“期刊”级别的校验, 如期刊名称、出版日期、卷、期信息等。如果没有错误, 记录立即转为InData-Review状态并导出。

(4) 依据NIH公共存取政策 (Public Access Policy) , NIH资助的研究人员发表的科研成果, 如果发表在非PMC期刊上, 为了更好地获取这些研究成果, 要求他们交给PMC最终的同行评审稿件, 这些稿件的记录状态也是Publisher。

(5) NCBI Bookshelf中图书和图书章节的引文, 可以用pmcbook、pmcbooktitle或pmcbookchapter进行检索[2]。用“pubstatusaheadofprint”进行检索[1], 也可以检索到数据状态为Publisher的记录, 主要是E-Pub期刊的引文, 领先于纸本。其中包括PubMed-not-MEDLINE的记录。记录格式增加子集字段SB-IM、主题词字段MH, 2013年1月后保留作者关键词OT字段。由Publisher状态转变为MEDLINE状态, 记录状态转换的时间差距约半年以上。

二、PubMed检索

从以上对PubMed记录的分析了解到:

(1) 只有标注[Index for MEDLINE]的记录才具有主题词字段, 可以进行主题词检索;

(2) PubMed-not-MEDLINE状态的生物医学文献只能通过自由词检索;

(3) In-Process、In-Data-Review属于加工处理过程中的文献记录, 经过期刊信息和引文信息校验, 最后变为MEDLINE或PubMed-not-MEDLINE最终记录, 记录状态转换的时间差距约半年以上, 信息及时准确, 通过自由词进行检索。

(4) Publisher记录主要是标注[Epub ahead of print]的记录, 主要特点是领先于纸本, 信息及时但未必确切, 要快速了解生物医学领域信息的主要来源, 只能通过自由词进行检索。

摘要:通过列举PubMed数据库中处于不同加工流程的MEDLINE、PubMed-not-MEDLINE、In-Process、Publisher、In-Data-Review5种文献记录格式, 分析其收录范围, 基于不同文献记录格式的特征, 提出针对性检索方法。

关键词:PubMed记录,PubMed检索,检索方法

参考文献

[1] Advanced PubMed® Searching Resource Packet[EB/OL].[2019-05-18].https://nnlm.gov/sites/default/files/shared/files/trifolds/pubmedpacket.pdf.

[2] MEDLINE®/PubMed® Data Element (Field) Descriptions[EB/OL].[2019-05-18].https://www.nlm.nih.gov/b sd/mms/medlineelements.html#stat.

[3] The Elements and Their Attributes in Pubmedarticleset[EB/OL].[2019-5-20].https://www.nlm.nih.gov/bsd/licensee/elements descriptions.html.

上一篇:乡村振兴存在问题及发展模式探讨——以东西湖·天域田园为例下一篇:我国乡村发展政策梳理与乡村振兴内涵再认知——基于扬州市江都区的案例观察