NIH Open Citation Collection

O NIH Open Citation Collection reúne 420 milhões de citações acadêmicas na literatura biomédica. Os dados - os mais abrangentes disponíveis para biomedicina - agora sustentam a plataforma iCite do NIH. Para mais informações, ver [https://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.3000385](https://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.3000385). Atualmente, o iCite se baseia no PubMed para obter metadados cruciais de artigos, e essas informações são aumentadas com dados de citações de várias fontes. O NLM resolve citações de artigos do PMC para PubMed, divulgando-as através de alguns recursos (Entrez eLink, XML de texto completo do PMC e XML do MedLine). Aumentamos essas citações com dados de citação CrossRef, que são processados ​​por um resolvedor de citações para identificar citações adicionais de PubMed para PubMed. Para publicações desde 2010, o NIH-OCC possui mais links de citação e, portanto, é mais abrangente do que as fontes proprietárias líderes. Antes de 2010, um subconjunto de artigos históricos (normalmente publicado durante ou antes do início dos anos 2000) não recebeu DOIs atribuídos e, portanto, não é capturado no conjunto de dados CrossRef. Por esse motivo, aumentamos ainda mais essas fontes de dados com informações de artigos de texto completo que foram disponibilizados gratuitamente na Internet. Desenvolvemos um protótipo de pipeline de aprendizado de máquina, descrito abaixo, para identificar, analisar e resolver as referências desses artigos de texto completo para inclusão no NIH-OCC. Finalmente, uma vez resolvidas as citações, elas são inseridas em nossos pipelines de processamento de dados para o cálculo de métricas a jusante, como a Relative Citation Ratio [10] e o Potencial Aproximado a Traduzir [23]. No momento da redação deste artigo (julho de 2019), o NIH-OCC compreende mais de 420.000.000 de links de citação entre artigos publicados no PubMed (Fig 1A). A principal limitação do NIH-OCC é que, como parte do iCite, ele foi desenvolvido com foco biomédico; atualmente, seu universo de citações está restrito aos links de citações PubMed para PubMed. A maior contribuição vem do CrossRef, seguido pelo NLM e, finalmente, nosso pipeline de aprendizado de máquina de protótipo que extrai referências de artigos de texto completo (Fig 1B). Embora as referências do pipeline de aprendizado de máquina representem uma pequena fração do total no momento, esperamos que isso aumente com o tempo, à medida que novos documentos forem identificados e processados. Os dados podem ser acessados ​​por meio da interface da web do iCite (https://icite.od.nih.gov/; Fig 2), da API do iCite (https://icite.od.nih.gov/api) ou através de downloads em massa (DOI: 10.35092 / yhjc.c.4586573).

Organização

National Institutes of Health (NIH)

Cobertura temporal

Não informado

Dados
Guia de uso

® 2025 Base dos Dados

Termos de uso

Política de privacidade

Contato