U.S. Newspaper Navigator

Este conjunto de dados consiste em conteúdo visual extraído de 16.358.041 páginas de jornais históricos na Chronicling America. O conteúdo visual foi identificado usando um modelo de detecção de objetos treinado em anotações das páginas Crônicas da América da Primeira Guerra Mundial, incluindo anotações feitas por voluntários como parte do projeto de crowdsourcing Beyond Words. O modelo de reconhecimento de conteúdo visual resultante detecta os seguintes tipos de conteúdo visual:

  • Fotografia
  • Ilustração
  • Mapa
  • Comics / Cartoon
  • Cartoon Editorial
  • Título
  • Propaganda

O conjunto de dados também inclui texto correspondente ao conteúdo visual, identificado pela extração do Reconhecimento Ótico de Caracteres, ou OCR, dentro de cada caixa delimitadora prevista. Por exemplo, se o modelo de reconhecimento de conteúdo visual previu uma caixa delimitadora em torno de um título, o conteúdo textual correspondente fornece uma versão legível por máquina do título; da mesma forma, para uma fotografia, ilustração ou mapa, essa representação textual geralmente contém o título e a legenda.

Dados e recursos

Informações Adicionais

Campo Valor
Região América do Norte
País Estados Unidos
Estado
Idioma Inglês
Nível da observação Jornal
API Sim
Microdados Sim
Coleta Administrativo
Ano(s) Pré-1999
Periodicidade Sem Atualização
Grátis Sim
Registro Não
Disponibilidade Online
IP brasileiro Não
Fonte https://news-navigator.labs.loc.gov/
Versão
Autor
Email Autor
Mantenedor
Email Mantenedor
Tipo de Download Link Externo