Newswire: um banco de dados estruturado em grande escala de um século de notícias históricas
Historicamente, nos EUA, os jornais locais extraíam seu conteúdo em grande parte de agências de notícias como a Associated Press. Os historiadores argumentam que as agências de notícias desempenharam um papel fundamental na criação de uma identidade nacional e na compreensão partilhada do mundo, mas não existe um arquivo abrangente do conteúdo enviado pelas agências de notícias. Reconstruímos esse arquivo aplicando um pipeline de aprendizado profundo personalizado a centenas de terabytes de imagens brutas digitalizadas de milhares de jornais locais. O conjunto de dados resultante contém 2,7 milhões de artigos exclusivos de notícias de domínio público dos EUA, escritos entre 1878 e 1977. As localizações nesses artigos são georreferenciadas, os tópicos são marcados usando classificação de tópicos neurais personalizada, entidades nomeadas são reconhecidas e os indivíduos são desambiguados para a Wikipédia usando uma nova entidade modelo de desambiguação. Para construir o conjunto de dados da Newswire, primeiro reconhecemos os layouts dos jornais e transcrevemos cerca de 138 milhões de textos de artigos estruturados a partir de digitalizações de imagens brutas. Em seguida, usamos um modelo de bi-codificador neural customizado para desduplicar artigos reproduzidos, na presença de escassez e ruído consideráveis, quantificando a extensão com que cada artigo foi reproduzido. Um classificador de texto é usado para garantir que incluímos apenas artigos de notícias, que historicamente são de domínio público. Os dados estruturados que acompanham os textos fornecem informações ricas sobre quem (indivíduos sem ambigüidade), o quê (tópicos) e onde (georreferenciamento) das notícias que milhões de americanos leram ao longo de um século. Também incluímos informações de metadados da Biblioteca do Congresso sobre os jornais que publicaram os artigos em suas primeiras páginas. O conjunto de dados Newswire é útil tanto para modelagem de grandes linguagens - expandindo dados de treinamento além do que está disponível em textos modernos da web - quanto para estudar uma diversidade de questões em linguística computacional, ciências sociais e humanidades digitais.
Organização
Harvard University
Cobertura temporal
1878 - 1977
® 2025 Base dos Dados