American Stories
O conjunto de dados American Stories de Melissa Dell et al. contém o texto de aproximadamente 400 milhões de artigos de jornais, extraídos de aproximadamente 20 milhões de digitalizações de domínio público no projeto Chronicling America da Biblioteca do Congresso. Para construir o conjunto de dados, os autores construíram “um novo pipeline de aprendizado profundo que incorpora detecção de layout, classificação de legibilidade, OCR personalizado e associação de textos de artigos abrangendo várias caixas delimitadoras”. Para cada artigo, o conjunto de dados fornece o nome do jornal, número da edição, data de publicação (principalmente entre 1800 e 1920), número da página, manchete, assinatura e texto do artigo.
Organização
Harvard University
Cobertura temporal
1780 - 1960
® 2025 Base dos Dados