American Stories

O conjunto de dados American Stories de Melissa Dell et al. contém o texto de aproximadamente 400 milhões de artigos de jornais, extraídos de aproximadamente 20 milhões de digitalizações de domínio público no projeto Chronicling America da Biblioteca do Congresso. Para construir o conjunto de dados, os autores construíram “um novo pipeline de aprendizado profundo que incorpora detecção de layout, classificação de legibilidade, OCR personalizado e associação de textos de artigos abrangendo várias caixas delimitadoras”. Para cada artigo, o conjunto de dados fornece o nome do jornal, número da edição, data de publicação (principalmente entre 1800 e 1920), número da página, manchete, assinatura e texto do artigo.

Organização

Harvard University

Cobertura temporal

1780 - 1960

Dados
Guia de uso
Loading...

® 2025 Base dos Dados

Termos de uso

Política de privacidade

Contato