GitHub Typo Corpus

O GitHub Typo Corpus contém dados estruturados sobre erros de ortografia, gramática incorreta e as formas como eles foram corrigidos. Para construir o conjunto de dados, Masato Hagiwara e Masato Mita analisaram os "commits" - conjuntos de alterações nos arquivos, geralmente acompanhados de breves resumos - feitos para dezenas de milhares de projetos na plataforma de compartilhamento de código GitHub.

Com "mais de 350 mil edições e 65 milhões de caracteres em mais de 15 idiomas", os autores dizem que é "o maior conjunto de dados de erros ortográficos até o momento".

Dados e recursos

Informações Adicionais

Campo Valor
Região
País
Estado
Idioma
Nível da observação
API
Microdados
Coleta
Ano(s)
Periodicidade
Grátis
Registro
Disponibilidade
IP brasileiro
Fonte
Versão
Autor
Email Autor
Mantenedor
Email Mantenedor