[trabalho em progresso] Projeto permanente para coordenar a criação e atualização de conjuntos de dados linguísticos (como os que podem ser usados para detectar discriminação e discursos de ódio) preferencialmente validados por pessoas representantes dos grupos afetados ou de especialistas do assunto. Dedicado ao domínio público.
Índice de conteúdo
NOTA: neste momento, 2020-12-01, o conteúdo disponibilizado aqui não está pronto para uso final e serve principalmente para testar estratégias de como coletar e HXL hashtags para usar para classificar a informação.
Diferente do EticaAI/linguistic-datasets-portuguese (que é uma lista para diferentes conjuntos de dados linguísticos em português de diversas fontes) este repositório contém referência para os próprios conjuntos de dados onde Etica.AI serve como organização para permitir colaboração de forma permanente.
Datasets linguísticos em português são raros, pouco completos e, quando existem, frequentemente estão em licença de uso restrito ou dependem de acesso a APIs proprietárias, mesmo que gratúitas. A importância do nosso trabalho aqui, de até mesmo liberar uso comercial, tem potencial para ajudar em automações (como detecção de de ataques verbais).
Não apenas o HXL (The Humanitarian eXchange Language) é nosso principal formado de armazenamento de dados neste projeto, como há uma troca de ajudas, de via dupla, com pessoas que já trabalham na área de tecnologia de informação de de organizações humanitárias internacionais.
Seu feedback em como melhorar processos de colaboração podem ter impacto até mesmo fora dos países de língua portuguesa. Você, quer seja desenvolvedor de software a até mesmo membro de comunidade tipicamente afetada (mesmo sem saber inglês ou sem ter afinidade com computadores) caso tenha interesse podemos ajudar você a se preparar além do seu país de origem.
Para fins deste projeto, tanto as pessoas da Etica.AI como do HXL-CPLP devem ser vistos como facilitadores, não como criadores. Pessoas da comunidade afetada, mesmo que não sejam especialistas com doutorado acadêmico (mas que, ainda assim, tem coragem de ajudar montar conteúdo inicial que pode ser revisado no futuro) são os principais viabilizadores de toda idéia.
Uma das implicações de conjuntos de dados dedicado ao domínio público é que o resultado final pode não conter nome de indivíduos (nem mesmo Etica.AI / HXL-CPLP) dentro do possível vamos ver formas alternativas de valorizar em especial contribuição de pessoas que ajudem a coordenar/revalidar trabalho de outras ou que criaram conteúdo inicial significativo inclusive se você prefere não assumir autoria de suas contribuições por medo de retaliações.
Na medida do possível segundo a lei, Etica.AI renunciou a todos os direitos autorais e direitos conexos ou vizinhos a este trabalho para o Domínio Público.