Conjuntos de dados linguísticos em português via cooperação com comunidades

[trabalho em progresso] Projeto permanente para coordenar a criação e atualização de conjuntos de dados linguísticos (como os que podem ser usados para detectar discriminação e discursos de ódio) preferencialmente validados por pessoas representantes dos grupos afetados ou de especialistas do assunto. Dedicado ao domínio público.

Índice de conteúdo

Conjunto de dados
Grupos envolvidos

Conjunto de dados

NOTA: neste momento, 2020-12-01, o conteúdo disponibilizado aqui não está pronto para uso final e serve principalmente para testar estratégias de como coletar e HXL hashtags para usar para classificar a informação.

HXL-CPLP-Publico
- https://drive.google.com/drive/u/1/folders/1VLm29IBV6iOnfagRKKD8cLntDAjIjL0z

Grupos envolvidos

Papel da Etica.AI

Diferente do EticaAI/linguistic-datasets-portuguese (que é uma lista para diferentes conjuntos de dados linguísticos em português de diversas fontes) este repositório contém referência para os próprios conjuntos de dados onde Etica.AI serve como organização para permitir colaboração de forma permanente.

Datasets linguísticos em português são raros, pouco completos e, quando existem, frequentemente estão em licença de uso restrito ou dependem de acesso a APIs proprietárias, mesmo que gratúitas. A importância do nosso trabalho aqui, de até mesmo liberar uso comercial, tem potencial para ajudar em automações (como detecção de de ataques verbais).

Papel do HXL-CPLP

Não apenas o HXL (The Humanitarian eXchange Language) é nosso principal formado de armazenamento de dados neste projeto, como há uma troca de ajudas, de via dupla, com pessoas que já trabalham na área de tecnologia de informação de de organizações humanitárias internacionais.

Seu feedback em como melhorar processos de colaboração podem ter impacto até mesmo fora dos países de língua portuguesa. Você, quer seja desenvolvedor de software a até mesmo membro de comunidade tipicamente afetada (mesmo sem saber inglês ou sem ter afinidade com computadores) caso tenha interesse podemos ajudar você a se preparar além do seu país de origem.

Papel de pessoas da comunidade

Para fins deste projeto, tanto as pessoas da Etica.AI como do HXL-CPLP devem ser vistos como facilitadores, não como criadores. Pessoas da comunidade afetada, mesmo que não sejam especialistas com doutorado acadêmico (mas que, ainda assim, tem coragem de ajudar montar conteúdo inicial que pode ser revisado no futuro) são os principais viabilizadores de toda idéia.

Uma das implicações de conjuntos de dados dedicado ao domínio público é que o resultado final pode não conter nome de indivíduos (nem mesmo Etica.AI / HXL-CPLP) dentro do possível vamos ver formas alternativas de valorizar em especial contribuição de pessoas que ajudem a coordenar/revalidar trabalho de outras ou que criaram conteúdo inicial significativo inclusive se você prefere não assumir autoria de suas contribuições por medo de retaliações.

Licença

Na medida do possível segundo a lei, Etica.AI renunciou a todos os direitos autorais e direitos conexos ou vizinhos a este trabalho para o Domínio Público.

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
bin		bin
img		img
README.en.md		README.en.md
README.md		README.md
UNLICENSE		UNLICENSE

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Conjuntos de dados linguísticos em português via cooperação com comunidades

Conjunto de dados

Grupos envolvidos

Papel da Etica.AI

Papel do HXL-CPLP

Papel de pessoas da comunidade

Licença

About

Releases

Packages

Languages

License

HXL-CPLP/EticaAI-linguistic-datasets-pt

Folders and files

Latest commit

History

Repository files navigation

Conjuntos de dados linguísticos em português via cooperação com comunidades

Conjunto de dados

Grupos envolvidos

Papel da Etica.AI

Papel do HXL-CPLP

Papel de pessoas da comunidade

Licença

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages