Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Portuguese Treebank / Projecto Floresta Sintá(c)tica #5

Open
fititnt opened this issue May 31, 2018 · 0 comments
Open

Portuguese Treebank / Projecto Floresta Sintá(c)tica #5

fititnt opened this issue May 31, 2018 · 0 comments
Labels
nltk-data http://www.nltk.org/nltk_data/

Comments

@fititnt
Copy link
Member

fititnt commented May 31, 2018


Chamamos de "Floresta Sintáctica" um conjunto de frases (corpus) analisadas (morfo)sintaticamente. Como, além da indicação das funções sintácticas, a análise também explicita hierarquicamente informação relativa à estrutura de constituintes, dizemos que uma frase sintaticamente analisada se parece com uma árvore, donde um conjunto de árvores constitui uma floresta sintáctica (em inglês, treebank).

O projecto Floresta Sintá(c)tica é uma colaboração entre a Linguateca e o projecto VISL. Contém textos em português (do Brasil e de Portugal) anotados (analisados) automaticamente pelo analisador sintáctico PALAVRAS (Bick 2000) e revistos por linguistas.

Atualmente, a Floresta Sintá(c)tica tem quatro partes, que diferem quanto ao gênero textual, quanto ao modo (escrito vs falado) e quanto ao grau de revisão linguística: o Bosque, totalmente revisto por linguistas; a Selva, parcialmente revista, a Floresta Virgem e a Amazônia, não revistos. Junto, todo esse material soma cerca de 261 mil frases (6,7 milhões de palavras) sintaticamente analisadas (mais...)

Toda a Floresta Sintá(c)tica está publicamente disponível, sendo possível levantá-la na íntegra, em diferentes formatos, ou interrogá-la por meio de várias interfaces de busca, nomeadamente o Milhafre, o Águia e o CorpusEye (mais...).

Uma floresta sintáctica serve para o treino e avaliação de analisadores morfossintácticos, para estudos baseados em corpos e para investigação da língua, não apenas da sintaxe, mas também de aspectos semânticos e discursivos. Pode, ainda, ser um auxiliar no ensino (mais...)

Subjacente a uma floresta sintáctica há sempre um modelo de gramática, com suas regras e categorias. Na Floresta Sintá(c)tica, procuramos minimizar o impacto de um modelo (mais...)

Veja aqui perguntas já respondidas sobre o projecto, como citar a Floresta Sintá(c)tica, (mais...)

Conheça a equipe da Floresta.

@fititnt fititnt added the nltk-data http://www.nltk.org/nltk_data/ label May 31, 2018
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
nltk-data http://www.nltk.org/nltk_data/
Projects
None yet
Development

No branches or pull requests

1 participant