Nesse trabalho eu estudo o modelo de síntese de fala Tacotron 2 e comparo sua performance de um modelo treinado totalmente em português do 0 com modelos pré-treinados em inglês com restrição de tempo e de dados
Para avaliar a qualidade dos modelos propomos um questionário a ser respondido por um grupo de participantes similar ao proposto no trabalho original, composto de 20 participantes. Como a quantidade de modelos é demasiada grande filtramos os modelos através de uma métrica quantitativa chamada AVQI utilizada na fonoaudiologia para detecção de problemas de fala.