Entoa-TTS is a dataset composed of 20 audio files and transcriptions (both manual and automatic by WhisperX), from NURC-SP Minimal Corpus: 6 Formal Elocutions (EF) totaling 4h28min52s; 5 formal dialogues between the speakers, with the presence of a documenter (D2) totaling 5h22min07s; 9 interviews about different topics, carried out by an interviewer with the interviewee (DID) totaling 6h11min20s. Although NURC-SP Minimal Corpus has 21 pairs of audio-transcription, one of them (SP_D2_062) was removed as its audio quality was not good for training TTS.
To compose the dataset part called "prosodic" it was used only terminal intonational units (terminal boundaries mark the conclusion of the utterance) from NURC-SP Minimal Corpus. For the part called "automatic" the 20 audio files of NURC-SP Minimal Corpus were segmented and transcripted by WhisperX. This dataset is used to compare the training of TTS models with terminal intonational units and with the segments generated by WhisperX. The prosodic parte of Entoa-TTS has 12:32:25 hours and the automatic part has 16:33:54 hours.
- FastSpeech2: FastSpeech2 info
ID | Speech | Ground Truth | FastSpeech2 CMLTTS | FastSpeech2 CMLTTS + ENTOA-PROSODIC | FastSpeech2 CMLTTS + ENTOA-AUTOMATIC |
---|---|---|---|---|---|
01 | eu quase não vou ao cinema teatro... | ||||
02 | ah às vezes eu vou... | ||||
03 | eu tenho ido a teatro. | ||||
04 | deve ser como na televisão | ||||
05 | então no teatro eu acho que é bem mais difícil... | ||||
06 | a televisão é horroroso quando eles estão fazendo programa. | ||||
07 | eu sei que não há preparação toda. | ||||
08 | porque o grupo que trabalha em hair é enorme né | ||||
09 | tenho impressão que ali levou tanto tempo de ensaio | ||||
10 | me chocou tremendamente | ||||
11 | eu saber que o filme é bom | ||||
12 | eu gostei bastante | ||||
13 | eu me lembro de vários filmes não lembro os nomes | ||||
14 | por isso é que eu deixo de ir ao cinema | ||||
15 | hoje tá tudo meio louco né | ||||
16 | assisti em araraquara. | ||||
17 | eu num lembro o nome do filme... | ||||
18 | a molecada adorou. | ||||
19 | eles adoraram o filme... | ||||
20 | porque eu saio cansada mesmo | ||||
21 | eu fico numa tensão nervosa | ||||
22 | nós saímos pra ir ao teatro. | ||||
23 | não conseguimos entrar fomos assistir esse filme. | ||||
24 | eu acho que influi bastante | ||||
25 | eu acho que teatro tá bem mais caro | ||||
26 | eu acho que o público pre prefere cinema ainda | ||||
27 | eu não entendi a pergunta | ||||
28 | eu acho que o cinema tá perdendo viu | ||||
29 | o que eu noto é isso | ||||
30 | principalmente nos fins de semana |
WhisperX segments aiming for computational efficiency of automatic transcription and not by linguistic criteria, generating segmentation errors. We bring a list of 10 pairs that show the discrepancy between the prosodic segmentation adopted in NURC-SP MC and that of WhisperX, to illustrate these cases:
Manual | Manual text | WhisperX | WhisperX text |
---|---|---|---|
muito bem eu acho que nós... já tivemos ótimas... apresentações sobre parte de::... de:: rádio::... televisão. | Muito bem, eu acho que nós já tivemos ótimas apresentações por parte de | ||
até no decorrer do tempo a fazenda foi... diminuindo essa parte de café... e em consequência também diminuiu o número de pessoas... que trabalhava na fazenda. | Até no decorrer do tempo, a fazenda foi diminuindo essa parte de café e, em consequência, também diminuiu o número de pessoas | ||
se o status hoje... entende? seria de querer apenas a violência e::... e os programas de PRÊmios entende? nós temos que fazê-los subir... um degrau. | Se o status hoje seria de querer apenas a violência e | ||
é aliás... aliás diga-se de passagem que::... eu já trabalho aqui na escola já há sete Anos e sempre recebi... na na porque a o a minha cadeira propicia MUIto o debate com os alunos coisas desse tipo né?... e realmente sempre recebi todo o apoio e... toda a::... a:: assim... todas as::... propostas que eu fiz aqui de trazer pessoas de fazer seminários de resolver sempre encontraram apoio da direção sem nenhuma restrição pelo contrário... até ajudando estimulando essa coisa toda. | Aliás, diga-se de passagem que | ||
eu acho que a televisão... ao se implanTAR no Brasil e para criAR como efetivamente criOU... aquele MIto de dependência que o Rui se reportou muito bem para com o espectador... poderia ter desCIdo aos níveis desejáveis pelo GRANde público. | Eu acho que a televisão | ||
eu viajo mais é... fazendo turismo mesmo. | Eu viajo mais fazendo turismo mesmo. | ||
e há alunos que vêm::... dos pontos os MAIS distantes... mas não chegam a constituir... uma maioria. | E há alunos que vêm... | ||
que aliás até algum... até o:: acho que o fim do século passado... éh mamãe sempre como:: contava que elas tinham umas amigas que eram sempre carinhosas eram umas velhinhas muito simpáticas então elas se vi/ iam visitá-las... e almoçavam com elas e elas diziam ''comei batati::nha! | E, aliás, até o fim do século passado, | ||
enquanto... o inglês ficou::... o francês no caso do Canadá francês o francês... éh foi... éh... se crian::do... diariamente se acrescentando... na:: na França enquanto a língua francesa foi se acrescentando... foi-se amoldando aos tempos... no Canadá francês... ouve-se dos... camponeses franceses expressões... de Rebelais... expressões de um francês clássico. | No Canadá francês, houve-se dos camponeses franceses expressões de rabelais, | ||
os assessores nem sempre tinham oportunidades. | Os assessores... |