- Cartoon TTS는 만화/웹툰 이미지의 시각 정보를 청각 정보로 변환하는 서비스입니다.
- 사용자가 웹페이지에 이미지를 업로드하면 Emotional TTS를 통해 변환되며 감정이 담긴 생생한 오디오를 경험할 수 있습니다.
1.웹 페이지 접속 | 2.Emotion TTS 변환할 이미지 업로드 | 3.텍스트를 Emotional Speech로 변환 |
---|---|---|
김규리 | 김나훈 | 김현우 | 심준석 | 이하준 |
---|---|---|---|---|
@GyuRiiii |
@hunnxx |
@NK590 |
@LukeJS0326 |
@ha789ha |
- Deeplearning Model : StyleTTS2, GPT-4 Vision
- Front : HTML, Bootstrap
- Back-end : Fastapi
- 버전 및 이슈관리 : Github, Github Issues, Github Project
- 협업 툴 : Notion
- 서비스 배포 환경 : AWS
이름 | 분야 | 주요 업무 |
---|---|---|
김규리 | Modeling | Object/Emotion Detection, Prompt Engineering |
김나훈 | Modeling/MLOps | Emotional TTS, 서비스 파이프라인 구축 |
김현우 | Front/Back-end | 프론트/백엔드 시스템 설계, 서비스 파이프라인 구축 |
심준석 | Modeling | Prompt Engineering, Image Captioning |
이하준 | Modeling/Server | Image Captioning, 데이터 수집 및 처리 |
- 전체 개발 기간 : 2023-12-09 ~ 2024-01-24
1. 웹 페이지 접속 | 2. Emotion TTS로 변환할 이미지 업로드 |
---|---|
3. 알림창이 뜨며 음원 생성 완료 | 4. 음원 스크립트 전문과 오디오 파일 다운로드 |
- 한국어 Emotional-TTS 구현
- 웹 페이지 기능 추가
한정된 시간으로 웹 페이지에서 성우의 선택이나 발화 묘사 수준의 조절 등을 구현하지 못해 아쉬웠습니다. 또한, 한국어 감정 발화 데이터셋 및 한국어 Emotional-TTS 모델의 부재로 인해 영어 기반의 서비스를 개발하게 되었습니다. 따라서 향후 한국어 발화 데이터셋을 구축하고 이를 기반으로 한 학습이 진행된다면 국내 상용화 서비스를 제공할 수 있을 것으로 기대하고 있습니다.