Skip to content

AI-LeGo/README

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

26 Commits
 
 

Repository files navigation

image

목차

  1. 프로젝트 소개
  2. 프로젝트 목표
  3. 팀원 구성
  4. 개발 환경
  5. 아키텍처 구조
  6. 역할 분담
  7. 개발 기간 및 수행 절차
  8. 프로젝트 사용 모델
  9. 시연 과정
  10. 발표 자료
  11. 개선 목표
  12. 프로젝트 후기


프로젝트 소개

  • Cartoon TTS는 만화/웹툰 이미지의 시각 정보를 청각 정보로 변환하는 서비스입니다.
  • 사용자가 웹페이지에 이미지를 업로드하면 Emotional TTS를 통해 변환되며 감정이 담긴 생생한 오디오를 경험할 수 있습니다.

프로젝트 목표

1.웹 페이지 접속 2.Emotion TTS 변환할 이미지 업로드 3.텍스트를 Emotional Speech로 변환
그림1 22 3

팀원 구성

김규리 김나훈 김현우 심준석 이하준

@GyuRiiii

@hunnxx

@NK590

@LukeJS0326

@ha789ha

개발 환경

  • Deeplearning Model : StyleTTS2, GPT-4 Vision
  • Front : HTML, Bootstrap
  • Back-end : Fastapi
  • 버전 및 이슈관리 : Github, Github Issues, Github Project
  • 협업 툴 : Notion
  • 서비스 배포 환경 : AWS

아키텍처 구조

아키텍쳐1


역할 분담

이름 분야 주요 업무
김규리 Modeling Object/Emotion Detection, Prompt Engineering
김나훈 Modeling/MLOps Emotional TTS, 서비스 파이프라인 구축
김현우 Front/Back-end 프론트/백엔드 시스템 설계, 서비스 파이프라인 구축
심준석 Modeling Prompt Engineering, Image Captioning
이하준 Modeling/Server Image Captioning, 데이터 수집 및 처리

개발 기간 및 수행 절차

  • 전체 개발 기간 : 2023-12-09 ~ 2024-01-24
image

프로젝트 사용 모델


시연 과정

1. 웹 페이지 접속 2. Emotion TTS로 변환할 이미지 업로드
이미지1 이미지2
3. 알림창이 뜨며 음원 생성 완료 4. 음원 스크립트 전문과 오디오 파일 다운로드
설명1 설명2

발표 자료


개선 목표

  • 한국어 Emotional-TTS 구현
  • 웹 페이지 기능 추가

프로젝트 후기

한정된 시간으로 웹 페이지에서 성우의 선택이나 발화 묘사 수준의 조절 등을 구현하지 못해 아쉬웠습니다. 또한, 한국어 감정 발화 데이터셋 및 한국어 Emotional-TTS 모델의 부재로 인해 영어 기반의 서비스를 개발하게 되었습니다. 따라서 향후 한국어 발화 데이터셋을 구축하고 이를 기반으로 한 학습이 진행된다면 국내 상용화 서비스를 제공할 수 있을 것으로 기대하고 있습니다.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published