チーム 13 KDIX.Security
関西と言えば関西弁!温かみのある話し方が特徴です。我が国には、関西弁に限らず、独特で魅力的な方言が沢山あります。そこで、日本のどの方言を話しているかを推測する Web サービスを開発することにしました。英語のアクセントがどの国のものであるか推測するBoldVoice Accent Oracleからパクり着想を得ました。
発話者の訛りから方言を識別する Web サービスです。 表示された文章を読み上げると、その声を独自 AI が解析してどの方言の特徴に近いかを判断します。 関西に限らず全国の方言を判別します。
https://kansai.kerthical.dev にアクセスしてください。画面中央下部にある録音ボタンを押し、画面に表示されている文章を読み上げ、終わり次第録音ボタンを再度押してください。その後 AI が自動的に解析を行い、結果を表示します。
メンバーのほとんどが Remix を使用した経験がない中、高速にキャッチアップを行いました。AI も既存のものを一切使用することなく独自で開発、学習を行っています。本タスクの特性上、データセットにおいて話者数の確保が非常に困難であり、wav2vec2 や hubert を使用する既存の手法では話し方の特徴ではなく話者の声を覚えてしまうという問題がありました。そのため、音声から f0(ピッチ情報)と sp(音色)のみを特徴として抽出する手法に切り替えました。各ハイパーパラメータは Optuna を用いて探索し、PyTorch Lightning で学習を行いました。
Tailwind CSS を駆使して元ネタのデザインをピクセルパーフェクトで再現しました。レスポンシブ対応しています。
- Typescript
- Remix
- Tailwind CSS
- Python
- PyTorch
- PyTorch Lightning
- LitServe