Skip to content

Latest commit

 

History

History
166 lines (115 loc) · 9.88 KB

README.jpn.md

File metadata and controls

166 lines (115 loc) · 9.88 KB

Voice-Gulliver

🌍 韓国語English日本語

GitHub License GitHub Release

The best gradio web-ui for asr, translation and tts. Easy one click installation. Fully portable.

はじめに

  • ボイスガリバーは字幕、翻訳、ダビング統合ソリューションです。
  • ボイスガリバーで映像に多言語字幕を追加してみてください。グローバル進出安心!
  • 朝毎にワールドニュースを視聴していますか?では、ライブ翻訳機能をご利用ください。 YouTubeで見たまさに、リアルタイム翻訳をサポートします。
  • ボイスガリバーは、UVR5が提供するボーカルリムーバーとMetaのDemucsエンジンを搭載しています。
  • ボイスガリバーはOpenAI WhisperMicrosoft Azure AIを使用します。
  • ボイスガリバーはワンクリックで簡単にインストールでき、Gradio Web-UIを提供します。
  • 最高レベルのOn-Device AI Voice技術を体験してください。

主な機能

  • VODタブ
    • YouTubeダウンローダ、ノイズ除去、字幕、翻訳、ダビング統合環境で提供
    • ffmpegがサポートするすべてのビデオ/オーディオフォーマットが利用可能
    • 出力オーディオフォーマット(wav、flac、mp3)選択可能
    • 100言語の音声認識、字幕生成
    • PC性能に合わせた字幕生成オプションを選択可能(Whisper Model & Compute Type)
    • オリジナル映像のBGMと効果音をダビング映像でもそのまま維持
    • ダビング音声の速度、音量、ピッチ調整をサポート

  • Liveタブ

    • リアルタイム音声認識&翻訳サポート
    • Mic、Speakerなどのオーディオ入力ソースを選択可能
    • キャプチャされたオーディオ、認識された字幕、翻訳された字幕保存機能を提供
  • Batchタブ

    • 大量のファイルをバッチ処理
  • Garageタブ

    • 字幕ファイルをアップロードし、翻訳して吹き替えることができます。
    • AIによって自動生成された字幕を校正する必要がある場合に便利です。
    • サポートされている字幕形式: '.ass'、'.ssa'、'.srt'、'.mpl2'、'.tmp'、'.vtt'、'.microdvd'、'.json'

特徴

  • YouTube動画(mp4、webm)をダウンロードし、オーディオファイル(mp3、wav、flac)として保存できます。
  • ノイズ除去&ボーカル分離により、音声認識の精度を高めることができます。 MDX-NetとMetaのDemucsを利用します。
  • ワンクリックインストール。一度インストールすると、追加料金なしで永続として使用できます。 (※Freeバージョンは利用時間30分制限あり)
  • Web-UIを提供します。 Google Chromeブラウザをお勧めします。

実行環境

  • OS:Windows 10/11(64bits)※Linux、Mac OSはサポートしていません。
  • CPU:Intelプロセッサ2GHz以上(または同等の互換性)
  • RAM:4GB以上
  • HDD:インストール中に少なくとも20 GBの空き容量
  • GPU: CUDA 12.1をサポートするNVIDIAグラフィックカードを推奨。 VRAM 4GB以上。 8GB以上を推奨。
  • インターネット接続が必要(インストールおよび翻訳作業)

インストールと実行

step 1. パッケージの準備

  • A.有料バージョン

    • USBに含まれる圧縮ファイル(voice-gulliver-x.zip)をコンピュータの適切な場所に解凍する
    • またはすでに解凍されているフォルダ(voice-gulliver-x)をコンピュータの適切な場所にコピーする
  • B. 無料版

git clone https://github.com/abus-aikorea/voice-gulliver.git

step 2. プログラムのインストールと実行

  1. configure.batの実行
    • WindowsにffmpegとCUDA(NVIDIA GPUを使用している場合)をインストールします。
    • 最初の1回だけ実行するだけです。
  2. start.batの実行
    • Voice-Gulliverを起動します。 Web-UIが自動的に起動します。
    • 最初の実行時には、Voice-Gulliverのインストール作業を先に進めます。
    • Voice-Gulliverインストールはインターネット接続を必要とし、システムによってはインストールに1時間以上かかることがあります。
    • インストール中は絶対にWindowsコマンドウィンドウを終了しないでください。
    • インストール中に問題が発生した場合は、installer_filesフォルダを削除してstart.batを再実行してください。

実行画面

ABUS-voice-gulliver-live-jp-ko-subtitle.mp4

step 3. プログラムの削除

  • uninstall.bat実行:

    • installer_filesフォルダを削除します。
    • Windowsにインストールしたffmepg、CUDAパッケージを削除します(選択した場合)
  • Voice-Gulliverはポータブルインストールがデフォルトです。プログラムの削除は、インストールフォルダを削除するだけで十分です。

ヒントとコツ

Browserが自動的に実行されない場合

CUDA Out-Of-Memoryエラーが発生した場合

  • Windowsタスクマネージャ - [パフォーマンス]タブでGPUメモリの状態を確認します。
  • Denoiseレベルを0または1に設定します。 Denoiseレベル2は8GB以上のGPUメモリを必要とします。
  • Compute Type を int 型に設定します。 floatタイプの品質は良いですが、より多くのGPUメモリが必要です。

字幕の品質を向上させるには?

  • 字幕の品質は、より大きなWhisperモデルを使用するほど良くなる傾向がありますが、必ずしもそうではありません。 large > medium > small > base > tiny
  • Compute Typeの中では、floatタイプのパフォーマンスが良いです。 int型はモデル量子化によりGPU使用量を下げ、スピードを高めたモデルです。一方、パフォーマンスは低下します。
  • Denoiseレベルを上げると背景音をより多く除去し、残っているボイスだけ音声認識に使用するようになります。常に良い結果を保証するわけではありません。

注意事項

Windows Defenderが誤ってバッチファイルをトロイの木馬として認識している場合、これはしばしば「False Positive」と呼ばれます。この問題を解決するには、次の手順を実行できます。

  1. ファイル例外処理:Windows Defenderでは、特定のファイルまたはプロセスがセキュリティチェックをスキップするように設定できます。これを行うには、以下の手順に従ってください

    • 「スタート」ボタンをクリックして「設定」に進みます。
    • [アップデートとセキュリティ]をクリックしてください。
    • 「Windowsセキュリティ」を選択し、「ウイルスと脅威の保護」に進みます。
    • [ウイルスと脅威の保護設定の管理]をクリックしてください。
    • 「ウイルスと脅威の保護設定」で「例外を追加」を選択してください。
    • 「ファイルまたはフォルダ」を選択し、問題のバッチファイルを見つけて例外として追加します。
  2. Windows Defender をしばらく無効にする: この方法は一時的な解決策になります。ただし、この方法を使用すると、コンピュータが他の脅威にさらされる可能性があるため、注意が必要です。

  3. ワクチンソフトウェアに問題を提起: ファイルがトロイの木馬ではないという確信があれば、マイクロソフトに False Positive として情報を提供できます。マイクロソフトはこれを確認した後、必要な措置を講じます。

製品お問い合わせ

YouTube

Credits

著作権

by ABUS