VoiceGrafiti is a real-time knowledge graph visualization system that converts voice input into an interactive graph structure. Using the OpenAI Whisper API for speech-to-text conversion and GPT-4 for knowledge graph generation, it creates a visual representation of spoken content in real-time.
- Clone the repository:
git clone https://github.com/daishir0/VoiceGrafiti.git
cd VoiceGrafiti
- Install dependencies using Composer:
composer install
- Create configuration file:
cp config.php.sample config.php
- Edit config.php and set your OpenAI API key:
'openai_api_key' => 'YOUR_OPENAI_API_KEY_HERE'
- Configure your web server (Apache/Nginx) to serve the application directory and ensure proper permissions:
chmod 777 uploads/
chmod 777 data/
- Open the application in your Chrome browser
- Click "Start Recording" to begin voice input
- Speak clearly into your microphone
- The system will automatically:
- Convert speech to text using Whisper API
- Process the text using GPT-4
- Update the knowledge graph visualization
- Click "Stop Recording" to end the session
- Tested and verified to work with Google Chrome browser
- Requires a microphone and stable internet connection
- The application uses WebM audio format for voice recording
- OpenAI API key with access to both Whisper and GPT-4 is required
- Server requirements:
- PHP 7.4 or higher
- Web server (Apache/Nginx) with proper configuration
- Write permissions for uploads/ and data/ directories
This project is licensed under the MIT License - see the LICENSE file for details.
This demonstration utilizes the Podcast provided by Bilingual News (https://bilingualnews.libsyn.com/). We express our gratitude for their content.
VoiceGrafitiは、音声入力をリアルタイムで知識グラフとして視覚化するシステムです。OpenAIのWhisper APIを使用して音声をテキストに変換し、GPT-4を使用して知識グラフを生成することで、話された内容をリアルタイムでビジュアル化します。
- レポジトリをクローン:
git clone https://github.com/daishir0/VoiceGrafiti.git
cd VoiceGrafiti
- Composerで依存関係をインストール:
composer install
- 設定ファイルを作成:
cp config.php.sample config.php
- config.phpを編集してOpenAI APIキーを設定:
'openai_api_key' => 'YOUR_OPENAI_API_KEY_HERE'
- Webサーバーのドキュメントディレクトリにシステムを配置し、適切な権限を設定:
chmod 777 uploads/
chmod 777 data/
- Chromeブラウザでアプリケーションにアクセスします
- 「録音開始」をクリックして音声入力を開始します
- マイクに向かって話します
- システムは自動的に以下を実行します:
- Whisper APIを使用して音声をテキストに変換
- GPT-4を使用してテキストを処理
- 知識グラフの視覚化を更新
- 「録音停止」をクリックしてセッションを終了します
- Google Chromeブラウザでの動作を確認しています
- マイクと安定したインターネット接続が必要です
- 音声録音にはWebM形式を使用します
- WhisperとGPT-4の両方にアクセスできるOpenAI APIキーが必要です
- サーバー要件:
- PHP 7.4以上
- 適切に設定されたWebサーバー(Apache/Nginx)
- uploads/とdata/ディレクトリの書き込み権限
このプロジェクトはMITライセンスの下でライセンスされています。詳細はLICENSEファイルを参照してください。
このデモンストレーションは、バイリンガルニュース(https://bilingualnews.libsyn.com/)のPodcastを利用させていただきました。