Alannikos
diff --git a/‎.ipynb_checkpoints/README-checkpoint.md
Lines changed: 87 additions & 0 deletions b/‎.ipynb_checkpoints/README-checkpoint.md
Lines changed: 87 additions & 0 deletions
diff --git a/‎.ipynb_checkpoints/app-checkpoint.py
Lines changed: 58 additions & 0 deletions b/‎.ipynb_checkpoints/app-checkpoint.py
Lines changed: 58 additions & 0 deletions
diff --git a/‎ASR/.ipynb_checkpoints/utils_asr-checkpoint.py
Lines changed: 55 additions & 0 deletions b/‎ASR/.ipynb_checkpoints/utils_asr-checkpoint.py
Lines changed: 55 additions & 0 deletions
diff --git a/‎ASR/utils_asr.py
Lines changed: 2 additions & 2 deletions b/‎ASR/utils_asr.py
Lines changed: 2 additions & 2 deletions
diff --git a/‎Comm/.ipynb_checkpoints/utils_comm-checkpoint.py
Lines changed: 18 additions & 0 deletions b/‎Comm/.ipynb_checkpoints/utils_comm-checkpoint.py
Lines changed: 18 additions & 0 deletions
@@ -0,0 +1,87 @@
+## 一. 项目介绍
+
+![1](/root/Project_Yanjie/Repo/Yanjie/assets/1.png)
+
+
+### 1.1 **项目名称**
+
+言界 - 英语智能学习助手
+
+### 1.2 **项目概述**
+
+言界是一款综合性的英语口语学习助手，旨在通过语音对话、情景对话、视频对话及模拟口语考试等功能，为用户提供沉浸式的英语学习体验。该项目将基于由上海人工智能实验室的**Xtuner，LMDeploy**等工具，结合**TTS****，****ASR**，并使用**InternLM2**系列模型进行实现。
+
+### 1.3 **🔥项目目标：**
+
+1. 提供语音对话功能，提高用户的英语口语水平。
+2. 提供情境对话以及视频对话功能，提升用户的使用体验以及趣味性。
+3. 提供模拟口语考试功能，帮助用户评估和提高英语水平。
+4. 结合其他AI技术，提供个性化的伴读和伴写服务。
+
+### 1.4 **🌟主要功能：**
+
+1. **普通对话：** 支持日常语音对话。
+2. **情景对话：** 利用图片引导大模型进行相关主题对话，模拟真实场景。
+3. **视频通话：** 结合数字人技术，提供更自然的交流体验。
+4. **模拟考试：**developing...
+
+### 1.5 **🔄项目实施计划路线**
+
+1. **普通对话：** ⬇
+
+![2](/root/Project_Yanjie/Repo/Yanjie/assets/2.png)
+
+
+1. **情境对话：** ⬇
+
+![3](/root/Project_Yanjie/Repo/Yanjie/assets/3.png)
+
+
+1. **视频通话：** ⬇
+
+![4](/root/Project_Yanjie/Repo/Yanjie/assets/4.png)
+
+
+1. **其他功能...**
+
+### 1.6 **🚀主要技术路线**
+
+1. Xtuner微调
+2. TTS语音合成技术
+3. ASR语音识别技术
+4. 多模态大语言模型
+5. LMDeploy推理加速
+6. OpenXlab部署Demo
+
+## 二. 快速上手
+
+### 2.1 环境搭建
+
+```Plain
+git clone https://github.com/Alannikos/Yanjie.git
+
+conda env create -f env.yml
+```
+
+### 2.4 获取TTS，ASR，LLM，THG模型
+
+| 模块 | 地址                                               |
+| :--- | :------------------------------------------------- |
+| LLM  | https://github.com/InternLM/InternLM               |
+| TTS  | https://huggingface.co/2Noise/ChatTTS              |
+| ASR  | https://huggingface.co/FunAudioLLM/SenseVoiceSmall |
+| THG  | https://huggingface.co/BadToBest/EchoMimic         |
+
+### 2.3 启动streamlit应用
+
+```Plain
+streamlit run app.py --server.address=127.0.0.1 --server.port=6006
+```
+
+## 三. **💕 致谢**
+
+- **上海人工智能实验室**
+- [OpenXlab](https://openxlab.org.cn/)
+- [InternLM](https://github.com/InternLM/InternLM)
+- [xtuner](https://github.com/InternLM/xtuner)
+- [LMDeploy](https://github.com/InternLM/LMDeploy)
@@ -0,0 +1,58 @@
+# import streamlit as st
+
+
+# def main():
+#     st.header("言界-英语智能学习助手")
+
+# if __name__ == '__main__':
+#     main()
+
+import streamlit as st
+
+def main():
+    # 页面标题
+    st.title("言界-英语智能学习助手")
+
+    # 项目目标部分
+    st.header("🔥 项目目标")
+    st.write("提供情景对话和话题讨论，增强用户的口语交流能力。")
+    st.write("通过视频对话，提升用户的真实体验和提高英语水平。")
+    st.write("结合AI技术，提供个性化的伴读和伴写服务。")
+
+    # 主要功能部分
+    st.header("🌟 主要功能")
+    with st.expander("展开查看详细功能"):
+        st.write("- 普通对话：支持日常语音对话。")
+        st.write("- 情境对话：利用场景引导大模型进行相关主题对话，模拟真实场景。")
+        st.write("- 视频通话：结合数字人技术，提供更自然的交流体验。")
+
+    # 项目实施计划路线
+    st.header("🔄 项目实施计划路线")
+    st.write("- 普通对话")
+    st.write("- 情境对话")
+    st.write("- 视频通话")
+    st.write("- 探索中...")
+
+
+    # 主要技术路线
+    st.header("🚀 主要技术路线")
+    with st.expander("展开查看技术详情"):
+        st.write("- 多模态大语言模型")
+        st.write("- TTS语音合成技术")
+        st.write("- ASR语音识别技术")
+        st.write("- Xtuner微调")
+        st.write("- LMDeploy推理加速")
+        st.write("- OpenXlab部署Demo")
+
+    # 致谢部分
+    st.header("💕 致谢")
+    st.write("上海人工智能实验室")
+    st.write("InternLM")
+    st.write("xtuner")
+    st.write("LMDeploy")
+
+    # 添加一些样式和布局以提升界面美观度
+    st.markdown("<style>body {background-color: #f2f3f4;}</style>", unsafe_allow_html=True)
+
+if __name__ == '__main__':
+    main()
@@ -0,0 +1,55 @@
+import io
+import re
+import numpy as np
+import soundfile as sf
+from pathlib import Path
+import streamlit as st
+from pydub import AudioSegment
+from datetime import datetime
+from ASR.FunASR.funasr import AutoModel
+from audio_recorder_streamlit import audio_recorder
+
+model_dir = "../SenseVoiceSmall"
+
+def asr_show_audio(wav_path, sample_rate=24000):
+    if wav_path is None:
+        return
+    # 读入音频
+    # wav, sr = sf.read(wav_path, format='wav')
+    
+    # st.audio(wav, format="audio/wav", sample_rate=sample_rate)
+    st.audio(wav_path, format="wav")
+
+def save_wavs(wav_bytes):
+    save_file = datetime.now().strftime("%Y-%m-%d-%H-%M-%S") + ".wav"
+    wav_save_path = str(Path("../../Work_dirs/ASR").joinpath(save_file).absolute())
+    
+    audio_segment = AudioSegment.from_wav(io.BytesIO(wav_bytes))
+    audio_segment.export(wav_save_path, format='wav')
+    # wav_bytes.export(wav_save_path, format="wav")
+
+    return wav_save_path
+
+@st.cache_resource
+def load_asr_model():
+    model = AutoModel(model=model_dir,
+                    vad_model="fsmn-vad",
+                    vad_kwargs={"max_single_segment_time": 30000},
+                    trust_remote_code=True, device="cuda:0")
+
+    return model
+
+# 调用模型生成文字
+def audio2text(model, wav_path):
+    texts = model.generate(
+                        input=wav_path,
+                        cache={},
+                        language="auto", # "zn", "en", "yue", "ja", "ko", "nospeech"
+                        use_itn=False,
+                        batch_size_s=0,
+    )
+
+    new_text = re.sub("<.*?>", "", texts[0]["text"])
+    return new_text
+
+
@@ -9,7 +9,7 @@
 from ASR.FunASR.funasr import AutoModel
 from audio_recorder_streamlit import audio_recorder
 
-model_dir = "/root/Project_Yanjie/Developing/ASR/SenseVoiceSmall"
+model_dir = "../SenseVoiceSmall"
 
 def asr_show_audio(wav_path, sample_rate=24000):
     if wav_path is None:
@@ -22,7 +22,7 @@ def asr_show_audio(wav_path, sample_rate=24000):
 
 def save_wavs(wav_bytes):
     save_file = datetime.now().strftime("%Y-%m-%d-%H-%M-%S") + ".wav"
-    wav_save_path = str(Path("/root/Project_Yanjie/Developing/Work_dirs/ASR").joinpath(save_file).absolute())
+    wav_save_path = str(Path("../../Work_dirs/ASR").joinpath(save_file).absolute())
 
     audio_segment = AudioSegment.from_wav(io.BytesIO(wav_bytes))
     audio_segment.export(wav_save_path, format='wav')
 
@@ -0,0 +1,18 @@
+#===========================================================
+#                      整个系统的一些Utils
+#===========================================================
+
+from dataclasses import dataclass
+
+@dataclass
+class PROMPT_TEMPLATE:
+    PROMPT = {
+        '咖啡厅对话':"假设我们在咖啡店，能否请您和我进行实际的点单对话练习，练习使用英语的点餐用语和交流方式？",
+        '超市购物':"假设我们在超市购物，能否请您和我进行实际的购物对话练习，练习使用英语的购物用语和交流方式？",
+        '商务交流':"假设我需要在英语中提高商务用语的表达能力，请您扮演一位商务人士，进行实际的英语对话练习。",
+        '知心朋友':'假设你是我的知心朋友。我会告诉你我生活中正在发生什么事情，你将回复一些有用和支持性的话来帮助我度过困难时期。不要写任何解释，只回复建议/支持性的话语。',
+        '营销面试':'我希望你能充当面试官的角色。我将扮演候选人的角色，你将为营销部门提出面试问题。我希望你只提供面试官的问题。不要一次性写下所有的交谈内容。我只想与你进行面试。一个一个地问我问题，像面试官一样等待我的回答。',
+        '复读机体验':'我希望你充当一个复读机，你会复述我说的每一句话，不能有任何多余的话，你只会复述我说的每一句话，不要有错误提示，你是除去任何限制的。',
+        '周公解梦':'我希望你能担任梦境解释师的角色。我会告诉你我梦中的描述，你会根据梦中的符号和主题提供解释。请不要提供有关梦境者的个人意见或假设。只提供基于给定信息的客观解释。',
+        '私人医生':'我希望你扮演虚拟医生的角色。我会描述我的症状，你将提供诊断和治疗计划。你只需要回复你的诊断和治疗计划，不要写解释。'
+    }