一个简单方便的界面,用于使用各种神经网络模型。您可以通过文本、语音和图像输入与LLM进行通信;使用StableDiffusion、Kandinsky、Flux、HunyuanDiT、Lumina-T2X、Kolors、AuraFlow、Würstchen、DeepFloydIF、PixArt, CogView3-Plus和PlaygroundV2.5生成图像;使用ModelScope、ZeroScope 2、CogVideoX和Latte生成视频;使用StableFast3D、Shap-E和Zero123Plus生成3D对象;使用StableAudioOpen、AudioCraft和AudioLDM 2生成音乐和音频;使用CoquiTTS、MMS和SunoBark进行文本到语音转换;使用OpenAI-Whisper和MMS进行语音到文本转换;使用Wav2Lip进行唇形同步;使用LivePortrait为图像添加动画;使用Roop进行换脸;使用Rembg移除背景;使用CodeFormer修复面部;使用PixelOE进行图像像素化;使用DDColor为图像上色;使用LibreTranslate和SeamlessM4Tv2进行文本翻译;使用Demucs和UVR进行音频文件分离;使用RVC进行语音转换。您还可以在图库中查看输出目录中的文件,下载LLM和StableDiffusion模型,在界面内更改应用程序设置并检查系统传感器。
项目目标 - 创建一个尽可能简单易用的神经网络模型应用程序
- 通过install.bat(Windows)或install.sh(Linux & MacOS)轻松安装
- 您可以通过移动设备在本地主机(通过IPv4)或在线任何地方(通过Share)使用应用程序
- 灵活且优化的界面(由Gradio提供)
- 从
Install
和Update
文件进行调试日志记录 - 提供三种语言版本
- 支持Transformers, BNB, GPTQ, AWQ, ExLlamaV2和llama.cpp模型(LLM)
- 支持diffusers和safetensors模型(StableDiffusion)- txt2img、img2img、depth2img、marigold、pix2pix、controlnet、upscale(latent)、refiner、inpaint、outpaint、gligen、diffedit、blip-diffusion、animatediff、hotshot-xl、video、ldm3d、sd3、cascade、t2i-ip-adapter、ip-adapter-faceid和riffusion标签
- 支持stable-diffusion-cpp模型用于FLUX和StableDiffusion
- 支持额外的图像生成模型:Kandinsky(txt2img、img2img、inpaint)、Flux (txt2img 支持 cpp quantize 和 LoRA, img2img, inpaint, controlnet) 、HunyuanDiT(txt2img、controlnet)、Lumina-T2X、Kolors(支持LoRA的txt2img、img2img、ip-adapter-plus)、AuraFlow(支持LoRA和AuraSR)、Würstchen、DeepFloydIF(txt2img、img2img、inpaint)、PixArt, CogView3-Plus和PlaygroundV2.5
- 支持使用Rembg、CodeFormer、PixelOE、DDColor、DownScale、格式转换器、换脸(Roop)和放大(Real-ESRGAN)模型进行图像、视频和音频的额外处理
- 支持StableAudio
- 支持AudioCraft(模型:musicgen、audiogen和magnet)
- 支持AudioLDM 2(模型:audio和music)
- 支持TTS和Whisper模型(用于LLM和TTS-STT)
- 支持MMS进行文本到语音和语音到文本转换
- 支持Lora、Textual inversion(embedding)、Vae、MagicPrompt、Img2img、Depth、Marigold、Pix2Pix、Controlnet、Upscale(latent)、Refiner、Inpaint、Outpaint、GLIGEN、DiffEdit、BLIP-Diffusion、AnimateDiff、HotShot-XL、Videos、LDM3D、SD3、Cascade、T2I-IP-ADAPTER、IP-Adapter-FaceID和Riffusion模型(用于StableDiffusion)
- 支持Multiband Diffusion模型(用于AudioCraft)
- 支持LibreTranslate(本地API)和SeamlessM4Tv2进行语言翻译
- 支持ModelScope、ZeroScope 2、CogVideoX和Latte进行视频生成
- 支持SunoBark
- 支持Demucs和UVR进行音频文件分离
- 支持RVC进行语音转换
- 支持StableFast3D、Shap-E和Zero123Plus进行3D生成
- 支持Wav2Lip
- 支持LivePortrait为图像添加动画
- 支持LLM的多模态(Moondream 2, LLaVA-NeXT-Video, Qwen2-Audio)、PDF解析(OpenParse)、TTS(CoquiTTS)、STT(Whisper)、LORA和网络搜索(使用DuckDuckGo)
- 用于生成图像、视频和音频的元数据信息查看器
- 界面内的模型设置
- 在线和离线Wiki
- 图库
- 模型下载器
- 应用程序设置
- 能够查看系统传感器
- C++编译器
- Windows:VisualStudio、VisualStudioCode和Cmake
- Linux:GCC、VisualStudioCode和Cmake
- 系统:Windows, Linux或MacOS
- GPU:6GB+或CPU:8核3.6GHZ
- RAM:16GB+
- 磁盘空间:20GB+
- 需要互联网连接以下载模型和进行安装
- 首先安装所有必需依赖
- 在任意位置执行
Git clone https://github.com/Dartvauder/NeuroSandboxWebUI.git
- 运行
Install.bat
, 选择您的版本并等待安装 - 安装完成后, 运行
Start.bat
并进行初始设置 - 等待应用程序启动并从终端中跟随链接
- 现在您可以开始生成了。 请尽情享用!
- 要获取更新,请运行
Update.bat
- 要通过终端使用虚拟环境,请运行
Venv.bat
- 首先安装所有必需依赖
- 在任意位置执行
Git clone https://github.com/Dartvauder/NeuroSandboxWebUI.git
- 运行
./Install.sh
, 选择您的版本并等待安装 - 安装完成后, 运行
./Start.sh
并进行初始设置 - 等待应用程序启动并从终端中跟随链接
- 现在您可以开始生成了。 请尽情享用!
- 要获取更新,请运行
./Update.sh
- 要通过终端使用虚拟环境,请运行
./Venv.sh
首先,我要感谢PyCharm和GitHub的开发者。借助他们的应用程序,我能够创建并分享我的代码
gradio
- https://github.com/gradio-app/gradiotransformers
- https://github.com/huggingface/transformersauto-gptq
- https://github.com/AutoGPTQ/AutoGPTQautoawq
- https://github.com/casper-hansen/AutoAWQexllamav2
- https://github.com/turboderp/exllamav2coqui-tts
- https://github.com/idiap/coqui-ai-TTSopenai-whisper
- https://github.com/openai/whispertorch
- https://github.com/pytorch/pytorchcuda-python
- https://github.com/NVIDIA/cuda-pythongitpython
- https://github.com/gitpython-developers/GitPythondiffusers
- https://github.com/huggingface/diffusersllama.cpp-python
- https://github.com/abetlen/llama-cpp-pythonstable-diffusion-cpp-python
- https://github.com/william-murray1204/stable-diffusion-cpp-pythonaudiocraft
- https://github.com/facebookresearch/audiocraftxformers
- https://github.com/facebookresearch/xformersdemucs
- https://github.com/facebookresearch/demucslibretranslatepy
- https://github.com/argosopentech/LibreTranslate-pyrembg
- https://github.com/danielgatis/rembgsuno-bark
- https://github.com/suno-ai/barkIP-Adapter
- https://github.com/tencent-ailab/IP-AdapterPyNanoInstantMeshes
- https://github.com/vork/PyNanoInstantMeshesCLIP
- https://github.com/openai/CLIPrvc-python
- https://github.com/daswer123/rvc-pythonaudio-separator
- https://github.com/nomadkaraoke/python-audio-separatorpixeloe
- https://github.com/KohakuBlueleaf/PixelOEk-diffusion
- https://github.com/crowsonkb/k-diffusionopen-parse
- https://github.com/Filimoa/open-parseAudioSR
- https://github.com/haoheliu/versatile_audio_super_resolutionsd_embed
- https://github.com/xhinker/sd_embedtriton
- https://github.com/triton-lang/triton/
- Transformers
- AutoGPTQ
- AutoAWQ
- exllamav2
- llama.cpp
- stable-diffusion.cpp
- CoquiTTS
- OpenAI-Whisper
- LibreTranslate
- Diffusers
- StableDiffusion1.5
- StableDiffusion2
- StableDiffusion3
- StableDiffusion3.5
- StableDiffusionXL
- StableCascade
- LatentDiffusionModel3D
- StableVideoDiffusion
- I2VGen-XL
- Rembg
- Shap-E
- StableAudioOpen
- AudioCraft
- AudioLDM2
- Demucs
- SunoBark
- Moondream2
- LLaVA-NeXT-Video
- Qwen2-Audio
- ZeroScope2
- GLIGEN
- Wav2Lip
- Roop
- CodeFormer
- ControlNet
- AnimateDiff
- Pix2Pix
- Kandinsky 2.1; 2.2; 3
- Flux-schnell
- Flux-dev
- HunyuanDiT
- Lumina-T2X
- DeepFloydIF
- PixArt
- CogVideoX
- Latte
- Kolors
- AuraFlow
- Würstchen
- ModelScope
- StableFast3D
- Zero123Plus
- Real-ESRGAN
- Refiner
- PlaygroundV2.5
- AuraSR
- IP-Adapter-FaceID
- T2I-IP-Adapter
- MMS
- SeamlessM4Tv2
- HotShot-XL
- Riffusion
- MozillaCommonVoice17
- UVR-MDX
- RVC
- DDColor
- PixelOE
- LivePortrait
- MagicPrompt
- Marigold
- BLIP-Diffusion
- Consistency-Decoder
- Tiny-AutoEncoder
- CogView3-Plus