Skip to content

Latest commit

 

History

History
248 lines (208 loc) · 17.2 KB

README_ZH.md

File metadata and controls

248 lines (208 loc) · 17.2 KB

主图

描述:

一个简单方便的界面,用于使用各种神经网络模型。您可以通过文本、语音和图像输入与LLM进行通信;使用StableDiffusion、Kandinsky、Flux、HunyuanDiT、Lumina-T2X、Kolors、AuraFlow、Würstchen、DeepFloydIF、PixArt, CogView3-Plus和PlaygroundV2.5生成图像;使用ModelScope、ZeroScope 2、CogVideoX和Latte生成视频;使用StableFast3D、Shap-E和Zero123Plus生成3D对象;使用StableAudioOpen、AudioCraft和AudioLDM 2生成音乐和音频;使用CoquiTTS、MMS和SunoBark进行文本到语音转换;使用OpenAI-Whisper和MMS进行语音到文本转换;使用Wav2Lip进行唇形同步;使用LivePortrait为图像添加动画;使用Roop进行换脸;使用Rembg移除背景;使用CodeFormer修复面部;使用PixelOE进行图像像素化;使用DDColor为图像上色;使用LibreTranslate和SeamlessM4Tv2进行文本翻译;使用Demucs和UVR进行音频文件分离;使用RVC进行语音转换。您还可以在图库中查看输出目录中的文件,下载LLM和StableDiffusion模型,在界面内更改应用程序设置并检查系统传感器。

项目目标 - 创建一个尽可能简单易用的神经网络模型应用程序

文本:1zh

图像:2zh

视频:3zh

3D:4zh

音频:5zh

额外功能:6zh

界面:7zh

功能:

  • 通过install.bat(Windows)或install.sh(Linux & MacOS)轻松安装
  • 您可以通过移动设备在本地主机(通过IPv4)或在线任何地方(通过Share)使用应用程序
  • 灵活且优化的界面(由Gradio提供)
  • InstallUpdate文件进行调试日志记录
  • 提供三种语言版本
  • 支持Transformers, BNB, GPTQ, AWQ, ExLlamaV2和llama.cpp模型(LLM)
  • 支持diffusers和safetensors模型(StableDiffusion)- txt2img、img2img、depth2img、marigold、pix2pix、controlnet、upscale(latent)、refiner、inpaint、outpaint、gligen、diffedit、blip-diffusion、animatediff、hotshot-xl、video、ldm3d、sd3、cascade、t2i-ip-adapter、ip-adapter-faceid和riffusion标签
  • 支持stable-diffusion-cpp模型用于FLUX和StableDiffusion
  • 支持额外的图像生成模型:Kandinsky(txt2img、img2img、inpaint)、Flux (txt2img 支持 cpp quantize 和 LoRA, img2img, inpaint, controlnet) 、HunyuanDiT(txt2img、controlnet)、Lumina-T2X、Kolors(支持LoRA的txt2img、img2img、ip-adapter-plus)、AuraFlow(支持LoRA和AuraSR)、Würstchen、DeepFloydIF(txt2img、img2img、inpaint)、PixArt, CogView3-Plus和PlaygroundV2.5
  • 支持使用Rembg、CodeFormer、PixelOE、DDColor、DownScale、格式转换器、换脸(Roop)和放大(Real-ESRGAN)模型进行图像、视频和音频的额外处理
  • 支持StableAudio
  • 支持AudioCraft(模型:musicgen、audiogen和magnet)
  • 支持AudioLDM 2(模型:audio和music)
  • 支持TTS和Whisper模型(用于LLM和TTS-STT)
  • 支持MMS进行文本到语音和语音到文本转换
  • 支持Lora、Textual inversion(embedding)、Vae、MagicPrompt、Img2img、Depth、Marigold、Pix2Pix、Controlnet、Upscale(latent)、Refiner、Inpaint、Outpaint、GLIGEN、DiffEdit、BLIP-Diffusion、AnimateDiff、HotShot-XL、Videos、LDM3D、SD3、Cascade、T2I-IP-ADAPTER、IP-Adapter-FaceID和Riffusion模型(用于StableDiffusion)
  • 支持Multiband Diffusion模型(用于AudioCraft)
  • 支持LibreTranslate(本地API)和SeamlessM4Tv2进行语言翻译
  • 支持ModelScope、ZeroScope 2、CogVideoX和Latte进行视频生成
  • 支持SunoBark
  • 支持Demucs和UVR进行音频文件分离
  • 支持RVC进行语音转换
  • 支持StableFast3D、Shap-E和Zero123Plus进行3D生成
  • 支持Wav2Lip
  • 支持LivePortrait为图像添加动画
  • 支持LLM的多模态(Moondream 2, LLaVA-NeXT-Video, Qwen2-Audio)、PDF解析(OpenParse)、TTS(CoquiTTS)、STT(Whisper)、LORA和网络搜索(使用DuckDuckGo)
  • 用于生成图像、视频和音频的元数据信息查看器
  • 界面内的模型设置
  • 在线和离线Wiki
  • 图库
  • 模型下载器
  • 应用程序设置
  • 能够查看系统传感器

必需依赖:

最低系统要求:

  • 系统:Windows, Linux或MacOS
  • GPU:6GB+或CPU:8核3.6GHZ
  • RAM:16GB+
  • 磁盘空间:20GB+
  • 需要互联网连接以下载模型和进行安装

如何安装:

Windows

  1. 首先安装所有必需依赖
  2. 在任意位置执行Git clone https://github.com/Dartvauder/NeuroSandboxWebUI.git
  3. 运行 Install.bat, 选择您的版本并等待安装
  4. 安装完成后, 运行 Start.bat 并进行初始设置
  5. 等待应用程序启动并从终端中跟随链接
  6. 现在您可以开始生成了。 请尽情享用!
  • 要获取更新,请运行Update.bat
  • 要通过终端使用虚拟环境,请运行Venv.bat

Linux & MacOS

  1. 首先安装所有必需依赖
  2. 在任意位置执行Git clone https://github.com/Dartvauder/NeuroSandboxWebUI.git
  3. 运行 ./Install.sh, 选择您的版本并等待安装
  4. 安装完成后, 运行 ./Start.sh 并进行初始设置
  5. 等待应用程序启动并从终端中跟随链接
  6. 现在您可以开始生成了。 请尽情享用!
  • 要获取更新,请运行./Update.sh
  • 要通过终端使用虚拟环境,请运行./Venv.sh

Wiki

致开发者的感谢

非常感谢这些项目,因为正是通过他们的应用程序/库,我才能够创建我的应用程序:

首先,我要感谢PyCharmGitHub的开发者。借助他们的应用程序,我能够创建并分享我的代码

第三方许可证:

许多模型都有自己的使用许可证。在使用之前,我建议您熟悉它们:

这些第三方仓库代码也在我的项目中使用:

捐赠

如果您喜欢我的项目并想要捐赠,这里有捐赠选项。非常感谢您的支持!

  • "给我买杯咖啡"

星星的历史

Star History Chart