ZH‐Wiki

使用方法：

界面有七个主选项卡（文本、图像、视频、3D、音频、附加功能和界面），共四十一个子选项卡（部分带有自己的子选项卡）：LLM、TTS-STT、MMS、SeamlessM4Tv2、LibreTranslate、StableDiffusion、Kandinsky、Flux、HunyuanDiT、Lumina-T2X、Kolors、AuraFlow、Würstchen、DeepFloydIF、PixArt、PlaygroundV2.5、Wav2Lip、LivePortrait、ModelScope、ZeroScope 2、CogVideoX、Latte、StableFast3D、Shap-E、SV34D、Zero123Plus、StableAudio、AudioCraft、AudioLDM 2、SunoBark、RVC、UVR、Demucs、Upscale (Real-ESRGAN)、FaceSwap、MetaData-Info、Wiki、Gallery、ModelDownloader、Settings和System。选择您需要的选项卡并按照以下说明操作

文本：

LLM：

首先将您的模型上传到文件夹：inputs/text/llm_models
从下拉列表中选择您的模型
选择模型类型
根据您需要的参数设置模型
输入（或说出）您的请求
点击Submit按钮接收生成的文本和音频响应

可选：您可以启用`TTS`模式，选择所需的`voice`和`language`以接收音频响应。您可以启用`multimodal`并上传图像以获取其描述。您可以启用`websearch`以访问互联网。您可以启用`libretranslate`以获得翻译。您可以启用`OpenParse`以处理PDF文件。您还可以选择`LORA`模型来改进生成

语音样本 = inputs/audio/voices

LORA = inputs/text/llm_models/lora

语音必须预处理（22050 kHz，单声道，WAV）

LLM的头像，您可以在avatars文件夹中更改

TTS-STT：

输入文本进行文本到语音转换
输入音频进行语音到文本转换
点击Submit按钮接收生成的文本和音频响应

语音样本 = inputs/audio/voices

语音必须预处理（22050 kHz，单声道，WAV）

MMS（文本到语音和语音到文本）：

输入文本进行文本到语音转换
输入音频进行语音到文本转换
点击Submit按钮接收生成的文本或音频响应

SeamlessM4Tv2：

输入（或说出）您的请求
选择源语言、目标语言和数据集语言
根据您需要的参数设置模型
点击Submit按钮获取翻译

LibreTranslate：

首先您需要安装并运行LibreTranslate

选择源语言和目标语言
点击Submit按钮获取翻译

可选：您可以通过打开相应的按钮来保存翻译历史记录

图像：

StableDiffusion - 有二十四个子选项卡：

txt2img：

首先将您的模型上传到文件夹：inputs/image/sd_models
从下拉列表中选择您的模型
选择模型类型（SD、SD2或SDXL）
根据您需要的参数设置模型
输入您的请求（+和-用于提示权重）
点击Submit按钮获取生成的图像

可选：您可以选择您的`vae`、`embedding`和`lora`模型，还可以启用`MagicPrompt`来改进生成方法

vae = inputs/image/sd_models/vae

lora = inputs/image/sd_models/lora

embedding = inputs/image/sd_models/embedding

img2img：

首先将您的模型上传到文件夹：inputs/image/sd_models
从下拉列表中选择您的模型
选择模型类型（SD、SD2或SDXL）
根据您需要的参数设置模型
上传将进行生成的初始图像
输入您的请求（+和-用于提示权重）
点击Submit按钮获取生成的图像

可选：您可以选择您的`vae`、`embedding`和`lora`模型，还可以启用`MagicPrompt`来改进生成方法

vae = inputs/image/sd_models/vae

lora = inputs/image/sd_models/lora

embedding = inputs/image/sd_models/embedding

depth2img：

上传初始图像
根据您需要的参数设置模型
输入您的请求（+和-用于提示权重）
点击Submit按钮获取生成的图像

marigold：

上传初始图像
根据您需要的参数设置模型
点击Submit按钮获取生成的深度图像

pix2pix：

上传初始图像
根据您需要的参数设置模型
输入您的请求（+和-用于提示权重）
点击Submit按钮获取生成的图像

controlnet：

首先将您的stable diffusion模型上传到文件夹：inputs/image/sd_models
上传初始图像
从下拉列表中选择您的stable diffusion和controlnet模型
根据您需要的参数设置模型
输入您的请求（+和-用于提示权重）
点击Submit按钮获取生成的图像

upscale（潜在）：

上传初始图像
选择您的模型
根据您需要的参数设置模型
点击Submit按钮获取放大的图像

upscale（SUPIR）：

上传初始图像
根据您需要的参数设置模型
点击Submit按钮获取放大的图像

警告：您需要自行从SUPIR模型的Google驱动器和最佳基础模型的HuggingFace下载模型，并将它们放在以下路径：/ThirdPartyRepository/SUPIR/options

refiner（SDXL）：

上传初始图像
点击Submit按钮获取精修后的图像

inpaint：

首先将您的模型上传到文件夹：inputs/image/sd_models/inpaint
从下拉列表中选择您的模型
选择模型类型（SD、SD2或SDXL）
根据您需要的参数设置模型
将要进行生成的图像上传到initial image和mask image
在mask image中，选择画笔，然后选择调色板并将颜色更改为#FFFFFF
绘制生成区域并输入您的请求（+和-用于提示权重）
点击Submit按钮获取修复后的图像

可选：您可以选择您的`vae`模型来改进生成方法

vae = inputs/image/sd_models/vae

outpaint：

首先将您的模型上传到文件夹：inputs/image/sd_models/inpaint
从下拉列表中选择您的模型
选择模型类型（SD、SD2或SDXL）
根据您需要的参数设置模型
将要进行生成的图像上传到initial image
输入您的请求（+和-用于提示权重）
点击Submit按钮获取扩展后的图像

gligen：

首先将您的模型上传到文件夹：inputs/image/sd_models
从下拉列表中选择您的模型
选择模型类型（SD、SD2或SDXL）
根据您需要的参数设置模型
输入您的提示请求（+和-用于提示权重）和GLIGEN短语（在""中表示框）
输入GLIGEN框（例如[0.1387, 0.2051, 0.4277, 0.7090]表示一个框）
点击Submit按钮获取生成的图像

diffedit：

输入您的源提示和源负面提示以进行图像遮罩
输入您的目标提示和目标负面提示以进行图像差异编辑
上传初始图像
根据您需要的参数设置模型
点击Submit按钮获取生成的图像

blip-diffusion：

输入您的提示
上传初始图像
输入您的条件和目标主题
根据您需要的参数设置模型
点击Submit按钮获取生成的图像

animatediff：

首先将您的模型上传到文件夹：inputs/image/sd_models
从下拉列表中选择您的模型
根据您需要的参数设置模型
输入您的请求（+和-用于提示权重）
点击Submit按钮获取生成的图像动画

可选：您可以选择运动LORA来控制生成

hotshot-xl

输入您的请求
根据您需要的参数设置模型
点击Submit按钮获取生成的GIF图像

video：

上传初始图像
选择您的模型
输入您的请求（适用于IV2Gen-XL）
根据您需要的参数设置模型
点击Submit按钮获取从图像生成的视频

ldm3d：

输入您的请求
根据您需要的参数设置模型
点击Submit按钮获取生成的图像

sd3（txt2img、img2img、controlnet、inpaint）：

输入您的请求
根据您需要的参数设置模型
点击Submit按钮获取生成的图像

cascade：

输入您的请求
根据您需要的参数设置模型
点击Submit按钮获取生成的图像

t2i-ip-adapter：

上传初始图像
选择您需要的选项
点击Submit按钮获取修改后的图像

ip-adapter-faceid：

上传初始图像
选择您需要的选项
点击Submit按钮获取修改后的图像

riffusion（文本到图像、图像到音频、音频到图像）：

文本到图像：
- 1. 输入您的请求
  2. 根据您需要的参数设置模型
  3. 点击Submit按钮获取生成的图像
图像到音频：
- 1. 上传初始图像
  2. 选择您需要的选项
  3. 点击Submit按钮获取从图像生成的音频
音频到图像：
- 1. 上传初始音频
  2. 选择您需要的选项
  3. 点击Submit按钮获取从音频生成的图像

Kandinsky（txt2img、img2img、inpaint）：

输入您的提示
从下拉列表中选择一个模型
根据您需要的参数设置模型
点击Submit获取生成的图像

Flux (txt2img, img2img, inpaint, controlnet):

输入您的提示
选择您的模型
根据您需要的参数设置模型
点击Submit获取生成的图像

可选：您可以选择您的`lora`模型来改进生成方法。如果您的VRAM较低，还可以通过点击`Enable quantize`按钮使用量化模型，但您需要自行下载模型：FLUX.1-dev或FLUX.1-schnell，以及VAE、CLIP和T5XXL

lora = inputs/image/flux-lora

量化模型 = inputs/image/quantize-flux

HunyuanDiT（txt2img、controlnet）：

输入您的提示
根据您需要的参数设置模型
点击Submit获取生成的图像

Lumina-T2X：

输入您的提示
根据您需要的参数设置模型
点击Submit获取生成的图像

Kolors（txt2img、img2img、ip-adapter-plus）：

输入您的提示
根据您需要的参数设置模型
点击Submit获取生成的图像

可选：您可以选择您的`lora`模型来改进生成方法

lora = inputs/image/kolors-lora

AuraFlow：

输入您的提示
根据您需要的参数设置模型
点击Submit获取生成的图像

可选：您可以选择您的`lora`模型并启用`AuraSR`来改进生成方法

lora = inputs/image/auraflow-lora

Würstchen：

输入您的提示
根据您需要的参数设置模型
点击Submit获取生成的图像

DeepFloydIF（txt2img、img2img、inpaint）：

输入您的提示
根据您需要的参数设置模型
点击Submit获取生成的图像

PixArt：

输入您的提示
选择您的模型
根据您需要的参数设置模型
点击Submit获取生成的图像

PlaygroundV2.5：

输入您的提示
根据您需要的参数设置模型
点击Submit获取生成的图像

视频：

Wav2Lip：

上传初始面部图像
上传初始语音音频
根据您需要的参数设置模型
点击Submit按钮接收唇形同步结果

LivePortrait：

上传初始面部图像
上传初始面部移动视频
点击Submit按钮接收动画面部图像

ModelScope：

输入您的提示
根据您需要的参数设置模型
点击Submit获取生成的视频

ZeroScope 2：

输入您的提示
根据您需要的参数设置模型
点击Submit获取生成的视频

CogVideoX (text2video, image2video, video2video):

输入您的提示
根据您需要的参数设置模型
点击Submit获取生成的视频

Latte：

输入您的提示
根据您需要的参数设置模型
点击Submit获取生成的视频

3D：

StableFast3D：

上传初始图像
根据您需要的参数设置模型
点击Submit按钮获取生成的3D对象

Shap-E：

输入您的请求或上传初始图像
根据您需要的参数设置模型
点击Submit按钮获取生成的3D对象

SV34D：

上传初始图像（用于3D）或视频（用于4D）
根据您需要的参数设置模型
点击Submit按钮获取生成的3D视频

Zero123Plus：

上传初始图像
根据您需要的参数设置模型
点击Submit按钮获取生成的图像3D旋转

音频：

StableAudio：

根据您需要的参数设置模型
输入您的请求
点击Submit按钮获取生成的音频

AudioCraft：

从下拉列表中选择一个模型
选择模型类型（musicgen、audiogen或magnet）
根据您需要的参数设置模型
输入您的请求
（可选）如果您使用melody模型，请上传初始音频
点击Submit按钮获取生成的音频

可选：您可以启用`multiband diffusion`来改进生成的音频

AudioLDM 2：

从下拉列表中选择一个模型
根据您需要的参数设置模型
输入您的请求
点击Submit按钮获取生成的音频

SunoBark：

输入您的请求
根据您需要的参数设置模型
点击Submit按钮接收生成的音频响应

RVC：

首先将您的模型上传到文件夹：inputs/audio/rvc_models
上传初始音频
从下拉列表中选择您的模型
根据您需要的参数设置模型
点击Submit按钮接收生成的语音克隆

UVR：

上传要分离的初始音频
点击Submit按钮获取分离后的音频

Demucs：

上传要分离的初始音频
点击Submit按钮获取分离后的音频

附加功能（图像、视频、音频）：

上传初始文件
选择您需要的选项
点击Submit按钮获取修改后的文件

Upscale（Real-ESRGAN）：

上传初始图像
选择您的模型
根据您需要的参数设置模型
点击Submit按钮获取放大后的图像

FaceSwap：

上传源面部图像
上传目标面部图像或视频
选择您需要的选项
点击Submit按钮获取换脸后的图像

可选：您可以启用FaceRestore来放大和恢复您的面部图像/视频

MetaData-Info：

上传生成的文件
点击Submit按钮获取文件的元数据信息

界面：

Wiki：

在这里您可以查看项目的在线或离线wiki

Gallery：

在这里您可以查看outputs目录中的文件

ModelDownloader：

在这里您可以下载LLM和StableDiffusion模型。只需从下拉列表中选择模型，然后点击Submit按钮

`LLM`模型下载到这里：inputs/text/llm_models

`StableDiffusion`模型下载到这里：inputs/image/sd_models

Settings：

在这里您可以更改应用程序设置

System：

在这里您可以查看计算机传感器的指标

附加信息：

所有生成的内容都保存在outputs文件夹中。您可以使用Outputs按钮打开outputs文件夹
您可以使用Close terminal按钮关闭应用程序

我在哪里可以获取模型和语音？

LLM模型可以从HuggingFace获取，或者从界面内的ModelDownloader获取
StableDiffusion、vae、inpaint、embedding和lora模型可以从CivitAI获取，或者从界面内的ModelDownloader获取
RVC模型可以从VoiceModels获取
StableAudio、AudioCraft、AudioLDM 2、TTS、Whisper、MMS、SeamlessM4Tv2、Wav2Lip、LivePortrait、SunoBark、MoonDream2、Upscalers（Latent和Real-ESRGAN）、Refiner、GLIGEN、DiffEdit、BLIP-Diffusion、Depth、Marigold、Pix2Pix、Controlnet、AnimateDiff、HotShot-XL、Videos、LDM3D、SD3、Cascade、T2I-IP-ADAPTER、IP-Adapter-FaceID、Riffusion、Rembg、Roop、CodeFormer、DDColor、PixelOE、Real-ESRGAN、StableFast3D、Shap-E、SV34D、Zero123Plus、UVR、Demucs、Kandinsky、Flux、HunyuanDiT、Lumina-T2X、Kolors、AuraFlow、AuraSR、Würstchen、DeepFloydIF、PixArt、PlaygroundV2.5、ModelScope、ZeroScope 2、CogVideoX、MagicPrompt、Latte和Multiband diffusion模型在使用时会自动下载到inputs文件夹中
您可以从任何地方获取语音。录制您自己的声音或从互联网上获取录音。或者直接使用项目中已有的语音。主要是要经过预处理！

已知问题：

SeamlessM4T的both generations参数不适用于音频
RVC、Supir和SV34D完全无法工作

ZH‐Wiki

使用方法：

文本：

LLM：

语音样本 = inputs/audio/voices

LORA = inputs/text/llm_models/lora

语音必须预处理（22050 kHz，单声道，WAV）

LLM的头像，您可以在avatars文件夹中更改

TTS-STT：

语音样本 = inputs/audio/voices

语音必须预处理（22050 kHz，单声道，WAV）

MMS（文本到语音和语音到文本）：

SeamlessM4Tv2：

LibreTranslate：

可选：您可以通过打开相应的按钮来保存翻译历史记录

图像：

StableDiffusion - 有二十四个子选项卡：

txt2img：

可选：您可以选择您的vae、embedding和lora模型，还可以启用MagicPrompt来改进生成方法

vae = inputs/image/sd_models/vae

lora = inputs/image/sd_models/lora

embedding = inputs/image/sd_models/embedding

img2img：

可选：您可以选择您的vae、embedding和lora模型，还可以启用MagicPrompt来改进生成方法

vae = inputs/image/sd_models/vae

lora = inputs/image/sd_models/lora

embedding = inputs/image/sd_models/embedding

depth2img：

marigold：

pix2pix：

controlnet：

upscale（潜在）：

upscale（SUPIR）：

警告：您需要自行从SUPIR模型的Google驱动器和最佳基础模型的HuggingFace下载模型，并将它们放在以下路径：/ThirdPartyRepository/SUPIR/options

refiner（SDXL）：

inpaint：

可选：您可以选择您的vae模型来改进生成方法

vae = inputs/image/sd_models/vae

outpaint：

gligen：

diffedit：

blip-diffusion：

animatediff：

可选：您可以选择运动LORA来控制生成

hotshot-xl

video：

ldm3d：

sd3（txt2img、img2img、controlnet、inpaint）：

cascade：

t2i-ip-adapter：

ip-adapter-faceid：

riffusion（文本到图像、图像到音频、音频到图像）：

Kandinsky（txt2img、img2img、inpaint）：

Flux (txt2img, img2img, inpaint, controlnet):

可选：您可以选择您的lora模型来改进生成方法。如果您的VRAM较低，还可以通过点击Enable quantize按钮使用量化模型，但您需要自行下载模型：FLUX.1-dev或FLUX.1-schnell，以及VAE、CLIP和T5XXL

lora = inputs/image/flux-lora

量化模型 = inputs/image/quantize-flux

HunyuanDiT（txt2img、controlnet）：

Lumina-T2X：

Kolors（txt2img、img2img、ip-adapter-plus）：

可选：您可以选择您的lora模型来改进生成方法

lora = inputs/image/kolors-lora

AuraFlow：

可选：您可以选择您的lora模型并启用AuraSR来改进生成方法

lora = inputs/image/auraflow-lora

Würstchen：

DeepFloydIF（txt2img、img2img、inpaint）：

PixArt：

PlaygroundV2.5：

视频：

Wav2Lip：

LivePortrait：

ModelScope：

ZeroScope 2：

CogVideoX (text2video, image2video, video2video):

Latte：

3D：

StableFast3D：

Shap-E：

SV34D：

可选：您可以选择您的`vae`、`embedding`和`lora`模型，还可以启用`MagicPrompt`来改进生成方法

可选：您可以选择您的`vae`、`embedding`和`lora`模型，还可以启用`MagicPrompt`来改进生成方法

可选：您可以选择您的`vae`模型来改进生成方法

可选：您可以选择您的`lora`模型来改进生成方法。如果您的VRAM较低，还可以通过点击`Enable quantize`按钮使用量化模型，但您需要自行下载模型：FLUX.1-dev或FLUX.1-schnell，以及VAE、CLIP和T5XXL

可选：您可以选择您的`lora`模型来改进生成方法

可选：您可以选择您的`lora`模型并启用`AuraSR`来改进生成方法

可选：您可以启用`multiband diffusion`来改进生成的音频

`LLM`模型下载到这里：inputs/text/llm_models

`StableDiffusion`模型下载到这里：inputs/image/sd_models