ZH‐Wiki

使用方法：

界面有七个主选项卡（文本、图像、视频、3D、音频、附加功能和界面），共四十一个子选项卡（部分带有自己的子选项卡）：LLM、TTS-STT、MMS、SeamlessM4Tv2、LibreTranslate、StableDiffusion、Kandinsky、Flux、HunyuanDiT、Lumina-T2X、Kolors、AuraFlow、Würstchen、DeepFloydIF、PixArt, CogView3-Plus, PlaygroundV2.5、Wav2Lip、LivePortrait、ModelScope、ZeroScope 2、CogVideoX、Latte、StableFast3D、Shap-E、SV34D、Zero123Plus、StableAudio、AudioCraft、AudioLDM 2、SunoBark、RVC、UVR、Demucs、Upscale (Real-ESRGAN)、FaceSwap、MetaData-Info、Wiki、Gallery、ModelDownloader、Settings和System。选择您需要的选项卡并按照以下说明操作

文本：

LLM：

首先将您的模型上传到文件夹：inputs/text/llm_models
从下拉列表中选择您的模型
选择模型类型
根据您需要的参数设置模型
输入（或说出）您的请求
点击Submit按钮接收生成的文本和音频响应

可选：您可以启用 TTS 模式，选择所需的声音和语言以接收音频回复。您可以启用多模态并上传图像、视频和音频文件以获取其描述。您可以启用网络搜索以访问互联网。您可以启用 libretranslate 以获得翻译。您可以启用 OpenParse 以处理 PDF 文件。此外，您还可以选择 LORA 模型来改善生成。

语音样本 = inputs/audio/voices

LORA = inputs/text/llm_models/lora

语音必须预处理（22050 kHz，单声道，WAV）

LLM的头像，您可以在avatars文件夹中更改

TTS-STT：

输入文本进行文本到语音转换
输入音频进行语音到文本转换
点击Submit按钮接收生成的文本和音频响应

语音样本 = inputs/audio/voices

语音必须预处理（22050 kHz，单声道，WAV）

MMS（文本到语音和语音到文本）：

输入文本进行文本到语音转换
输入音频进行语音到文本转换
点击Submit按钮接收生成的文本或音频响应

SeamlessM4Tv2：

输入（或说出）您的请求
选择源语言、目标语言和数据集语言
根据您需要的参数设置模型
点击Submit按钮获取翻译

LibreTranslate：

首先您需要安装并运行LibreTranslate

选择源语言和目标语言
点击Submit按钮获取翻译

可选：您可以通过打开相应的按钮来保存翻译历史记录

图像：

StableDiffusion - 有二十四个子选项卡：

txt2img：

首先将您的模型上传到文件夹：inputs/image/sd_models
从下拉列表中选择您的模型
选择模型类型（SD、SD2或SDXL）
根据您需要的参数设置模型
输入您的请求（+和-用于提示权重）
点击Submit按钮获取生成的图像

可选：您可以选择您的`vae`、`embedding`和`lora`模型，还可以启用`MagicPrompt`来改进生成方法

vae = inputs/image/sd_models/vae

lora = inputs/image/sd_models/lora

embedding = inputs/image/sd_models/embedding

img2img：

首先将您的模型上传到文件夹：inputs/image/sd_models
从下拉列表中选择您的模型
选择模型类型（SD、SD2或SDXL）
根据您需要的参数设置模型
上传将进行生成的初始图像
输入您的请求（+和-用于提示权重）
点击Submit按钮获取生成的图像

可选：您可以选择您的`vae`、`embedding`和`lora`模型，还可以启用`MagicPrompt`来改进生成方法

vae = inputs/image/sd_models/vae

lora = inputs/image/sd_models/lora

embedding = inputs/image/sd_models/embedding

depth2img：

上传初始图像
根据您需要的参数设置模型
输入您的请求（+和-用于提示权重）
点击Submit按钮获取生成的图像

marigold：

上传初始图像
根据您需要的参数设置模型
点击Submit按钮获取生成的深度图像

pix2pix：

上传初始图像
根据您需要的参数设置模型
输入您的请求（+和-用于提示权重）
点击Submit按钮获取生成的图像

controlnet：

首先将您的stable diffusion模型上传到文件夹：inputs/image/sd_models
上传初始图像
从下拉列表中选择您的stable diffusion和controlnet模型
根据您需要的参数设置模型
输入您的请求（+和-用于提示权重）
点击Submit按钮获取生成的图像

upscale（潜在）：

上传初始图像
选择您的模型
根据您需要的参数设置模型
点击Submit按钮获取放大的图像

refiner（SDXL）：

上传初始图像
点击Submit按钮获取精修后的图像

inpaint：

首先将您的模型上传到文件夹：inputs/image/sd_models/inpaint
从下拉列表中选择您的模型
选择模型类型（SD、SD2或SDXL）
根据您需要的参数设置模型
将要进行生成的图像上传到initial image和mask image
在mask image中，选择画笔，然后选择调色板并将颜色更改为#FFFFFF
绘制生成区域并输入您的请求（+和-用于提示权重）
点击Submit按钮获取修复后的图像

可选：您可以选择您的`vae`模型来改进生成方法

vae = inputs/image/sd_models/vae

outpaint：

首先将您的模型上传到文件夹：inputs/image/sd_models/inpaint
从下拉列表中选择您的模型
选择模型类型（SD、SD2或SDXL）
根据您需要的参数设置模型
将要进行生成的图像上传到initial image
输入您的请求（+和-用于提示权重）
点击Submit按钮获取扩展后的图像

gligen：

首先将您的模型上传到文件夹：inputs/image/sd_models
从下拉列表中选择您的模型
选择模型类型（SD、SD2或SDXL）
根据您需要的参数设置模型
输入您的提示请求（+和-用于提示权重）和GLIGEN短语（在""中表示框）
输入GLIGEN框（例如[0.1387, 0.2051, 0.4277, 0.7090]表示一个框）
点击Submit按钮获取生成的图像

diffedit：

输入您的源提示和源负面提示以进行图像遮罩
输入您的目标提示和目标负面提示以进行图像差异编辑
上传初始图像
根据您需要的参数设置模型
点击Submit按钮获取生成的图像

blip-diffusion：

输入您的提示
上传初始图像
输入您的条件和目标主题
根据您需要的参数设置模型
点击Submit按钮获取生成的图像

animatediff：

首先将您的模型上传到文件夹：inputs/image/sd_models
从下拉列表中选择您的模型
根据您需要的参数设置模型
输入您的请求（+和-用于提示权重）
点击Submit按钮获取生成的图像动画

可选：您可以选择运动LORA来控制生成

hotshot-xl

输入您的请求
根据您需要的参数设置模型
点击Submit按钮获取生成的GIF图像

video：

上传初始图像
选择您的模型
输入您的请求（适用于IV2Gen-XL）
根据您需要的参数设置模型
点击Submit按钮获取从图像生成的视频

ldm3d：

输入您的请求
根据您需要的参数设置模型
点击Submit按钮获取生成的图像

sd3（txt2img、img2img、controlnet、inpaint）：

输入您的请求
根据您需要的参数设置模型
点击Submit按钮获取生成的图像

可选：您可以选择您的 `lora` 模型以改进生成方法。如果您的显存较低，可以通过单击 `Enable quantize` 按钮来使用量化模型，但您需要自己下载模型: CLIP-L, CLIP-G和T5XXL

lora = inputs/image/sd_models/lora

量化模型 = inputs/image/sd_models

cascade：

输入您的请求
根据您需要的参数设置模型
点击Submit按钮获取生成的图像

t2i-ip-adapter：

上传初始图像
选择您需要的选项
点击Submit按钮获取修改后的图像

ip-adapter-faceid：

上传初始图像
选择您需要的选项
点击Submit按钮获取修改后的图像

riffusion（文本到图像、图像到音频、音频到图像）：

文本到图像：
- 1. 输入您的请求
  2. 根据您需要的参数设置模型
  3. 点击Submit按钮获取生成的图像
图像到音频：
- 1. 上传初始图像
  2. 选择您需要的选项
  3. 点击Submit按钮获取从图像生成的音频
音频到图像：
- 1. 上传初始音频
  2. 选择您需要的选项
  3. 点击Submit按钮获取从音频生成的图像

Kandinsky（txt2img、img2img、inpaint）：

输入您的提示
从下拉列表中选择一个模型
根据您需要的参数设置模型
点击Submit获取生成的图像

Flux (txt2img, img2img, inpaint, controlnet):

输入您的提示
选择您的模型
根据您需要的参数设置模型
点击Submit获取生成的图像

可选：您可以选择您的`lora`模型来改进生成方法。如果您的VRAM较低，还可以通过点击`Enable quantize`按钮使用量化模型，但您需要自行下载模型：FLUX.1-dev或FLUX.1-schnell，以及VAE、CLIP和T5XXL

lora = inputs/image/flux-lora

量化模型 = inputs/image/quantize-flux

HunyuanDiT（txt2img、controlnet）：

输入您的提示
根据您需要的参数设置模型
点击Submit获取生成的图像

Lumina-T2X：

输入您的提示
根据您需要的参数设置模型
点击Submit获取生成的图像

Kolors（txt2img、img2img、ip-adapter-plus）：

输入您的提示
根据您需要的参数设置模型
点击Submit获取生成的图像

可选：您可以选择您的`lora`模型来改进生成方法

lora = inputs/image/kolors-lora

AuraFlow：

输入您的提示
根据您需要的参数设置模型
点击Submit获取生成的图像

可选：您可以选择您的`lora`模型并启用`AuraSR`来改进生成方法

lora = inputs/image/auraflow-lora

Würstchen：

输入您的提示
根据您需要的参数设置模型
点击Submit获取生成的图像

DeepFloydIF（txt2img、img2img、inpaint）：

输入您的提示
根据您需要的参数设置模型
点击Submit获取生成的图像

PixArt：

输入您的提示
选择您的模型
根据您需要的参数设置模型
点击Submit获取生成的图像

CogView3-Plus:

输入您的提示
根据您需要的参数设置模型
点击Submit获取生成的图像

PlaygroundV2.5：

输入您的提示
根据您需要的参数设置模型
点击Submit获取生成的图像

视频：

Wav2Lip：

上传初始面部图像
上传初始语音音频
根据您需要的参数设置模型
点击Submit按钮接收唇形同步结果

LivePortrait：

上传初始面部图像
上传初始面部移动视频
点击Submit按钮接收动画面部图像

ModelScope：

输入您的提示
根据您需要的参数设置模型
点击Submit获取生成的视频

ZeroScope 2：

输入您的提示
根据您需要的参数设置模型
点击Submit获取生成的视频

CogVideoX (text2video, image2video, video2video):

输入您的提示
根据您需要的参数设置模型
点击Submit获取生成的视频

Latte：

输入您的提示
根据您需要的参数设置模型
点击Submit获取生成的视频

3D：

StableFast3D：

上传初始图像
根据您需要的参数设置模型
点击Submit按钮获取生成的3D对象

Shap-E：

输入您的请求或上传初始图像
根据您需要的参数设置模型
点击Submit按钮获取生成的3D对象

Zero123Plus：

上传初始图像
根据您需要的参数设置模型
点击Submit按钮获取生成的图像3D旋转

音频：

StableAudio：

根据您需要的参数设置模型
输入您的请求
点击Submit按钮获取生成的音频

AudioCraft：

从下拉列表中选择一个模型
选择模型类型（musicgen、audiogen或magnet）
根据您需要的参数设置模型
输入您的请求
（可选）如果您使用melody模型，请上传初始音频
点击Submit按钮获取生成的音频

可选：您可以启用`multiband diffusion`来改进生成的音频

AudioLDM 2：

从下拉列表中选择一个模型
根据您需要的参数设置模型
输入您的请求
点击Submit按钮获取生成的音频

SunoBark：

输入您的请求
根据您需要的参数设置模型
点击Submit按钮接收生成的音频响应

RVC：

首先将您的模型上传到文件夹：inputs/audio/rvc_models
上传初始音频
从下拉列表中选择您的模型
根据您需要的参数设置模型
点击Submit按钮接收生成的语音克隆

UVR：

上传要分离的初始音频
点击Submit按钮获取分离后的音频

Demucs：

上传要分离的初始音频
点击Submit按钮获取分离后的音频

附加功能（图像、视频、音频）：

上传初始文件
选择您需要的选项
点击Submit按钮获取修改后的文件

Upscale（Real-ESRGAN）：

上传初始图像
选择您的模型
根据您需要的参数设置模型
点击Submit按钮获取放大后的图像

FaceSwap：

上传源面部图像
上传目标面部图像或视频
选择您需要的选项
点击Submit按钮获取换脸后的图像

可选：您可以启用FaceRestore来放大和恢复您的面部图像/视频

MetaData-Info：

上传生成的文件
点击Submit按钮获取文件的元数据信息

界面：

Wiki：

在这里您可以查看项目的在线或离线wiki

Gallery：

在这里您可以查看outputs目录中的文件

ModelDownloader：

在这里您可以下载LLM和StableDiffusion模型

Settings：

在这里您可以更改应用程序设置

System：

在这里您可以查看计算机传感器的指标

附加信息：

所有生成的内容都保存在outputs文件夹中。您可以使用Outputs按钮打开outputs文件夹
您可以使用Close terminal按钮关闭应用程序

我在哪里可以获取模型和语音？

LLM模型可以从HuggingFace获取，或者从界面内的ModelDownloader获取
StableDiffusion、vae、inpaint、embedding和lora模型可以从CivitAI获取，或者从界面内的ModelDownloader获取
RVC模型可以从VoiceModels获取
StableAudio、AudioCraft、AudioLDM 2、TTS、Whisper、MMS、SeamlessM4Tv2、Wav2Lip、LivePortrait、SunoBark、MoonDream2、Upscalers（Latent和Real-ESRGAN）、Refiner、GLIGEN、DiffEdit、BLIP-Diffusion、Depth、Marigold、Pix2Pix、Controlnet、AnimateDiff、HotShot-XL、Videos、LDM3D、SD3、Cascade、T2I-IP-ADAPTER、IP-Adapter-FaceID、Riffusion、Rembg、Roop、CodeFormer、DDColor、PixelOE、Real-ESRGAN、StableFast3D、Shap-E、Zero123Plus、UVR、Demucs、Kandinsky、Flux、HunyuanDiT、Lumina-T2X、Kolors、AuraFlow、AuraSR、Würstchen、DeepFloydIF、PixArt、CogView3-Plus, PlaygroundV2.5、ModelScope、ZeroScope 2、CogVideoX、MagicPrompt、Latte和Multiband diffusion模型在使用时会自动下载到inputs文件夹中
您可以从任何地方获取语音。录制您自己的声音或从互联网上获取录音。或者直接使用项目中已有的语音。主要是要经过预处理！

路线图和错误追踪器：

DiscussionLink

ZH‐Wiki

使用方法：

文本：

LLM：

语音样本 = inputs/audio/voices

LORA = inputs/text/llm_models/lora

语音必须预处理（22050 kHz，单声道，WAV）

LLM的头像，您可以在avatars文件夹中更改

TTS-STT：

语音样本 = inputs/audio/voices

语音必须预处理（22050 kHz，单声道，WAV）

MMS（文本到语音和语音到文本）：

SeamlessM4Tv2：

LibreTranslate：

可选：您可以通过打开相应的按钮来保存翻译历史记录

图像：

StableDiffusion - 有二十四个子选项卡：

txt2img：

可选：您可以选择您的vae、embedding和lora模型，还可以启用MagicPrompt来改进生成方法

vae = inputs/image/sd_models/vae

lora = inputs/image/sd_models/lora

embedding = inputs/image/sd_models/embedding

img2img：

可选：您可以选择您的vae、embedding和lora模型，还可以启用MagicPrompt来改进生成方法

vae = inputs/image/sd_models/vae

lora = inputs/image/sd_models/lora

embedding = inputs/image/sd_models/embedding

depth2img：

marigold：

pix2pix：

controlnet：

upscale（潜在）：

refiner（SDXL）：

inpaint：

可选：您可以选择您的vae模型来改进生成方法

vae = inputs/image/sd_models/vae

outpaint：

gligen：

diffedit：

blip-diffusion：

animatediff：

可选：您可以选择运动LORA来控制生成

hotshot-xl

video：

ldm3d：

sd3（txt2img、img2img、controlnet、inpaint）：

可选：您可以选择您的 lora 模型以改进生成方法。如果您的显存较低，可以通过单击 Enable quantize 按钮来使用量化模型，但您需要自己下载模型: CLIP-L, CLIP-G和T5XXL

lora = inputs/image/sd_models/lora

量化模型 = inputs/image/sd_models

cascade：

t2i-ip-adapter：

ip-adapter-faceid：

riffusion（文本到图像、图像到音频、音频到图像）：

Kandinsky（txt2img、img2img、inpaint）：

Flux (txt2img, img2img, inpaint, controlnet):

可选：您可以选择您的lora模型来改进生成方法。如果您的VRAM较低，还可以通过点击Enable quantize按钮使用量化模型，但您需要自行下载模型：FLUX.1-dev或FLUX.1-schnell，以及VAE、CLIP和T5XXL

lora = inputs/image/flux-lora

量化模型 = inputs/image/quantize-flux

HunyuanDiT（txt2img、controlnet）：

Lumina-T2X：

Kolors（txt2img、img2img、ip-adapter-plus）：

可选：您可以选择您的lora模型来改进生成方法

lora = inputs/image/kolors-lora

AuraFlow：

可选：您可以选择您的lora模型并启用AuraSR来改进生成方法

lora = inputs/image/auraflow-lora

Würstchen：

DeepFloydIF（txt2img、img2img、inpaint）：

PixArt：

CogView3-Plus:

PlaygroundV2.5：

视频：

Wav2Lip：

LivePortrait：

ModelScope：

ZeroScope 2：

CogVideoX (text2video, image2video, video2video):

Latte：

3D：

StableFast3D：

可选：您可以选择您的`vae`、`embedding`和`lora`模型，还可以启用`MagicPrompt`来改进生成方法

可选：您可以选择您的`vae`、`embedding`和`lora`模型，还可以启用`MagicPrompt`来改进生成方法

可选：您可以选择您的`vae`模型来改进生成方法

可选：您可以选择您的 `lora` 模型以改进生成方法。如果您的显存较低，可以通过单击 `Enable quantize` 按钮来使用量化模型，但您需要自己下载模型: CLIP-L, CLIP-G和T5XXL

可选：您可以选择您的`lora`模型来改进生成方法。如果您的VRAM较低，还可以通过点击`Enable quantize`按钮使用量化模型，但您需要自行下载模型：FLUX.1-dev或FLUX.1-schnell，以及VAE、CLIP和T5XXL

可选：您可以选择您的`lora`模型来改进生成方法

可选：您可以选择您的`lora`模型并启用`AuraSR`来改进生成方法

可选：您可以启用`multiband diffusion`来改进生成的音频