-
Notifications
You must be signed in to change notification settings - Fork 11
ZH‐Wiki
Michael edited this page Nov 1, 2024
·
14 revisions
界面有七个主选项卡(文本、图像、视频、3D、音频、附加功能和界面),共四十一个子选项卡(部分带有自己的子选项卡):LLM、TTS-STT、MMS、SeamlessM4Tv2、LibreTranslate、StableDiffusion、Kandinsky、Flux、HunyuanDiT、Lumina-T2X、Kolors、AuraFlow、Würstchen、DeepFloydIF、PixArt, CogView3-Plus, PlaygroundV2.5、Wav2Lip、LivePortrait、ModelScope、ZeroScope 2、CogVideoX、Latte、StableFast3D、Shap-E、SV34D、Zero123Plus、StableAudio、AudioCraft、AudioLDM 2、SunoBark、RVC、UVR、Demucs、Upscale (Real-ESRGAN)、FaceSwap、MetaData-Info、Wiki、Gallery、ModelDownloader、Settings和System。选择您需要的选项卡并按照以下说明操作
- 首先将您的模型上传到文件夹:inputs/text/llm_models
- 从下拉列表中选择您的模型
- 选择模型类型
- 根据您需要的参数设置模型
- 输入(或说出)您的请求
- 点击
Submit
按钮接收生成的文本和音频响应
可选:您可以启用 TTS 模式,选择所需的 声音 和 语言 以接收音频回复。您可以启用 多模态 并上传图像、视频和音频文件以获取其描述。您可以启用 网络搜索 以访问互联网。您可以启用 libretranslate 以获得翻译。您可以启用 OpenParse 以处理 PDF 文件。此外,您还可以选择 LORA 模型来改善生成。
- 输入文本进行文本到语音转换
- 输入音频进行语音到文本转换
- 点击
Submit
按钮接收生成的文本和音频响应
- 输入文本进行文本到语音转换
- 输入音频进行语音到文本转换
- 点击
Submit
按钮接收生成的文本或音频响应
- 输入(或说出)您的请求
- 选择源语言、目标语言和数据集语言
- 根据您需要的参数设置模型
- 点击
Submit
按钮获取翻译
- 首先您需要安装并运行LibreTranslate
- 选择源语言和目标语言
- 点击
Submit
按钮获取翻译
- 首先将您的模型上传到文件夹:inputs/image/sd_models
- 从下拉列表中选择您的模型
- 选择模型类型(
SD
、SD2
或SDXL
) - 根据您需要的参数设置模型
- 输入您的请求(+和-用于提示权重)
- 点击
Submit
按钮获取生成的图像
- 首先将您的模型上传到文件夹:inputs/image/sd_models
- 从下拉列表中选择您的模型
- 选择模型类型(
SD
、SD2
或SDXL
) - 根据您需要的参数设置模型
- 上传将进行生成的初始图像
- 输入您的请求(+和-用于提示权重)
- 点击
Submit
按钮获取生成的图像
- 上传初始图像
- 根据您需要的参数设置模型
- 输入您的请求(+和-用于提示权重)
- 点击
Submit
按钮获取生成的图像
- 上传初始图像
- 根据您需要的参数设置模型
- 点击
Submit
按钮获取生成的深度图像
- 上传初始图像
- 根据您需要的参数设置模型
- 输入您的请求(+和-用于提示权重)
- 点击
Submit
按钮获取生成的图像
- 首先将您的stable diffusion模型上传到文件夹:inputs/image/sd_models
- 上传初始图像
- 从下拉列表中选择您的stable diffusion和controlnet模型
- 根据您需要的参数设置模型
- 输入您的请求(+和-用于提示权重)
- 点击
Submit
按钮获取生成的图像
- 上传初始图像
- 选择您的模型
- 根据您需要的参数设置模型
- 点击
Submit
按钮获取放大的图像
- 上传初始图像
- 点击
Submit
按钮获取精修后的图像
- 首先将您的模型上传到文件夹:inputs/image/sd_models/inpaint
- 从下拉列表中选择您的模型
- 选择模型类型(
SD
、SD2
或SDXL
) - 根据您需要的参数设置模型
- 将要进行生成的图像上传到
initial image
和mask image
- 在
mask image
中,选择画笔,然后选择调色板并将颜色更改为#FFFFFF
- 绘制生成区域并输入您的请求(+和-用于提示权重)
- 点击
Submit
按钮获取修复后的图像
- 首先将您的模型上传到文件夹:inputs/image/sd_models/inpaint
- 从下拉列表中选择您的模型
- 选择模型类型(
SD
、SD2
或SDXL
) - 根据您需要的参数设置模型
- 将要进行生成的图像上传到
initial image
- 输入您的请求(+和-用于提示权重)
- 点击
Submit
按钮获取扩展后的图像
- 首先将您的模型上传到文件夹:inputs/image/sd_models
- 从下拉列表中选择您的模型
- 选择模型类型(
SD
、SD2
或SDXL
) - 根据您需要的参数设置模型
- 输入您的提示请求(+和-用于提示权重)和GLIGEN短语(在""中表示框)
- 输入GLIGEN框(例如[0.1387, 0.2051, 0.4277, 0.7090]表示一个框)
- 点击
Submit
按钮获取生成的图像
- 输入您的源提示和源负面提示以进行图像遮罩
- 输入您的目标提示和目标负面提示以进行图像差异编辑
- 上传初始图像
- 根据您需要的参数设置模型
- 点击
Submit
按钮获取生成的图像
- 输入您的提示
- 上传初始图像
- 输入您的条件和目标主题
- 根据您需要的参数设置模型
- 点击
Submit
按钮获取生成的图像
- 首先将您的模型上传到文件夹:inputs/image/sd_models
- 从下拉列表中选择您的模型
- 根据您需要的参数设置模型
- 输入您的请求(+和-用于提示权重)
- 点击
Submit
按钮获取生成的图像动画
- 输入您的请求
- 根据您需要的参数设置模型
- 点击
Submit
按钮获取生成的GIF图像
- 上传初始图像
- 选择您的模型
- 输入您的请求(适用于IV2Gen-XL)
- 根据您需要的参数设置模型
- 点击
Submit
按钮获取从图像生成的视频
- 输入您的请求
- 根据您需要的参数设置模型
- 点击
Submit
按钮获取生成的图像
- 输入您的请求
- 根据您需要的参数设置模型
- 点击
Submit
按钮获取生成的图像
可选:您可以选择您的 lora
模型以改进生成方法。如果您的显存较低,可以通过单击 Enable quantize
按钮来使用量化模型,但您需要自己下载模型: CLIP-L, CLIP-G和T5XXL
- 输入您的请求
- 根据您需要的参数设置模型
- 点击
Submit
按钮获取生成的图像
- 上传初始图像
- 选择您需要的选项
- 点击
Submit
按钮获取修改后的图像
- 上传初始图像
- 选择您需要的选项
- 点击
Submit
按钮获取修改后的图像
- 文本到图像:
-
- 输入您的请求
- 根据您需要的参数设置模型
- 点击
Submit
按钮获取生成的图像
-
- 图像到音频:
-
- 上传初始图像
- 选择您需要的选项
- 点击
Submit
按钮获取从图像生成的音频
-
- 音频到图像:
-
- 上传初始音频
- 选择您需要的选项
- 点击
Submit
按钮获取从音频生成的图像
-
- 输入您的提示
- 从下拉列表中选择一个模型
- 根据您需要的参数设置模型
- 点击
Submit
获取生成的图像
- 输入您的提示
- 选择您的模型
- 根据您需要的参数设置模型
- 点击
Submit
获取生成的图像
可选:您可以选择您的lora
模型来改进生成方法。如果您的VRAM较低,还可以通过点击Enable quantize
按钮使用量化模型,但您需要自行下载模型:FLUX.1-dev或FLUX.1-schnell,以及VAE、CLIP和T5XXL
- 输入您的提示
- 根据您需要的参数设置模型
- 点击
Submit
获取生成的图像
- 输入您的提示
- 根据您需要的参数设置模型
- 点击
Submit
获取生成的图像
- 输入您的提示
- 根据您需要的参数设置模型
- 点击
Submit
获取生成的图像
- 输入您的提示
- 根据您需要的参数设置模型
- 点击
Submit
获取生成的图像
- 输入您的提示
- 根据您需要的参数设置模型
- 点击
Submit
获取生成的图像
- 输入您的提示
- 根据您需要的参数设置模型
- 点击
Submit
获取生成的图像
- 输入您的提示
- 选择您的模型
- 根据您需要的参数设置模型
- 点击
Submit
获取生成的图像
- 输入您的提示
- 根据您需要的参数设置模型
- 点击
Submit
获取生成的图像
- 输入您的提示
- 根据您需要的参数设置模型
- 点击
Submit
获取生成的图像
- 上传初始面部图像
- 上传初始语音音频
- 根据您需要的参数设置模型
- 点击
Submit
按钮接收唇形同步结果
- 上传初始面部图像
- 上传初始面部移动视频
- 点击
Submit
按钮接收动画面部图像
- 输入您的提示
- 根据您需要的参数设置模型
- 点击
Submit
获取生成的视频
- 输入您的提示
- 根据您需要的参数设置模型
- 点击
Submit
获取生成的视频
- 输入您的提示
- 根据您需要的参数设置模型
- 点击
Submit
获取生成的视频
- 输入您的提示
- 根据您需要的参数设置模型
- 点击
Submit
获取生成的视频
- 上传初始图像
- 根据您需要的参数设置模型
- 点击
Submit
按钮获取生成的3D对象
- 输入您的请求或上传初始图像
- 根据您需要的参数设置模型
- 点击
Submit
按钮获取生成的3D对象
- 上传初始图像
- 根据您需要的参数设置模型
- 点击
Submit
按钮获取生成的图像3D旋转
- 根据您需要的参数设置模型
- 输入您的请求
- 点击
Submit
按钮获取生成的音频
- 从下拉列表中选择一个模型
- 选择模型类型(
musicgen
、audiogen
或magnet
) - 根据您需要的参数设置模型
- 输入您的请求
- (可选)如果您使用
melody
模型,请上传初始音频 - 点击
Submit
按钮获取生成的音频
- 从下拉列表中选择一个模型
- 根据您需要的参数设置模型
- 输入您的请求
- 点击
Submit
按钮获取生成的音频
- 输入您的请求
- 根据您需要的参数设置模型
- 点击
Submit
按钮接收生成的音频响应
- 首先将您的模型上传到文件夹:inputs/audio/rvc_models
- 上传初始音频
- 从下拉列表中选择您的模型
- 根据您需要的参数设置模型
- 点击
Submit
按钮接收生成的语音克隆
- 上传要分离的初始音频
- 点击
Submit
按钮获取分离后的音频
- 上传要分离的初始音频
- 点击
Submit
按钮获取分离后的音频
- 上传初始文件
- 选择您需要的选项
- 点击
Submit
按钮获取修改后的文件
- 上传初始图像
- 选择您的模型
- 根据您需要的参数设置模型
- 点击
Submit
按钮获取放大后的图像
- 上传源面部图像
- 上传目标面部图像或视频
- 选择您需要的选项
- 点击
Submit
按钮获取换脸后的图像
- 上传生成的文件
- 点击
Submit
按钮获取文件的元数据信息
- 在这里您可以查看项目的在线或离线wiki
- 在这里您可以查看outputs目录中的文件
- 在这里您可以下载
LLM
和StableDiffusion
模型
- 在这里您可以更改应用程序设置
- 在这里您可以查看计算机传感器的指标
- 所有生成的内容都保存在outputs文件夹中。您可以使用
Outputs
按钮打开outputs文件夹 - 您可以使用
Close terminal
按钮关闭应用程序
- LLM模型可以从HuggingFace获取,或者从界面内的ModelDownloader获取
- StableDiffusion、vae、inpaint、embedding和lora模型可以从CivitAI获取,或者从界面内的ModelDownloader获取
- RVC模型可以从VoiceModels获取
- StableAudio、AudioCraft、AudioLDM 2、TTS、Whisper、MMS、SeamlessM4Tv2、Wav2Lip、LivePortrait、SunoBark、MoonDream2、Upscalers(Latent和Real-ESRGAN)、Refiner、GLIGEN、DiffEdit、BLIP-Diffusion、Depth、Marigold、Pix2Pix、Controlnet、AnimateDiff、HotShot-XL、Videos、LDM3D、SD3、Cascade、T2I-IP-ADAPTER、IP-Adapter-FaceID、Riffusion、Rembg、Roop、CodeFormer、DDColor、PixelOE、Real-ESRGAN、StableFast3D、Shap-E、Zero123Plus、UVR、Demucs、Kandinsky、Flux、HunyuanDiT、Lumina-T2X、Kolors、AuraFlow、AuraSR、Würstchen、DeepFloydIF、PixArt、CogView3-Plus, PlaygroundV2.5、ModelScope、ZeroScope 2、CogVideoX、MagicPrompt、Latte和Multiband diffusion模型在使用时会自动下载到inputs文件夹中
- 您可以从任何地方获取语音。录制您自己的声音或从互联网上获取录音。或者直接使用项目中已有的语音。主要是要经过预处理!