FLUX模型8倍加速，低配福音！笔记本跑出“4090级”速度？Nunchaku

AI教程1个月前发布 zhuchunguang

这是搭载RTX 4090显卡的顶配台式机，使用当前开源AI绘图领域最先进的FLUX模型生成图片，速度约为20秒每张。

而搭载5070显卡的笔记本运行同一FLUX模型时，速度达到惊人的6秒每张，是4090显卡性能的近3倍。

它的速度之所以如此出色，是因为采用了一项创新技术。该技术可使显卡在ComfyUI中的运行速度提升至8倍，同时显著降低模型运行时的显存占用。

即使是RTX 5070这样的入门级显卡，也能流畅运行FLUX等大型模型，并且可以无缝集成到现有的工作流中。

你一定想知道Nunchaku是什么，以及如何在自己的电脑上使用它。将为你全面介绍这一工具。

nunchaku-tech/ComfyUI-nunchaku: ComfyUI Plugin of Nunchaku

Nunchaku是今年上半年出现在ComfyUI开源社区的一个节点，由MIT HAN Lab（硬件加速神经网络实验室）与英伟达联合研发，专门针对FLUX模型进行优化。

经常使用AI工具的朋友们对FLUX模型应该非常熟悉。作为当前性能最强的开源AI绘图模型之一，FLUX拥有完善的生态支持，广泛应用于平面设计和电商宣传等领域。不过，作为本地部署的模型，其体积确实略显庞大。

在介绍FLUX模型的视频中曾提到，原版FLUX的运行门槛需要24GB显存起步，仅RTX 4090等高端显卡能够流畅运行。显存不足的设备在运行时会出现性能下降的情况。

不过，在以往的视频中我们曾提到，模型可通过量化方式降低计算负担。为此，他们提出了一种新的思维量化方法——SVD Quant，并围绕其设计了推理加速引擎Nunchaku。

Nunchaku源自日语词汇，意为双截棍，这一命名颇具特色。

从技术角度来看，这是将量化技术与推理引擎相结合的创新方案，其性能表现如同双截棍般强劲。该团队已将这项技术开源，并开发为ComfyUI的自定义节点，使得用户能够在ComfyUI平台上便捷地使用这一功能。

该技术能够显著降低显存占用，最高可将Flux模型的显存需求减少3.5倍。结合CPU Offloading技术，最低仅需4G显存即可运行Flux模型，这对低配置设备用户而言极具吸引力。对于配置较高的用户，该技术同样能大幅提升模型推理速度。

效果有多显著呢？以我的电脑测试结果为例，加速效果至少可达4-5倍。在低配置设备上，性能提升更为明显。原先需要半分钟生成一张图像，现在仅需几秒即可完成，速度已接近SD 1.5的水平。

不过需要注意的是，模型量化过程不可避免地会带来一定的质量损失。

但Nunchaku的开发者们通过配套推理引擎的设计，最大程度上降低了这一过程的损失。

如图所示，左侧展示的是FP16原版模型的运行结果，右侧则是经过Nunchaku加速后的效果，两者的差异显而易见。

更重要的是，该加速技术具有广泛的适用性，不仅支持基础FLUX模型加速，还能无缝兼容各类FLUX LoRA模型，无需额外处理操作。同时，该技术还完整支持包括ControlNet、TileRedux等FLUX生态中的常用工具。

该工具适用于几乎所有NVIDIA显卡用户，包括最新的RTX 50系列和较老的GTX 1020系列显卡，兼容性广泛。

使用方法非常简单，只需下载模型并替换原有工作流中的1-2个节点即可生效。

看到这里，你一定想知道如何在ComfyUI中使用它。

您可以访问项目仓库以了解详细的安装流程。开发者还贴心地为用户提供了中英文双语安装视频，供您参考。部分安装步骤可能需要一定的编程基础才能更好地理解，同时这也是从头开始安装ComfyUI的过程。对于已经拥有ComfyUI的用户，我将尝试用自己的方式归纳这一过程，以供参考。

为了体验在新设备上安装该插件的过程，我使用了一台联想最新推出的设计师系列ThinkBook 16P 2025 AI原器版。该设备配备了英特尔Core Ultra 9 275HX标压处理器和英伟达GeForce RTX 5070笔记本电脑GPU，能够流畅稳定地支持各种3D建模和动态设计软件。其屏幕素质优异，可选择3.2K分辨率165Hz专业创作屏或2.5K分辨率240Hz高速动态屏，均具备500尼特高亮度和100% DCI-P3电影级色域。整机200W的性能释放可提供高达798TOPS的AI算力，轻松在本地运行Stable Diffusion等AI绘图模型来释放创意。

在本期视频介绍的Nunchaku的帮助下，该设备也能流畅运行包括FLUX在内的各种大型绘图模型，并取得出色的速度表现。稍后我们将实测其使用FLUX生成图片的速度。首先，您需要在ComfyUI中安装Nunchaku的自定义节点。

在Manager中输入ComfyUI Nunchaku进行搜索，点击安装即可。安装完成后，若直接重启，节点可能不会出现在ComfyUI中，命令行会提示导入节点失败，这是由于缺少Nunchaku推理引擎的相关依赖组件。

此时需要手动安装Nunchaku的轮子文件。轮子文件是后缀为.whl的文件，类似于压缩包，可帮助Python快速安装库和依赖项。开发者已在Github、Hugging Face和ModelScope平台提供了不同版本和型号的轮子文件供下载。

当前最新版本为0.3.0，文件名称中的字母和数字代表特定型号。安装时需根据ComfyUI所使用的PyTorch和Python版本选择对应型号的轮子文件，其中Torch表示PyTorch版本，CP表示Python版本。可在ComfyUI启动时通过命令行初始信息查看当前Python和CUDA版本。

我的Python版本为3.12，PyTorch版本为2.7.0，因此需要下载标注为Torch2.7的轮子文件。

CP312等文件。手动下载轮子文件后，右键单击并复制文件地址，随后将其安装至ComfyUI所使用的Python环境中。启动时的命令行可查询ComfyUI所使用的Python解释器目录。

打开该目录，在地址栏输入 “cmd” 并回车以启动命令行界面。随后输入指定命令，粘贴轮子文件下载地址后回车，即可将轮子文件成功安装至 ComfyUI 环境。

完成安装后重启 ComfyUI，便可在节点列表中搜索到 Nunchaku 相关节点。

距离使用Nunchaku仅剩最后一步，即将开发者制作的四位量化模型下载至ComfyUI模型库中。

开发者已贴心地将模型上传至Hugging Face和ModelScope平台。本教程以Hugging Face为例进行演示，若访问受限，用户也可通过ModelScope获取相同资源。

平台提供了包括FluxDev、Chanel、Phil、Kenny和Devds等官方模型的量化版本。下载时可见每个模型均包含FP4和INT4两种量化格式的不同版本。

在之前的视频中，我们曾提到50系RTX GPU采用了全新的Blackwell架构，支持FP4量化精度，这将显著提升AI模型的推理性能。

由于我使用的是搭载最新RTX 5070 Laptop显卡的ThinkBook 16P，因此可以选择FP4版本的模型。若您使用的是40系或更早的设备，则需选择INT4版本的型号。

模型文件大小为数GB，下载可能需要一定时间。下载完成后，请将文件放置在根目录下的Models/Diffusion Models文件夹中即可。

完成上述操作后，您即可在ComfyUI中体验Nunchaku的运行速度。

通过搜索，你可以在节点库中找到一系列Nunchaku节点，其中最主要的三个是DiT Loader、LoRA Loader和Text Encoder Loader。它们在ComfyUI中的作用是分别替代原有的UNet加载器、LoRA加载器和CLIP加载器。

针对常规的 FLUX 工作流，只需将 UNet Loader 替换为 Nunchaku 的 FLUX DiT Loader 即可。例如，在标准的 FLUX FP16 原版工作流中，可直接将原有的 UNet 加载器和双 CLIP 加载器替换为 Nunchaku 节点。

只需添加节点并连接线路，即可构建Nunchaku加速的Flux工作流。完成节点替换后，选择已下载的对应型号模型，并启用Flux的双文本编码器，系统即可正常运行。以下展示生成速度的对比测试结果。

原Flux工作流生成一张图片耗时约20秒，而采用Nunchaku节点后仅需不到5秒即可完成，效率提升4-5倍。

这是在我的台式机上测出的速度。考虑到很多用户使用的是ThinkBook 16P这类便携笔记本，我们测试了Nunchaku在此类设备上的表现。

使用原版Flux工作流时，生成单张图片耗时超过两分钟，效率较低。

在采用Nunchaku技术后，图像生成速度得到显著提升，仅需约15秒即可完成一张图片的生成。在配备50系GPU和Nunchaku的情况下，速度提升至原先的8倍以上。

最高可配置的4TB固态硬盘进一步优化了模型加载速度。当GPU全速运行时，得益于全新的Backwell Max-Q技术和冰炫风散热模组，散热效率极高，8.012的静效指数使得散热系统几乎无感。

因此，现在可以在轻薄笔记本上流畅运行Flux模型。

在使用这些节点时，您会发现相较于常规模型加载器，界面中显示了更多参数选项。

在自定义节点的仓库中，提供了针对这些参数的详细解析。若感兴趣，可暂停阅读核心参数的说明。根据实际测试，多数情况下保持默认设置即可获得良好效果。

值得注意的是，前述节点中包含一个LoRA加载器。在使用量化FLUX模型时，可自由搭配任意LoRA，无需单独编译或调整，直接串联即可。但需使用Nunchaku的LoRA加载器进行加载。

下面进行演示：我们添加LoRA加载器，并加载吉卜力风格的LoRA模型，同时在提示词中加入相应触发词。

整个流程运行流畅，仅在加载LoRA时略有延迟。最终生成的作品成功呈现了吉卜力动漫的艺术风格。

在FLUX的应用中，部分LoRA模型能够显著提升图像生成速度，例如阿里开源的Flux Turbo。若需在工作流中添加多个LoRA模型，只需串联多个LoRA节点即可。

经实测，该工作流在笔者的设备上最快仅需3秒即可完成单张图像生成，相较FP16原版工作流实现了8倍以上的综合加速效果。

由此可见，标题所述内容真实可信。Nunchaku不仅适用于基础的文生图功能，还可应用于其他多种场景。

在下载的节点文件夹中，包含一系列官方示例工作流。如需探索更多功能，可参考这些工作流进行尝试。

例如Flux Tools中的Depth和Kenny这两个控制生成模型，我们加载对应的工作流时，它仅替换了其中的Unet加载器。导入用于控制的参考图后，填写提示词并选择量化模型，点击运行即可生成一张基于原图深度特征的新图片。

该过程速度极快且不易出错。由于本质上仅替换了工作流中的模型加载器，因此该功能不仅适用于官方工作流，还能与绝大多数Flux工作流兼容。

例如我们前几天讲解的ICEdit，其操作核心采用了Flux模型来实现重绘。

对于这一工作流，您只需将加载Fill模型的节点替换为Nunchaku，即可实现减负提速的效果。操作十分便捷。

这项技术的最大意义在于进一步扩大了Flux生态的影响力。得益于其对模型及配套设施的完善支持，许多提供在线推理服务的平台可利用其优化推理效率并节约算力。

文章版权归作者所有，未经允许请勿转载。

FLUX模型8倍加速，低配福音！笔记本跑出“4090级”速度？Nunchaku

IndexTTS2：B站的最新语音克隆模型太牛了语速语调情绪都能克隆！影视级别效果！

国内无限畅玩Nanobanana、seedream4.0、flux.1等，还能一句话直接做AI长视频

相关文章

Meta小扎发布量产AR眼镜亮点很多采用Waveguide技术

中美科技界各自抱团AI竞争未来十年AI领域将迎来井喷式爆发中国华为的自主突围

国内无限畅玩Nanobanana、seedream4.0、flux.1等，还能一句话直接做AI长视频

iphone17如约而至是挤爆了牙膏还是毫无新意？我们期待已久的ai功能来了么？

FLUX模型8倍加速，低配福音！笔记本跑出“4090级”速度？Nunchaku

IndexTTS2：B站的最新语音克隆模型太牛了 语速语调情绪都能克隆！影视级别效果！

国内无限畅玩Nanobanana、seedream4.0、flux.1等，还能一句话直接做AI长视频

相关文章

Meta小扎发布量产AR眼镜 亮点很多 采用Waveguide技术

中美科技界各自抱团AI竞争 未来十年AI领域将迎来井喷式爆发 中国华为的自主突围

国内无限畅玩Nanobanana、seedream4.0、flux.1等，还能一句话直接做AI长视频

iphone17如约而至 是挤爆了牙膏 还是毫无新意？我们期待已久的ai功能来了么？

IndexTTS2：B站的最新语音克隆模型太牛了语速语调情绪都能克隆！影视级别效果！

Meta小扎发布量产AR眼镜亮点很多采用Waveguide技术

中美科技界各自抱团AI竞争未来十年AI领域将迎来井喷式爆发中国华为的自主突围

iphone17如约而至是挤爆了牙膏还是毫无新意？我们期待已久的ai功能来了么？