今天我们将介绍 Lumina-Image 2.0,一个由上海 AI Lab 开源的高效统一图像生成模型。该模型具有 26 亿参数,结合扩散模型和 Transformer 架构,旨在提升图像生成质量、优化资源效率以及支持多种风格和复杂提示。
🚀 快速阅读
Lumina-Image 2.0 是上海 AI Lab 开源的一个强大的图像生成工具,支持生成高质量、多风格的图像。其核心功能包括:
- 高质量图像生成:支持生成多种类型的图像,包括写真、艺术风格图像等。
- 多语言支持:支持中英双语提示词,用户可以使用不同语言生成对应图像。
- 复杂提示词理解:该模型能够理解复杂的描述,生成准确、细致的图像。
- 推理求解器:支持中点求解器、欧拉求解器和 DPM 求解器等多种求解器。
- 与 ComfyUI 集成:用户可以通过 ComfyUI 快速运行该模型。
Lumina-Image 2.0 是什么?

Lumina-Image 2.0 由上海 AI Lab 开源,参数量高达 26 亿,基于 扩散模型 和 Transformer 架构。这个模型的特点是高效、灵活,可以根据文本描述生成不同风格的图像。无论是自然照片、艺术风格、还是复杂的逻辑图像,Lumina-Image 2.0 都能提供优质的生成效果。
在模型架构上,Lumina-Image 2.0 结合了扩散模型和 Transformer,在生成速度与质量上取得了良好的平衡。支持多种推理求解器,使得图像生成更加高效,并且可以通过 ComfyUI 轻松进行操作。
Lumina-Image 2.0 的主要功能
高质量图像生成
该模型不仅支持生成写实风格的图像,还能生成艺术风格化图像、抽象艺术以及基于逻辑推理的图像。
多语言支持
Lumina-Image 2.0 支持中文和英文的提示词,能够根据不同语言的描述自动生成相应的图像,这使得其适用范围更加广泛。
复杂提示词理解
该模型能够精准理解复杂的文本描述,如人物表情、动物特征等,并生成对应的图像。
推理求解器支持
支持中点求解器(Midpoint Solver)、欧拉求解器(Euler Solver)以及 DPM 求解器等多种推理求解器,用户可以根据需求选择最合适的推理方法。
艺术性与风格表现
Lumina-Image 2.0 在艺术创作方面表现突出,能够生成多种风格的图像,满足不同领域的需求。
与 ComfyUI 集成
该模型与 ComfyUI 无缝对接,用户可以通过该界面直接使用 Lumina-Image 2.0,进一步提高了易用性。
Lumina-Image 2.0 的技术原理
扩散模型
Lumina-Image 2.0 使用了基于流的 扩散模型(Flow-based Diffusion Model)。通过逐步去噪的过程,图像从噪声中恢复过来,从而生成清晰、精细的图像。具体来说,扩散模型通过添加高斯噪声,再逐步去噪,最终得到一张高质量的图像。
Transformer 架构
作为该模型的核心架构,Transformer 能够处理长距离的文本依赖关系,使得文本生成的图像更加准确。模型采用 Gemma-2-2B 作为文本编码器,将文本描述高效地转化为图像生成所需的特征。
推理求解器
为了提升生成效率与图像质量,Lumina-Image 2.0 支持多种推理求解器,包括:
- 中点求解器(Midpoint Solver)
- 欧拉求解器(Euler Solver)
- DPM 求解器(DPM Solver)
这些求解器可以在不同的生成场景中提供最佳的速度与效果平衡。
高效的训练与推理
尽管 Lumina-Image 2.0 拥有 26 亿个参数,但由于优化了训练与推理流程,该模型仍能够高效运行,并在保持高质量生成的同时降低计算资源的消耗。
如何运行 Lumina-Image 2.0
创建 Conda 环境并安装 PyTorch
conda create -n Lumina2 -y
conda activate Lumina2
conda install python=3.11 pytorch==2.1.0 torchvision==0.16.0 torchaudio==2.1.0 pytorch-cuda=12.1 -c pytorch -c nvidia -y
安装依赖项
pip install -r requirements.txt
安装 Flash-Attn
pip install flash-attn --no-build-isolation
准备数据
将数据文件的链接放入 ./configs/data.yaml
中,图像-文本对训练数据格式如下:
{
"image_path": "path/to/your/image",
"prompt": "a description of the image"
}
开始微调
bash scripts/run_1024_finetune.sh
推理代码
支持多种求解器,示例如下:
Gradio Demo
python demo.py \
--ckpt /path/to/your/ckpt \
--res 1024 \
--port 12123
直接批量推理
bash scripts/sample.sh
资源链接
- GitHub 仓库:https://github.com/Alpha-VLLM/Lumina-Image-2.0
- HuggingFace 仓库:https://huggingface.co/Alpha-VLLM/Lumina-Image-2.0
结语:
Lumina-Image 2.0 是一个高效且强大的图像生成工具,广泛适用于创意设计、艺术创作、学术研究等领域。希望这篇文章能帮助你更好地理解和使用该模型。若你对 AI 技术感兴趣,欢迎关注我,获取更多关于大模型与开源项目的最新资讯和实用教程!