Lumina-Image 2.0:上海 AI Lab 开源的统一图像生成模型,支持生成多分辨率、多风格的图像

Written by 30115776@qq.com

今天我们将介绍 Lumina-Image 2.0,一个由上海 AI Lab 开源的高效统一图像生成模型。该模型具有 26 亿参数,结合扩散模型和 Transformer 架构,旨在提升图像生成质量、优化资源效率以及支持多种风格和复杂提示。

🚀 快速阅读

Lumina-Image 2.0 是上海 AI Lab 开源的一个强大的图像生成工具,支持生成高质量、多风格的图像。其核心功能包括:

  • 高质量图像生成:支持生成多种类型的图像,包括写真、艺术风格图像等。
  • 多语言支持:支持中英双语提示词,用户可以使用不同语言生成对应图像。
  • 复杂提示词理解:该模型能够理解复杂的描述,生成准确、细致的图像。
  • 推理求解器:支持中点求解器、欧拉求解器和 DPM 求解器等多种求解器。
  • 与 ComfyUI 集成:用户可以通过 ComfyUI 快速运行该模型。

Lumina-Image 2.0 是什么?

Lumina-Image 2.0

Lumina-Image 2.0 由上海 AI Lab 开源,参数量高达 26 亿,基于 扩散模型Transformer 架构。这个模型的特点是高效、灵活,可以根据文本描述生成不同风格的图像。无论是自然照片、艺术风格、还是复杂的逻辑图像,Lumina-Image 2.0 都能提供优质的生成效果。

在模型架构上,Lumina-Image 2.0 结合了扩散模型和 Transformer,在生成速度与质量上取得了良好的平衡。支持多种推理求解器,使得图像生成更加高效,并且可以通过 ComfyUI 轻松进行操作。

Lumina-Image 2.0 的主要功能

高质量图像生成

该模型不仅支持生成写实风格的图像,还能生成艺术风格化图像、抽象艺术以及基于逻辑推理的图像。

多语言支持

Lumina-Image 2.0 支持中文和英文的提示词,能够根据不同语言的描述自动生成相应的图像,这使得其适用范围更加广泛。

复杂提示词理解

该模型能够精准理解复杂的文本描述,如人物表情、动物特征等,并生成对应的图像。

推理求解器支持

支持中点求解器(Midpoint Solver)、欧拉求解器(Euler Solver)以及 DPM 求解器等多种推理求解器,用户可以根据需求选择最合适的推理方法。

艺术性与风格表现

Lumina-Image 2.0 在艺术创作方面表现突出,能够生成多种风格的图像,满足不同领域的需求。

与 ComfyUI 集成

该模型与 ComfyUI 无缝对接,用户可以通过该界面直接使用 Lumina-Image 2.0,进一步提高了易用性。

Lumina-Image 2.0 的技术原理

扩散模型

Lumina-Image 2.0 使用了基于流的 扩散模型(Flow-based Diffusion Model)。通过逐步去噪的过程,图像从噪声中恢复过来,从而生成清晰、精细的图像。具体来说,扩散模型通过添加高斯噪声,再逐步去噪,最终得到一张高质量的图像。

Transformer 架构

作为该模型的核心架构,Transformer 能够处理长距离的文本依赖关系,使得文本生成的图像更加准确。模型采用 Gemma-2-2B 作为文本编码器,将文本描述高效地转化为图像生成所需的特征。

推理求解器

为了提升生成效率与图像质量,Lumina-Image 2.0 支持多种推理求解器,包括:

  • 中点求解器(Midpoint Solver)
  • 欧拉求解器(Euler Solver)
  • DPM 求解器(DPM Solver)

这些求解器可以在不同的生成场景中提供最佳的速度与效果平衡。

高效的训练与推理

尽管 Lumina-Image 2.0 拥有 26 亿个参数,但由于优化了训练与推理流程,该模型仍能够高效运行,并在保持高质量生成的同时降低计算资源的消耗。

如何运行 Lumina-Image 2.0

创建 Conda 环境并安装 PyTorch

conda create -n Lumina2 -y
conda activate Lumina2
conda install python=3.11 pytorch==2.1.0 torchvision==0.16.0 torchaudio==2.1.0 pytorch-cuda=12.1 -c pytorch -c nvidia -y

安装依赖项

pip install -r requirements.txt

安装 Flash-Attn

pip install flash-attn --no-build-isolation

准备数据

将数据文件的链接放入 ./configs/data.yaml 中,图像-文本对训练数据格式如下:

{
   "image_path": "path/to/your/image",
   "prompt": "a description of the image"
}

开始微调

bash scripts/run_1024_finetune.sh

推理代码

支持多种求解器,示例如下:

Gradio Demo

python demo.py \
  --ckpt /path/to/your/ckpt \
  --res 1024 \
  --port 12123

直接批量推理

bash scripts/sample.sh

资源链接

结语

Lumina-Image 2.0 是一个高效且强大的图像生成工具,广泛适用于创意设计、艺术创作、学术研究等领域。希望这篇文章能帮助你更好地理解和使用该模型。若你对 AI 技术感兴趣,欢迎关注我,获取更多关于大模型与开源项目的最新资讯和实用教程!

30115776@qq.com

Pretium lorem primis lectus donec tortor fusce morbi risus curae. Dignissim lacus massa mauris enim mattis magnis senectus montes mollis taciti accumsan semper nullam dapibus netus blandit nibh aliquam metus morbi cras magna vivamus per risus.

AstrBot:轻松将大模型接入QQ、微信等消息平台,打造多功能AI聊天机器人开发框架【附详细教程】

BEN2:一键快速抠图!自动移除图像和视频中的背景,支持在线使用

发表评论