add a test for SDXL with sliced attention

2024-11-21 21:58:47 +00:00 · 2024-01-30 16:49:30 +01:00 · 2024-01-30 16:49:30 +01:00 · 5ac5373310
parent 3ddd258d36
commit 5ac5373310
4 changed files with 47 additions and 1 deletions
--- a/src/refiners/fluxion/adapters/adapter.py
+++ b/src/refiners/fluxion/adapters/adapter.py
@ -79,7 +79,7 @@ class Adapter(Generic[T]):

    def _pre_structural_copy(self) -> None:
        if isinstance(self.target, fl.Chain):
-            raise RuntimeError("Chain adapters typically cannot be copied, eject them first.")
+            raise RuntimeError(f"Chain adapters ({self}) typically cannot be copied, eject them first.")

    def _post_structural_copy(self: TAdapter, source: TAdapter) -> None:
        self._target = [source.target]
--- a/src/refiners/foundationals/latent_diffusion/stable_diffusion_1/model.py
+++ b/src/refiners/foundationals/latent_diffusion/stable_diffusion_1/model.py
@ -19,6 +19,7 @@ class SD1Autoencoder(LatentDiffusionAutoencoder):
 class StableDiffusion_1(LatentDiffusionModel):
    unet: SD1UNet
    clip_text_encoder: CLIPTextEncoderL
+    lda: SD1Autoencoder

    def __init__(
        self,
--- a/src/refiners/foundationals/latent_diffusion/stable_diffusion_xl/model.py
+++ b/src/refiners/foundationals/latent_diffusion/stable_diffusion_xl/model.py
@ -16,6 +16,7 @@ class SDXLAutoencoder(LatentDiffusionAutoencoder):
 class StableDiffusion_XL(LatentDiffusionModel):
    unet: SDXLUNet
    clip_text_encoder: DoubleTextEncoder
+    lda: SDXLAutoencoder

    def __init__(
        self,
--- a/tests/e2e/test_diffusion.py
+++ b/tests/e2e/test_diffusion.py
@ -7,6 +7,7 @@ import pytest
 import torch
 from PIL import Image

+from refiners.fluxion.layers.attentions import ScaledDotProductAttention
 from refiners.fluxion.utils import image_to_tensor, load_from_safetensors, load_tensors, manual_seed, no_grad
 from refiners.foundationals.clip.concepts import ConceptExtender
 from refiners.foundationals.latent_diffusion import (
@ -1640,6 +1641,49 @@ def test_sdxl_random_init_sag(
    ensure_similar_images(img_1=predicted_image, img_2=expected_image)


+@no_grad()
+def test_diffusion_sdxl_sliced_attention(
+    sdxl_ddim: StableDiffusion_XL, expected_sdxl_ddim_random_init: Image.Image
+) -> None:
+    unet = sdxl_ddim.unet.structural_copy()
+    for layer in unet.layers(ScaledDotProductAttention):
+        layer.slice_size = 2048
+
+    sdxl = StableDiffusion_XL(
+        unet=unet,
+        lda=sdxl_ddim.lda,
+        clip_text_encoder=sdxl_ddim.clip_text_encoder,
+        solver=sdxl_ddim.solver,
+        device=sdxl_ddim.device,
+        dtype=sdxl_ddim.dtype,
+    )
+
+    expected_image = expected_sdxl_ddim_random_init
+
+    prompt = "a cute cat, detailed high-quality professional image"
+    negative_prompt = "lowres, bad anatomy, bad hands, cropped, worst quality"
+
+    clip_text_embedding, pooled_text_embedding = sdxl.compute_clip_text_embedding(
+        text=prompt, negative_text=negative_prompt
+    )
+    time_ids = sdxl.default_time_ids
+    sdxl.set_inference_steps(30)
+    manual_seed(2)
+    x = torch.randn(1, 4, 128, 128, device=sdxl.device, dtype=sdxl.dtype)
+    for step in sdxl.steps:
+        x = sdxl(
+            x,
+            step=step,
+            clip_text_embedding=clip_text_embedding,
+            pooled_text_embedding=pooled_text_embedding,
+            time_ids=time_ids,
+            condition_scale=5,
+        )
+
+    predicted_image = sdxl.lda.decode_latents(x)
+    ensure_similar_images(predicted_image, expected_image, min_psnr=35, min_ssim=0.98)
+
+
@no_grad()
 def test_multi_diffusion(sd15_ddim: StableDiffusion_1, expected_multi_diffusion: Image.Image) -> None:
    manual_seed(seed=2)