add new weight conversion logic

2024-11-27 00:18:45 +00:00 · 2024-10-09 09:26:35 +00:00 · 2024-10-09 09:26:35 +00:00 · d322e9c5ed
parent 4045904b26
commit d322e9c5ed
26 changed files with 7652 additions and 3 deletions
--- a/pyproject.toml
+++ b/pyproject.toml
@ -56,6 +56,9 @@ Documentation = "https://refine.rs/"
 Repository = "https://github.com/finegrain-ai/refiners"
 Issues = "https://github.com/finegrain-ai/refiners/issues"

+[project.scripts]
+get_weights = "refiners.conversion.cli:main"
+
 [project.optional-dependencies]
 training = [
    "bitsandbytes>=0.41.2.post2",
@ -84,6 +87,7 @@ test = [
    "sentencepiece>=0.2.0",
 ]
 conversion = [
+    "huggingface-hub>=0.25.1",
    "diffusers>=0.26.1",
    "transformers>=4.35.2",
    "segment-anything-py>=1.0",
@ -181,7 +185,7 @@ exclude_also = [
 ]

 [tool.typos.default]
-extend-ignore-identifiers-re = ["NDArray*", "interm", "af000ded"]
+extend-ignore-identifiers-re = ["NDArray*", "interm", "af000ded", "nin"]

 [tool.typos.default.extend-words]
 adaptee = "adaptee"  # Common name for an adapter's target
--- a/src/refiners/conversion/init.py
+++ b/src/refiners/conversion/init.py
@ -0,0 +1,45 @@
+from .models import (
+    autoencoder_sd15,
+    autoencoder_sdxl,
+    clip_image_sd21,
+    clip_text_sd15,
+    clip_text_sdxl,
+    controllora_sdxl,
+    controlnet_sd15,
+    dinov2,
+    ella,
+    hq_sam,
+    ipadapter_sd15,
+    ipadapter_sdxl,
+    loras,
+    mvanet,
+    preprocessors,
+    sam,
+    t2iadapter_sd15,
+    t2iadapter_sdxl,
+    unet_sd15,
+    unet_sdxl,
+)
+
+__all__ = [
+    "autoencoder_sd15",
+    "autoencoder_sdxl",
+    "clip_image_sd21",
+    "clip_text_sd15",
+    "clip_text_sdxl",
+    "controllora_sdxl",
+    "controlnet_sd15",
+    "dinov2",
+    "ella",
+    "hq_sam",
+    "ipadapter_sd15",
+    "ipadapter_sdxl",
+    "loras",
+    "mvanet",
+    "preprocessors",
+    "sam",
+    "t2iadapter_sd15",
+    "t2iadapter_sdxl",
+    "unet_sd15",
+    "unet_sdxl",
+]
--- a/src/refiners/conversion/cli.py
+++ b/src/refiners/conversion/cli.py
@ -0,0 +1,145 @@
+import logging
+
+from refiners.conversion import (
+    autoencoder_sd15,
+    autoencoder_sdxl,
+    clip_image_sd21,
+    clip_text_sd15,
+    clip_text_sdxl,
+    controllora_sdxl,
+    controlnet_sd15,
+    dinov2,
+    ella,
+    hq_sam,
+    ipadapter_sd15,
+    ipadapter_sdxl,
+    loras,
+    mvanet,
+    preprocessors,
+    sam,
+    t2iadapter_sd15,
+    t2iadapter_sdxl,
+    unet_sd15,
+    unet_sdxl,
+)
+
+
+def main() -> None:
+    logging.getLogger("urllib3").setLevel(logging.WARNING)
+    logging.basicConfig(level=logging.DEBUG, format="%(asctime)s - %(levelname)s - %(message)s")
+
+    # MVANet
+    mvanet.mvanet.convert()
+    mvanet.finegrain_v01.download()
+
+    # loras (no conversion)
+    loras.sd15_pokemon.download()
+    loras.sdxl_dpo.download()
+    loras.sdxl_scifi.download()
+    loras.sdxl_pixelart.download()
+    loras.sdxl_age_slider.download()
+    loras.sdxl_cartoon_slider.download()
+    loras.sdxl_eyesize_slider.download()
+
+    # preprocessors
+    preprocessors.informative_drawings.convert()
+
+    # SD1.5 autoencoders
+    autoencoder_sd15.runwayml.convert()
+    autoencoder_sd15.stability_mse.convert()
+    autoencoder_sd15.juggernaut_reborn.convert()
+    autoencoder_sd15.juggernaut_aftermath.convert()
+    autoencoder_sd15.realistic_stock_photo_v3.convert()
+    autoencoder_sd15.realistic_vision_v5.convert()
+
+    # SDXL autoencoders
+    autoencoder_sdxl.stability.convert()
+    autoencoder_sdxl.madebyollin_fp16fix.convert()
+    autoencoder_sdxl.juggernautXL_v10.convert()
+
+    # SD1.5 text encoders
+    clip_text_sd15.runwayml.convert()
+    clip_text_sd15.juggernaut_reborn.convert()
+    clip_text_sd15.juggernaut_aftermath.convert()
+    clip_text_sd15.realistic_stock_photo_v3.convert()
+    clip_text_sd15.realistic_vision_v5.convert()
+
+    # SD2.1 image encoders
+    clip_image_sd21.unclip_21.convert()
+
+    # SDXL text encoders
+    clip_text_sdxl.stability.convert()
+    clip_text_sdxl.juggernautXL_v10.convert()
+
+    # SD1.5 unets
+    unet_sd15.runwayml.convert()
+    unet_sd15.runwayml_inpainting.convert()
+    unet_sd15.juggernaut_reborn.convert()
+    unet_sd15.juggernaut_aftermath.convert()
+    unet_sd15.realistic_stock_photo_v3.convert()
+    unet_sd15.realistic_vision_v5.convert()
+
+    # SD1.5 IC-Light
+    unet_sd15.ic_light_fc.convert()
+    unet_sd15.ic_light_fcon.convert()
+    unet_sd15.ic_light_fbc.convert()
+
+    # SDXL unets
+    unet_sdxl.stability.convert()
+    unet_sdxl.juggernautXL_v10.convert()
+
+    # SDXL LCM unet
+    unet_sdxl.lcm.convert()
+
+    # SDXL Lightning unet
+    unet_sdxl.lightning_4step.convert()
+    unet_sdxl.lightning_1step.convert()
+
+    # SD1.5 controlnets
+    controlnet_sd15.tile.convert()
+    controlnet_sd15.canny.convert()
+    controlnet_sd15.depth.convert()
+    controlnet_sd15.normalbae.convert()
+    controlnet_sd15.lineart.convert()
+    controlnet_sd15.sam.convert()
+
+    # SDXL Control LoRAs
+    controllora_sdxl.canny.convert()
+    controllora_sdxl.cpds.convert()
+
+    # SD1.5 IP-Adapters
+    ipadapter_sd15.base.convert()
+    ipadapter_sd15.plus.convert()
+
+    # SDXL IP-Adapters
+    ipadapter_sdxl.base.convert()
+    ipadapter_sdxl.plus.convert()
+
+    # SD1.5 T2I-Adapters
+    t2iadapter_sd15.depth.convert()
+
+    # SDXL T2I-Adapters
+    t2iadapter_sdxl.canny.convert()
+
+    # ELLA adapters
+    ella.sd15_t5xl.convert()
+
+    # DINOv2
+    dinov2.small.convert()
+    dinov2.small_reg.convert()
+    dinov2.base.convert()
+    dinov2.base_reg.convert()
+    dinov2.large.convert()
+    dinov2.large_reg.convert()
+    dinov2.giant.convert()
+    dinov2.giant_reg.convert()
+
+    # SAM
+    sam.vit_h.convert()
+
+    # SAM-HQ
+    hq_sam.vit_h.convert()
+
+
+if __name__ == "__main__":
+    main()
--- a/src/refiners/conversion/model_converter.py
+++ b/src/refiners/conversion/model_converter.py
@ -0,0 +1,654 @@
+from collections import defaultdict
+from enum import Enum, auto
+from pathlib import Path
+from typing import Any, DefaultDict, TypedDict
+
+import torch
+from torch import Tensor, nn
+from torch.utils.hooks import RemovableHandle
+
+from refiners.fluxion.utils import no_grad, norm, save_to_safetensors
+
+TORCH_BASIC_LAYERS: list[type[nn.Module]] = [
+    nn.Conv1d,
+    nn.Conv2d,
+    nn.Conv3d,
+    nn.ConvTranspose1d,
+    nn.ConvTranspose2d,
+    nn.ConvTranspose3d,
+    nn.Linear,
+    nn.BatchNorm1d,
+    nn.BatchNorm2d,
+    nn.BatchNorm3d,
+    nn.LayerNorm,
+    nn.GroupNorm,
+    nn.Embedding,
+    nn.MaxPool2d,
+    nn.AvgPool2d,
+    nn.AdaptiveAvgPool2d,
+]
+
+
+ModelTypeShape = tuple[type[nn.Module], tuple[torch.Size, ...]]
+
+
+class ModuleArgsDict(TypedDict):
+    """Represents positional and keyword arguments passed to a module.
+
+    - `positional`: A tuple of positional arguments.
+    - `keyword`: A dictionary of keyword arguments.
+    """
+
+    positional: tuple[Any, ...]
+    keyword: dict[str, Any]
+
+
+class ConversionStage(Enum):
+    """Represents the current stage of the conversion process.
+
+    Attributes:
+        INIT: The conversion process has not started.
+        BASIC_LAYERS_MATCH: The source and target models have the same number of basic layers.
+        SHAPE_AND_LAYERS_MATCH: The shape of both models agree.
+        MODELS_OUTPUT_AGREE: The source and target models agree.
+    """
+
+    INIT = auto()
+    BASIC_LAYERS_MATCH = auto()
+    SHAPE_AND_LAYERS_MATCH = auto()
+    MODELS_OUTPUT_AGREE = auto()
+
+
+class ModelConverter:
+    """Converts a model's state_dict to match another model's state_dict.
+
+    Note: The conversion process consists of three stages
+        1. Verify that the source and target models have the same number of basic layers.
+        2. Find matching shapes and layers between the source and target models.
+        3. Convert the source model's state_dict to match the target model's state_dict.
+        4. Compare the outputs of the source and target models.
+
+        The conversion process can be run multiple times, and will resume from the last stage.
+
+    Example:
+        ```py
+        source = ...
+        target = ...
+
+        converter = ModelConverter(
+            source_model=source,
+            target_model=target,
+            threshold=0.1,
+            verbose=False
+        )
+
+        is_converted = converter(args)
+        if is_converted:
+            converter.save_to_safetensors(path="converted_model.pt")
+        ```
+    """
+
+    ModuleArgs = tuple[Any, ...] | dict[str, Any] | ModuleArgsDict
+    stage: ConversionStage = ConversionStage.INIT
+    _stored_mapping: dict[str, str] | None = None
+
+    def __init__(
+        self,
+        source_model: nn.Module,
+        target_model: nn.Module,
+        source_keys_to_skip: list[str] | None = None,
+        target_keys_to_skip: list[str] | None = None,
+        custom_layer_mapping: dict[type[nn.Module], type[nn.Module]] | None = None,
+        threshold: float = 1e-5,
+        skip_output_check: bool = False,
+        skip_init_check: bool = False,
+        verbose: bool = True,
+    ) -> None:
+        """Initializes the ModelConverter.
+
+        Args:
+            source_model: The model to convert from.
+            target_model: The model to convert to.
+            source_keys_to_skip: A list of keys to skip when tracing the source model.
+            target_keys_to_skip: A list of keys to skip when tracing the target model.
+            custom_layer_mapping: A dictionary mapping custom layer types between the source and target models.
+            threshold: The threshold for comparing outputs between the source and target models.
+            skip_output_check: Whether to skip comparing the outputs of the source and target models.
+            skip_init_check: Whether to skip checking that the source and target models have the same number of basic
+                layers.
+            verbose: Whether to print messages during the conversion process.
+
+        """
+        self.source_model = source_model
+        self.target_model = target_model
+        self.source_keys_to_skip = source_keys_to_skip or []
+        self.target_keys_to_skip = target_keys_to_skip or []
+        self.custom_layer_mapping = custom_layer_mapping or {}
+        self.threshold = threshold
+        self.skip_output_check = skip_output_check
+        self.skip_init_check = skip_init_check
+        self.verbose = verbose
+
+    def __repr__(self) -> str:
+        return (
+            f"ModelConverter(source_model={self.source_model.__class__.__name__},"
+            f" target_model={self.target_model.__class__.__name__}, stage={self.stage})"
+        )
+
+    def __bool__(self) -> bool:
+        return self.stage.value >= 2 if self.skip_output_check else self.stage.value >= 3
+
+    def run(self, source_args: ModuleArgs, target_args: ModuleArgs | None = None) -> bool:
+        """Run the conversion process.
+
+        Args:
+            source_args: The arguments to pass to the source model it can be either a tuple of positional arguments,
+                a dictionary of keyword arguments, or a dictionary with `positional` and `keyword` keys. If `target_args`
+                is not provided, these arguments will also be passed to the target model.
+            target_args: The arguments to pass to the target model it can be either a tuple of positional arguments,
+                a dictionary of keyword arguments, or a dictionary with `positional` and `keyword` keys.
+
+        Returns:
+            True if the conversion process is done and the models agree.
+        """
+        if target_args is None:
+            target_args = source_args
+
+        match self.stage:
+            case ConversionStage.MODELS_OUTPUT_AGREE:
+                self._increment_stage()
+                return True
+
+            case ConversionStage.SHAPE_AND_LAYERS_MATCH if self._run_shape_and_layers_match_stage(
+                source_args=source_args, target_args=target_args
+            ):
+                self._increment_stage()
+                return True
+
+            case ConversionStage.BASIC_LAYERS_MATCH if self._run_basic_layers_match_stage(
+                source_args=source_args, target_args=target_args
+            ):
+                self._increment_stage()
+                return self.run(source_args=source_args, target_args=target_args)
+
+            case ConversionStage.INIT if self._run_init_stage():
+                self._increment_stage()
+                return self.run(source_args=source_args, target_args=target_args)
+
+            case _:
+                self._log(message=f"Conversion failed at stage {self.stage.value}")
+                return False
+
+    def _increment_stage(self) -> None:
+        """Increment the stage of the conversion process."""
+        match self.stage:
+            case ConversionStage.INIT:
+                self.stage = ConversionStage.BASIC_LAYERS_MATCH
+                self._log(
+                    message=(
+                        "Stage 0 -> 1 - Models have the same number of basic layers. Finding matching shapes and"
+                        " layers..."
+                    )
+                )
+            case ConversionStage.BASIC_LAYERS_MATCH:
+                self.stage = ConversionStage.SHAPE_AND_LAYERS_MATCH
+                self._log(
+                    message=(
+                        "Stage 1 -> 2 - Shape of both models agree. Applying state_dict to target model. Comparing"
+                        " models..."
+                    )
+                )
+
+            case ConversionStage.SHAPE_AND_LAYERS_MATCH:
+                if self.skip_output_check:
+                    self._log(
+                        message=(
+                            "Stage 2 - Nothing to do. Skipping output check. If you want to compare the outputs, set"
+                            " `skip_output_check` to `False`"
+                        )
+                    )
+                else:
+                    self.stage = ConversionStage.MODELS_OUTPUT_AGREE
+                    self._log(
+                        message=(
+                            "Stage 2 -> 3 - Conversion is done and source and target models agree: you can export the"
+                            " converted model using `save_to_safetensors`"
+                        )
+                    )
+            case ConversionStage.MODELS_OUTPUT_AGREE:
+                self._log(
+                    message=(
+                        "Stage 3 - Nothing to do. Conversion is done and source and target models agree: you can export"
+                        " the converted model using `save_to_safetensors`"
+                    )
+                )
+
+    def get_state_dict(self) -> dict[str, Tensor]:
+        """Get the converted state_dict."""
+        if not self:
+            raise ValueError("The conversion process is not done yet. Run `converter(args)` first.")
+        return self.target_model.state_dict()
+
+    def get_mapping(self) -> dict[str, str]:
+        """Get the mapping between the source and target models' state_dicts."""
+        if not self:
+            raise ValueError("The conversion process is not done yet. Run `converter(args)` first.")
+        assert self._stored_mapping is not None, "Mapping is not stored"
+        return self._stored_mapping
+
+    def save_to_safetensors(self, path: Path | str, metadata: dict[str, str] | None = None, half: bool = False) -> None:
+        """Save the converted model to a SafeTensors file.
+
+        Warning:
+            This method can only be called after the conversion process is done.
+
+        Args:
+            path: The path to save the converted model to.
+            metadata: Metadata to save with the converted model.
+            half: Whether to save the converted model as half precision.
+
+        Raises:
+            ValueError: If the conversion process is not done yet. Run `converter` first.
+        """
+        if not self:
+            raise ValueError("The conversion process is not done yet. Run `converter(args)` first.")
+        state_dict = self.get_state_dict()
+        if half:
+            state_dict = {key: value.half() for key, value in state_dict.items()}
+        save_to_safetensors(path=path, tensors=state_dict, metadata=metadata)
+
+    def map_state_dicts(
+        self,
+        source_args: ModuleArgs,
+        target_args: ModuleArgs | None = None,
+    ) -> dict[str, str] | None:
+        """Find a mapping between the source and target models' state_dicts.
+
+        Args:
+            source_args: The arguments to pass to the source model it can be either a tuple of positional arguments,
+                a dictionary of keyword arguments, or a dictionary with `positional` and `keyword` keys. If `target_args`
+                is not provided, these arguments will also be passed to the target model.
+            target_args: The arguments to pass to the target model it can be either a tuple of positional arguments,
+                a dictionary of keyword arguments, or a dictionary with `positional` and `keyword` keys.
+
+        Returns:
+            A dictionary mapping keys in the target model's state_dict to keys in the source model's state_dict.
+        """
+        if target_args is None:
+            target_args = source_args
+
+        source_order = self._trace_module_execution_order(
+            module=self.source_model, args=source_args, keys_to_skip=self.source_keys_to_skip
+        )
+        target_order = self._trace_module_execution_order(
+            module=self.target_model, args=target_args, keys_to_skip=self.target_keys_to_skip
+        )
+
+        if not self._assert_shapes_aligned(source_order=source_order, target_order=target_order):
+            return None
+
+        mapping: dict[str, str] = {}
+        for source_type_shape in source_order:
+            source_keys = source_order[source_type_shape]
+            target_type_shape = source_type_shape
+            if not self._is_torch_basic_layer(module_type=source_type_shape[0]):
+                for source_custom_type, target_custom_type in self.custom_layer_mapping.items():
+                    if source_custom_type == source_type_shape[0]:
+                        target_type_shape = (target_custom_type, source_type_shape[1])
+                        break
+
+            target_keys = target_order[target_type_shape]
+            mapping.update(zip(target_keys, source_keys))
+
+        return mapping
+
+    def compare_models(
+        self,
+        source_args: ModuleArgs,
+        target_args: ModuleArgs | None = None,
+        threshold: float = 1e-5,
+    ) -> bool:
+        """Compare the outputs of the source and target models.
+
+        Args:
+            source_args: The arguments to pass to the source model it can be either a tuple of positional arguments,
+                a dictionary of keyword arguments, or a dictionary with `positional` and `keyword` keys. If `target_args`
+                is not provided, these arguments will also be passed to the target model.
+            target_args: The arguments to pass to the target model it can be either a tuple of positional arguments,
+                a dictionary of keyword arguments, or a dictionary with `positional` and `keyword` keys.
+            threshold: The threshold for comparing outputs between the source and target models.
+
+        Returns:
+            True if the outputs of the source and target models agree.
+        """
+        if target_args is None:
+            target_args = source_args
+
+        source_outputs = self._collect_layers_outputs(
+            module=self.source_model, args=source_args, keys_to_skip=self.source_keys_to_skip
+        )
+        target_outputs = self._collect_layers_outputs(
+            module=self.target_model, args=target_args, keys_to_skip=self.target_keys_to_skip
+        )
+
+        diff, prev_source_key, prev_target_key = None, None, None
+        for (source_key, source_output), (target_key, target_output) in zip(source_outputs, target_outputs):
+            diff = norm(source_output - target_output.reshape(shape=source_output.shape)).item()
+            if diff > threshold:
+                self._log(
+                    f"Models diverged between {prev_source_key} and {source_key}, and between {prev_target_key} and"
+                    f" {target_key}, difference in norm: {diff}"
+                )
+                return False
+            prev_source_key, prev_target_key = source_key, target_key
+
+        self._log(message=f"Models agree. Difference in norm: {diff}")
+
+        return True
+
+    def _run_init_stage(self) -> bool:
+        """Run the init stage of the conversion process."""
+        if self.skip_init_check:
+            self._log(
+                message=(
+                    "Skipping init check. If you want to check the number of basic layers, set `skip_init_check` to"
+                    " `False`"
+                )
+            )
+            return True
+
+        is_count_correct = self._verify_basic_layers_count()
+        is_not_missing_layers = self._verify_missing_basic_layers()
+
+        return is_count_correct and is_not_missing_layers
+
+    def _run_basic_layers_match_stage(self, source_args: ModuleArgs, target_args: ModuleArgs | None) -> bool:
+        """Run the basic layers match stage of the conversion process."""
+        mapping = self.map_state_dicts(source_args=source_args, target_args=target_args)
+        self._stored_mapping = mapping
+        if mapping is None:
+            self._log(message="Models do not have matching shapes.")
+            return False
+
+        source_state_dict = self.source_model.state_dict()
+        target_state_dict = self.target_model.state_dict()
+        converted_state_dict = self._convert_state_dict(
+            source_state_dict=source_state_dict, target_state_dict=target_state_dict, state_dict_mapping=mapping
+        )
+        self.target_model.load_state_dict(state_dict=converted_state_dict)
+
+        return True
+
+    def _run_shape_and_layers_match_stage(self, source_args: ModuleArgs, target_args: ModuleArgs | None) -> bool:
+        """Run the shape and layers match stage of the conversion process."""
+        if self.skip_output_check:
+            self._log(
+                message="Skipping output check. If you want to compare the outputs, set `skip_output_check` to `False`"
+            )
+            return True
+
+        try:
+            if self.compare_models(source_args=source_args, target_args=target_args, threshold=self.threshold):
+                self._log(message="Models agree. You can export the converted model using `save_to_safetensors`")
+                return True
+            else:
+                self._log(message="Models do not agree. Try to increase the threshold or modify the models.")
+                return False
+        except Exception as e:
+            self._log(message=f"An error occurred while comparing the models: {e}")
+            return False
+
+    def _log(self, message: str) -> None:
+        """Print a message if `verbose` is `True`."""
+        if self.verbose:
+            print(message)
+
+    def _debug_print_shapes(
+        self,
+        shape: ModelTypeShape,
+        source_keys: list[str],
+        target_keys: list[str],
+    ) -> None:
+        """Print the shapes of the sub-modules in `source_keys` and `target_keys`."""
+        self._log(message=f"{shape}")
+        max_len = max(len(source_keys), len(target_keys))
+        for i in range(max_len):
+            source_key = source_keys[i] if i < len(source_keys) else "---"
+            target_key = target_keys[i] if i < len(target_keys) else "---"
+            self._log(f"\t{source_key}\t{target_key}")
+
+    @staticmethod
+    def _unpack_module_args(module_args: ModuleArgs) -> tuple[tuple[Any, ...], dict[str, Any]]:
+        """Unpack the positional and keyword arguments passed to a module."""
+        match module_args:
+            case tuple(positional_args):
+                keyword_args: dict[str, Any] = {}
+            case {"positional": positional_args, "keyword": keyword_args}:
+                pass
+            case _:
+                positional_args = ()
+                keyword_args = dict(**module_args)
+
+        return positional_args, keyword_args
+
+    def _is_torch_basic_layer(self, module_type: type[nn.Module]) -> bool:
+        """Check if a module type is a subclass of a torch basic layer."""
+        return any(issubclass(module_type, torch_basic_layer) for torch_basic_layer in TORCH_BASIC_LAYERS)
+
+    def _infer_basic_layer_type(self, module: nn.Module) -> type[nn.Module] | None:
+        """Infer the type of a basic layer."""
+        layer_types = (
+            set(self.custom_layer_mapping.keys()) | set(self.custom_layer_mapping.values()) | set(TORCH_BASIC_LAYERS)
+        )
+        for layer_type in layer_types:
+            if isinstance(module, layer_type):
+                return layer_type
+
+        return None
+
+    def get_module_signature(self, module: nn.Module) -> ModelTypeShape:
+        """Get the signature of a module."""
+        layer_type = self._infer_basic_layer_type(module=module)
+        assert layer_type is not None, f"Module {module} is not a basic layer"
+        param_shapes = [p.shape for p in module.parameters()]
+        return (layer_type, tuple(param_shapes))
+
+    def _count_basic_layers(self, module: nn.Module) -> dict[type[nn.Module], int]:
+        """Count the number of basic layers in a module."""
+        count: DefaultDict[type[nn.Module], int] = defaultdict(int)
+        for submodule in module.modules():
+            layer_type = self._infer_basic_layer_type(module=submodule)
+            if layer_type is not None:
+                count[layer_type] += 1
+
+        return count
+
+    def _verify_basic_layers_count(self) -> bool:
+        """Verify that the source and target models have the same number of basic layers."""
+        source_layers = self._count_basic_layers(module=self.source_model)
+        target_layers = self._count_basic_layers(module=self.target_model)
+
+        reverse_mapping = {v: k for k, v in self.custom_layer_mapping.items()}
+
+        diff: dict[type[nn.Module], tuple[int, int]] = {}
+        for layer_type, source_count in source_layers.items():
+            target_type = self.custom_layer_mapping.get(layer_type, layer_type)
+            target_count = target_layers.get(target_type, 0)
+
+            if source_count != target_count:
+                diff[layer_type] = (source_count, target_count)
+
+        for layer_type, target_count in target_layers.items():
+            source_type = reverse_mapping.get(layer_type, layer_type)
+            source_count = source_layers.get(source_type, 0)
+
+            if source_count != target_count:
+                diff[layer_type] = (source_count, target_count)
+
+        if diff:
+            message = "Models do not have the same number of basic layers:\n"
+            for layer_type, counts in diff.items():
+                message += f"  {layer_type}: Source {counts[0]} - Target {counts[1]}\n"
+            self._log(message=message.strip())
+            return False
+
+        return True
+
+    def _is_weighted_leaf_module(self, module: nn.Module) -> bool:
+        """Check if a module is a leaf module with weights."""
+        return next(module.parameters(), None) is not None and next(module.children(), None) is None
+
+    def _check_for_missing_basic_layers(self, module: nn.Module) -> list[type[nn.Module]]:
+        """Check if a module has weighted leaf modules that are not basic layers."""
+        return [
+            type(submodule)
+            for submodule in module.modules()
+            if self._is_weighted_leaf_module(module=submodule) and not self._infer_basic_layer_type(module=submodule)
+        ]
+
+    def _verify_missing_basic_layers(self) -> bool:
+        """Verify that the source and target models do not have missing basic layers."""
+        missing_source_layers = self._check_for_missing_basic_layers(module=self.source_model)
+        missing_target_layers = self._check_for_missing_basic_layers(module=self.target_model)
+
+        if missing_source_layers or missing_target_layers:
+            self._log(
+                message=(
+                    "Models might have missing basic layers. If you want to skip this check, set"
+                    f" `skip_init_check` to `True`: {missing_source_layers}, {missing_target_layers}"
+                )
+            )
+            return False
+
+        return True
+
+    @no_grad()
+    def _trace_module_execution_order(
+        self,
+        module: nn.Module,
+        args: ModuleArgs,
+        keys_to_skip: list[str],
+    ) -> dict[ModelTypeShape, list[str]]:
+        """Execute a forward pass and store the order of execution of specific sub-modules.
+
+        Args:
+            module: The module to trace.
+            args: The arguments to pass to the module it can be either a tuple of positional arguments,
+                a dictionary of keyword arguments, or a dictionary with `positional` and `keyword` keys.
+            keys_to_skip: A list of keys to skip when tracing the module.
+
+        Returns:
+            A dictionary mapping the signature of each sub-module to a list of keys in the module's `named_modules`
+        """
+        submodule_to_key: dict[nn.Module, str] = {}
+        execution_order: defaultdict[ModelTypeShape, list[str]] = defaultdict(list)
+
+        def collect_execution_order_hook(layer: nn.Module, *_: Any) -> None:
+            layer_signature = self.get_module_signature(module=layer)
+            execution_order[layer_signature].append(submodule_to_key[layer])
+
+        hooks: list[RemovableHandle] = []
+        named_modules: list[tuple[str, nn.Module]] = module.named_modules()  # type: ignore
+        for name, submodule in named_modules:
+            if (self._infer_basic_layer_type(module=submodule) is not None) and name not in keys_to_skip:
+                submodule_to_key[submodule] = name  # type: ignore
+                hook = submodule.register_forward_hook(hook=collect_execution_order_hook)
+                hooks.append(hook)
+
+        positional_args, keyword_args = self._unpack_module_args(module_args=args)
+        module(*positional_args, **keyword_args)
+
+        for hook in hooks:
+            hook.remove()
+
+        return dict(execution_order)
+
+    def _assert_shapes_aligned(
+        self, source_order: dict[ModelTypeShape, list[str]], target_order: dict[ModelTypeShape, list[str]]
+    ) -> bool:
+        """Assert that the shapes of the sub-modules in `source_order` and `target_order` are aligned."""
+        model_type_shapes = set(source_order.keys()) | set(target_order.keys())
+
+        default_type_shapes = [
+            type_shape for type_shape in model_type_shapes if self._is_torch_basic_layer(module_type=type_shape[0])
+        ]
+
+        shape_mismatched = False
+
+        for model_type_shape in default_type_shapes:
+            source_keys = source_order.get(model_type_shape, [])
+            target_keys = target_order.get(model_type_shape, [])
+
+            if len(source_keys) != len(target_keys):
+                shape_mismatched = True
+                self._debug_print_shapes(shape=model_type_shape, source_keys=source_keys, target_keys=target_keys)
+
+        for source_custom_type in self.custom_layer_mapping.keys():
+            # iterate over all type_shapes that have the same type as source_custom_type
+            for source_type_shape in [
+                type_shape for type_shape in model_type_shapes if type_shape[0] == source_custom_type
+            ]:
+                source_keys = source_order.get(source_type_shape, [])
+                target_custom_type = self.custom_layer_mapping[source_custom_type]
+                target_type_shape = (target_custom_type, source_type_shape[1])
+                target_keys = target_order.get(target_type_shape, [])
+
+                if len(source_keys) != len(target_keys):
+                    shape_mismatched = True
+                    self._debug_print_shapes(shape=source_type_shape, source_keys=source_keys, target_keys=target_keys)
+
+        return not shape_mismatched
+
+    @staticmethod
+    def _convert_state_dict(
+        source_state_dict: dict[str, Tensor], target_state_dict: dict[str, Tensor], state_dict_mapping: dict[str, str]
+    ) -> dict[str, Tensor]:
+        """Convert the source model's state_dict to match the target model's state_dict."""
+        converted_state_dict: dict[str, Tensor] = {}
+        for target_key in target_state_dict:
+            target_prefix, suffix = target_key.rsplit(sep=".", maxsplit=1)
+            source_prefix = state_dict_mapping[target_prefix]
+            source_key = ".".join([source_prefix, suffix])
+            converted_state_dict[target_key] = source_state_dict[source_key]
+
+        return converted_state_dict
+
+    @no_grad()
+    def _collect_layers_outputs(
+        self, module: nn.Module, args: ModuleArgs, keys_to_skip: list[str]
+    ) -> list[tuple[str, Tensor]]:
+        """Execute a forward pass and store the output of specific sub-modules.
+
+        Args:
+            module: The module to trace.
+            args: The arguments to pass to the module it can be either a tuple of positional arguments,
+                a dictionary of keyword arguments, or a dictionary with `positional` and `keyword` keys.
+            keys_to_skip: A list of keys to skip when tracing the module.
+
+        Returns:
+            A list of tuples containing the key of each sub-module and its output.
+
+        Note:
+            The output of each sub-module is cloned to avoid memory leaks.
+        """
+        submodule_to_key: dict[nn.Module, str] = {}
+        execution_order: list[tuple[str, Tensor]] = []
+
+        def collect_execution_order_hook(layer: nn.Module, _: Any, output: Tensor) -> None:
+            execution_order.append((submodule_to_key[layer], output.clone()))
+
+        hooks: list[RemovableHandle] = []
+        named_modules: list[tuple[str, nn.Module]] = module.named_modules()  # type: ignore
+        for name, submodule in named_modules:
+            if (self._infer_basic_layer_type(module=submodule) is not None) and name not in keys_to_skip:
+                submodule_to_key[submodule] = name  # type: ignore
+                hook = submodule.register_forward_hook(hook=collect_execution_order_hook)
+                hooks.append(hook)
+
+        positional_args, keyword_args = self._unpack_module_args(module_args=args)
+        module(*positional_args, **keyword_args)
+
+        for hook in hooks:
+            hook.remove()
+
+        return execution_order
--- a/src/refiners/conversion/models/init.py
+++ b/src/refiners/conversion/models/init.py
--- a/src/refiners/conversion/models/autoencoder_sd15.py
+++ b/src/refiners/conversion/models/autoencoder_sd15.py
@ -0,0 +1,375 @@
+import torch
+
+from refiners.conversion.utils import Conversion, Hub, WeightRecipe
+
+diffusers_recipe = WeightRecipe(
+    key_map={
+        "encoder.conv_in": "Encoder.Conv2d",
+        "encoder.down_blocks.0.resnets.0.norm1": "Encoder.Chain_1.Chain_1.Resnet_1.Chain.GroupNorm_1",
+        "encoder.down_blocks.0.resnets.0.norm2": "Encoder.Chain_1.Chain_1.Resnet_1.Chain.GroupNorm_2",
+        "encoder.down_blocks.0.resnets.1.norm1": "Encoder.Chain_1.Chain_1.Resnet_2.Chain.GroupNorm_1",
+        "encoder.down_blocks.0.resnets.1.norm2": "Encoder.Chain_1.Chain_1.Resnet_2.Chain.GroupNorm_2",
+        "encoder.down_blocks.1.resnets.0.norm1": "Encoder.Chain_1.Chain_2.Resnet_1.Chain.GroupNorm_1",
+        "decoder.up_blocks.3.resnets.0.norm2": "Decoder.Chain_1.Chain_5.Resnet_1.Chain.GroupNorm_2",
+        "decoder.up_blocks.3.resnets.1.norm1": "Decoder.Chain_1.Chain_5.Resnet_2.Chain.GroupNorm_1",
+        "decoder.up_blocks.3.resnets.1.norm2": "Decoder.Chain_1.Chain_5.Resnet_2.Chain.GroupNorm_2",
+        "decoder.up_blocks.3.resnets.2.norm1": "Decoder.Chain_1.Chain_5.Resnet_3.Chain.GroupNorm_1",
+        "decoder.up_blocks.3.resnets.2.norm2": "Decoder.Chain_1.Chain_5.Resnet_3.Chain.GroupNorm_2",
+        "decoder.conv_norm_out": "Decoder.Chain_2.GroupNorm",
+        "encoder.down_blocks.0.resnets.0.conv1": "Encoder.Chain_1.Chain_1.Resnet_1.Chain.Conv2d_1",
+        "encoder.down_blocks.0.resnets.0.conv2": "Encoder.Chain_1.Chain_1.Resnet_1.Chain.Conv2d_2",
+        "encoder.down_blocks.0.resnets.1.conv1": "Encoder.Chain_1.Chain_1.Resnet_2.Chain.Conv2d_1",
+        "encoder.down_blocks.0.resnets.1.conv2": "Encoder.Chain_1.Chain_1.Resnet_2.Chain.Conv2d_2",
+        "encoder.down_blocks.0.downsamplers.0.conv": "Encoder.Chain_1.Chain_1.Downsample.Conv2d",
+        "decoder.up_blocks.3.resnets.0.conv2": "Decoder.Chain_1.Chain_5.Resnet_1.Chain.Conv2d_2",
+        "decoder.up_blocks.3.resnets.1.conv1": "Decoder.Chain_1.Chain_5.Resnet_2.Chain.Conv2d_1",
+        "decoder.up_blocks.3.resnets.1.conv2": "Decoder.Chain_1.Chain_5.Resnet_2.Chain.Conv2d_2",
+        "decoder.up_blocks.3.resnets.2.conv1": "Decoder.Chain_1.Chain_5.Resnet_3.Chain.Conv2d_1",
+        "decoder.up_blocks.3.resnets.2.conv2": "Decoder.Chain_1.Chain_5.Resnet_3.Chain.Conv2d_2",
+        "encoder.down_blocks.1.resnets.0.conv1": "Encoder.Chain_1.Chain_2.Resnet_1.Chain.Conv2d_1",
+        "encoder.down_blocks.1.resnets.0.norm2": "Encoder.Chain_1.Chain_2.Resnet_1.Chain.GroupNorm_2",
+        "encoder.down_blocks.1.resnets.1.norm1": "Encoder.Chain_1.Chain_2.Resnet_2.Chain.GroupNorm_1",
+        "encoder.down_blocks.1.resnets.1.norm2": "Encoder.Chain_1.Chain_2.Resnet_2.Chain.GroupNorm_2",
+        "encoder.down_blocks.2.resnets.0.norm1": "Encoder.Chain_1.Chain_3.Resnet_1.Chain.GroupNorm_1",
+        "decoder.up_blocks.2.resnets.0.norm2": "Decoder.Chain_1.Chain_4.Resnet_1.Chain.GroupNorm_2",
+        "decoder.up_blocks.2.resnets.1.norm1": "Decoder.Chain_1.Chain_4.Resnet_2.Chain.GroupNorm_1",
+        "decoder.up_blocks.2.resnets.1.norm2": "Decoder.Chain_1.Chain_4.Resnet_2.Chain.GroupNorm_2",
+        "decoder.up_blocks.2.resnets.2.norm1": "Decoder.Chain_1.Chain_4.Resnet_3.Chain.GroupNorm_1",
+        "decoder.up_blocks.2.resnets.2.norm2": "Decoder.Chain_1.Chain_4.Resnet_3.Chain.GroupNorm_2",
+        "decoder.up_blocks.3.resnets.0.norm1": "Decoder.Chain_1.Chain_5.Resnet_1.Chain.GroupNorm_1",
+        "encoder.down_blocks.1.resnets.0.conv2": "Encoder.Chain_1.Chain_2.Resnet_1.Chain.Conv2d_2",
+        "encoder.down_blocks.1.resnets.1.conv1": "Encoder.Chain_1.Chain_2.Resnet_2.Chain.Conv2d_1",
+        "encoder.down_blocks.1.resnets.1.conv2": "Encoder.Chain_1.Chain_2.Resnet_2.Chain.Conv2d_2",
+        "encoder.down_blocks.1.downsamplers.0.conv": "Encoder.Chain_1.Chain_2.Downsample.Conv2d",
+        "decoder.up_blocks.2.resnets.0.conv2": "Decoder.Chain_1.Chain_4.Resnet_1.Chain.Conv2d_2",
+        "decoder.up_blocks.2.resnets.1.conv1": "Decoder.Chain_1.Chain_4.Resnet_2.Chain.Conv2d_1",
+        "decoder.up_blocks.2.resnets.1.conv2": "Decoder.Chain_1.Chain_4.Resnet_2.Chain.Conv2d_2",
+        "decoder.up_blocks.2.resnets.2.conv1": "Decoder.Chain_1.Chain_4.Resnet_3.Chain.Conv2d_1",
+        "decoder.up_blocks.2.resnets.2.conv2": "Decoder.Chain_1.Chain_4.Resnet_3.Chain.Conv2d_2",
+        "decoder.up_blocks.2.upsamplers.0.conv": "Decoder.Chain_1.Chain_4.Upsample.Conv2d",
+        "encoder.down_blocks.1.resnets.0.conv_shortcut": "Encoder.Chain_1.Chain_2.Resnet_1.Conv2d",
+        "encoder.down_blocks.2.resnets.0.conv1": "Encoder.Chain_1.Chain_3.Resnet_1.Chain.Conv2d_1",
+        "encoder.down_blocks.2.resnets.0.norm2": "Encoder.Chain_1.Chain_3.Resnet_1.Chain.GroupNorm_2",
+        "encoder.down_blocks.2.resnets.1.norm1": "Encoder.Chain_1.Chain_3.Resnet_2.Chain.GroupNorm_1",
+        "encoder.down_blocks.2.resnets.1.norm2": "Encoder.Chain_1.Chain_3.Resnet_2.Chain.GroupNorm_2",
+        "encoder.down_blocks.3.resnets.0.norm1": "Encoder.Chain_1.Chain_4.Resnet_1.Chain.GroupNorm_1",
+        "encoder.down_blocks.3.resnets.0.norm2": "Encoder.Chain_1.Chain_4.Resnet_1.Chain.GroupNorm_2",
+        "encoder.down_blocks.3.resnets.1.norm1": "Encoder.Chain_1.Chain_4.Resnet_2.Chain.GroupNorm_1",
+        "encoder.down_blocks.3.resnets.1.norm2": "Encoder.Chain_1.Chain_4.Resnet_2.Chain.GroupNorm_2",
+        "encoder.mid_block.resnets.0.norm1": "Encoder.Chain_1.Chain_5.Resnet_1.Chain.GroupNorm_1",
+        "encoder.mid_block.resnets.0.norm2": "Encoder.Chain_1.Chain_5.Resnet_1.Chain.GroupNorm_2",
+        "encoder.mid_block.attentions.0.group_norm": "Encoder.Chain_1.Chain_5.Residual.GroupNorm",
+        "encoder.mid_block.resnets.1.norm1": "Encoder.Chain_1.Chain_5.Resnet_2.Chain.GroupNorm_1",
+        "encoder.mid_block.resnets.1.norm2": "Encoder.Chain_1.Chain_5.Resnet_2.Chain.GroupNorm_2",
+        "encoder.conv_norm_out": "Encoder.Chain_2.GroupNorm",
+        "decoder.mid_block.resnets.0.norm1": "Decoder.Chain_1.Chain_1.Resnet_1.Chain.GroupNorm_1",
+        "decoder.mid_block.resnets.0.norm2": "Decoder.Chain_1.Chain_1.Resnet_1.Chain.GroupNorm_2",
+        "decoder.mid_block.attentions.0.group_norm": "Decoder.Chain_1.Chain_1.Residual.GroupNorm",
+        "decoder.mid_block.resnets.1.norm1": "Decoder.Chain_1.Chain_1.Resnet_2.Chain.GroupNorm_1",
+        "decoder.mid_block.resnets.1.norm2": "Decoder.Chain_1.Chain_1.Resnet_2.Chain.GroupNorm_2",
+        "decoder.up_blocks.0.resnets.0.norm1": "Decoder.Chain_1.Chain_2.Resnet_1.Chain.GroupNorm_1",
+        "decoder.up_blocks.0.resnets.0.norm2": "Decoder.Chain_1.Chain_2.Resnet_1.Chain.GroupNorm_2",
+        "decoder.up_blocks.0.resnets.1.norm1": "Decoder.Chain_1.Chain_2.Resnet_2.Chain.GroupNorm_1",
+        "decoder.up_blocks.0.resnets.1.norm2": "Decoder.Chain_1.Chain_2.Resnet_2.Chain.GroupNorm_2",
+        "decoder.up_blocks.0.resnets.2.norm1": "Decoder.Chain_1.Chain_2.Resnet_3.Chain.GroupNorm_1",
+        "decoder.up_blocks.0.resnets.2.norm2": "Decoder.Chain_1.Chain_2.Resnet_3.Chain.GroupNorm_2",
+        "decoder.up_blocks.1.resnets.0.norm1": "Decoder.Chain_1.Chain_3.Resnet_1.Chain.GroupNorm_1",
+        "decoder.up_blocks.1.resnets.0.norm2": "Decoder.Chain_1.Chain_3.Resnet_1.Chain.GroupNorm_2",
+        "decoder.up_blocks.1.resnets.1.norm1": "Decoder.Chain_1.Chain_3.Resnet_2.Chain.GroupNorm_1",
+        "decoder.up_blocks.1.resnets.1.norm2": "Decoder.Chain_1.Chain_3.Resnet_2.Chain.GroupNorm_2",
+        "decoder.up_blocks.1.resnets.2.norm1": "Decoder.Chain_1.Chain_3.Resnet_3.Chain.GroupNorm_1",
+        "decoder.up_blocks.1.resnets.2.norm2": "Decoder.Chain_1.Chain_3.Resnet_3.Chain.GroupNorm_2",
+        "decoder.up_blocks.2.resnets.0.norm1": "Decoder.Chain_1.Chain_4.Resnet_1.Chain.GroupNorm_1",
+        "encoder.down_blocks.2.resnets.0.conv2": "Encoder.Chain_1.Chain_3.Resnet_1.Chain.Conv2d_2",
+        "encoder.down_blocks.2.resnets.1.conv1": "Encoder.Chain_1.Chain_3.Resnet_2.Chain.Conv2d_1",
+        "encoder.down_blocks.2.resnets.1.conv2": "Encoder.Chain_1.Chain_3.Resnet_2.Chain.Conv2d_2",
+        "encoder.down_blocks.2.downsamplers.0.conv": "Encoder.Chain_1.Chain_3.Downsample.Conv2d",
+        "encoder.down_blocks.3.resnets.0.conv1": "Encoder.Chain_1.Chain_4.Resnet_1.Chain.Conv2d_1",
+        "encoder.down_blocks.3.resnets.0.conv2": "Encoder.Chain_1.Chain_4.Resnet_1.Chain.Conv2d_2",
+        "encoder.down_blocks.3.resnets.1.conv1": "Encoder.Chain_1.Chain_4.Resnet_2.Chain.Conv2d_1",
+        "encoder.down_blocks.3.resnets.1.conv2": "Encoder.Chain_1.Chain_4.Resnet_2.Chain.Conv2d_2",
+        "encoder.mid_block.resnets.0.conv1": "Encoder.Chain_1.Chain_5.Resnet_1.Chain.Conv2d_1",
+        "encoder.mid_block.resnets.0.conv2": "Encoder.Chain_1.Chain_5.Resnet_1.Chain.Conv2d_2",
+        "encoder.mid_block.resnets.1.conv1": "Encoder.Chain_1.Chain_5.Resnet_2.Chain.Conv2d_1",
+        "encoder.mid_block.resnets.1.conv2": "Encoder.Chain_1.Chain_5.Resnet_2.Chain.Conv2d_2",
+        "decoder.mid_block.resnets.0.conv1": "Decoder.Chain_1.Chain_1.Resnet_1.Chain.Conv2d_1",
+        "decoder.mid_block.resnets.0.conv2": "Decoder.Chain_1.Chain_1.Resnet_1.Chain.Conv2d_2",
+        "decoder.mid_block.resnets.1.conv1": "Decoder.Chain_1.Chain_1.Resnet_2.Chain.Conv2d_1",
+        "decoder.mid_block.resnets.1.conv2": "Decoder.Chain_1.Chain_1.Resnet_2.Chain.Conv2d_2",
+        "decoder.up_blocks.0.resnets.0.conv1": "Decoder.Chain_1.Chain_2.Resnet_1.Chain.Conv2d_1",
+        "decoder.up_blocks.0.resnets.0.conv2": "Decoder.Chain_1.Chain_2.Resnet_1.Chain.Conv2d_2",
+        "decoder.up_blocks.0.resnets.1.conv1": "Decoder.Chain_1.Chain_2.Resnet_2.Chain.Conv2d_1",
+        "decoder.up_blocks.0.resnets.1.conv2": "Decoder.Chain_1.Chain_2.Resnet_2.Chain.Conv2d_2",
+        "decoder.up_blocks.0.resnets.2.conv1": "Decoder.Chain_1.Chain_2.Resnet_3.Chain.Conv2d_1",
+        "decoder.up_blocks.0.resnets.2.conv2": "Decoder.Chain_1.Chain_2.Resnet_3.Chain.Conv2d_2",
+        "decoder.up_blocks.0.upsamplers.0.conv": "Decoder.Chain_1.Chain_2.Upsample.Conv2d",
+        "decoder.up_blocks.1.resnets.0.conv1": "Decoder.Chain_1.Chain_3.Resnet_1.Chain.Conv2d_1",
+        "decoder.up_blocks.1.resnets.0.conv2": "Decoder.Chain_1.Chain_3.Resnet_1.Chain.Conv2d_2",
+        "decoder.up_blocks.1.resnets.1.conv1": "Decoder.Chain_1.Chain_3.Resnet_2.Chain.Conv2d_1",
+        "decoder.up_blocks.1.resnets.1.conv2": "Decoder.Chain_1.Chain_3.Resnet_2.Chain.Conv2d_2",
+        "decoder.up_blocks.1.resnets.2.conv1": "Decoder.Chain_1.Chain_3.Resnet_3.Chain.Conv2d_1",
+        "decoder.up_blocks.1.resnets.2.conv2": "Decoder.Chain_1.Chain_3.Resnet_3.Chain.Conv2d_2",
+        "decoder.up_blocks.1.upsamplers.0.conv": "Decoder.Chain_1.Chain_3.Upsample.Conv2d",
+        "encoder.down_blocks.2.resnets.0.conv_shortcut": "Encoder.Chain_1.Chain_3.Resnet_1.Conv2d",
+        "encoder.mid_block.attentions.0.to_q": "Encoder.Chain_1.Chain_5.Residual.SelfAttention2d.Distribute.Linear_1",
+        "encoder.mid_block.attentions.0.to_k": "Encoder.Chain_1.Chain_5.Residual.SelfAttention2d.Distribute.Linear_2",
+        "encoder.mid_block.attentions.0.to_v": "Encoder.Chain_1.Chain_5.Residual.SelfAttention2d.Distribute.Linear_3",
+        "encoder.mid_block.attentions.0.to_out.0": "Encoder.Chain_1.Chain_5.Residual.SelfAttention2d.Linear",
+        "decoder.mid_block.attentions.0.to_q": "Decoder.Chain_1.Chain_1.Residual.SelfAttention2d.Distribute.Linear_1",
+        "decoder.mid_block.attentions.0.to_k": "Decoder.Chain_1.Chain_1.Residual.SelfAttention2d.Distribute.Linear_2",
+        "decoder.mid_block.attentions.0.to_v": "Decoder.Chain_1.Chain_1.Residual.SelfAttention2d.Distribute.Linear_3",
+        "decoder.mid_block.attentions.0.to_out.0": "Decoder.Chain_1.Chain_1.Residual.SelfAttention2d.Linear",
+        "encoder.conv_out": "Encoder.Chain_2.Conv2d",
+        "quant_conv": "Encoder.Chain_3.Conv2d",
+        "post_quant_conv": "Decoder.Conv2d_1",
+        "decoder.conv_in": "Decoder.Conv2d_2",
+        "decoder.up_blocks.2.resnets.0.conv1": "Decoder.Chain_1.Chain_4.Resnet_1.Chain.Conv2d_1",
+        "decoder.up_blocks.2.resnets.0.conv_shortcut": "Decoder.Chain_1.Chain_4.Resnet_1.Conv2d",
+        "decoder.up_blocks.3.resnets.0.conv1": "Decoder.Chain_1.Chain_5.Resnet_1.Chain.Conv2d_1",
+        "decoder.up_blocks.3.resnets.0.conv_shortcut": "Decoder.Chain_1.Chain_5.Resnet_1.Conv2d",
+        "decoder.conv_out": "Decoder.Chain_2.Conv2d",
+    },
+    key_aliases={
+        "encoder.mid_block.attentions.0.value": "encoder.mid_block.attentions.0.to_v",
+        "decoder.mid_block.attentions.0.value": "decoder.mid_block.attentions.0.to_v",
+        "decoder.mid_block.attentions.0.proj_attn": "decoder.mid_block.attentions.0.to_out.0",
+        "encoder.mid_block.attentions.0.proj_attn": "encoder.mid_block.attentions.0.to_out.0",
+        "encoder.mid_block.attentions.0.key": "encoder.mid_block.attentions.0.to_k",
+        "decoder.mid_block.attentions.0.key": "decoder.mid_block.attentions.0.to_k",
+        "decoder.mid_block.attentions.0.query": "decoder.mid_block.attentions.0.to_q",
+        "encoder.mid_block.attentions.0.query": "encoder.mid_block.attentions.0.to_q",
+    },
+)
+
+civitai_recipe = WeightRecipe(
+    key_prefix="first_stage_model.",
+    key_map={
+        "encoder.conv_in": "Encoder.Conv2d",
+        "encoder.down.0.block.0.norm1": "Encoder.Chain_1.Chain_1.Resnet_1.Chain.GroupNorm_1",
+        "encoder.down.0.block.0.conv1": "Encoder.Chain_1.Chain_1.Resnet_1.Chain.Conv2d_1",
+        "encoder.down.0.block.0.norm2": "Encoder.Chain_1.Chain_1.Resnet_1.Chain.GroupNorm_2",
+        "encoder.down.0.block.0.conv2": "Encoder.Chain_1.Chain_1.Resnet_1.Chain.Conv2d_2",
+        "encoder.down.0.block.1.norm1": "Encoder.Chain_1.Chain_1.Resnet_2.Chain.GroupNorm_1",
+        "encoder.down.0.block.1.conv1": "Encoder.Chain_1.Chain_1.Resnet_2.Chain.Conv2d_1",
+        "encoder.down.0.block.1.norm2": "Encoder.Chain_1.Chain_1.Resnet_2.Chain.GroupNorm_2",
+        "encoder.down.0.block.1.conv2": "Encoder.Chain_1.Chain_1.Resnet_2.Chain.Conv2d_2",
+        "encoder.down.0.downsample.conv": "Encoder.Chain_1.Chain_1.Downsample.Conv2d",
+        "encoder.down.1.block.0.norm1": "Encoder.Chain_1.Chain_2.Resnet_1.Chain.GroupNorm_1",
+        "encoder.down.1.block.0.conv1": "Encoder.Chain_1.Chain_2.Resnet_1.Chain.Conv2d_1",
+        "encoder.down.1.block.0.norm2": "Encoder.Chain_1.Chain_2.Resnet_1.Chain.GroupNorm_2",
+        "encoder.down.1.block.0.conv2": "Encoder.Chain_1.Chain_2.Resnet_1.Chain.Conv2d_2",
+        "encoder.down.1.block.0.nin_shortcut": "Encoder.Chain_1.Chain_2.Resnet_1.Conv2d",
+        "encoder.down.1.block.1.norm1": "Encoder.Chain_1.Chain_2.Resnet_2.Chain.GroupNorm_1",
+        "encoder.down.1.block.1.conv1": "Encoder.Chain_1.Chain_2.Resnet_2.Chain.Conv2d_1",
+        "encoder.down.1.block.1.norm2": "Encoder.Chain_1.Chain_2.Resnet_2.Chain.GroupNorm_2",
+        "encoder.down.1.block.1.conv2": "Encoder.Chain_1.Chain_2.Resnet_2.Chain.Conv2d_2",
+        "encoder.down.1.downsample.conv": "Encoder.Chain_1.Chain_2.Downsample.Conv2d",
+        "encoder.down.2.block.0.norm1": "Encoder.Chain_1.Chain_3.Resnet_1.Chain.GroupNorm_1",
+        "encoder.down.2.block.0.conv1": "Encoder.Chain_1.Chain_3.Resnet_1.Chain.Conv2d_1",
+        "encoder.down.2.block.0.norm2": "Encoder.Chain_1.Chain_3.Resnet_1.Chain.GroupNorm_2",
+        "encoder.down.2.block.0.conv2": "Encoder.Chain_1.Chain_3.Resnet_1.Chain.Conv2d_2",
+        "encoder.down.2.block.0.nin_shortcut": "Encoder.Chain_1.Chain_3.Resnet_1.Conv2d",
+        "encoder.down.2.block.1.norm1": "Encoder.Chain_1.Chain_3.Resnet_2.Chain.GroupNorm_1",
+        "encoder.down.2.block.1.conv1": "Encoder.Chain_1.Chain_3.Resnet_2.Chain.Conv2d_1",
+        "encoder.down.2.block.1.norm2": "Encoder.Chain_1.Chain_3.Resnet_2.Chain.GroupNorm_2",
+        "encoder.down.2.block.1.conv2": "Encoder.Chain_1.Chain_3.Resnet_2.Chain.Conv2d_2",
+        "encoder.down.2.downsample.conv": "Encoder.Chain_1.Chain_3.Downsample.Conv2d",
+        "encoder.down.3.block.0.norm1": "Encoder.Chain_1.Chain_4.Resnet_1.Chain.GroupNorm_1",
+        "encoder.down.3.block.0.conv1": "Encoder.Chain_1.Chain_4.Resnet_1.Chain.Conv2d_1",
+        "encoder.down.3.block.0.norm2": "Encoder.Chain_1.Chain_4.Resnet_1.Chain.GroupNorm_2",
+        "encoder.down.3.block.0.conv2": "Encoder.Chain_1.Chain_4.Resnet_1.Chain.Conv2d_2",
+        "encoder.down.3.block.1.norm1": "Encoder.Chain_1.Chain_4.Resnet_2.Chain.GroupNorm_1",
+        "encoder.down.3.block.1.conv1": "Encoder.Chain_1.Chain_4.Resnet_2.Chain.Conv2d_1",
+        "encoder.down.3.block.1.norm2": "Encoder.Chain_1.Chain_4.Resnet_2.Chain.GroupNorm_2",
+        "encoder.down.3.block.1.conv2": "Encoder.Chain_1.Chain_4.Resnet_2.Chain.Conv2d_2",
+        "encoder.mid.block_1.norm1": "Encoder.Chain_1.Chain_5.Resnet_1.Chain.GroupNorm_1",
+        "encoder.mid.block_1.conv1": "Encoder.Chain_1.Chain_5.Resnet_1.Chain.Conv2d_1",
+        "encoder.mid.block_1.norm2": "Encoder.Chain_1.Chain_5.Resnet_1.Chain.GroupNorm_2",
+        "encoder.mid.block_1.conv2": "Encoder.Chain_1.Chain_5.Resnet_1.Chain.Conv2d_2",
+        "encoder.mid.attn_1.norm": "Encoder.Chain_1.Chain_5.Residual.GroupNorm",
+        "encoder.mid.attn_1.q": "Encoder.Chain_1.Chain_5.Residual.SelfAttention2d.Distribute.Linear_1",
+        "encoder.mid.attn_1.k": "Encoder.Chain_1.Chain_5.Residual.SelfAttention2d.Distribute.Linear_2",
+        "encoder.mid.attn_1.v": "Encoder.Chain_1.Chain_5.Residual.SelfAttention2d.Distribute.Linear_3",
+        "encoder.mid.attn_1.proj_out": "Encoder.Chain_1.Chain_5.Residual.SelfAttention2d.Linear",
+        "encoder.mid.block_2.norm1": "Encoder.Chain_1.Chain_5.Resnet_2.Chain.GroupNorm_1",
+        "encoder.mid.block_2.conv1": "Encoder.Chain_1.Chain_5.Resnet_2.Chain.Conv2d_1",
+        "encoder.mid.block_2.norm2": "Encoder.Chain_1.Chain_5.Resnet_2.Chain.GroupNorm_2",
+        "encoder.mid.block_2.conv2": "Encoder.Chain_1.Chain_5.Resnet_2.Chain.Conv2d_2",
+        "encoder.norm_out": "Encoder.Chain_2.GroupNorm",
+        "encoder.conv_out": "Encoder.Chain_2.Conv2d",
+        "quant_conv": "Encoder.Chain_3.Conv2d",
+        "post_quant_conv": "Decoder.Conv2d_1",
+        "decoder.conv_in": "Decoder.Conv2d_2",
+        "decoder.mid.block_1.norm1": "Decoder.Chain_1.Chain_1.Resnet_1.Chain.GroupNorm_1",
+        "decoder.mid.block_1.conv1": "Decoder.Chain_1.Chain_1.Resnet_1.Chain.Conv2d_1",
+        "decoder.mid.block_1.norm2": "Decoder.Chain_1.Chain_1.Resnet_1.Chain.GroupNorm_2",
+        "decoder.mid.block_1.conv2": "Decoder.Chain_1.Chain_1.Resnet_1.Chain.Conv2d_2",
+        "decoder.mid.attn_1.norm": "Decoder.Chain_1.Chain_1.Residual.GroupNorm",
+        "decoder.mid.attn_1.q": "Decoder.Chain_1.Chain_1.Residual.SelfAttention2d.Distribute.Linear_1",
+        "decoder.mid.attn_1.k": "Decoder.Chain_1.Chain_1.Residual.SelfAttention2d.Distribute.Linear_2",
+        "decoder.mid.attn_1.v": "Decoder.Chain_1.Chain_1.Residual.SelfAttention2d.Distribute.Linear_3",
+        "decoder.mid.attn_1.proj_out": "Decoder.Chain_1.Chain_1.Residual.SelfAttention2d.Linear",
+        "decoder.mid.block_2.norm1": "Decoder.Chain_1.Chain_1.Resnet_2.Chain.GroupNorm_1",
+        "decoder.mid.block_2.conv1": "Decoder.Chain_1.Chain_1.Resnet_2.Chain.Conv2d_1",
+        "decoder.mid.block_2.norm2": "Decoder.Chain_1.Chain_1.Resnet_2.Chain.GroupNorm_2",
+        "decoder.mid.block_2.conv2": "Decoder.Chain_1.Chain_1.Resnet_2.Chain.Conv2d_2",
+        "decoder.up.3.block.0.norm1": "Decoder.Chain_1.Chain_2.Resnet_1.Chain.GroupNorm_1",
+        "decoder.up.3.block.0.conv1": "Decoder.Chain_1.Chain_2.Resnet_1.Chain.Conv2d_1",
+        "decoder.up.3.block.0.norm2": "Decoder.Chain_1.Chain_2.Resnet_1.Chain.GroupNorm_2",
+        "decoder.up.3.block.0.conv2": "Decoder.Chain_1.Chain_2.Resnet_1.Chain.Conv2d_2",
+        "decoder.up.3.block.1.norm1": "Decoder.Chain_1.Chain_2.Resnet_2.Chain.GroupNorm_1",
+        "decoder.up.3.block.1.conv1": "Decoder.Chain_1.Chain_2.Resnet_2.Chain.Conv2d_1",
+        "decoder.up.3.block.1.norm2": "Decoder.Chain_1.Chain_2.Resnet_2.Chain.GroupNorm_2",
+        "decoder.up.3.block.1.conv2": "Decoder.Chain_1.Chain_2.Resnet_2.Chain.Conv2d_2",
+        "decoder.up.3.block.2.norm1": "Decoder.Chain_1.Chain_2.Resnet_3.Chain.GroupNorm_1",
+        "decoder.up.3.block.2.conv1": "Decoder.Chain_1.Chain_2.Resnet_3.Chain.Conv2d_1",
+        "decoder.up.3.block.2.norm2": "Decoder.Chain_1.Chain_2.Resnet_3.Chain.GroupNorm_2",
+        "decoder.up.3.block.2.conv2": "Decoder.Chain_1.Chain_2.Resnet_3.Chain.Conv2d_2",
+        "decoder.up.3.upsample.conv": "Decoder.Chain_1.Chain_2.Upsample.Conv2d",
+        "decoder.up.2.block.0.norm1": "Decoder.Chain_1.Chain_3.Resnet_1.Chain.GroupNorm_1",
+        "decoder.up.2.block.0.conv1": "Decoder.Chain_1.Chain_3.Resnet_1.Chain.Conv2d_1",
+        "decoder.up.2.block.0.norm2": "Decoder.Chain_1.Chain_3.Resnet_1.Chain.GroupNorm_2",
+        "decoder.up.2.block.0.conv2": "Decoder.Chain_1.Chain_3.Resnet_1.Chain.Conv2d_2",
+        "decoder.up.2.block.1.norm1": "Decoder.Chain_1.Chain_3.Resnet_2.Chain.GroupNorm_1",
+        "decoder.up.2.block.1.conv1": "Decoder.Chain_1.Chain_3.Resnet_2.Chain.Conv2d_1",
+        "decoder.up.2.block.1.norm2": "Decoder.Chain_1.Chain_3.Resnet_2.Chain.GroupNorm_2",
+        "decoder.up.2.block.1.conv2": "Decoder.Chain_1.Chain_3.Resnet_2.Chain.Conv2d_2",
+        "decoder.up.2.block.2.norm1": "Decoder.Chain_1.Chain_3.Resnet_3.Chain.GroupNorm_1",
+        "decoder.up.2.block.2.conv1": "Decoder.Chain_1.Chain_3.Resnet_3.Chain.Conv2d_1",
+        "decoder.up.2.block.2.norm2": "Decoder.Chain_1.Chain_3.Resnet_3.Chain.GroupNorm_2",
+        "decoder.up.2.block.2.conv2": "Decoder.Chain_1.Chain_3.Resnet_3.Chain.Conv2d_2",
+        "decoder.up.2.upsample.conv": "Decoder.Chain_1.Chain_3.Upsample.Conv2d",
+        "decoder.up.1.block.0.norm1": "Decoder.Chain_1.Chain_4.Resnet_1.Chain.GroupNorm_1",
+        "decoder.up.1.block.0.conv1": "Decoder.Chain_1.Chain_4.Resnet_1.Chain.Conv2d_1",
+        "decoder.up.1.block.0.norm2": "Decoder.Chain_1.Chain_4.Resnet_1.Chain.GroupNorm_2",
+        "decoder.up.1.block.0.conv2": "Decoder.Chain_1.Chain_4.Resnet_1.Chain.Conv2d_2",
+        "decoder.up.1.block.0.nin_shortcut": "Decoder.Chain_1.Chain_4.Resnet_1.Conv2d",
+        "decoder.up.1.block.1.norm1": "Decoder.Chain_1.Chain_4.Resnet_2.Chain.GroupNorm_1",
+        "decoder.up.1.block.1.conv1": "Decoder.Chain_1.Chain_4.Resnet_2.Chain.Conv2d_1",
+        "decoder.up.1.block.1.norm2": "Decoder.Chain_1.Chain_4.Resnet_2.Chain.GroupNorm_2",
+        "decoder.up.1.block.1.conv2": "Decoder.Chain_1.Chain_4.Resnet_2.Chain.Conv2d_2",
+        "decoder.up.1.block.2.norm1": "Decoder.Chain_1.Chain_4.Resnet_3.Chain.GroupNorm_1",
+        "decoder.up.1.block.2.conv1": "Decoder.Chain_1.Chain_4.Resnet_3.Chain.Conv2d_1",
+        "decoder.up.1.block.2.norm2": "Decoder.Chain_1.Chain_4.Resnet_3.Chain.GroupNorm_2",
+        "decoder.up.1.block.2.conv2": "Decoder.Chain_1.Chain_4.Resnet_3.Chain.Conv2d_2",
+        "decoder.up.1.upsample.conv": "Decoder.Chain_1.Chain_4.Upsample.Conv2d",
+        "decoder.up.0.block.0.norm1": "Decoder.Chain_1.Chain_5.Resnet_1.Chain.GroupNorm_1",
+        "decoder.up.0.block.0.conv1": "Decoder.Chain_1.Chain_5.Resnet_1.Chain.Conv2d_1",
+        "decoder.up.0.block.0.norm2": "Decoder.Chain_1.Chain_5.Resnet_1.Chain.GroupNorm_2",
+        "decoder.up.0.block.0.conv2": "Decoder.Chain_1.Chain_5.Resnet_1.Chain.Conv2d_2",
+        "decoder.up.0.block.0.nin_shortcut": "Decoder.Chain_1.Chain_5.Resnet_1.Conv2d",
+        "decoder.up.0.block.1.norm1": "Decoder.Chain_1.Chain_5.Resnet_2.Chain.GroupNorm_1",
+        "decoder.up.0.block.1.conv1": "Decoder.Chain_1.Chain_5.Resnet_2.Chain.Conv2d_1",
+        "decoder.up.0.block.1.norm2": "Decoder.Chain_1.Chain_5.Resnet_2.Chain.GroupNorm_2",
+        "decoder.up.0.block.1.conv2": "Decoder.Chain_1.Chain_5.Resnet_2.Chain.Conv2d_2",
+        "decoder.up.0.block.2.norm1": "Decoder.Chain_1.Chain_5.Resnet_3.Chain.GroupNorm_1",
+        "decoder.up.0.block.2.conv1": "Decoder.Chain_1.Chain_5.Resnet_3.Chain.Conv2d_1",
+        "decoder.up.0.block.2.norm2": "Decoder.Chain_1.Chain_5.Resnet_3.Chain.GroupNorm_2",
+        "decoder.up.0.block.2.conv2": "Decoder.Chain_1.Chain_5.Resnet_3.Chain.Conv2d_2",
+        "decoder.norm_out": "Decoder.Chain_2.GroupNorm",
+        "decoder.conv_out": "Decoder.Chain_2.Conv2d",
+    },
+    tensor_reshapes={
+        "Encoder.Chain_1.Chain_5.Residual.SelfAttention2d.Distribute.Linear_1.weight": (512, 512),
+        "Encoder.Chain_1.Chain_5.Residual.SelfAttention2d.Distribute.Linear_2.weight": (512, 512),
+        "Encoder.Chain_1.Chain_5.Residual.SelfAttention2d.Distribute.Linear_3.weight": (512, 512),
+        "Encoder.Chain_1.Chain_5.Residual.SelfAttention2d.Linear.weight": (512, 512),
+        "Decoder.Chain_1.Chain_1.Residual.SelfAttention2d.Distribute.Linear_1.weight": (512, 512),
+        "Decoder.Chain_1.Chain_1.Residual.SelfAttention2d.Distribute.Linear_2.weight": (512, 512),
+        "Decoder.Chain_1.Chain_1.Residual.SelfAttention2d.Distribute.Linear_3.weight": (512, 512),
+        "Decoder.Chain_1.Chain_1.Residual.SelfAttention2d.Linear.weight": (512, 512),
+    },
+)
+
+
+runwayml = Conversion(
+    original=Hub(
+        repo_id="stable-diffusion-v1-5/stable-diffusion-v1-5",
+        filename="vae/diffusion_pytorch_model.safetensors",
+        revision="f03de327dd89b501a01da37fc5240cf4fdba85a1",
+        expected_sha256="a2b5134f4dbc140d9c11f11cba3233099e00af40f262f136c691fb7d38d2194c",
+    ),
+    converted=Hub(
+        repo_id="refiners/sd15.autoencoder",
+        filename="model.safetensors",
+        expected_sha256="3f499ef1c668a8dfc72762d885f53cf0c3d3e98a393211906a8de5ae04e72058",
+    ),
+    recipe=diffusers_recipe,
+    dtype=torch.float32,
+)
+stability_mse = Conversion(
+    original=Hub(
+        repo_id="stabilityai/sd-vae-ft-mse",
+        filename="diffusion_pytorch_model.safetensors",
+        revision="31f26fdeee1355a5c34592e401dd41e45d25a493",
+        expected_sha256="a1d993488569e928462932c8c38a0760b874d166399b14414135bd9c42df5815",
+    ),
+    converted=Hub(
+        repo_id="refiners/sd15.autoencoder_mse",
+        filename="model.safetensors",
+        expected_sha256="4b484e70be3b898e2647985f066495672162a4e9ea1d1ee8bf1f7a7895180fce",
+    ),
+    recipe=diffusers_recipe,
+    dtype=torch.float16,
+)
+juggernaut_reborn = Conversion(
+    original=Hub(
+        repo_id="civitai/KandooAi/juggernaut",
+        filename="reborn/onefile_fp16.safetensors",
+        download_url="https://civitai.com/api/download/models/274039?type=Model&format=SafeTensor&size=pruned&fp=fp16",
+        expected_sha256="338b85bc4f7628bc42cce336242e79154a57c2a4360531436e97f7793568f18c",
+    ),
+    converted=Hub(
+        repo_id="refiners/sd15.juggernaut.reborn.autoencoder",
+        filename="model.safetensors",
+        expected_sha256="6f1ed875201344031f2a9ddee3ff40f455eb2a5ee4833070061a5d163cb23595",
+    ),
+    recipe=civitai_recipe,
+    dtype=torch.float16,
+)
+juggernaut_aftermath = Conversion(
+    original=Hub(
+        repo_id="civitai/KandooAi/juggernaut",
+        filename="aftermath/onefile_fp32.safetensors",
+        download_url="https://civitai.com/api/download/models/127207?type=Model&format=SafeTensor&size=full&fp=fp32",
+        expected_sha256="7ed60a2f5842de8e6755965ffbf2a0ee273429939f307233c22f7dffd8d7ae3d",
+    ),
+    converted=Hub(
+        repo_id="refiners/sd15.juggernaut.aftermath.autoencoder",
+        filename="model.safetensors",
+        expected_sha256="fa7ef415e1854907aa46d81ed403bd1f6b0fd2f06c885545ab689f9f78fa7989",
+    ),
+    recipe=civitai_recipe,
+    dtype=torch.float32,
+)
+# autoencoder wise, juggernaut_aftermath = juggernaut_aftermath_inpainting
+realistic_stock_photo_v3 = Conversion(
+    original=Hub(
+        repo_id="Yntec/realisticStockPhoto3",
+        filename="realisticStockPhoto_v30SD15.safetensors",
+        expected_sha256="f85affae9aae16276eaf670f810946e2d03c4d300791a0380f07653cb78ba31b",
+        # download_url="https://civitai.com/api/download/models/524032?type=Model&format=SafeTensor&size=full&fp=fp16",
+    ),
+    converted=Hub(
+        repo_id="refiners/sd15.realistic_stock_photo.v3_0.autoencoder",
+        filename="model.safetensors",
+        expected_sha256="4b484e70be3b898e2647985f066495672162a4e9ea1d1ee8bf1f7a7895180fce",
+    ),
+    recipe=civitai_recipe,
+    dtype=torch.float16,
+)
+realistic_vision_v5 = Conversion(
+    original=Hub(
+        repo_id="civitai/SG_161222/realistic_vision",
+        filename="v5/onefile_fp32.safetensors",
+        download_url="https://civitai.com/api/download/models/130072?type=Model&format=SafeTensor&size=full&fp=fp16",
+        expected_sha256="ef76aa2332635f4352463343beec9c5aae3bd107a73c0fd7221abbbcf8bd5470",
+    ),
+    converted=Hub(
+        repo_id="refiners/sd15.realistic_vision.v5_1.autoencoder",
+        filename="model.safetensors",
+        expected_sha256="4b484e70be3b898e2647985f066495672162a4e9ea1d1ee8bf1f7a7895180fce",
+    ),
+    recipe=civitai_recipe,
+    dtype=torch.float16,
+)
--- a/src/refiners/conversion/models/autoencoder_sdxl.py
+++ b/src/refiners/conversion/models/autoencoder_sdxl.py
@ -0,0 +1,50 @@
+import torch
+
+from refiners.conversion.models.autoencoder_sd15 import civitai_recipe, diffusers_recipe
+from refiners.conversion.utils import Conversion, Hub
+
+stability = Conversion(
+    original=Hub(
+        repo_id="stabilityai/stable-diffusion-xl-base-1.0",
+        filename="vae/diffusion_pytorch_model.safetensors",
+        revision="91704abbae38a0e1f60d433fb08d7f7d99081d21",
+        expected_sha256="1598f3d24932bcfe6634e8b618ea1e30ab1d57f5aad13a6d2de446d2199f2341",
+    ),
+    converted=Hub(
+        repo_id="refiners/sdxl.autoencoder",
+        filename="model.safetensors",
+        expected_sha256="6534be9990496fcb4086e5cf71e0ceb208b9f5c728823247c6a51e13564c38af",
+    ),
+    recipe=diffusers_recipe,
+    dtype=torch.float16,
+)
+madebyollin_fp16fix = Conversion(
+    original=Hub(
+        repo_id="madebyollin/sdxl-vae-fp16-fix",
+        filename="diffusion_pytorch_model.safetensors",
+        revision="6d1073461cd0b5a6ea4fda10b812e3d9d58a8330",
+        expected_sha256="1b909373b28f2137098b0fd9dbc6f97f8410854f31f84ddc9fa04b077b0ace2c",
+    ),
+    converted=Hub(
+        repo_id="refiners/sdxl.autoencoder_fp16fix",
+        filename="model.safetensors",
+        expected_sha256="ede1e84626900ebeb0e7911814b1ac98e8916327340f411cce2b77e056e84dd3",
+    ),
+    recipe=diffusers_recipe,
+    dtype=torch.float16,
+)
+juggernautXL_v10 = Conversion(
+    original=Hub(
+        repo_id="civitai/KandooAi/juggernautXL",
+        filename="v10/onefile_fp16.safetensors",
+        expected_sha256="d91d35736d8f2be038f760a9b0009a771ecf0a417e9b38c244a84ea4cb9c0c45",
+        download_url="https://civitai.com/api/download/models/456194?type=Model&format=SafeTensor&size=full&fp=fp16",
+    ),
+    converted=Hub(
+        repo_id="refiners/sdxl.juggernaut.v10.autoencoder",
+        filename="model.safetensors",
+        expected_sha256="ede1e84626900ebeb0e7911814b1ac98e8916327340f411cce2b77e056e84dd3",
+    ),
+    recipe=civitai_recipe,
+    dtype=torch.float16,
+)
--- a/src/refiners/conversion/models/clip_image_sd21.py
+++ b/src/refiners/conversion/models/clip_image_sd21.py
@ -0,0 +1,290 @@
+import torch
+
+from refiners.conversion.utils import Conversion, Hub, WeightRecipe
+
+diffusers_recipe = WeightRecipe(
+    key_map={
+        "vision_model.embeddings.patch_embedding": "ViTEmbeddings.Concatenate.Chain.PatchEncoder.Conv2d",
+        "vision_model.embeddings.position_embedding": "ViTEmbeddings.Residual.PositionalEncoder.Embedding",
+        "vision_model.embeddings.class_embedding": "ViTEmbeddings.Concatenate.ClassToken.Parameter.weight",
+        "vision_model.pre_layrnorm": "LayerNorm_1",
+        "vision_model.encoder.layers.0.layer_norm1": "Chain.TransformerLayer_1.Residual_1.LayerNorm",
+        "vision_model.encoder.layers.0.layer_norm2": "Chain.TransformerLayer_1.Residual_2.LayerNorm",
+        "vision_model.encoder.layers.1.layer_norm1": "Chain.TransformerLayer_2.Residual_1.LayerNorm",
+        "vision_model.encoder.layers.1.layer_norm2": "Chain.TransformerLayer_2.Residual_2.LayerNorm",
+        "vision_model.encoder.layers.2.layer_norm1": "Chain.TransformerLayer_3.Residual_1.LayerNorm",
+        "vision_model.encoder.layers.2.layer_norm2": "Chain.TransformerLayer_3.Residual_2.LayerNorm",
+        "vision_model.encoder.layers.3.layer_norm1": "Chain.TransformerLayer_4.Residual_1.LayerNorm",
+        "vision_model.encoder.layers.3.layer_norm2": "Chain.TransformerLayer_4.Residual_2.LayerNorm",
+        "vision_model.encoder.layers.4.layer_norm1": "Chain.TransformerLayer_5.Residual_1.LayerNorm",
+        "vision_model.encoder.layers.4.layer_norm2": "Chain.TransformerLayer_5.Residual_2.LayerNorm",
+        "vision_model.encoder.layers.5.layer_norm1": "Chain.TransformerLayer_6.Residual_1.LayerNorm",
+        "vision_model.encoder.layers.5.layer_norm2": "Chain.TransformerLayer_6.Residual_2.LayerNorm",
+        "vision_model.encoder.layers.6.layer_norm1": "Chain.TransformerLayer_7.Residual_1.LayerNorm",
+        "vision_model.encoder.layers.6.layer_norm2": "Chain.TransformerLayer_7.Residual_2.LayerNorm",
+        "vision_model.encoder.layers.7.layer_norm1": "Chain.TransformerLayer_8.Residual_1.LayerNorm",
+        "vision_model.encoder.layers.7.layer_norm2": "Chain.TransformerLayer_8.Residual_2.LayerNorm",
+        "vision_model.encoder.layers.8.layer_norm1": "Chain.TransformerLayer_9.Residual_1.LayerNorm",
+        "vision_model.encoder.layers.8.layer_norm2": "Chain.TransformerLayer_9.Residual_2.LayerNorm",
+        "vision_model.encoder.layers.9.layer_norm1": "Chain.TransformerLayer_10.Residual_1.LayerNorm",
+        "vision_model.encoder.layers.9.layer_norm2": "Chain.TransformerLayer_10.Residual_2.LayerNorm",
+        "vision_model.encoder.layers.10.layer_norm1": "Chain.TransformerLayer_11.Residual_1.LayerNorm",
+        "vision_model.encoder.layers.10.layer_norm2": "Chain.TransformerLayer_11.Residual_2.LayerNorm",
+        "vision_model.encoder.layers.11.layer_norm1": "Chain.TransformerLayer_12.Residual_1.LayerNorm",
+        "vision_model.encoder.layers.11.layer_norm2": "Chain.TransformerLayer_12.Residual_2.LayerNorm",
+        "vision_model.encoder.layers.12.layer_norm1": "Chain.TransformerLayer_13.Residual_1.LayerNorm",
+        "vision_model.encoder.layers.12.layer_norm2": "Chain.TransformerLayer_13.Residual_2.LayerNorm",
+        "vision_model.encoder.layers.13.layer_norm1": "Chain.TransformerLayer_14.Residual_1.LayerNorm",
+        "vision_model.encoder.layers.13.layer_norm2": "Chain.TransformerLayer_14.Residual_2.LayerNorm",
+        "vision_model.encoder.layers.14.layer_norm1": "Chain.TransformerLayer_15.Residual_1.LayerNorm",
+        "vision_model.encoder.layers.14.layer_norm2": "Chain.TransformerLayer_15.Residual_2.LayerNorm",
+        "vision_model.encoder.layers.15.layer_norm1": "Chain.TransformerLayer_16.Residual_1.LayerNorm",
+        "vision_model.encoder.layers.15.layer_norm2": "Chain.TransformerLayer_16.Residual_2.LayerNorm",
+        "vision_model.encoder.layers.16.layer_norm1": "Chain.TransformerLayer_17.Residual_1.LayerNorm",
+        "vision_model.encoder.layers.16.layer_norm2": "Chain.TransformerLayer_17.Residual_2.LayerNorm",
+        "vision_model.encoder.layers.17.layer_norm1": "Chain.TransformerLayer_18.Residual_1.LayerNorm",
+        "vision_model.encoder.layers.17.layer_norm2": "Chain.TransformerLayer_18.Residual_2.LayerNorm",
+        "vision_model.encoder.layers.18.layer_norm1": "Chain.TransformerLayer_19.Residual_1.LayerNorm",
+        "vision_model.encoder.layers.18.layer_norm2": "Chain.TransformerLayer_19.Residual_2.LayerNorm",
+        "vision_model.encoder.layers.19.layer_norm1": "Chain.TransformerLayer_20.Residual_1.LayerNorm",
+        "vision_model.encoder.layers.19.layer_norm2": "Chain.TransformerLayer_20.Residual_2.LayerNorm",
+        "vision_model.encoder.layers.20.layer_norm1": "Chain.TransformerLayer_21.Residual_1.LayerNorm",
+        "vision_model.encoder.layers.20.layer_norm2": "Chain.TransformerLayer_21.Residual_2.LayerNorm",
+        "vision_model.encoder.layers.21.layer_norm1": "Chain.TransformerLayer_22.Residual_1.LayerNorm",
+        "vision_model.encoder.layers.21.layer_norm2": "Chain.TransformerLayer_22.Residual_2.LayerNorm",
+        "vision_model.encoder.layers.22.layer_norm1": "Chain.TransformerLayer_23.Residual_1.LayerNorm",
+        "vision_model.encoder.layers.22.layer_norm2": "Chain.TransformerLayer_23.Residual_2.LayerNorm",
+        "vision_model.encoder.layers.23.layer_norm1": "Chain.TransformerLayer_24.Residual_1.LayerNorm",
+        "vision_model.encoder.layers.23.layer_norm2": "Chain.TransformerLayer_24.Residual_2.LayerNorm",
+        "vision_model.encoder.layers.24.layer_norm1": "Chain.TransformerLayer_25.Residual_1.LayerNorm",
+        "vision_model.encoder.layers.24.layer_norm2": "Chain.TransformerLayer_25.Residual_2.LayerNorm",
+        "vision_model.encoder.layers.25.layer_norm1": "Chain.TransformerLayer_26.Residual_1.LayerNorm",
+        "vision_model.encoder.layers.25.layer_norm2": "Chain.TransformerLayer_26.Residual_2.LayerNorm",
+        "vision_model.encoder.layers.26.layer_norm1": "Chain.TransformerLayer_27.Residual_1.LayerNorm",
+        "vision_model.encoder.layers.26.layer_norm2": "Chain.TransformerLayer_27.Residual_2.LayerNorm",
+        "vision_model.encoder.layers.27.layer_norm1": "Chain.TransformerLayer_28.Residual_1.LayerNorm",
+        "vision_model.encoder.layers.27.layer_norm2": "Chain.TransformerLayer_28.Residual_2.LayerNorm",
+        "vision_model.encoder.layers.28.layer_norm1": "Chain.TransformerLayer_29.Residual_1.LayerNorm",
+        "vision_model.encoder.layers.28.layer_norm2": "Chain.TransformerLayer_29.Residual_2.LayerNorm",
+        "vision_model.encoder.layers.29.layer_norm1": "Chain.TransformerLayer_30.Residual_1.LayerNorm",
+        "vision_model.encoder.layers.29.layer_norm2": "Chain.TransformerLayer_30.Residual_2.LayerNorm",
+        "vision_model.encoder.layers.30.layer_norm1": "Chain.TransformerLayer_31.Residual_1.LayerNorm",
+        "vision_model.encoder.layers.30.layer_norm2": "Chain.TransformerLayer_31.Residual_2.LayerNorm",
+        "vision_model.encoder.layers.31.layer_norm1": "Chain.TransformerLayer_32.Residual_1.LayerNorm",
+        "vision_model.encoder.layers.31.layer_norm2": "Chain.TransformerLayer_32.Residual_2.LayerNorm",
+        "vision_model.post_layernorm": "LayerNorm_2",
+        "vision_model.encoder.layers.0.self_attn.q_proj": "Chain.TransformerLayer_1.Residual_1.SelfAttention.Distribute.Linear_1",
+        "vision_model.encoder.layers.0.self_attn.k_proj": "Chain.TransformerLayer_1.Residual_1.SelfAttention.Distribute.Linear_2",
+        "vision_model.encoder.layers.0.self_attn.v_proj": "Chain.TransformerLayer_1.Residual_1.SelfAttention.Distribute.Linear_3",
+        "vision_model.encoder.layers.0.self_attn.out_proj": "Chain.TransformerLayer_1.Residual_1.SelfAttention.Linear",
+        "vision_model.encoder.layers.1.self_attn.q_proj": "Chain.TransformerLayer_2.Residual_1.SelfAttention.Distribute.Linear_1",
+        "vision_model.encoder.layers.1.self_attn.k_proj": "Chain.TransformerLayer_2.Residual_1.SelfAttention.Distribute.Linear_2",
+        "vision_model.encoder.layers.1.self_attn.v_proj": "Chain.TransformerLayer_2.Residual_1.SelfAttention.Distribute.Linear_3",
+        "vision_model.encoder.layers.1.self_attn.out_proj": "Chain.TransformerLayer_2.Residual_1.SelfAttention.Linear",
+        "vision_model.encoder.layers.2.self_attn.q_proj": "Chain.TransformerLayer_3.Residual_1.SelfAttention.Distribute.Linear_1",
+        "vision_model.encoder.layers.2.self_attn.k_proj": "Chain.TransformerLayer_3.Residual_1.SelfAttention.Distribute.Linear_2",
+        "vision_model.encoder.layers.2.self_attn.v_proj": "Chain.TransformerLayer_3.Residual_1.SelfAttention.Distribute.Linear_3",
+        "vision_model.encoder.layers.2.self_attn.out_proj": "Chain.TransformerLayer_3.Residual_1.SelfAttention.Linear",
+        "vision_model.encoder.layers.3.self_attn.q_proj": "Chain.TransformerLayer_4.Residual_1.SelfAttention.Distribute.Linear_1",
+        "vision_model.encoder.layers.3.self_attn.k_proj": "Chain.TransformerLayer_4.Residual_1.SelfAttention.Distribute.Linear_2",
+        "vision_model.encoder.layers.3.self_attn.v_proj": "Chain.TransformerLayer_4.Residual_1.SelfAttention.Distribute.Linear_3",
+        "vision_model.encoder.layers.3.self_attn.out_proj": "Chain.TransformerLayer_4.Residual_1.SelfAttention.Linear",
+        "vision_model.encoder.layers.4.self_attn.q_proj": "Chain.TransformerLayer_5.Residual_1.SelfAttention.Distribute.Linear_1",
+        "vision_model.encoder.layers.4.self_attn.k_proj": "Chain.TransformerLayer_5.Residual_1.SelfAttention.Distribute.Linear_2",
+        "vision_model.encoder.layers.4.self_attn.v_proj": "Chain.TransformerLayer_5.Residual_1.SelfAttention.Distribute.Linear_3",
+        "vision_model.encoder.layers.4.self_attn.out_proj": "Chain.TransformerLayer_5.Residual_1.SelfAttention.Linear",
+        "vision_model.encoder.layers.5.self_attn.q_proj": "Chain.TransformerLayer_6.Residual_1.SelfAttention.Distribute.Linear_1",
+        "vision_model.encoder.layers.5.self_attn.k_proj": "Chain.TransformerLayer_6.Residual_1.SelfAttention.Distribute.Linear_2",
+        "vision_model.encoder.layers.5.self_attn.v_proj": "Chain.TransformerLayer_6.Residual_1.SelfAttention.Distribute.Linear_3",
+        "vision_model.encoder.layers.5.self_attn.out_proj": "Chain.TransformerLayer_6.Residual_1.SelfAttention.Linear",
+        "vision_model.encoder.layers.6.self_attn.q_proj": "Chain.TransformerLayer_7.Residual_1.SelfAttention.Distribute.Linear_1",
+        "vision_model.encoder.layers.6.self_attn.k_proj": "Chain.TransformerLayer_7.Residual_1.SelfAttention.Distribute.Linear_2",
+        "vision_model.encoder.layers.6.self_attn.v_proj": "Chain.TransformerLayer_7.Residual_1.SelfAttention.Distribute.Linear_3",
+        "vision_model.encoder.layers.6.self_attn.out_proj": "Chain.TransformerLayer_7.Residual_1.SelfAttention.Linear",
+        "vision_model.encoder.layers.7.self_attn.q_proj": "Chain.TransformerLayer_8.Residual_1.SelfAttention.Distribute.Linear_1",
+        "vision_model.encoder.layers.7.self_attn.k_proj": "Chain.TransformerLayer_8.Residual_1.SelfAttention.Distribute.Linear_2",
+        "vision_model.encoder.layers.7.self_attn.v_proj": "Chain.TransformerLayer_8.Residual_1.SelfAttention.Distribute.Linear_3",
+        "vision_model.encoder.layers.7.self_attn.out_proj": "Chain.TransformerLayer_8.Residual_1.SelfAttention.Linear",
+        "vision_model.encoder.layers.8.self_attn.q_proj": "Chain.TransformerLayer_9.Residual_1.SelfAttention.Distribute.Linear_1",
+        "vision_model.encoder.layers.8.self_attn.k_proj": "Chain.TransformerLayer_9.Residual_1.SelfAttention.Distribute.Linear_2",
+        "vision_model.encoder.layers.8.self_attn.v_proj": "Chain.TransformerLayer_9.Residual_1.SelfAttention.Distribute.Linear_3",
+        "vision_model.encoder.layers.8.self_attn.out_proj": "Chain.TransformerLayer_9.Residual_1.SelfAttention.Linear",
+        "vision_model.encoder.layers.9.self_attn.q_proj": "Chain.TransformerLayer_10.Residual_1.SelfAttention.Distribute.Linear_1",
+        "vision_model.encoder.layers.9.self_attn.k_proj": "Chain.TransformerLayer_10.Residual_1.SelfAttention.Distribute.Linear_2",
+        "vision_model.encoder.layers.9.self_attn.v_proj": "Chain.TransformerLayer_10.Residual_1.SelfAttention.Distribute.Linear_3",
+        "vision_model.encoder.layers.9.self_attn.out_proj": "Chain.TransformerLayer_10.Residual_1.SelfAttention.Linear",
+        "vision_model.encoder.layers.10.self_attn.q_proj": "Chain.TransformerLayer_11.Residual_1.SelfAttention.Distribute.Linear_1",
+        "vision_model.encoder.layers.10.self_attn.k_proj": "Chain.TransformerLayer_11.Residual_1.SelfAttention.Distribute.Linear_2",
+        "vision_model.encoder.layers.10.self_attn.v_proj": "Chain.TransformerLayer_11.Residual_1.SelfAttention.Distribute.Linear_3",
+        "vision_model.encoder.layers.10.self_attn.out_proj": "Chain.TransformerLayer_11.Residual_1.SelfAttention.Linear",
+        "vision_model.encoder.layers.11.self_attn.q_proj": "Chain.TransformerLayer_12.Residual_1.SelfAttention.Distribute.Linear_1",
+        "vision_model.encoder.layers.11.self_attn.k_proj": "Chain.TransformerLayer_12.Residual_1.SelfAttention.Distribute.Linear_2",
+        "vision_model.encoder.layers.11.self_attn.v_proj": "Chain.TransformerLayer_12.Residual_1.SelfAttention.Distribute.Linear_3",
+        "vision_model.encoder.layers.11.self_attn.out_proj": "Chain.TransformerLayer_12.Residual_1.SelfAttention.Linear",
+        "vision_model.encoder.layers.12.self_attn.q_proj": "Chain.TransformerLayer_13.Residual_1.SelfAttention.Distribute.Linear_1",
+        "vision_model.encoder.layers.12.self_attn.k_proj": "Chain.TransformerLayer_13.Residual_1.SelfAttention.Distribute.Linear_2",
+        "vision_model.encoder.layers.12.self_attn.v_proj": "Chain.TransformerLayer_13.Residual_1.SelfAttention.Distribute.Linear_3",
+        "vision_model.encoder.layers.12.self_attn.out_proj": "Chain.TransformerLayer_13.Residual_1.SelfAttention.Linear",
+        "vision_model.encoder.layers.13.self_attn.q_proj": "Chain.TransformerLayer_14.Residual_1.SelfAttention.Distribute.Linear_1",
+        "vision_model.encoder.layers.13.self_attn.k_proj": "Chain.TransformerLayer_14.Residual_1.SelfAttention.Distribute.Linear_2",
+        "vision_model.encoder.layers.13.self_attn.v_proj": "Chain.TransformerLayer_14.Residual_1.SelfAttention.Distribute.Linear_3",
+        "vision_model.encoder.layers.13.self_attn.out_proj": "Chain.TransformerLayer_14.Residual_1.SelfAttention.Linear",
+        "vision_model.encoder.layers.14.self_attn.q_proj": "Chain.TransformerLayer_15.Residual_1.SelfAttention.Distribute.Linear_1",
+        "vision_model.encoder.layers.14.self_attn.k_proj": "Chain.TransformerLayer_15.Residual_1.SelfAttention.Distribute.Linear_2",
+        "vision_model.encoder.layers.14.self_attn.v_proj": "Chain.TransformerLayer_15.Residual_1.SelfAttention.Distribute.Linear_3",
+        "vision_model.encoder.layers.14.self_attn.out_proj": "Chain.TransformerLayer_15.Residual_1.SelfAttention.Linear",
+        "vision_model.encoder.layers.15.self_attn.q_proj": "Chain.TransformerLayer_16.Residual_1.SelfAttention.Distribute.Linear_1",
+        "vision_model.encoder.layers.15.self_attn.k_proj": "Chain.TransformerLayer_16.Residual_1.SelfAttention.Distribute.Linear_2",
+        "vision_model.encoder.layers.15.self_attn.v_proj": "Chain.TransformerLayer_16.Residual_1.SelfAttention.Distribute.Linear_3",
+        "vision_model.encoder.layers.15.self_attn.out_proj": "Chain.TransformerLayer_16.Residual_1.SelfAttention.Linear",
+        "vision_model.encoder.layers.16.self_attn.q_proj": "Chain.TransformerLayer_17.Residual_1.SelfAttention.Distribute.Linear_1",
+        "vision_model.encoder.layers.16.self_attn.k_proj": "Chain.TransformerLayer_17.Residual_1.SelfAttention.Distribute.Linear_2",
+        "vision_model.encoder.layers.16.self_attn.v_proj": "Chain.TransformerLayer_17.Residual_1.SelfAttention.Distribute.Linear_3",
+        "vision_model.encoder.layers.16.self_attn.out_proj": "Chain.TransformerLayer_17.Residual_1.SelfAttention.Linear",
+        "vision_model.encoder.layers.17.self_attn.q_proj": "Chain.TransformerLayer_18.Residual_1.SelfAttention.Distribute.Linear_1",
+        "vision_model.encoder.layers.17.self_attn.k_proj": "Chain.TransformerLayer_18.Residual_1.SelfAttention.Distribute.Linear_2",
+        "vision_model.encoder.layers.17.self_attn.v_proj": "Chain.TransformerLayer_18.Residual_1.SelfAttention.Distribute.Linear_3",
+        "vision_model.encoder.layers.17.self_attn.out_proj": "Chain.TransformerLayer_18.Residual_1.SelfAttention.Linear",
+        "vision_model.encoder.layers.18.self_attn.q_proj": "Chain.TransformerLayer_19.Residual_1.SelfAttention.Distribute.Linear_1",
+        "vision_model.encoder.layers.18.self_attn.k_proj": "Chain.TransformerLayer_19.Residual_1.SelfAttention.Distribute.Linear_2",
+        "vision_model.encoder.layers.18.self_attn.v_proj": "Chain.TransformerLayer_19.Residual_1.SelfAttention.Distribute.Linear_3",
+        "vision_model.encoder.layers.18.self_attn.out_proj": "Chain.TransformerLayer_19.Residual_1.SelfAttention.Linear",
+        "vision_model.encoder.layers.19.self_attn.q_proj": "Chain.TransformerLayer_20.Residual_1.SelfAttention.Distribute.Linear_1",
+        "vision_model.encoder.layers.19.self_attn.k_proj": "Chain.TransformerLayer_20.Residual_1.SelfAttention.Distribute.Linear_2",
+        "vision_model.encoder.layers.19.self_attn.v_proj": "Chain.TransformerLayer_20.Residual_1.SelfAttention.Distribute.Linear_3",
+        "vision_model.encoder.layers.19.self_attn.out_proj": "Chain.TransformerLayer_20.Residual_1.SelfAttention.Linear",
+        "vision_model.encoder.layers.20.self_attn.q_proj": "Chain.TransformerLayer_21.Residual_1.SelfAttention.Distribute.Linear_1",
+        "vision_model.encoder.layers.20.self_attn.k_proj": "Chain.TransformerLayer_21.Residual_1.SelfAttention.Distribute.Linear_2",
+        "vision_model.encoder.layers.20.self_attn.v_proj": "Chain.TransformerLayer_21.Residual_1.SelfAttention.Distribute.Linear_3",
+        "vision_model.encoder.layers.20.self_attn.out_proj": "Chain.TransformerLayer_21.Residual_1.SelfAttention.Linear",
+        "vision_model.encoder.layers.21.self_attn.q_proj": "Chain.TransformerLayer_22.Residual_1.SelfAttention.Distribute.Linear_1",
+        "vision_model.encoder.layers.21.self_attn.k_proj": "Chain.TransformerLayer_22.Residual_1.SelfAttention.Distribute.Linear_2",
+        "vision_model.encoder.layers.21.self_attn.v_proj": "Chain.TransformerLayer_22.Residual_1.SelfAttention.Distribute.Linear_3",
+        "vision_model.encoder.layers.21.self_attn.out_proj": "Chain.TransformerLayer_22.Residual_1.SelfAttention.Linear",
+        "vision_model.encoder.layers.22.self_attn.q_proj": "Chain.TransformerLayer_23.Residual_1.SelfAttention.Distribute.Linear_1",
+        "vision_model.encoder.layers.22.self_attn.k_proj": "Chain.TransformerLayer_23.Residual_1.SelfAttention.Distribute.Linear_2",
+        "vision_model.encoder.layers.22.self_attn.v_proj": "Chain.TransformerLayer_23.Residual_1.SelfAttention.Distribute.Linear_3",
+        "vision_model.encoder.layers.22.self_attn.out_proj": "Chain.TransformerLayer_23.Residual_1.SelfAttention.Linear",
+        "vision_model.encoder.layers.23.self_attn.q_proj": "Chain.TransformerLayer_24.Residual_1.SelfAttention.Distribute.Linear_1",
+        "vision_model.encoder.layers.23.self_attn.k_proj": "Chain.TransformerLayer_24.Residual_1.SelfAttention.Distribute.Linear_2",
+        "vision_model.encoder.layers.23.self_attn.v_proj": "Chain.TransformerLayer_24.Residual_1.SelfAttention.Distribute.Linear_3",
+        "vision_model.encoder.layers.23.self_attn.out_proj": "Chain.TransformerLayer_24.Residual_1.SelfAttention.Linear",
+        "vision_model.encoder.layers.24.self_attn.q_proj": "Chain.TransformerLayer_25.Residual_1.SelfAttention.Distribute.Linear_1",
+        "vision_model.encoder.layers.24.self_attn.k_proj": "Chain.TransformerLayer_25.Residual_1.SelfAttention.Distribute.Linear_2",
+        "vision_model.encoder.layers.24.self_attn.v_proj": "Chain.TransformerLayer_25.Residual_1.SelfAttention.Distribute.Linear_3",
+        "vision_model.encoder.layers.24.self_attn.out_proj": "Chain.TransformerLayer_25.Residual_1.SelfAttention.Linear",
+        "vision_model.encoder.layers.25.self_attn.q_proj": "Chain.TransformerLayer_26.Residual_1.SelfAttention.Distribute.Linear_1",
+        "vision_model.encoder.layers.25.self_attn.k_proj": "Chain.TransformerLayer_26.Residual_1.SelfAttention.Distribute.Linear_2",
+        "vision_model.encoder.layers.25.self_attn.v_proj": "Chain.TransformerLayer_26.Residual_1.SelfAttention.Distribute.Linear_3",
+        "vision_model.encoder.layers.25.self_attn.out_proj": "Chain.TransformerLayer_26.Residual_1.SelfAttention.Linear",
+        "vision_model.encoder.layers.26.self_attn.q_proj": "Chain.TransformerLayer_27.Residual_1.SelfAttention.Distribute.Linear_1",
+        "vision_model.encoder.layers.26.self_attn.k_proj": "Chain.TransformerLayer_27.Residual_1.SelfAttention.Distribute.Linear_2",
+        "vision_model.encoder.layers.26.self_attn.v_proj": "Chain.TransformerLayer_27.Residual_1.SelfAttention.Distribute.Linear_3",
+        "vision_model.encoder.layers.26.self_attn.out_proj": "Chain.TransformerLayer_27.Residual_1.SelfAttention.Linear",
+        "vision_model.encoder.layers.27.self_attn.q_proj": "Chain.TransformerLayer_28.Residual_1.SelfAttention.Distribute.Linear_1",
+        "vision_model.encoder.layers.27.self_attn.k_proj": "Chain.TransformerLayer_28.Residual_1.SelfAttention.Distribute.Linear_2",
+        "vision_model.encoder.layers.27.self_attn.v_proj": "Chain.TransformerLayer_28.Residual_1.SelfAttention.Distribute.Linear_3",
+        "vision_model.encoder.layers.27.self_attn.out_proj": "Chain.TransformerLayer_28.Residual_1.SelfAttention.Linear",
+        "vision_model.encoder.layers.28.self_attn.q_proj": "Chain.TransformerLayer_29.Residual_1.SelfAttention.Distribute.Linear_1",
+        "vision_model.encoder.layers.28.self_attn.k_proj": "Chain.TransformerLayer_29.Residual_1.SelfAttention.Distribute.Linear_2",
+        "vision_model.encoder.layers.28.self_attn.v_proj": "Chain.TransformerLayer_29.Residual_1.SelfAttention.Distribute.Linear_3",
+        "vision_model.encoder.layers.28.self_attn.out_proj": "Chain.TransformerLayer_29.Residual_1.SelfAttention.Linear",
+        "vision_model.encoder.layers.29.self_attn.q_proj": "Chain.TransformerLayer_30.Residual_1.SelfAttention.Distribute.Linear_1",
+        "vision_model.encoder.layers.29.self_attn.k_proj": "Chain.TransformerLayer_30.Residual_1.SelfAttention.Distribute.Linear_2",
+        "vision_model.encoder.layers.29.self_attn.v_proj": "Chain.TransformerLayer_30.Residual_1.SelfAttention.Distribute.Linear_3",
+        "vision_model.encoder.layers.29.self_attn.out_proj": "Chain.TransformerLayer_30.Residual_1.SelfAttention.Linear",
+        "vision_model.encoder.layers.30.self_attn.q_proj": "Chain.TransformerLayer_31.Residual_1.SelfAttention.Distribute.Linear_1",
+        "vision_model.encoder.layers.30.self_attn.k_proj": "Chain.TransformerLayer_31.Residual_1.SelfAttention.Distribute.Linear_2",
+        "vision_model.encoder.layers.30.self_attn.v_proj": "Chain.TransformerLayer_31.Residual_1.SelfAttention.Distribute.Linear_3",
+        "vision_model.encoder.layers.30.self_attn.out_proj": "Chain.TransformerLayer_31.Residual_1.SelfAttention.Linear",
+        "vision_model.encoder.layers.31.self_attn.q_proj": "Chain.TransformerLayer_32.Residual_1.SelfAttention.Distribute.Linear_1",
+        "vision_model.encoder.layers.31.self_attn.k_proj": "Chain.TransformerLayer_32.Residual_1.SelfAttention.Distribute.Linear_2",
+        "vision_model.encoder.layers.31.self_attn.v_proj": "Chain.TransformerLayer_32.Residual_1.SelfAttention.Distribute.Linear_3",
+        "vision_model.encoder.layers.31.self_attn.out_proj": "Chain.TransformerLayer_32.Residual_1.SelfAttention.Linear",
+        "vision_model.encoder.layers.0.mlp.fc1": "Chain.TransformerLayer_1.Residual_2.FeedForward.Linear_1",
+        "vision_model.encoder.layers.1.mlp.fc1": "Chain.TransformerLayer_2.Residual_2.FeedForward.Linear_1",
+        "vision_model.encoder.layers.2.mlp.fc1": "Chain.TransformerLayer_3.Residual_2.FeedForward.Linear_1",
+        "vision_model.encoder.layers.3.mlp.fc1": "Chain.TransformerLayer_4.Residual_2.FeedForward.Linear_1",
+        "vision_model.encoder.layers.4.mlp.fc1": "Chain.TransformerLayer_5.Residual_2.FeedForward.Linear_1",
+        "vision_model.encoder.layers.5.mlp.fc1": "Chain.TransformerLayer_6.Residual_2.FeedForward.Linear_1",
+        "vision_model.encoder.layers.6.mlp.fc1": "Chain.TransformerLayer_7.Residual_2.FeedForward.Linear_1",
+        "vision_model.encoder.layers.7.mlp.fc1": "Chain.TransformerLayer_8.Residual_2.FeedForward.Linear_1",
+        "vision_model.encoder.layers.8.mlp.fc1": "Chain.TransformerLayer_9.Residual_2.FeedForward.Linear_1",
+        "vision_model.encoder.layers.9.mlp.fc1": "Chain.TransformerLayer_10.Residual_2.FeedForward.Linear_1",
+        "vision_model.encoder.layers.10.mlp.fc1": "Chain.TransformerLayer_11.Residual_2.FeedForward.Linear_1",
+        "vision_model.encoder.layers.11.mlp.fc1": "Chain.TransformerLayer_12.Residual_2.FeedForward.Linear_1",
+        "vision_model.encoder.layers.12.mlp.fc1": "Chain.TransformerLayer_13.Residual_2.FeedForward.Linear_1",
+        "vision_model.encoder.layers.13.mlp.fc1": "Chain.TransformerLayer_14.Residual_2.FeedForward.Linear_1",
+        "vision_model.encoder.layers.14.mlp.fc1": "Chain.TransformerLayer_15.Residual_2.FeedForward.Linear_1",
+        "vision_model.encoder.layers.15.mlp.fc1": "Chain.TransformerLayer_16.Residual_2.FeedForward.Linear_1",
+        "vision_model.encoder.layers.16.mlp.fc1": "Chain.TransformerLayer_17.Residual_2.FeedForward.Linear_1",
+        "vision_model.encoder.layers.17.mlp.fc1": "Chain.TransformerLayer_18.Residual_2.FeedForward.Linear_1",
+        "vision_model.encoder.layers.18.mlp.fc1": "Chain.TransformerLayer_19.Residual_2.FeedForward.Linear_1",
+        "vision_model.encoder.layers.19.mlp.fc1": "Chain.TransformerLayer_20.Residual_2.FeedForward.Linear_1",
+        "vision_model.encoder.layers.20.mlp.fc1": "Chain.TransformerLayer_21.Residual_2.FeedForward.Linear_1",
+        "vision_model.encoder.layers.21.mlp.fc1": "Chain.TransformerLayer_22.Residual_2.FeedForward.Linear_1",
+        "vision_model.encoder.layers.22.mlp.fc1": "Chain.TransformerLayer_23.Residual_2.FeedForward.Linear_1",
+        "vision_model.encoder.layers.23.mlp.fc1": "Chain.TransformerLayer_24.Residual_2.FeedForward.Linear_1",
+        "vision_model.encoder.layers.24.mlp.fc1": "Chain.TransformerLayer_25.Residual_2.FeedForward.Linear_1",
+        "vision_model.encoder.layers.25.mlp.fc1": "Chain.TransformerLayer_26.Residual_2.FeedForward.Linear_1",
+        "vision_model.encoder.layers.26.mlp.fc1": "Chain.TransformerLayer_27.Residual_2.FeedForward.Linear_1",
+        "vision_model.encoder.layers.27.mlp.fc1": "Chain.TransformerLayer_28.Residual_2.FeedForward.Linear_1",
+        "vision_model.encoder.layers.28.mlp.fc1": "Chain.TransformerLayer_29.Residual_2.FeedForward.Linear_1",
+        "vision_model.encoder.layers.29.mlp.fc1": "Chain.TransformerLayer_30.Residual_2.FeedForward.Linear_1",
+        "vision_model.encoder.layers.30.mlp.fc1": "Chain.TransformerLayer_31.Residual_2.FeedForward.Linear_1",
+        "vision_model.encoder.layers.31.mlp.fc1": "Chain.TransformerLayer_32.Residual_2.FeedForward.Linear_1",
+        "vision_model.encoder.layers.0.mlp.fc2": "Chain.TransformerLayer_1.Residual_2.FeedForward.Linear_2",
+        "vision_model.encoder.layers.1.mlp.fc2": "Chain.TransformerLayer_2.Residual_2.FeedForward.Linear_2",
+        "vision_model.encoder.layers.2.mlp.fc2": "Chain.TransformerLayer_3.Residual_2.FeedForward.Linear_2",
+        "vision_model.encoder.layers.3.mlp.fc2": "Chain.TransformerLayer_4.Residual_2.FeedForward.Linear_2",
+        "vision_model.encoder.layers.4.mlp.fc2": "Chain.TransformerLayer_5.Residual_2.FeedForward.Linear_2",
+        "vision_model.encoder.layers.5.mlp.fc2": "Chain.TransformerLayer_6.Residual_2.FeedForward.Linear_2",
+        "vision_model.encoder.layers.6.mlp.fc2": "Chain.TransformerLayer_7.Residual_2.FeedForward.Linear_2",
+        "vision_model.encoder.layers.7.mlp.fc2": "Chain.TransformerLayer_8.Residual_2.FeedForward.Linear_2",
+        "vision_model.encoder.layers.8.mlp.fc2": "Chain.TransformerLayer_9.Residual_2.FeedForward.Linear_2",
+        "vision_model.encoder.layers.9.mlp.fc2": "Chain.TransformerLayer_10.Residual_2.FeedForward.Linear_2",
+        "vision_model.encoder.layers.10.mlp.fc2": "Chain.TransformerLayer_11.Residual_2.FeedForward.Linear_2",
+        "vision_model.encoder.layers.11.mlp.fc2": "Chain.TransformerLayer_12.Residual_2.FeedForward.Linear_2",
+        "vision_model.encoder.layers.12.mlp.fc2": "Chain.TransformerLayer_13.Residual_2.FeedForward.Linear_2",
+        "vision_model.encoder.layers.13.mlp.fc2": "Chain.TransformerLayer_14.Residual_2.FeedForward.Linear_2",
+        "vision_model.encoder.layers.14.mlp.fc2": "Chain.TransformerLayer_15.Residual_2.FeedForward.Linear_2",
+        "vision_model.encoder.layers.15.mlp.fc2": "Chain.TransformerLayer_16.Residual_2.FeedForward.Linear_2",
+        "vision_model.encoder.layers.16.mlp.fc2": "Chain.TransformerLayer_17.Residual_2.FeedForward.Linear_2",
+        "vision_model.encoder.layers.17.mlp.fc2": "Chain.TransformerLayer_18.Residual_2.FeedForward.Linear_2",
+        "vision_model.encoder.layers.18.mlp.fc2": "Chain.TransformerLayer_19.Residual_2.FeedForward.Linear_2",
+        "vision_model.encoder.layers.19.mlp.fc2": "Chain.TransformerLayer_20.Residual_2.FeedForward.Linear_2",
+        "vision_model.encoder.layers.20.mlp.fc2": "Chain.TransformerLayer_21.Residual_2.FeedForward.Linear_2",
+        "vision_model.encoder.layers.21.mlp.fc2": "Chain.TransformerLayer_22.Residual_2.FeedForward.Linear_2",
+        "vision_model.encoder.layers.22.mlp.fc2": "Chain.TransformerLayer_23.Residual_2.FeedForward.Linear_2",
+        "vision_model.encoder.layers.23.mlp.fc2": "Chain.TransformerLayer_24.Residual_2.FeedForward.Linear_2",
+        "vision_model.encoder.layers.24.mlp.fc2": "Chain.TransformerLayer_25.Residual_2.FeedForward.Linear_2",
+        "vision_model.encoder.layers.25.mlp.fc2": "Chain.TransformerLayer_26.Residual_2.FeedForward.Linear_2",
+        "vision_model.encoder.layers.26.mlp.fc2": "Chain.TransformerLayer_27.Residual_2.FeedForward.Linear_2",
+        "vision_model.encoder.layers.27.mlp.fc2": "Chain.TransformerLayer_28.Residual_2.FeedForward.Linear_2",
+        "vision_model.encoder.layers.28.mlp.fc2": "Chain.TransformerLayer_29.Residual_2.FeedForward.Linear_2",
+        "vision_model.encoder.layers.29.mlp.fc2": "Chain.TransformerLayer_30.Residual_2.FeedForward.Linear_2",
+        "vision_model.encoder.layers.30.mlp.fc2": "Chain.TransformerLayer_31.Residual_2.FeedForward.Linear_2",
+        "vision_model.encoder.layers.31.mlp.fc2": "Chain.TransformerLayer_32.Residual_2.FeedForward.Linear_2",
+        "visual_projection": "Linear",
+    },
+    tensor_reshapes={
+        "ViTEmbeddings.Concatenate.ClassToken.Parameter.weight": (1, 1280),
+    },
+)
+
+
+unclip_21 = Conversion(
+    original=Hub(
+        repo_id="stabilityai/stable-diffusion-2-1-unclip",
+        filename="image_encoder/model.safetensors",
+        revision="e99f66a92bdcd1b0fb0d4b6a9b81b3b37d8bea44",
+        expected_sha256="9d277aeaed13ebc0ef33e56027b826a74433d45d755b3e0b3829440c1ea7b72e",
+    ),
+    converted=Hub(
+        repo_id="refiners/sd21.unclip.image_encoder",
+        filename="model.safetensors",
+        expected_sha256="c9f43e359e06f1a237324c4c11734d6acd7fbddbfd3b1ed4f1b525267bedb812",
+    ),
+    recipe=diffusers_recipe,
+    dtype=torch.float16,
+)
--- a/src/refiners/conversion/models/clip_text_sd15.py
+++ b/src/refiners/conversion/models/clip_text_sd15.py
@ -0,0 +1,291 @@
+import torch
+
+from refiners.conversion.utils import Conversion, Hub, WeightRecipe
+
+diffusers_recipe = WeightRecipe(
+    key_map={
+        "text_model.embeddings.token_embedding": "Sum.TokenEncoder",
+        "text_model.embeddings.position_embedding": "Sum.PositionalEncoder.Embedding",
+        "text_model.final_layer_norm": "LayerNorm",
+        "text_projection": "Linear",
+        "text_model.encoder.layers.0.layer_norm1": "TransformerLayer_1.Residual_1.LayerNorm",
+        "text_model.encoder.layers.0.layer_norm2": "TransformerLayer_1.Residual_2.LayerNorm",
+        "text_model.encoder.layers.0.mlp.fc1": "TransformerLayer_1.Residual_2.FeedForward.Linear_1",
+        "text_model.encoder.layers.0.mlp.fc2": "TransformerLayer_1.Residual_2.FeedForward.Linear_2",
+        "text_model.encoder.layers.0.self_attn.k_proj": "TransformerLayer_1.Residual_1.SelfAttention.Distribute.Linear_2",
+        "text_model.encoder.layers.0.self_attn.out_proj": "TransformerLayer_1.Residual_1.SelfAttention.Linear",
+        "text_model.encoder.layers.0.self_attn.q_proj": "TransformerLayer_1.Residual_1.SelfAttention.Distribute.Linear_1",
+        "text_model.encoder.layers.0.self_attn.v_proj": "TransformerLayer_1.Residual_1.SelfAttention.Distribute.Linear_3",
+        "text_model.encoder.layers.1.layer_norm1": "TransformerLayer_2.Residual_1.LayerNorm",
+        "text_model.encoder.layers.1.layer_norm2": "TransformerLayer_2.Residual_2.LayerNorm",
+        "text_model.encoder.layers.1.mlp.fc1": "TransformerLayer_2.Residual_2.FeedForward.Linear_1",
+        "text_model.encoder.layers.1.mlp.fc2": "TransformerLayer_2.Residual_2.FeedForward.Linear_2",
+        "text_model.encoder.layers.1.self_attn.k_proj": "TransformerLayer_2.Residual_1.SelfAttention.Distribute.Linear_2",
+        "text_model.encoder.layers.1.self_attn.out_proj": "TransformerLayer_2.Residual_1.SelfAttention.Linear",
+        "text_model.encoder.layers.1.self_attn.q_proj": "TransformerLayer_2.Residual_1.SelfAttention.Distribute.Linear_1",
+        "text_model.encoder.layers.1.self_attn.v_proj": "TransformerLayer_2.Residual_1.SelfAttention.Distribute.Linear_3",
+        "text_model.encoder.layers.10.layer_norm1": "TransformerLayer_11.Residual_1.LayerNorm",
+        "text_model.encoder.layers.10.layer_norm2": "TransformerLayer_11.Residual_2.LayerNorm",
+        "text_model.encoder.layers.10.mlp.fc1": "TransformerLayer_11.Residual_2.FeedForward.Linear_1",
+        "text_model.encoder.layers.10.mlp.fc2": "TransformerLayer_11.Residual_2.FeedForward.Linear_2",
+        "text_model.encoder.layers.10.self_attn.k_proj": "TransformerLayer_11.Residual_1.SelfAttention.Distribute.Linear_2",
+        "text_model.encoder.layers.10.self_attn.out_proj": "TransformerLayer_11.Residual_1.SelfAttention.Linear",
+        "text_model.encoder.layers.10.self_attn.q_proj": "TransformerLayer_11.Residual_1.SelfAttention.Distribute.Linear_1",
+        "text_model.encoder.layers.10.self_attn.v_proj": "TransformerLayer_11.Residual_1.SelfAttention.Distribute.Linear_3",
+        "text_model.encoder.layers.11.layer_norm1": "TransformerLayer_12.Residual_1.LayerNorm",
+        "text_model.encoder.layers.11.layer_norm2": "TransformerLayer_12.Residual_2.LayerNorm",
+        "text_model.encoder.layers.11.mlp.fc1": "TransformerLayer_12.Residual_2.FeedForward.Linear_1",
+        "text_model.encoder.layers.11.mlp.fc2": "TransformerLayer_12.Residual_2.FeedForward.Linear_2",
+        "text_model.encoder.layers.11.self_attn.k_proj": "TransformerLayer_12.Residual_1.SelfAttention.Distribute.Linear_2",
+        "text_model.encoder.layers.11.self_attn.out_proj": "TransformerLayer_12.Residual_1.SelfAttention.Linear",
+        "text_model.encoder.layers.11.self_attn.q_proj": "TransformerLayer_12.Residual_1.SelfAttention.Distribute.Linear_1",
+        "text_model.encoder.layers.11.self_attn.v_proj": "TransformerLayer_12.Residual_1.SelfAttention.Distribute.Linear_3",
+        "text_model.encoder.layers.2.layer_norm1": "TransformerLayer_3.Residual_1.LayerNorm",
+        "text_model.encoder.layers.2.layer_norm2": "TransformerLayer_3.Residual_2.LayerNorm",
+        "text_model.encoder.layers.2.mlp.fc1": "TransformerLayer_3.Residual_2.FeedForward.Linear_1",
+        "text_model.encoder.layers.2.mlp.fc2": "TransformerLayer_3.Residual_2.FeedForward.Linear_2",
+        "text_model.encoder.layers.2.self_attn.k_proj": "TransformerLayer_3.Residual_1.SelfAttention.Distribute.Linear_2",
+        "text_model.encoder.layers.2.self_attn.out_proj": "TransformerLayer_3.Residual_1.SelfAttention.Linear",
+        "text_model.encoder.layers.2.self_attn.q_proj": "TransformerLayer_3.Residual_1.SelfAttention.Distribute.Linear_1",
+        "text_model.encoder.layers.2.self_attn.v_proj": "TransformerLayer_3.Residual_1.SelfAttention.Distribute.Linear_3",
+        "text_model.encoder.layers.3.layer_norm1": "TransformerLayer_4.Residual_1.LayerNorm",
+        "text_model.encoder.layers.3.layer_norm2": "TransformerLayer_4.Residual_2.LayerNorm",
+        "text_model.encoder.layers.3.mlp.fc1": "TransformerLayer_4.Residual_2.FeedForward.Linear_1",
+        "text_model.encoder.layers.3.mlp.fc2": "TransformerLayer_4.Residual_2.FeedForward.Linear_2",
+        "text_model.encoder.layers.3.self_attn.k_proj": "TransformerLayer_4.Residual_1.SelfAttention.Distribute.Linear_2",
+        "text_model.encoder.layers.3.self_attn.out_proj": "TransformerLayer_4.Residual_1.SelfAttention.Linear",
+        "text_model.encoder.layers.3.self_attn.q_proj": "TransformerLayer_4.Residual_1.SelfAttention.Distribute.Linear_1",
+        "text_model.encoder.layers.3.self_attn.v_proj": "TransformerLayer_4.Residual_1.SelfAttention.Distribute.Linear_3",
+        "text_model.encoder.layers.4.layer_norm1": "TransformerLayer_5.Residual_1.LayerNorm",
+        "text_model.encoder.layers.4.layer_norm2": "TransformerLayer_5.Residual_2.LayerNorm",
+        "text_model.encoder.layers.4.mlp.fc1": "TransformerLayer_5.Residual_2.FeedForward.Linear_1",
+        "text_model.encoder.layers.4.mlp.fc2": "TransformerLayer_5.Residual_2.FeedForward.Linear_2",
+        "text_model.encoder.layers.4.self_attn.k_proj": "TransformerLayer_5.Residual_1.SelfAttention.Distribute.Linear_2",
+        "text_model.encoder.layers.4.self_attn.out_proj": "TransformerLayer_5.Residual_1.SelfAttention.Linear",
+        "text_model.encoder.layers.4.self_attn.q_proj": "TransformerLayer_5.Residual_1.SelfAttention.Distribute.Linear_1",
+        "text_model.encoder.layers.4.self_attn.v_proj": "TransformerLayer_5.Residual_1.SelfAttention.Distribute.Linear_3",
+        "text_model.encoder.layers.5.layer_norm1": "TransformerLayer_6.Residual_1.LayerNorm",
+        "text_model.encoder.layers.5.layer_norm2": "TransformerLayer_6.Residual_2.LayerNorm",
+        "text_model.encoder.layers.5.mlp.fc1": "TransformerLayer_6.Residual_2.FeedForward.Linear_1",
+        "text_model.encoder.layers.5.mlp.fc2": "TransformerLayer_6.Residual_2.FeedForward.Linear_2",
+        "text_model.encoder.layers.5.self_attn.k_proj": "TransformerLayer_6.Residual_1.SelfAttention.Distribute.Linear_2",
+        "text_model.encoder.layers.5.self_attn.out_proj": "TransformerLayer_6.Residual_1.SelfAttention.Linear",
+        "text_model.encoder.layers.5.self_attn.q_proj": "TransformerLayer_6.Residual_1.SelfAttention.Distribute.Linear_1",
+        "text_model.encoder.layers.5.self_attn.v_proj": "TransformerLayer_6.Residual_1.SelfAttention.Distribute.Linear_3",
+        "text_model.encoder.layers.6.layer_norm1": "TransformerLayer_7.Residual_1.LayerNorm",
+        "text_model.encoder.layers.6.layer_norm2": "TransformerLayer_7.Residual_2.LayerNorm",
+        "text_model.encoder.layers.6.mlp.fc1": "TransformerLayer_7.Residual_2.FeedForward.Linear_1",
+        "text_model.encoder.layers.6.mlp.fc2": "TransformerLayer_7.Residual_2.FeedForward.Linear_2",
+        "text_model.encoder.layers.6.self_attn.k_proj": "TransformerLayer_7.Residual_1.SelfAttention.Distribute.Linear_2",
+        "text_model.encoder.layers.6.self_attn.out_proj": "TransformerLayer_7.Residual_1.SelfAttention.Linear",
+        "text_model.encoder.layers.6.self_attn.q_proj": "TransformerLayer_7.Residual_1.SelfAttention.Distribute.Linear_1",
+        "text_model.encoder.layers.6.self_attn.v_proj": "TransformerLayer_7.Residual_1.SelfAttention.Distribute.Linear_3",
+        "text_model.encoder.layers.7.layer_norm1": "TransformerLayer_8.Residual_1.LayerNorm",
+        "text_model.encoder.layers.7.layer_norm2": "TransformerLayer_8.Residual_2.LayerNorm",
+        "text_model.encoder.layers.7.mlp.fc1": "TransformerLayer_8.Residual_2.FeedForward.Linear_1",
+        "text_model.encoder.layers.7.mlp.fc2": "TransformerLayer_8.Residual_2.FeedForward.Linear_2",
+        "text_model.encoder.layers.7.self_attn.k_proj": "TransformerLayer_8.Residual_1.SelfAttention.Distribute.Linear_2",
+        "text_model.encoder.layers.7.self_attn.out_proj": "TransformerLayer_8.Residual_1.SelfAttention.Linear",
+        "text_model.encoder.layers.7.self_attn.q_proj": "TransformerLayer_8.Residual_1.SelfAttention.Distribute.Linear_1",
+        "text_model.encoder.layers.7.self_attn.v_proj": "TransformerLayer_8.Residual_1.SelfAttention.Distribute.Linear_3",
+        "text_model.encoder.layers.8.layer_norm1": "TransformerLayer_9.Residual_1.LayerNorm",
+        "text_model.encoder.layers.8.layer_norm2": "TransformerLayer_9.Residual_2.LayerNorm",
+        "text_model.encoder.layers.8.mlp.fc1": "TransformerLayer_9.Residual_2.FeedForward.Linear_1",
+        "text_model.encoder.layers.8.mlp.fc2": "TransformerLayer_9.Residual_2.FeedForward.Linear_2",
+        "text_model.encoder.layers.8.self_attn.k_proj": "TransformerLayer_9.Residual_1.SelfAttention.Distribute.Linear_2",
+        "text_model.encoder.layers.8.self_attn.out_proj": "TransformerLayer_9.Residual_1.SelfAttention.Linear",
+        "text_model.encoder.layers.8.self_attn.q_proj": "TransformerLayer_9.Residual_1.SelfAttention.Distribute.Linear_1",
+        "text_model.encoder.layers.8.self_attn.v_proj": "TransformerLayer_9.Residual_1.SelfAttention.Distribute.Linear_3",
+        "text_model.encoder.layers.9.layer_norm1": "TransformerLayer_10.Residual_1.LayerNorm",
+        "text_model.encoder.layers.9.layer_norm2": "TransformerLayer_10.Residual_2.LayerNorm",
+        "text_model.encoder.layers.9.mlp.fc1": "TransformerLayer_10.Residual_2.FeedForward.Linear_1",
+        "text_model.encoder.layers.9.mlp.fc2": "TransformerLayer_10.Residual_2.FeedForward.Linear_2",
+        "text_model.encoder.layers.9.self_attn.k_proj": "TransformerLayer_10.Residual_1.SelfAttention.Distribute.Linear_2",
+        "text_model.encoder.layers.9.self_attn.out_proj": "TransformerLayer_10.Residual_1.SelfAttention.Linear",
+        "text_model.encoder.layers.9.self_attn.q_proj": "TransformerLayer_10.Residual_1.SelfAttention.Distribute.Linear_1",
+        "text_model.encoder.layers.9.self_attn.v_proj": "TransformerLayer_10.Residual_1.SelfAttention.Distribute.Linear_3",
+    },
+)
+
+
+civitai_recipe = WeightRecipe(
+    key_prefix="cond_stage_model.transformer.text_model.",
+    key_map={
+        "embeddings.token_embedding": "Sum.TokenEncoder",
+        "embeddings.position_embedding": "Sum.PositionalEncoder.Embedding",
+        "encoder.layers.0.layer_norm1": "TransformerLayer_1.Residual_1.LayerNorm",
+        "encoder.layers.0.self_attn.q_proj": "TransformerLayer_1.Residual_1.SelfAttention.Distribute.Linear_1",
+        "encoder.layers.0.self_attn.k_proj": "TransformerLayer_1.Residual_1.SelfAttention.Distribute.Linear_2",
+        "encoder.layers.0.self_attn.v_proj": "TransformerLayer_1.Residual_1.SelfAttention.Distribute.Linear_3",
+        "encoder.layers.0.self_attn.out_proj": "TransformerLayer_1.Residual_1.SelfAttention.Linear",
+        "encoder.layers.0.layer_norm2": "TransformerLayer_1.Residual_2.LayerNorm",
+        "encoder.layers.0.mlp.fc1": "TransformerLayer_1.Residual_2.FeedForward.Linear_1",
+        "encoder.layers.0.mlp.fc2": "TransformerLayer_1.Residual_2.FeedForward.Linear_2",
+        "encoder.layers.1.layer_norm1": "TransformerLayer_2.Residual_1.LayerNorm",
+        "encoder.layers.1.self_attn.q_proj": "TransformerLayer_2.Residual_1.SelfAttention.Distribute.Linear_1",
+        "encoder.layers.1.self_attn.k_proj": "TransformerLayer_2.Residual_1.SelfAttention.Distribute.Linear_2",
+        "encoder.layers.1.self_attn.v_proj": "TransformerLayer_2.Residual_1.SelfAttention.Distribute.Linear_3",
+        "encoder.layers.1.self_attn.out_proj": "TransformerLayer_2.Residual_1.SelfAttention.Linear",
+        "encoder.layers.1.layer_norm2": "TransformerLayer_2.Residual_2.LayerNorm",
+        "encoder.layers.1.mlp.fc1": "TransformerLayer_2.Residual_2.FeedForward.Linear_1",
+        "encoder.layers.1.mlp.fc2": "TransformerLayer_2.Residual_2.FeedForward.Linear_2",
+        "encoder.layers.2.layer_norm1": "TransformerLayer_3.Residual_1.LayerNorm",
+        "encoder.layers.2.self_attn.q_proj": "TransformerLayer_3.Residual_1.SelfAttention.Distribute.Linear_1",
+        "encoder.layers.2.self_attn.k_proj": "TransformerLayer_3.Residual_1.SelfAttention.Distribute.Linear_2",
+        "encoder.layers.2.self_attn.v_proj": "TransformerLayer_3.Residual_1.SelfAttention.Distribute.Linear_3",
+        "encoder.layers.2.self_attn.out_proj": "TransformerLayer_3.Residual_1.SelfAttention.Linear",
+        "encoder.layers.2.layer_norm2": "TransformerLayer_3.Residual_2.LayerNorm",
+        "encoder.layers.2.mlp.fc1": "TransformerLayer_3.Residual_2.FeedForward.Linear_1",
+        "encoder.layers.2.mlp.fc2": "TransformerLayer_3.Residual_2.FeedForward.Linear_2",
+        "encoder.layers.3.layer_norm1": "TransformerLayer_4.Residual_1.LayerNorm",
+        "encoder.layers.3.self_attn.q_proj": "TransformerLayer_4.Residual_1.SelfAttention.Distribute.Linear_1",
+        "encoder.layers.3.self_attn.k_proj": "TransformerLayer_4.Residual_1.SelfAttention.Distribute.Linear_2",
+        "encoder.layers.3.self_attn.v_proj": "TransformerLayer_4.Residual_1.SelfAttention.Distribute.Linear_3",
+        "encoder.layers.3.self_attn.out_proj": "TransformerLayer_4.Residual_1.SelfAttention.Linear",
+        "encoder.layers.3.layer_norm2": "TransformerLayer_4.Residual_2.LayerNorm",
+        "encoder.layers.3.mlp.fc1": "TransformerLayer_4.Residual_2.FeedForward.Linear_1",
+        "encoder.layers.3.mlp.fc2": "TransformerLayer_4.Residual_2.FeedForward.Linear_2",
+        "encoder.layers.4.layer_norm1": "TransformerLayer_5.Residual_1.LayerNorm",
+        "encoder.layers.4.self_attn.q_proj": "TransformerLayer_5.Residual_1.SelfAttention.Distribute.Linear_1",
+        "encoder.layers.4.self_attn.k_proj": "TransformerLayer_5.Residual_1.SelfAttention.Distribute.Linear_2",
+        "encoder.layers.4.self_attn.v_proj": "TransformerLayer_5.Residual_1.SelfAttention.Distribute.Linear_3",
+        "encoder.layers.4.self_attn.out_proj": "TransformerLayer_5.Residual_1.SelfAttention.Linear",
+        "encoder.layers.4.layer_norm2": "TransformerLayer_5.Residual_2.LayerNorm",
+        "encoder.layers.4.mlp.fc1": "TransformerLayer_5.Residual_2.FeedForward.Linear_1",
+        "encoder.layers.4.mlp.fc2": "TransformerLayer_5.Residual_2.FeedForward.Linear_2",
+        "encoder.layers.5.layer_norm1": "TransformerLayer_6.Residual_1.LayerNorm",
+        "encoder.layers.5.self_attn.q_proj": "TransformerLayer_6.Residual_1.SelfAttention.Distribute.Linear_1",
+        "encoder.layers.5.self_attn.k_proj": "TransformerLayer_6.Residual_1.SelfAttention.Distribute.Linear_2",
+        "encoder.layers.5.self_attn.v_proj": "TransformerLayer_6.Residual_1.SelfAttention.Distribute.Linear_3",
+        "encoder.layers.5.self_attn.out_proj": "TransformerLayer_6.Residual_1.SelfAttention.Linear",
+        "encoder.layers.5.layer_norm2": "TransformerLayer_6.Residual_2.LayerNorm",
+        "encoder.layers.5.mlp.fc1": "TransformerLayer_6.Residual_2.FeedForward.Linear_1",
+        "encoder.layers.5.mlp.fc2": "TransformerLayer_6.Residual_2.FeedForward.Linear_2",
+        "encoder.layers.6.layer_norm1": "TransformerLayer_7.Residual_1.LayerNorm",
+        "encoder.layers.6.self_attn.q_proj": "TransformerLayer_7.Residual_1.SelfAttention.Distribute.Linear_1",
+        "encoder.layers.6.self_attn.k_proj": "TransformerLayer_7.Residual_1.SelfAttention.Distribute.Linear_2",
+        "encoder.layers.6.self_attn.v_proj": "TransformerLayer_7.Residual_1.SelfAttention.Distribute.Linear_3",
+        "encoder.layers.6.self_attn.out_proj": "TransformerLayer_7.Residual_1.SelfAttention.Linear",
+        "encoder.layers.6.layer_norm2": "TransformerLayer_7.Residual_2.LayerNorm",
+        "encoder.layers.6.mlp.fc1": "TransformerLayer_7.Residual_2.FeedForward.Linear_1",
+        "encoder.layers.6.mlp.fc2": "TransformerLayer_7.Residual_2.FeedForward.Linear_2",
+        "encoder.layers.7.layer_norm1": "TransformerLayer_8.Residual_1.LayerNorm",
+        "encoder.layers.7.self_attn.q_proj": "TransformerLayer_8.Residual_1.SelfAttention.Distribute.Linear_1",
+        "encoder.layers.7.self_attn.k_proj": "TransformerLayer_8.Residual_1.SelfAttention.Distribute.Linear_2",
+        "encoder.layers.7.self_attn.v_proj": "TransformerLayer_8.Residual_1.SelfAttention.Distribute.Linear_3",
+        "encoder.layers.7.self_attn.out_proj": "TransformerLayer_8.Residual_1.SelfAttention.Linear",
+        "encoder.layers.7.layer_norm2": "TransformerLayer_8.Residual_2.LayerNorm",
+        "encoder.layers.7.mlp.fc1": "TransformerLayer_8.Residual_2.FeedForward.Linear_1",
+        "encoder.layers.7.mlp.fc2": "TransformerLayer_8.Residual_2.FeedForward.Linear_2",
+        "encoder.layers.8.layer_norm1": "TransformerLayer_9.Residual_1.LayerNorm",
+        "encoder.layers.8.self_attn.q_proj": "TransformerLayer_9.Residual_1.SelfAttention.Distribute.Linear_1",
+        "encoder.layers.8.self_attn.k_proj": "TransformerLayer_9.Residual_1.SelfAttention.Distribute.Linear_2",
+        "encoder.layers.8.self_attn.v_proj": "TransformerLayer_9.Residual_1.SelfAttention.Distribute.Linear_3",
+        "encoder.layers.8.self_attn.out_proj": "TransformerLayer_9.Residual_1.SelfAttention.Linear",
+        "encoder.layers.8.layer_norm2": "TransformerLayer_9.Residual_2.LayerNorm",
+        "encoder.layers.8.mlp.fc1": "TransformerLayer_9.Residual_2.FeedForward.Linear_1",
+        "encoder.layers.8.mlp.fc2": "TransformerLayer_9.Residual_2.FeedForward.Linear_2",
+        "encoder.layers.9.layer_norm1": "TransformerLayer_10.Residual_1.LayerNorm",
+        "encoder.layers.9.self_attn.q_proj": "TransformerLayer_10.Residual_1.SelfAttention.Distribute.Linear_1",
+        "encoder.layers.9.self_attn.k_proj": "TransformerLayer_10.Residual_1.SelfAttention.Distribute.Linear_2",
+        "encoder.layers.9.self_attn.v_proj": "TransformerLayer_10.Residual_1.SelfAttention.Distribute.Linear_3",
+        "encoder.layers.9.self_attn.out_proj": "TransformerLayer_10.Residual_1.SelfAttention.Linear",
+        "encoder.layers.9.layer_norm2": "TransformerLayer_10.Residual_2.LayerNorm",
+        "encoder.layers.9.mlp.fc1": "TransformerLayer_10.Residual_2.FeedForward.Linear_1",
+        "encoder.layers.9.mlp.fc2": "TransformerLayer_10.Residual_2.FeedForward.Linear_2",
+        "encoder.layers.10.layer_norm1": "TransformerLayer_11.Residual_1.LayerNorm",
+        "encoder.layers.10.self_attn.q_proj": "TransformerLayer_11.Residual_1.SelfAttention.Distribute.Linear_1",
+        "encoder.layers.10.self_attn.k_proj": "TransformerLayer_11.Residual_1.SelfAttention.Distribute.Linear_2",
+        "encoder.layers.10.self_attn.v_proj": "TransformerLayer_11.Residual_1.SelfAttention.Distribute.Linear_3",
+        "encoder.layers.10.self_attn.out_proj": "TransformerLayer_11.Residual_1.SelfAttention.Linear",
+        "encoder.layers.10.layer_norm2": "TransformerLayer_11.Residual_2.LayerNorm",
+        "encoder.layers.10.mlp.fc1": "TransformerLayer_11.Residual_2.FeedForward.Linear_1",
+        "encoder.layers.10.mlp.fc2": "TransformerLayer_11.Residual_2.FeedForward.Linear_2",
+        "encoder.layers.11.layer_norm1": "TransformerLayer_12.Residual_1.LayerNorm",
+        "encoder.layers.11.self_attn.q_proj": "TransformerLayer_12.Residual_1.SelfAttention.Distribute.Linear_1",
+        "encoder.layers.11.self_attn.k_proj": "TransformerLayer_12.Residual_1.SelfAttention.Distribute.Linear_2",
+        "encoder.layers.11.self_attn.v_proj": "TransformerLayer_12.Residual_1.SelfAttention.Distribute.Linear_3",
+        "encoder.layers.11.self_attn.out_proj": "TransformerLayer_12.Residual_1.SelfAttention.Linear",
+        "encoder.layers.11.layer_norm2": "TransformerLayer_12.Residual_2.LayerNorm",
+        "encoder.layers.11.mlp.fc1": "TransformerLayer_12.Residual_2.FeedForward.Linear_1",
+        "encoder.layers.11.mlp.fc2": "TransformerLayer_12.Residual_2.FeedForward.Linear_2",
+        "final_layer_norm": "LayerNorm",
+    },
+)
+
+
+runwayml = Conversion(
+    original=Hub(
+        repo_id="stable-diffusion-v1-5/stable-diffusion-v1-5",
+        filename="text_encoder/model.safetensors",
+        revision="f03de327dd89b501a01da37fc5240cf4fdba85a1",
+        expected_sha256="d008943c017f0092921106440254dbbe00b6a285f7883ec8ba160c3faad88334",
+    ),
+    converted=Hub(
+        repo_id="refiners/sd15.text_encoder",
+        filename="model.safetensors",
+        expected_sha256="88a171b02f5bad8e61723f9c065ddb00351970a6e3f7f5a2a46970700e90f69d",
+    ),
+    recipe=diffusers_recipe,
+    dtype=torch.float16,
+)
+juggernaut_reborn = Conversion(
+    original=Hub(
+        repo_id="civitai/KandooAi/juggernaut",
+        filename="reborn/onefile_fp16.safetensors",
+        download_url="https://civitai.com/api/download/models/274039?type=Model&format=SafeTensor&size=pruned&fp=fp16",
+        expected_sha256="338b85bc4f7628bc42cce336242e79154a57c2a4360531436e97f7793568f18c",
+    ),
+    converted=Hub(
+        repo_id="refiners/sd15.juggernaut.reborn.text_encoder",
+        filename="model.safetensors",
+        expected_sha256="c649e079cbef5ccd79ef643acac29363d153d5a5f719e9c2e1893c96ec8b2357",
+    ),
+    recipe=civitai_recipe,
+    dtype=torch.float16,
+)
+juggernaut_aftermath = Conversion(
+    original=Hub(
+        repo_id="civitai/KandooAi/juggernaut",
+        filename="aftermath/onefile_fp32.safetensors",
+        download_url="https://civitai.com/api/download/models/127207?type=Model&format=SafeTensor&size=full&fp=fp32",
+        expected_sha256="7ed60a2f5842de8e6755965ffbf2a0ee273429939f307233c22f7dffd8d7ae3d",
+    ),
+    converted=Hub(
+        repo_id="refiners/sd15.juggernaut.aftermath.text_encoder",
+        filename="model.safetensors",
+        expected_sha256="2448c3148ae1c9658c18b136e5d6eebcc3c512dd3e1df71d3cb9bb1c83c19db1",
+    ),
+    recipe=civitai_recipe,
+    dtype=torch.float32,
+)
+realistic_stock_photo_v3 = Conversion(
+    original=Hub(
+        repo_id="Yntec/realisticStockPhoto3",
+        filename="realisticStockPhoto_v30SD15.safetensors",
+        expected_sha256="f85affae9aae16276eaf670f810946e2d03c4d300791a0380f07653cb78ba31b",
+        # download_url="https://civitai.com/api/download/models/524032?type=Model&format=SafeTensor&size=full&fp=fp16",
+    ),
+    converted=Hub(
+        repo_id="refiners/sd15.realistic_stock_photo.v3_0.text_encoder",
+        filename="model.safetensors",
+        expected_sha256="6d37d5b8ea7f7628cdaada6ce61bbba3914143d8f88d5b722c120ffdcb408512",
+    ),
+    recipe=civitai_recipe,
+    dtype=torch.float16,
+)
+realistic_vision_v5 = Conversion(
+    original=Hub(
+        repo_id="civitai/SG_161222/realistic_vision",
+        filename="v5/onefile_fp32.safetensors",
+        download_url="https://civitai.com/api/download/models/130072?type=Model&format=SafeTensor&size=full&fp=fp16",
+        expected_sha256="ef76aa2332635f4352463343beec9c5aae3bd107a73c0fd7221abbbcf8bd5470",
+    ),
+    converted=Hub(
+        repo_id="refiners/sd15.realistic_vision.v5_1.text_encoder",
+        filename="model.safetensors",
+        expected_sha256="b34349a39f1ad882885cc5da917aeaa92935c1b80eefbce03a6c46959ed97b10",
+    ),
+    recipe=civitai_recipe,
+    dtype=torch.float16,
+)
--- a/src/refiners/conversion/models/clip_text_sdxl.py
+++ b/src/refiners/conversion/models/clip_text_sdxl.py
@ -0,0 +1,157 @@
+import logging
+from typing import NamedTuple, cast
+
+import requests
+import torch
+from torch import nn
+from transformers import CLIPTextModel, CLIPTextModelWithProjection  # pyright: ignore[reportMissingTypeStubs]
+
+import refiners.fluxion.layers as fl
+from refiners.conversion.model_converter import ModelConverter
+from refiners.conversion.utils import Conversion, Hub
+from refiners.fluxion.utils import save_to_safetensors
+from refiners.foundationals.clip.text_encoder import CLIPTextEncoder, CLIPTextEncoderG, CLIPTextEncoderL
+from refiners.foundationals.clip.tokenizer import CLIPTokenizer
+from refiners.foundationals.latent_diffusion.stable_diffusion_xl.text_encoder import DoubleTextEncoder
+
+
+class CLIPTextEncoderConfig(NamedTuple):
+    architectures: list[str]
+    vocab_size: int
+    hidden_size: int
+    intermediate_size: int
+    num_hidden_layers: int
+    num_attention_heads: int
+    hidden_act: str
+    layer_norm_eps: float
+    projection_dim: int
+
+
+class ModelConverterHubDuo(Conversion):
+    def __init__(
+        self,
+        original_repo_id: str,
+        converted: Hub,
+        dtype: torch.dtype,
+    ) -> None:
+        self.original = Hub(repo_id=original_repo_id, filename="", expected_sha256="")
+        self.converted = converted
+        self.dtype = dtype
+
+    @staticmethod
+    def setup_converter(source_path: str, subfolder: str, with_projection: bool) -> ModelConverter:
+        # instantiate the transformers clip model
+        cls = CLIPTextModelWithProjection if with_projection else CLIPTextModel
+        source: nn.Module = cls.from_pretrained(  # pyright: ignore[reportUnknownMemberType]
+            pretrained_model_name_or_path=source_path,
+            subfolder=subfolder,
+            low_cpu_mem_usage=False,
+        )
+        assert isinstance(source, nn.Module), "Source model is not a nn.Module"
+
+        # get the model config from the transformers clip model
+        config = cast(CLIPTextEncoderConfig, source.config)  # pyright: ignore[reportArgumentType, reportUnknownMemberType]
+
+        # instantiate the refiners clip model
+        target = CLIPTextEncoder(
+            embedding_dim=config.hidden_size,
+            num_layers=config.num_hidden_layers,
+            num_attention_heads=config.num_attention_heads,
+            feedforward_dim=config.intermediate_size,
+            use_quick_gelu=config.hidden_act == "quick_gelu",
+        )
+        if with_projection:
+            target.append(
+                module=fl.Linear(
+                    in_features=config.hidden_size,
+                    out_features=config.projection_dim,
+                    bias=False,
+                )
+            )
+
+        # initialize the inputs
+        text = "What a nice cat you have there!"
+        tokenizer = target.ensure_find(CLIPTokenizer)
+        tokens = tokenizer(text)
+
+        # run the converter
+        converter = ModelConverter(
+            source_model=source,
+            target_model=target,
+            skip_output_check=True,
+            verbose=False,
+        )
+        if not converter.run(source_args=(tokens,), target_args=(text,)):
+            raise RuntimeError("Model conversion failed")
+
+        return converter
+
+    def convert(self) -> None:
+        logging.info(f"Converting {self.original.repo_id} to {self.converted.repo_id}")
+
+        # initialize the model converters, find the mappings
+        converter1 = self.setup_converter(
+            source_path=self.original.repo_id,
+            subfolder="text_encoder",
+            with_projection=False,
+        )
+        converter2 = self.setup_converter(
+            source_path=self.original.repo_id,
+            subfolder="text_encoder_2",
+            with_projection=True,
+        )
+
+        # load the CLIPTextEncoderL model
+        text_encoder_l = CLIPTextEncoderL()
+        text_encoder_l.load_state_dict(state_dict=converter1.get_state_dict())
+
+        # load the CLIPTextEncoderG (with projection) model
+        projection = cast(CLIPTextEncoder, converter2.target_model)[-1]
+        assert isinstance(projection, fl.Linear)
+        text_encoder_g_with_projection = CLIPTextEncoderG()
+        text_encoder_g_with_projection.append(module=projection)
+        text_encoder_g_with_projection.load_state_dict(state_dict=converter2.get_state_dict())
+
+        # build DoubleTextEncoder from previous two models
+        projection = text_encoder_g_with_projection.pop(index=-1)
+        assert isinstance(projection, fl.Linear)
+        double_text_encoder = DoubleTextEncoder(
+            text_encoder_l=text_encoder_l,
+            text_encoder_g=text_encoder_g_with_projection,
+            projection=projection,
+        )
+
+        # extract the state_dict from the DoubleTextEncoder model
+        state_dict = double_text_encoder.state_dict()
+        state_dict = self.change_dtype(state_dict, self.dtype)
+
+        # save the converted state_dict
+        self.converted.local_path.parent.mkdir(parents=True, exist_ok=True)
+        save_to_safetensors(self.converted.local_path, state_dict)
+
+        # check the converted state_dict
+        assert self.converted.check_local_hash()
+        try:
+            assert self.converted.check_remote_hash()
+        except requests.exceptions.HTTPError:
+            logging.warning(f"{self.converted.local_path} couldn't verify remote hash")
+
+
+stability = ModelConverterHubDuo(
+    original_repo_id="stabilityai/stable-diffusion-xl-base-1.0",
+    converted=Hub(
+        repo_id="refiners/sdxl.text_encoder",
+        filename="model.safetensors",
+        expected_sha256="238685accd000683e937085fb3a9c147675f5a1d7775a6810696131e93ddb147",
+    ),
+    dtype=torch.float16,
+)
+juggernautXL_v10 = ModelConverterHubDuo(
+    original_repo_id="RunDiffusion/Juggernaut-X-v10",  # TODO(laurent): use file from civitai instead
+    converted=Hub(
+        repo_id="refiners/sdxl.juggernaut.v10.text_encoder",
+        filename="model.safetensors",
+        expected_sha256="50dde9c171e31d1c9dcd0539ba052e4fe69d90f126c812b0145da40a0a2c4361",
+    ),
+    dtype=torch.float16,
+)
--- a/src/refiners/conversion/models/controllora_sdxl.py
+++ b/src/refiners/conversion/models/controllora_sdxl.py
@ -0,0 +1,345 @@
+import logging
+
+import requests
+import torch
+from huggingface_hub import hf_hub_download  # type: ignore
+from torch import Tensor
+from torch.nn import Parameter as TorchParameter
+
+from refiners.conversion.utils import Conversion, Hub
+from refiners.fluxion.adapters.lora import Lora, LoraAdapter, auto_attach_loras
+from refiners.fluxion.layers import Conv2d
+from refiners.fluxion.layers.linear import Linear
+from refiners.fluxion.utils import load_from_safetensors, save_to_safetensors
+from refiners.foundationals.latent_diffusion.lora import SDLoraManager
+from refiners.foundationals.latent_diffusion.stable_diffusion_xl.control_lora import (
+    ConditionEncoder,
+    ControlLora,
+    ControlLoraAdapter,
+    ZeroConvolution,
+)
+from refiners.foundationals.latent_diffusion.stable_diffusion_xl.model import StableDiffusion_XL
+
+
+def sort_keys(key: str, /) -> tuple[str, int]:
+    """Compute the score of a key, relatively to its suffix.
+
+    When used by [`sorted`][sorted], the keys will only be sorted "at the suffix level".
+
+    Args:
+        key: The key to sort.
+
+    Returns:
+        The padded suffix of the key.
+        The score of the key's suffix.
+    """
+    if "time_embed" in key:  # HACK: will place the "time_embed" layers at very start of the list
+        return ("", -2)
+
+    if "label_emb" in key:  # HACK: will place the "label_emb" layers right after "time_embed"
+        return ("", -1)
+
+    if "proj_out" in key:  # HACK: will place the "proj_out" layers at the end of each "transformer_blocks"
+        return (key.removesuffix("proj_out") + "transformer_blocks.99.ff.net.2", 10)
+
+    return SDLoraManager.sort_keys(key)
+
+
+def load_lora_layers(
+    name: str,
+    state_dict: dict[str, Tensor],
+    control_lora: ControlLora,
+) -> dict[str, Lora[Linear | Conv2d]]:
+    """Load the LoRA layers from the state_dict into the ControlLora.
+
+    Args:
+        name: The name of the LoRA.
+        state_dict: The state_dict of the LoRA.
+        control_lora: The ControlLora to load the LoRA layers into.
+    """
+    # filter from the state_dict the layers that will be used for the LoRA layers
+    lora_weights = {f"{key}.weight": value for key, value in state_dict.items() if ".up" in key or ".down" in key}
+
+    # move the tensors to the device and dtype of the ControlLora
+    lora_weights = {
+        key: value.to(
+            dtype=control_lora.dtype,
+            device=control_lora.device,
+        )
+        for key, value in lora_weights.items()
+    }
+
+    # load every LoRA layers from the filtered state_dict
+    lora_layers = Lora.from_dict(name, state_dict=lora_weights)
+
+    # sort all the LoRA's keys using the `sort_keys` method
+    lora_layers = {
+        key: lora_layers[key]
+        for key in sorted(
+            lora_layers.keys(),
+            key=sort_keys,
+        )
+    }
+
+    # auto-attach the LoRA layers to the U-Net
+    auto_attach_loras(lora_layers, control_lora, exclude=["ZeroConvolution", "ConditionEncoder"])
+
+    # eject all the LoRA adapters from the U-Net
+    # because we need each target path as if the adapter wasn't injected
+    for lora_layer in lora_layers.values():
+        lora_adapter = lora_layer.parent
+        assert isinstance(lora_adapter, LoraAdapter)
+        lora_adapter.eject()
+
+    return lora_layers
+
+
+def load_condition_encoder(
+    state_dict: dict[str, Tensor],
+    control_lora: ControlLora,
+) -> None:
+    """Load the ConditionEncoder's Conv2d layers from the state_dict into the ControlLora.
+
+    Args:
+        state_dict: The state_dict of the ConditionEncoder.
+        control_lora: The control_lora to load the ConditionEncoder's Conv2d layers into.
+    """
+    # filter from the state_dict the layers that will be used for the ConditionEncoder
+    condition_encoder_tensors = {key: value for key, value in state_dict.items() if "input_hint_block" in key}
+
+    # move the tensors to the device and dtype of the ControlLora
+    condition_encoder_tensors = {
+        key: value.to(
+            dtype=control_lora.dtype,
+            device=control_lora.device,
+        )
+        for key, value in condition_encoder_tensors.items()
+    }
+
+    # find the ConditionEncoder's Conv2d layers
+    condition_encoder_layer = control_lora.ensure_find(ConditionEncoder)
+    condition_encoder_conv2ds = list(condition_encoder_layer.layers(Conv2d))
+
+    # replace the Conv2d layers' weights and biases with the ones from the state_dict
+    for i, layer in enumerate(condition_encoder_conv2ds):
+        layer.weight = TorchParameter(condition_encoder_tensors[f"input_hint_block.{i*2}.weight"])
+        layer.bias = TorchParameter(condition_encoder_tensors[f"input_hint_block.{i*2}.bias"])
+
+
+def load_zero_convolutions(
+    state_dict: dict[str, Tensor],
+    control_lora: ControlLora,
+) -> None:
+    """Load the ZeroConvolution's Conv2d layers from the state_dict into the ControlLora.
+
+    Args:
+        state_dict: The state_dict of the ZeroConvolution.
+        control_lora: The ControlLora to load the ZeroConvolution's Conv2d layers into.
+    """
+    # filter from the state_dict the layers that will be used for the ZeroConvolution layers
+    zero_convolution_tensors = {key: value for key, value in state_dict.items() if "zero_convs" in key}
+    n = len(zero_convolution_tensors) // 2
+    zero_convolution_tensors[f"zero_convs.{n}.0.weight"] = state_dict["middle_block_out.0.weight"]
+    zero_convolution_tensors[f"zero_convs.{n}.0.bias"] = state_dict["middle_block_out.0.bias"]
+
+    # move the tensors to the device and dtype of the ControlLora
+    zero_convolution_tensors = {
+        key: value.to(
+            dtype=control_lora.dtype,
+            device=control_lora.device,
+        )
+        for key, value in zero_convolution_tensors.items()
+    }
+
+    # find the ZeroConvolution's Conv2d layers
+    zero_convolution_layers = list(control_lora.layers(ZeroConvolution))
+    zero_convolution_conv2ds = [layer.ensure_find(Conv2d) for layer in zero_convolution_layers]
+
+    # replace the Conv2d layers' weights and biases with the ones from the state_dict
+    for i, layer in enumerate(zero_convolution_conv2ds):
+        layer.weight = TorchParameter(zero_convolution_tensors[f"zero_convs.{i}.0.weight"])
+        layer.bias = TorchParameter(zero_convolution_tensors[f"zero_convs.{i}.0.bias"])
+
+
+def simplify_key(key: str, prefix: str, index: int | None = None) -> str:
+    """Simplify a key by stripping everything to the left of the prefix.
+
+    Also optionally add a zero-padded index to the prefix.
+
+    Example:
+        >>> simplify_key("foo.bar.ControlLora.something", "ControlLora", 1)
+        "ControlLora_01.something"
+
+        >>> simplify_key("foo.bar.ControlLora.DownBlocks.something", "ControlLora")
+        "ControlLora.DownBlocks.something"
+
+    Args:
+        key: The key to simplify.
+        prefix: The prefix to remove.
+        index: The index to add.
+    """
+    _, right = key.split(prefix, maxsplit=1)
+    if index:
+        return f"{prefix}_{index:02d}{right}"
+    else:
+        return f"{prefix}{right}"
+
+
+def convert_lora_layers(
+    lora_layers: dict[str, Lora[Linear | Conv2d]],
+    control_lora: ControlLora,
+    refiners_state_dict: dict[str, Tensor],
+) -> None:
+    """Convert the LoRA layers to the refiners format.
+
+    Args:
+        lora_layers: The LoRA layers to convert.
+        control_lora: The ControlLora to convert the LoRA layers from.
+        refiners_state_dict: The refiners state dict to update with the converted LoRA layers.
+    """
+    for lora_layer in lora_layers.values():
+        # get the adapter associated with the LoRA layer
+        lora_adapter = lora_layer.parent
+        assert isinstance(lora_adapter, LoraAdapter)
+
+        # get the path of the adapter's target in the ControlLora
+        target = lora_adapter.target
+        path = target.get_path(parent=control_lora.ensure_find_parent(target))
+
+        state_dict = {
+            f"{path}.down": lora_layer.down.weight,
+            f"{path}.up": lora_layer.up.weight,
+        }
+        state_dict = {simplify_key(key, "ControlLora."): param for key, param in state_dict.items()}
+        refiners_state_dict.update(state_dict)
+
+
+def convert_zero_convolutions(
+    control_lora: ControlLora,
+    refiners_state_dict: dict[str, Tensor],
+) -> None:
+    """Convert the ZeroConvolution layers to the refiners format.
+
+    Args:
+        control_lora: The ControlLora to convert the ZeroConvolution layers from.
+        refiners_state_dict: The refiners state dict to update with the converted ZeroConvolution layers.
+    """
+    zero_convolution_layers = list(control_lora.layers(ZeroConvolution))
+    for i, zero_convolution_layer in enumerate(zero_convolution_layers):
+        state_dict = zero_convolution_layer.state_dict()
+        path = zero_convolution_layer.get_path()
+        state_dict = {f"{path}.{key}": param for key, param in state_dict.items()}
+        state_dict = {simplify_key(key, "ZeroConvolution", i + 1): param for key, param in state_dict.items()}
+        refiners_state_dict.update(state_dict)
+
+
+def convert_condition_encoder(
+    control_lora: ControlLora,
+    refiners_state_dict: dict[str, Tensor],
+) -> None:
+    """Convert the ConditionEncoder to the refiners format.
+
+    Args:
+        control_lora: The ControlLora to convert the ConditionEncoder from.
+        refiners_state_dict: The refiners state dict to update with the converted ConditionEncoder.
+    """
+    condition_encoder_layer = control_lora.ensure_find(ConditionEncoder)
+    path = condition_encoder_layer.get_path()
+    state_dict = condition_encoder_layer.state_dict()
+    state_dict = {f"{path}.{key}": param for key, param in state_dict.items()}
+    state_dict = {simplify_key(key, "ConditionEncoder"): param for key, param in state_dict.items()}
+    refiners_state_dict.update(state_dict)
+
+
+class ControlLoraConversion(Conversion):
+    def __init__(
+        self,
+        original: Hub,
+        converted: Hub,
+        dtype: torch.dtype = torch.float32,
+    ) -> None:
+        """Initialize the weight structure.
+
+        Args:
+            original_weight_hub: A HubPath object representing the original weight.
+            converted_weight_hub: A HubPath object representing the converted weight.
+        """
+        self.original = original
+        self.converted = converted
+        self.dtype = dtype
+
+    def convert(self) -> None:
+        """Convert the weights from the original to the converted weights."""
+        logging.info(
+            f"Converting {self.original.repo_id}/{self.original.filename} to {self.converted.repo_id}/{self.converted.filename}"
+        )
+
+        # check if the converted file already exists
+        if self.converted.local_path.is_file():
+            logging.warning(f"{self.converted.local_path} already exists")
+            if self.converted.check_local_hash():
+                try:
+                    assert self.converted.check_remote_hash()
+                except requests.exceptions.HTTPError:
+                    logging.error(f"{self.converted.local_path} couldn't verify remote hash")
+                return
+
+        # get the original state_dict
+        self.original.download()
+
+        # load the original state_dict
+        original_state_dict = load_from_safetensors(self.original.local_path)
+
+        # convert the state_dict
+        sdxl = StableDiffusion_XL()
+        name = self.original.local_path.stem
+        control_lora_adapter = ControlLoraAdapter(target=sdxl.unet, name=name).inject()
+        control_lora = control_lora_adapter.control_lora
+        lora_layers = load_lora_layers(name, original_state_dict, control_lora)
+        load_zero_convolutions(original_state_dict, control_lora)
+        load_condition_encoder(original_state_dict, control_lora)
+
+        converted_state_dict: dict[str, Tensor] = {}
+        convert_lora_layers(lora_layers, control_lora, converted_state_dict)
+        convert_zero_convolutions(control_lora, converted_state_dict)
+        convert_condition_encoder(control_lora, converted_state_dict)
+
+        # save the converted state_dict
+        self.converted.local_path.parent.mkdir(parents=True, exist_ok=True)
+        save_to_safetensors(self.converted.local_path, converted_state_dict)
+
+        # check the converted state_dict
+        assert self.converted.check_local_hash()
+        try:
+            assert self.converted.check_remote_hash()
+        except requests.exceptions.HTTPError:
+            logging.warning(f"{self.converted.local_path} couldn't verify remote hash")
+
+
+canny = ControlLoraConversion(
+    original=Hub(
+        repo_id="lllyasviel/misc",
+        filename="control-lora-canny-rank128.safetensors",
+        revision="71f7a66a7affe631c64af469fe647217d422cac0",
+        expected_sha256="56389dbb245ca44de91d662529bd4298abc55ce2318f60bc19454fb72ff68247",
+    ),
+    converted=Hub(
+        repo_id="refiners/sdxl.controllora.canny",
+        filename="model.safetensors",
+        expected_sha256="6edfa742e2b5191ce357fb559e236652b004feea490c4f1277b30abc9804321f",
+    ),
+)
+
+cpds = ControlLoraConversion(
+    original=Hub(
+        repo_id="lllyasviel/misc",
+        filename="fooocus_xl_cpds_128.safetensors",
+        revision="71f7a66a7affe631c64af469fe647217d422cac0",
+        expected_sha256="eec3fd8209a65b41341ea9f415de66909c97b30fb4d20965b3304e8e5251c2f1",
+    ),
+    converted=Hub(
+        repo_id="refiners/sdxl.controllora.cpds",
+        filename="model.safetensors",
+        expected_sha256="9a3b2a86f32e4747e98531b0af8b59a804391b538949a0dd85263722b6e64db0",
+    ),
+)
--- a/src/refiners/conversion/models/controlnet_sd15.py
+++ b/src/refiners/conversion/models/controlnet_sd15.py
@ -0,0 +1,290 @@
+import torch
+
+from refiners.conversion.utils import Conversion, Hub, WeightRecipe
+
+diffusers_recipe = WeightRecipe(
+    key_map={
+        "time_embedding.linear_1": "TimestepEncoder.RangeEncoder.Linear_1",
+        "time_embedding.linear_2": "TimestepEncoder.RangeEncoder.Linear_2",
+        "down_blocks.2.resnets.0.time_emb_proj": "DownBlocks.Chain_8.ResidualBlock.Chain.RangeAdapter2d.Chain.Linear",
+        "down_blocks.2.attentions.0.transformer_blocks.0.attn1.to_out.0": "DownBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Linear",
+        "down_blocks.2.attentions.0.transformer_blocks.0.attn2.to_out.0": "DownBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Linear",
+        "down_blocks.2.resnets.1.time_emb_proj": "DownBlocks.Chain_9.ResidualBlock.Chain.RangeAdapter2d.Chain.Linear",
+        "down_blocks.2.attentions.1.transformer_blocks.0.attn1.to_out.0": "DownBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Linear",
+        "down_blocks.2.attentions.1.transformer_blocks.0.attn2.to_out.0": "DownBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Linear",
+        "down_blocks.3.resnets.0.time_emb_proj": "DownBlocks.Chain_11.ResidualBlock.Chain.RangeAdapter2d.Chain.Linear",
+        "down_blocks.3.resnets.1.time_emb_proj": "DownBlocks.Chain_12.ResidualBlock.Chain.RangeAdapter2d.Chain.Linear",
+        "mid_block.resnets.0.time_emb_proj": "MiddleBlock.ResidualBlock_1.Chain.RangeAdapter2d.Chain.Linear",
+        "mid_block.attentions.0.transformer_blocks.0.attn1.to_out.0": "MiddleBlock.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Linear",
+        "mid_block.attentions.0.transformer_blocks.0.attn2.to_out.0": "MiddleBlock.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Linear",
+        "mid_block.resnets.1.time_emb_proj": "MiddleBlock.ResidualBlock_2.Chain.RangeAdapter2d.Chain.Linear",
+        "conv_in": "DownBlocks.Chain_1.Conv2d",
+        "controlnet_cond_embedding.conv_in": "DownBlocks.Chain_1.Residual.ConditionEncoder.Chain_1.Conv2d",
+        "controlnet_cond_embedding.blocks.0": "DownBlocks.Chain_1.Residual.ConditionEncoder.Chain_2.Conv2d_1",
+        "controlnet_cond_embedding.blocks.1": "DownBlocks.Chain_1.Residual.ConditionEncoder.Chain_2.Conv2d_2",
+        "controlnet_cond_embedding.blocks.2": "DownBlocks.Chain_1.Residual.ConditionEncoder.Chain_3.Conv2d_1",
+        "controlnet_cond_embedding.blocks.3": "DownBlocks.Chain_1.Residual.ConditionEncoder.Chain_3.Conv2d_2",
+        "controlnet_cond_embedding.blocks.4": "DownBlocks.Chain_1.Residual.ConditionEncoder.Chain_4.Conv2d_1",
+        "controlnet_cond_embedding.blocks.5": "DownBlocks.Chain_1.Residual.ConditionEncoder.Chain_4.Conv2d_2",
+        "controlnet_cond_embedding.conv_out": "DownBlocks.Chain_1.Residual.ConditionEncoder.Conv2d",
+        "down_blocks.0.resnets.0.norm1": "DownBlocks.Chain_2.ResidualBlock.Chain.GroupNorm_1",
+        "down_blocks.0.resnets.0.norm2": "DownBlocks.Chain_2.ResidualBlock.Chain.GroupNorm_2",
+        "down_blocks.0.attentions.0.norm": "DownBlocks.Chain_2.CLIPLCrossAttention.Chain_1.GroupNorm",
+        "down_blocks.0.resnets.1.norm1": "DownBlocks.Chain_3.ResidualBlock.Chain.GroupNorm_1",
+        "down_blocks.0.resnets.1.norm2": "DownBlocks.Chain_3.ResidualBlock.Chain.GroupNorm_2",
+        "down_blocks.0.attentions.1.norm": "DownBlocks.Chain_3.CLIPLCrossAttention.Chain_1.GroupNorm",
+        "down_blocks.1.resnets.0.norm1": "DownBlocks.Chain_5.ResidualBlock.Chain.GroupNorm_1",
+        "down_blocks.0.resnets.0.conv1": "DownBlocks.Chain_2.ResidualBlock.Chain.RangeAdapter2d.Conv2d",
+        "down_blocks.0.resnets.0.conv2": "DownBlocks.Chain_2.ResidualBlock.Chain.Conv2d",
+        "down_blocks.0.resnets.1.conv1": "DownBlocks.Chain_3.ResidualBlock.Chain.RangeAdapter2d.Conv2d",
+        "down_blocks.0.resnets.1.conv2": "DownBlocks.Chain_3.ResidualBlock.Chain.Conv2d",
+        "down_blocks.0.downsamplers.0.conv": "DownBlocks.Chain_4.Downsample.Conv2d",
+        "down_blocks.0.resnets.0.time_emb_proj": "DownBlocks.Chain_2.ResidualBlock.Chain.RangeAdapter2d.Chain.Linear",
+        "down_blocks.0.attentions.0.transformer_blocks.0.ff.net.2": "DownBlocks.Chain_2.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_2",
+        "down_blocks.0.resnets.1.time_emb_proj": "DownBlocks.Chain_3.ResidualBlock.Chain.RangeAdapter2d.Chain.Linear",
+        "down_blocks.0.attentions.1.transformer_blocks.0.ff.net.2": "DownBlocks.Chain_3.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_2",
+        "controlnet_down_blocks.0": "DownBlocks.Chain_1.Passthrough.Conv2d",
+        "down_blocks.0.attentions.0.proj_in": "DownBlocks.Chain_2.CLIPLCrossAttention.Chain_1.Conv2d",
+        "down_blocks.0.attentions.0.proj_out": "DownBlocks.Chain_2.CLIPLCrossAttention.Chain_3.Conv2d",
+        "controlnet_down_blocks.1": "DownBlocks.Chain_2.Passthrough.Conv2d",
+        "down_blocks.0.attentions.1.proj_in": "DownBlocks.Chain_3.CLIPLCrossAttention.Chain_1.Conv2d",
+        "down_blocks.0.attentions.1.proj_out": "DownBlocks.Chain_3.CLIPLCrossAttention.Chain_3.Conv2d",
+        "controlnet_down_blocks.2": "DownBlocks.Chain_3.Passthrough.Conv2d",
+        "controlnet_down_blocks.3": "DownBlocks.Chain_4.Passthrough.Conv2d",
+        "down_blocks.0.attentions.0.transformer_blocks.0.norm1": "DownBlocks.Chain_2.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.LayerNorm",
+        "down_blocks.0.attentions.0.transformer_blocks.0.norm2": "DownBlocks.Chain_2.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.LayerNorm",
+        "down_blocks.0.attentions.0.transformer_blocks.0.norm3": "DownBlocks.Chain_2.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.LayerNorm",
+        "down_blocks.0.attentions.1.transformer_blocks.0.norm1": "DownBlocks.Chain_3.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.LayerNorm",
+        "down_blocks.0.attentions.1.transformer_blocks.0.norm2": "DownBlocks.Chain_3.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.LayerNorm",
+        "down_blocks.0.attentions.1.transformer_blocks.0.norm3": "DownBlocks.Chain_3.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.LayerNorm",
+        "down_blocks.0.attentions.0.transformer_blocks.0.attn1.to_q": "DownBlocks.Chain_2.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_1",
+        "down_blocks.0.attentions.0.transformer_blocks.0.attn1.to_k": "DownBlocks.Chain_2.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_2",
+        "down_blocks.0.attentions.0.transformer_blocks.0.attn1.to_v": "DownBlocks.Chain_2.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_3",
+        "down_blocks.0.attentions.0.transformer_blocks.0.attn2.to_q": "DownBlocks.Chain_2.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_1",
+        "down_blocks.0.attentions.1.transformer_blocks.0.attn1.to_q": "DownBlocks.Chain_3.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_1",
+        "down_blocks.0.attentions.1.transformer_blocks.0.attn1.to_k": "DownBlocks.Chain_3.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_2",
+        "down_blocks.0.attentions.1.transformer_blocks.0.attn1.to_v": "DownBlocks.Chain_3.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_3",
+        "down_blocks.0.attentions.1.transformer_blocks.0.attn2.to_q": "DownBlocks.Chain_3.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_1",
+        "down_blocks.0.attentions.0.transformer_blocks.0.attn1.to_out.0": "DownBlocks.Chain_2.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Linear",
+        "down_blocks.0.attentions.0.transformer_blocks.0.attn2.to_out.0": "DownBlocks.Chain_2.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Linear",
+        "down_blocks.0.attentions.1.transformer_blocks.0.attn1.to_out.0": "DownBlocks.Chain_3.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Linear",
+        "down_blocks.0.attentions.1.transformer_blocks.0.attn2.to_out.0": "DownBlocks.Chain_3.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Linear",
+        "down_blocks.0.attentions.0.transformer_blocks.0.attn2.to_k": "DownBlocks.Chain_2.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_2",
+        "down_blocks.0.attentions.0.transformer_blocks.0.attn2.to_v": "DownBlocks.Chain_2.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_3",
+        "down_blocks.0.attentions.1.transformer_blocks.0.attn2.to_k": "DownBlocks.Chain_3.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_2",
+        "down_blocks.0.attentions.1.transformer_blocks.0.attn2.to_v": "DownBlocks.Chain_3.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_3",
+        "down_blocks.0.attentions.0.transformer_blocks.0.ff.net.0.proj": "DownBlocks.Chain_2.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_1",
+        "down_blocks.0.attentions.1.transformer_blocks.0.ff.net.0.proj": "DownBlocks.Chain_3.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_1",
+        "down_blocks.1.resnets.0.conv1": "DownBlocks.Chain_5.ResidualBlock.Chain.RangeAdapter2d.Conv2d",
+        "down_blocks.1.resnets.0.time_emb_proj": "DownBlocks.Chain_5.ResidualBlock.Chain.RangeAdapter2d.Chain.Linear",
+        "down_blocks.1.resnets.1.time_emb_proj": "DownBlocks.Chain_6.ResidualBlock.Chain.RangeAdapter2d.Chain.Linear",
+        "down_blocks.1.resnets.0.norm2": "DownBlocks.Chain_5.ResidualBlock.Chain.GroupNorm_2",
+        "down_blocks.1.attentions.0.norm": "DownBlocks.Chain_5.CLIPLCrossAttention.Chain_1.GroupNorm",
+        "down_blocks.1.resnets.1.norm1": "DownBlocks.Chain_6.ResidualBlock.Chain.GroupNorm_1",
+        "down_blocks.1.resnets.1.norm2": "DownBlocks.Chain_6.ResidualBlock.Chain.GroupNorm_2",
+        "down_blocks.1.attentions.1.norm": "DownBlocks.Chain_6.CLIPLCrossAttention.Chain_1.GroupNorm",
+        "down_blocks.2.resnets.0.norm1": "DownBlocks.Chain_8.ResidualBlock.Chain.GroupNorm_1",
+        "down_blocks.1.resnets.0.conv2": "DownBlocks.Chain_5.ResidualBlock.Chain.Conv2d",
+        "down_blocks.1.resnets.1.conv1": "DownBlocks.Chain_6.ResidualBlock.Chain.RangeAdapter2d.Conv2d",
+        "down_blocks.1.resnets.1.conv2": "DownBlocks.Chain_6.ResidualBlock.Chain.Conv2d",
+        "down_blocks.1.downsamplers.0.conv": "DownBlocks.Chain_7.Downsample.Conv2d",
+        "down_blocks.1.resnets.0.conv_shortcut": "DownBlocks.Chain_5.ResidualBlock.Conv2d",
+        "down_blocks.1.attentions.0.proj_in": "DownBlocks.Chain_5.CLIPLCrossAttention.Chain_1.Conv2d",
+        "down_blocks.1.attentions.0.proj_out": "DownBlocks.Chain_5.CLIPLCrossAttention.Chain_3.Conv2d",
+        "controlnet_down_blocks.4": "DownBlocks.Chain_5.Passthrough.Conv2d",
+        "down_blocks.1.attentions.1.proj_in": "DownBlocks.Chain_6.CLIPLCrossAttention.Chain_1.Conv2d",
+        "down_blocks.1.attentions.1.proj_out": "DownBlocks.Chain_6.CLIPLCrossAttention.Chain_3.Conv2d",
+        "controlnet_down_blocks.5": "DownBlocks.Chain_6.Passthrough.Conv2d",
+        "controlnet_down_blocks.6": "DownBlocks.Chain_7.Passthrough.Conv2d",
+        "down_blocks.1.attentions.0.transformer_blocks.0.norm1": "DownBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.LayerNorm",
+        "down_blocks.1.attentions.0.transformer_blocks.0.norm2": "DownBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.LayerNorm",
+        "down_blocks.1.attentions.0.transformer_blocks.0.norm3": "DownBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.LayerNorm",
+        "down_blocks.1.attentions.1.transformer_blocks.0.norm1": "DownBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.LayerNorm",
+        "down_blocks.1.attentions.1.transformer_blocks.0.norm2": "DownBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.LayerNorm",
+        "down_blocks.1.attentions.1.transformer_blocks.0.norm3": "DownBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.LayerNorm",
+        "down_blocks.1.attentions.0.transformer_blocks.0.attn1.to_q": "DownBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_1",
+        "down_blocks.1.attentions.0.transformer_blocks.0.attn1.to_k": "DownBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_2",
+        "down_blocks.1.attentions.0.transformer_blocks.0.attn1.to_v": "DownBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_3",
+        "down_blocks.1.attentions.0.transformer_blocks.0.attn2.to_q": "DownBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_1",
+        "down_blocks.1.attentions.1.transformer_blocks.0.attn1.to_q": "DownBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_1",
+        "down_blocks.1.attentions.1.transformer_blocks.0.attn1.to_k": "DownBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_2",
+        "down_blocks.1.attentions.1.transformer_blocks.0.attn1.to_v": "DownBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_3",
+        "down_blocks.1.attentions.1.transformer_blocks.0.attn2.to_q": "DownBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_1",
+        "down_blocks.1.attentions.0.transformer_blocks.0.attn1.to_out.0": "DownBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Linear",
+        "down_blocks.1.attentions.0.transformer_blocks.0.attn2.to_out.0": "DownBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Linear",
+        "down_blocks.1.attentions.1.transformer_blocks.0.attn1.to_out.0": "DownBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Linear",
+        "down_blocks.1.attentions.1.transformer_blocks.0.attn2.to_out.0": "DownBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Linear",
+        "down_blocks.1.attentions.0.transformer_blocks.0.attn2.to_k": "DownBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_2",
+        "down_blocks.1.attentions.0.transformer_blocks.0.attn2.to_v": "DownBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_3",
+        "down_blocks.1.attentions.1.transformer_blocks.0.attn2.to_k": "DownBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_2",
+        "down_blocks.1.attentions.1.transformer_blocks.0.attn2.to_v": "DownBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_3",
+        "down_blocks.1.attentions.0.transformer_blocks.0.ff.net.0.proj": "DownBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_1",
+        "down_blocks.1.attentions.1.transformer_blocks.0.ff.net.0.proj": "DownBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_1",
+        "down_blocks.1.attentions.0.transformer_blocks.0.ff.net.2": "DownBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_2",
+        "down_blocks.1.attentions.1.transformer_blocks.0.ff.net.2": "DownBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_2",
+        "down_blocks.2.resnets.0.conv1": "DownBlocks.Chain_8.ResidualBlock.Chain.RangeAdapter2d.Conv2d",
+        "down_blocks.2.resnets.0.norm2": "DownBlocks.Chain_8.ResidualBlock.Chain.GroupNorm_2",
+        "down_blocks.2.attentions.0.norm": "DownBlocks.Chain_8.CLIPLCrossAttention.Chain_1.GroupNorm",
+        "down_blocks.2.resnets.1.norm1": "DownBlocks.Chain_9.ResidualBlock.Chain.GroupNorm_1",
+        "down_blocks.2.resnets.1.norm2": "DownBlocks.Chain_9.ResidualBlock.Chain.GroupNorm_2",
+        "down_blocks.2.attentions.1.norm": "DownBlocks.Chain_9.CLIPLCrossAttention.Chain_1.GroupNorm",
+        "down_blocks.3.resnets.0.norm1": "DownBlocks.Chain_11.ResidualBlock.Chain.GroupNorm_1",
+        "down_blocks.3.resnets.0.norm2": "DownBlocks.Chain_11.ResidualBlock.Chain.GroupNorm_2",
+        "down_blocks.3.resnets.1.norm1": "DownBlocks.Chain_12.ResidualBlock.Chain.GroupNorm_1",
+        "down_blocks.3.resnets.1.norm2": "DownBlocks.Chain_12.ResidualBlock.Chain.GroupNorm_2",
+        "mid_block.resnets.0.norm1": "MiddleBlock.ResidualBlock_1.Chain.GroupNorm_1",
+        "mid_block.resnets.0.norm2": "MiddleBlock.ResidualBlock_1.Chain.GroupNorm_2",
+        "mid_block.attentions.0.norm": "MiddleBlock.CLIPLCrossAttention.Chain_1.GroupNorm",
+        "mid_block.resnets.1.norm1": "MiddleBlock.ResidualBlock_2.Chain.GroupNorm_1",
+        "mid_block.resnets.1.norm2": "MiddleBlock.ResidualBlock_2.Chain.GroupNorm_2",
+        "down_blocks.2.resnets.0.conv2": "DownBlocks.Chain_8.ResidualBlock.Chain.Conv2d",
+        "down_blocks.2.resnets.1.conv1": "DownBlocks.Chain_9.ResidualBlock.Chain.RangeAdapter2d.Conv2d",
+        "down_blocks.2.resnets.1.conv2": "DownBlocks.Chain_9.ResidualBlock.Chain.Conv2d",
+        "down_blocks.2.downsamplers.0.conv": "DownBlocks.Chain_10.Downsample.Conv2d",
+        "down_blocks.3.resnets.0.conv1": "DownBlocks.Chain_11.ResidualBlock.Chain.RangeAdapter2d.Conv2d",
+        "down_blocks.3.resnets.0.conv2": "DownBlocks.Chain_11.ResidualBlock.Chain.Conv2d",
+        "down_blocks.3.resnets.1.conv1": "DownBlocks.Chain_12.ResidualBlock.Chain.RangeAdapter2d.Conv2d",
+        "down_blocks.3.resnets.1.conv2": "DownBlocks.Chain_12.ResidualBlock.Chain.Conv2d",
+        "mid_block.resnets.0.conv1": "MiddleBlock.ResidualBlock_1.Chain.RangeAdapter2d.Conv2d",
+        "mid_block.resnets.0.conv2": "MiddleBlock.ResidualBlock_1.Chain.Conv2d",
+        "mid_block.resnets.1.conv1": "MiddleBlock.ResidualBlock_2.Chain.RangeAdapter2d.Conv2d",
+        "mid_block.resnets.1.conv2": "MiddleBlock.ResidualBlock_2.Chain.Conv2d",
+        "down_blocks.2.resnets.0.conv_shortcut": "DownBlocks.Chain_8.ResidualBlock.Conv2d",
+        "down_blocks.2.attentions.0.proj_in": "DownBlocks.Chain_8.CLIPLCrossAttention.Chain_1.Conv2d",
+        "down_blocks.2.attentions.0.proj_out": "DownBlocks.Chain_8.CLIPLCrossAttention.Chain_3.Conv2d",
+        "controlnet_down_blocks.7": "DownBlocks.Chain_8.Passthrough.Conv2d",
+        "down_blocks.2.attentions.1.proj_in": "DownBlocks.Chain_9.CLIPLCrossAttention.Chain_1.Conv2d",
+        "down_blocks.2.attentions.1.proj_out": "DownBlocks.Chain_9.CLIPLCrossAttention.Chain_3.Conv2d",
+        "controlnet_down_blocks.8": "DownBlocks.Chain_9.Passthrough.Conv2d",
+        "controlnet_down_blocks.9": "DownBlocks.Chain_10.Passthrough.Conv2d",
+        "controlnet_down_blocks.10": "DownBlocks.Chain_11.Passthrough.Conv2d",
+        "controlnet_down_blocks.11": "DownBlocks.Chain_12.Passthrough.Conv2d",
+        "mid_block.attentions.0.proj_in": "MiddleBlock.CLIPLCrossAttention.Chain_1.Conv2d",
+        "mid_block.attentions.0.proj_out": "MiddleBlock.CLIPLCrossAttention.Chain_3.Conv2d",
+        "controlnet_mid_block": "MiddleBlock.Passthrough.Conv2d",
+        "down_blocks.2.attentions.0.transformer_blocks.0.norm1": "DownBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.LayerNorm",
+        "down_blocks.2.attentions.0.transformer_blocks.0.norm2": "DownBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.LayerNorm",
+        "down_blocks.2.attentions.0.transformer_blocks.0.norm3": "DownBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.LayerNorm",
+        "down_blocks.2.attentions.1.transformer_blocks.0.norm1": "DownBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.LayerNorm",
+        "down_blocks.2.attentions.1.transformer_blocks.0.norm2": "DownBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.LayerNorm",
+        "down_blocks.2.attentions.1.transformer_blocks.0.norm3": "DownBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.LayerNorm",
+        "mid_block.attentions.0.transformer_blocks.0.norm1": "MiddleBlock.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.LayerNorm",
+        "mid_block.attentions.0.transformer_blocks.0.norm2": "MiddleBlock.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.LayerNorm",
+        "mid_block.attentions.0.transformer_blocks.0.norm3": "MiddleBlock.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.LayerNorm",
+        "down_blocks.2.attentions.0.transformer_blocks.0.attn1.to_q": "DownBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_1",
+        "down_blocks.2.attentions.0.transformer_blocks.0.attn1.to_k": "DownBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_2",
+        "down_blocks.2.attentions.0.transformer_blocks.0.attn1.to_v": "DownBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_3",
+        "down_blocks.2.attentions.0.transformer_blocks.0.attn2.to_q": "DownBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_1",
+        "down_blocks.2.attentions.1.transformer_blocks.0.attn1.to_q": "DownBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_1",
+        "down_blocks.2.attentions.1.transformer_blocks.0.attn1.to_k": "DownBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_2",
+        "down_blocks.2.attentions.1.transformer_blocks.0.attn1.to_v": "DownBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_3",
+        "down_blocks.2.attentions.1.transformer_blocks.0.attn2.to_q": "DownBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_1",
+        "mid_block.attentions.0.transformer_blocks.0.attn1.to_q": "MiddleBlock.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_1",
+        "mid_block.attentions.0.transformer_blocks.0.attn1.to_k": "MiddleBlock.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_2",
+        "mid_block.attentions.0.transformer_blocks.0.attn1.to_v": "MiddleBlock.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_3",
+        "mid_block.attentions.0.transformer_blocks.0.attn2.to_q": "MiddleBlock.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_1",
+        "down_blocks.2.attentions.0.transformer_blocks.0.attn2.to_k": "DownBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_2",
+        "down_blocks.2.attentions.0.transformer_blocks.0.attn2.to_v": "DownBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_3",
+        "down_blocks.2.attentions.1.transformer_blocks.0.attn2.to_k": "DownBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_2",
+        "down_blocks.2.attentions.1.transformer_blocks.0.attn2.to_v": "DownBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_3",
+        "mid_block.attentions.0.transformer_blocks.0.attn2.to_k": "MiddleBlock.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_2",
+        "mid_block.attentions.0.transformer_blocks.0.attn2.to_v": "MiddleBlock.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_3",
+        "down_blocks.2.attentions.0.transformer_blocks.0.ff.net.0.proj": "DownBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_1",
+        "down_blocks.2.attentions.1.transformer_blocks.0.ff.net.0.proj": "DownBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_1",
+        "mid_block.attentions.0.transformer_blocks.0.ff.net.0.proj": "MiddleBlock.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_1",
+        "down_blocks.2.attentions.0.transformer_blocks.0.ff.net.2": "DownBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_2",
+        "down_blocks.2.attentions.1.transformer_blocks.0.ff.net.2": "DownBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_2",
+        "mid_block.attentions.0.transformer_blocks.0.ff.net.2": "MiddleBlock.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_2",
+    },
+)
+
+tile = Conversion(
+    original=Hub(
+        repo_id="lllyasviel/control_v11f1e_sd15_tile",
+        filename="diffusion_pytorch_model.bin",
+        revision="3f877705c37010b7221c3d10743307d6b5b6efac",
+        expected_sha256="eb05b4c3665bd76dad70a90652014a9b3aab391abd8a5bb484e860330f9492fb",
+    ),
+    converted=Hub(
+        repo_id="refiners/sd15.controlnet.tile",
+        filename="model.safetensors",
+        expected_sha256="3002029df75364fcbdbf6024dc4c414c929cb8623a2fe7d406a4dbfcee1ffa5a",
+    ),
+    recipe=diffusers_recipe,
+    dtype=torch.float16,
+)
+canny = Conversion(
+    original=Hub(
+        repo_id="lllyasviel/control_v11p_sd15_canny",
+        filename="diffusion_pytorch_model.safetensors",
+        revision="115a470d547982438f70198e353a921996e2e819",
+        expected_sha256="be713fb941fc7c625f0c7d816b6a19115783a665f3049a8974f127e0c075d9a9",
+    ),
+    converted=Hub(
+        repo_id="refiners/sd15.controlnet.canny",
+        filename="model.safetensors",
+        expected_sha256="0d6d0ba036dc26f4842e89f3c5f2f37feca904863e83b578db099a6fdafc4f51",
+    ),
+    recipe=diffusers_recipe,
+    dtype=torch.float16,
+)
+depth = Conversion(
+    original=Hub(
+        repo_id="lllyasviel/control_v11f1p_sd15_depth",
+        filename="diffusion_pytorch_model.safetensors",
+        revision="539f99181d33db39cf1af2e517cd8056785f0a87",
+        expected_sha256="999aca923ca5e19e70e6afc8d11073cc3c03553ca935b636bd5925df4a1c77d1",
+    ),
+    converted=Hub(
+        repo_id="refiners/sd15.controlnet.depth",
+        filename="model.safetensors",
+        expected_sha256="d131fb2e73e89e56ee1e73b6af17373bba886da6ae24dd94300a93e993292133",
+    ),
+    recipe=diffusers_recipe,
+    dtype=torch.float16,
+)
+normalbae = Conversion(
+    original=Hub(
+        repo_id="lllyasviel/control_v11p_sd15_normalbae",
+        filename="diffusion_pytorch_model.safetensors",
+        revision="cb7296e6587a219068e9d65864e38729cd862aa8",
+        expected_sha256="e6c3772b35e5cb1869beca97a6ade6e8e5283310462297b10d129e25351983d7",
+    ),
+    converted=Hub(
+        repo_id="refiners/sd15.controlnet.normalbae",
+        filename="model.safetensors",
+        expected_sha256="89ac08579cd244cf64bda2045d302d5455b33b951fada4abd089b5defbade364",
+    ),
+    recipe=diffusers_recipe,
+    dtype=torch.float16,
+)
+lineart = Conversion(
+    original=Hub(
+        repo_id="lllyasviel/control_v11p_sd15_lineart",
+        filename="diffusion_pytorch_model.safetensors",
+        revision="8a158f547e031c5b8fbca19ead09a74767ff4db0",
+        expected_sha256="d9d6d0e5526dd21dfc503f9e42a93ff1f977aa52df3c14e8ac11085b518cb114",
+    ),
+    converted=Hub(
+        repo_id="refiners/sd15.controlnet.lineart",
+        filename="model.safetensors",
+        expected_sha256="5fb9ce17b92032c1b7d54aa7fb3c00c067f08e9c024a43cde06999a5a18391cb",
+    ),
+    recipe=diffusers_recipe,
+    dtype=torch.float16,
+)
+sam = Conversion(
+    original=Hub(
+        repo_id="mfidabel/controlnet-segment-anything",
+        filename="diffusion_pytorch_model.bin",
+        revision="22bf4d81a4c7557287815a53e1f55279836e2bfa",
+        expected_sha256="9d4f35bb941e35ceeb54e4d6d35c9239949b193e5c7389426b95a97e43de884d",
+    ),
+    converted=Hub(
+        repo_id="refiners/sd15.controlnet.sam",
+        filename="model.safetensors",
+        expected_sha256="b8e0e1f2b1e542e5a21e21cdadf135981937b9ca491312b75aa85bff63b35589",
+    ),
+    recipe=diffusers_recipe,
+    dtype=torch.float16,
+)
--- a/src/refiners/conversion/models/dinov2.py
+++ b/src/refiners/conversion/models/dinov2.py
@ -0,0 +1,298 @@
+import logging
+
+import requests
+import torch
+
+from refiners.conversion.utils import Conversion, Hub
+from refiners.fluxion.utils import load_tensors, save_to_safetensors
+
+
+def convert_dinov2_facebook(weights: dict[str, torch.Tensor]) -> None:
+    """Convert a DINOv2 weights from facebook to refiners."""
+    # get depth from "blocks" keys
+    depth = max([int(k.split(".")[1]) for k in weights.keys() if k.startswith("blocks.")]) + 1
+
+    # only needed when pre-training
+    del weights["mask_token"]
+
+    # squeeze cls_token and position_embeddings
+    weights["cls_token"] = weights["cls_token"].squeeze(0)
+    weights["pos_embed"] = weights["pos_embed"].squeeze(0)
+
+    # rename "w12" to "fc1" and "w3" to "fc2", only for giant model
+    for key in list(weights.keys()):
+        if "w3" in key:
+            new_key = key.replace("w3", "fc2")
+            weights[new_key] = weights.pop(key)
+        elif "w12" in key:
+            # we swap w1 and w2 because of the difference between our GLU implementation and theirs
+            # see https://github.com/facebookresearch/dinov2/blob/e1277af2ba9496fbadf7aec6eba56e8d882d1e35/dinov2/layers/swiglu_ffn.py#L31-L34
+            # and https://github.com/finegrain-ai/refiners/blob/a2ee70578361e4d84a65a8708564480a9b0ec67e/src/refiners/fluxion/layers/activations.py#L158-L160
+            weight = weights.pop(key)
+            w1, w2 = weight.chunk(2, dim=0)
+            w21 = torch.cat([w2, w1], dim=0)
+            new_key = key.replace("w12", "fc1")
+            weights[new_key] = w21
+
+    rename_keys: list[tuple[str, str]] = [
+        ("cls_token", "Concatenate.ClassToken.Parameter.weight"),
+        ("pos_embed", "PositionalEncoder.PositionalEmbedding.Parameter.weight"),
+        ("patch_embed.proj.weight", "Concatenate.PatchEncoder.Conv2d.weight"),
+        ("patch_embed.proj.bias", "Concatenate.PatchEncoder.Conv2d.bias"),
+        ("norm.weight", "LayerNorm.weight"),
+        ("norm.bias", "LayerNorm.bias"),
+    ]
+    for i in range(depth):
+        rename_keys.append(
+            (
+                f"blocks.{i}.norm1.weight",
+                f"Transformer.TransformerLayer_{i+1}.Residual_1.LayerNorm.weight",
+            ),
+        )
+        rename_keys.append(
+            (
+                f"blocks.{i}.norm1.bias",
+                f"Transformer.TransformerLayer_{i+1}.Residual_1.LayerNorm.bias",
+            ),
+        )
+        rename_keys.append(
+            (
+                f"blocks.{i}.attn.proj.weight",
+                f"Transformer.TransformerLayer_{i+1}.Residual_1.SelfAttention.Linear.weight",
+            ),
+        )
+        rename_keys.append(
+            (
+                f"blocks.{i}.attn.proj.bias",
+                f"Transformer.TransformerLayer_{i+1}.Residual_1.SelfAttention.Linear.bias",
+            ),
+        )
+        rename_keys.append(
+            (
+                f"blocks.{i}.ls1.gamma",
+                f"Transformer.TransformerLayer_{i+1}.Residual_1.LayerScale.weight",
+            ),
+        )
+        rename_keys.append(
+            (
+                f"blocks.{i}.norm2.weight",
+                f"Transformer.TransformerLayer_{i+1}.Residual_2.LayerNorm.weight",
+            ),
+        )
+        rename_keys.append(
+            (
+                f"blocks.{i}.norm2.bias",
+                f"Transformer.TransformerLayer_{i+1}.Residual_2.LayerNorm.bias",
+            ),
+        )
+        rename_keys.append(
+            (
+                f"blocks.{i}.mlp.fc1.weight",
+                f"Transformer.TransformerLayer_{i+1}.Residual_2.FeedForward.Linear_1.weight",
+            ),
+        )
+        rename_keys.append(
+            (
+                f"blocks.{i}.mlp.fc1.bias",
+                f"Transformer.TransformerLayer_{i+1}.Residual_2.FeedForward.Linear_1.bias",
+            ),
+        )
+        rename_keys.append(
+            (
+                f"blocks.{i}.mlp.fc2.weight",
+                f"Transformer.TransformerLayer_{i+1}.Residual_2.FeedForward.Linear_2.weight",
+            ),
+        )
+        rename_keys.append(
+            (
+                f"blocks.{i}.mlp.fc2.bias",
+                f"Transformer.TransformerLayer_{i+1}.Residual_2.FeedForward.Linear_2.bias",
+            ),
+        )
+        rename_keys.append(
+            (
+                f"blocks.{i}.ls2.gamma",
+                f"Transformer.TransformerLayer_{i+1}.Residual_2.LayerScale.weight",
+            ),
+        )
+
+    if "register_tokens" in weights:
+        weights["register_tokens"] = weights["register_tokens"].squeeze(0)
+        rename_keys.append(("register_tokens", "Registers.Parameter.weight"))
+
+    # rename keys
+    for old_key, new_key in rename_keys:
+        weights[new_key] = weights.pop(old_key)
+
+    # split the qkv weights and biases
+    for i in range(depth):
+        qkv_weight = weights.pop(f"blocks.{i}.attn.qkv.weight")
+        q_weight, k_weight, v_weight = qkv_weight.chunk(3, dim=0)
+        weights[f"Transformer.TransformerLayer_{i+1}.Residual_1.SelfAttention.Distribute.Linear_1.weight"] = q_weight
+        weights[f"Transformer.TransformerLayer_{i+1}.Residual_1.SelfAttention.Distribute.Linear_2.weight"] = k_weight
+        weights[f"Transformer.TransformerLayer_{i+1}.Residual_1.SelfAttention.Distribute.Linear_3.weight"] = v_weight
+
+        qkv_bias = weights.pop(f"blocks.{i}.attn.qkv.bias")
+        q_bias, k_bias, v_bias = qkv_bias.chunk(3, dim=0)
+        weights[f"Transformer.TransformerLayer_{i+1}.Residual_1.SelfAttention.Distribute.Linear_1.bias"] = q_bias
+        weights[f"Transformer.TransformerLayer_{i+1}.Residual_1.SelfAttention.Distribute.Linear_2.bias"] = k_bias
+        weights[f"Transformer.TransformerLayer_{i+1}.Residual_1.SelfAttention.Distribute.Linear_3.bias"] = v_bias
+
+
+class DinoV2Conversion(Conversion):
+    def __init__(
+        self,
+        original: Hub,
+        converted: Hub,
+        dtype: torch.dtype = torch.float32,
+    ) -> None:
+        """Initialize the weight structure.
+
+        Args:
+            original_weight_hub: A HubPath object representing the original weight.
+            converted_weight_hub: A HubPath object representing the converted weight.
+        """
+        self.original = original
+        self.converted = converted
+        self.dtype = dtype
+
+    def convert(self) -> None:  # type: ignore
+        """Convert the weights from the original to the converted weights."""
+        logging.info(f"Converting {self.original.repo_id}/{self.original.filename} to {self.converted.repo_id}")
+
+        # check if the converted file already exists
+        if self.converted.local_path.is_file():
+            logging.warning(f"{self.converted.local_path} already exists")
+            if self.converted.check_local_hash():
+                try:
+                    assert self.converted.check_remote_hash()
+                except requests.exceptions.HTTPError:
+                    logging.error(f"{self.converted.local_path} couldn't verify remote hash")
+                return
+
+        # get the original state_dict
+        self.original.download()
+
+        # load the original state_dict
+        original_weights = load_tensors(self.original.local_path)
+
+        # convert the state_dict
+        convert_dinov2_facebook(original_weights)  # FIXME: this is inplace
+        original_weights = self.change_dtype(original_weights, self.dtype)
+
+        # save the converted state_dict
+        self.converted.local_path.parent.mkdir(parents=True, exist_ok=True)
+        save_to_safetensors(self.converted.local_path, original_weights)
+
+        # check the converted state_dict
+        assert self.converted.check_local_hash()
+        try:
+            assert self.converted.check_remote_hash()
+        except requests.exceptions.HTTPError:
+            logging.warning(f"{self.converted.local_path} couldn't verify remote hash")
+
+
+small = DinoV2Conversion(
+    original=Hub(
+        repo_id="facebook/github_dinov2",
+        filename="vits14.pth",
+        expected_sha256="b938bf1bc15cd2ec0feacfe3a1bb553fe8ea9ca46a7e1d8d00217f29aef60cd9",
+        download_url="https://dl.fbaipublicfiles.com/dinov2/dinov2_vits14/dinov2_vits14_pretrain.pth",
+    ),
+    converted=Hub(
+        repo_id="refiners/dinov2.small.patch_14",
+        filename="model.safetensors",
+        expected_sha256="56a4b77856e20bbb5c4f0ce135089d4cd72da344dcdb278ba0c1376c8545e543",
+    ),
+)
+small_reg = DinoV2Conversion(
+    original=Hub(
+        repo_id="facebook/github_dinov2",
+        filename="vits14_reg4.pth",
+        expected_sha256="f433177089a681826f849f194ece3bb48f4d63fb38d32fc837e3dc7a4e5641fb",
+        download_url="https://dl.fbaipublicfiles.com/dinov2/dinov2_vits14/dinov2_vits14_reg4_pretrain.pth",
+    ),
+    converted=Hub(
+        repo_id="refiners/dinov2.small.patch_14.reg_4",
+        filename="model.safetensors",
+        expected_sha256="beee454507762018616635099c0ac30c7a6e4e08fbd9363c5e5d2a8f1935c3f2",
+    ),
+)
+base = DinoV2Conversion(
+    original=Hub(
+        repo_id="facebook/github_dinov2",
+        filename="vitb14.pth",
+        expected_sha256="0b8b82f85de91b424aded121c7e1dcc2b7bc6d0adeea651bf73a13307fad8c73",
+        download_url="https://dl.fbaipublicfiles.com/dinov2/dinov2_vitb14/dinov2_vitb14_pretrain.pth",
+    ),
+    converted=Hub(
+        repo_id="refiners/dinov2.base.patch_14",
+        filename="model.safetensors",
+        expected_sha256="59b778ed980bc02843456d3fbe1893943922ac7759a9a706ca286dd45d10db1f",
+    ),
+)
+base_reg = DinoV2Conversion(
+    original=Hub(
+        repo_id="facebook/github_dinov2",
+        filename="vitb14_reg4.pth",
+        expected_sha256="73182a088cf94833c94b1666d1c99e02fe87e2007bff57b564fb6206e25dba71",
+        download_url="https://dl.fbaipublicfiles.com/dinov2/dinov2_vitb14/dinov2_vitb14_reg4_pretrain.pth",
+    ),
+    converted=Hub(
+        repo_id="refiners/dinov2.base.patch_14.reg_4",
+        filename="model.safetensors",
+        expected_sha256="7f91aa7cd5aa51d665949ba328a938967164b363ebaacb8cae914143a7e004e7",
+    ),
+)
+large = DinoV2Conversion(
+    original=Hub(
+        repo_id="facebook/github_dinov2",
+        filename="vitl14.pth",
+        expected_sha256="d5383ea8f4877b2472eb973e0fd72d557c7da5d3611bd527ceeb1d7162cbf428",
+        download_url="https://dl.fbaipublicfiles.com/dinov2/dinov2_vitl14/dinov2_vitl14_pretrain.pth",
+    ),
+    converted=Hub(
+        repo_id="refiners/dinov2.large.patch_14",
+        filename="model.safetensors",
+        expected_sha256="2ba79218d37482455db0d9967dfad024c3ad525499f8de0e3db5ff83faf80414",
+    ),
+)
+large_reg = DinoV2Conversion(
+    original=Hub(
+        repo_id="facebook/github_dinov2",
+        filename="vitl14_reg4.pth",
+        expected_sha256="36e4deffbaef061a2576705b0c36f93621e2ae20bf6274694821b0b492551b51",
+        download_url="https://dl.fbaipublicfiles.com/dinov2/dinov2_vitl14/dinov2_vitl14_reg4_pretrain.pth",
+    ),
+    converted=Hub(
+        repo_id="refiners/dinov2.large.patch_14.reg_4",
+        filename="model.safetensors",
+        expected_sha256="e1d5a183a0ec15c5ac0a9e388038a07f8e90dd19e001b7bd4f7ffe3c5761667c",
+    ),
+)
+giant = DinoV2Conversion(
+    original=Hub(
+        repo_id="facebook/github_dinov2",
+        filename="vitg14.pth",
+        expected_sha256="baf8467e50af277596bbbafa06887c177ee899ab46033649c383577d7e9309d3",
+        download_url="https://dl.fbaipublicfiles.com/dinov2/dinov2_vitg14/dinov2_vitg14_pretrain.pth",
+    ),
+    converted=Hub(
+        repo_id="refiners/dinov2.giant.patch_14",
+        filename="model.safetensors",
+        expected_sha256="5a2d6088f4fd4aa1bf527ce0edf2ae3e76eee70c900b90716c18ad7daa4a1f2f",
+    ),
+)
+giant_reg = DinoV2Conversion(
+    original=Hub(
+        repo_id="facebook/github_dinov2",
+        filename="vitg14_reg4.pth",
+        expected_sha256="746ecb8c6301c645c5c855be91687d274587d6e48fdaec4a729753160b34a283",
+        download_url="https://dl.fbaipublicfiles.com/dinov2/dinov2_vitg14/dinov2_vitg14_reg4_pretrain.pth",
+    ),
+    converted=Hub(
+        repo_id="refiners/dinov2.giant.patch_14.reg_4",
+        filename="model.safetensors",
+        expected_sha256="d5f7f0917926d4fe72cd33408f79562c5d524c3e8aee999830129eecabda56a2",
+    ),
+)
--- a/src/refiners/conversion/models/ella.py
+++ b/src/refiners/conversion/models/ella.py
@ -0,0 +1,122 @@
+import logging
+
+import requests
+import torch
+
+from refiners.conversion.utils import Conversion, Hub, TensorDict
+from refiners.fluxion.utils import load_from_safetensors, save_to_safetensors
+
+
+def convert_state_dict(state_dict: dict[str, torch.Tensor]) -> TensorDict:
+    new_state_dict: TensorDict = {}
+
+    for key in list(state_dict.keys()):
+        if "latents" in key:
+            new_key = "PerceiverResampler.Latents.ParameterInitialized.weight"
+            new_state_dict[new_key] = state_dict.pop(key)
+        elif "time_embedding" in key:
+            new_key = key.replace("time_embedding", "TimestepEncoder.RangeEncoder").replace("linear", "Linear")
+            new_state_dict[new_key] = state_dict.pop(key)
+        elif "proj_in" in key:
+            new_key = f"PerceiverResampler.Linear.{key.split('.')[-1]}"
+            new_state_dict[new_key] = state_dict.pop(key)
+        elif "time_aware" in key:
+            new_key = f"PerceiverResampler.Residual.Linear.{key.split('.')[-1]}"
+            new_state_dict[new_key] = state_dict.pop(key)
+        elif "attn.in_proj" in key:
+            layer_num = int(key.split(".")[2])
+            query_param, key_param, value_param = state_dict.pop(key).chunk(3, dim=0)
+            param_type = "weight" if "weight" in key else "bias"
+            for i, param in enumerate([query_param, key_param, value_param]):
+                new_key = f"PerceiverResampler.Transformer.TransformerLayer_{layer_num+1}.Residual_1.PerceiverAttention.Attention.Distribute.Linear_{i+1}.{param_type}"
+                new_state_dict[new_key] = param
+        elif "attn.out_proj" in key:
+            layer_num = int(key.split(".")[2])
+            new_key = f"PerceiverResampler.Transformer.TransformerLayer_{layer_num+1}.Residual_1.PerceiverAttention.Attention.Linear.{key.split('.')[-1]}"
+            new_state_dict[new_key] = state_dict.pop(key)
+        elif "ln_ff" in key:
+            layer_num = int(key.split(".")[2])
+            new_key = f"PerceiverResampler.Transformer.TransformerLayer_{layer_num+1}.Residual_2.AdaLayerNorm.Parallel.Chain.Linear.{key.split('.')[-1]}"
+            new_state_dict[new_key] = state_dict.pop(key)
+        elif "ln_1" in key or "ln_2" in key:
+            layer_num = int(key.split(".")[2])
+            n = 1 if int(key.split(".")[3].split("_")[-1]) == 2 else 2
+            new_key = f"PerceiverResampler.Transformer.TransformerLayer_{layer_num+1}.Residual_1.PerceiverAttention.Distribute.AdaLayerNorm_{n}.Parallel.Chain.Linear.{key.split('.')[-1]}"
+            new_state_dict[new_key] = state_dict.pop(key)
+        elif "mlp" in key:
+            layer_num = int(key.split(".")[2])
+            n = 1 if "c_fc" in key else 2
+            new_key = f"PerceiverResampler.Transformer.TransformerLayer_{layer_num+1}.Residual_2.FeedForward.Linear_{n}.{key.split('.')[-1]}"
+            new_state_dict[new_key] = state_dict.pop(key)
+
+    return new_state_dict
+
+
+class ELLAConversion(Conversion):
+    def __init__(
+        self,
+        original: Hub,
+        converted: Hub,
+        dtype: torch.dtype = torch.float32,
+    ) -> None:
+        """Initialize the weight structure.
+
+        Args:
+            original_weight_hub: A HubPath object representing the original weight.
+            converted_weight_hub: A HubPath object representing the converted weight.
+        """
+        self.original = original
+        self.converted = converted
+        self.dtype = dtype
+
+    # TODO: use WeightRecipe instead
+    def convert(self) -> None:  # type: ignore
+        """Convert the weights from the original to the converted weights."""
+        logging.info(f"Converting {self.original.repo_id}/{self.original.filename} to {self.converted.repo_id}")
+
+        # check if the converted file already exists
+        if self.converted.local_path.is_file():
+            logging.warning(f"{self.converted.local_path} already exists")
+            if self.converted.check_local_hash():
+                try:
+                    assert self.converted.check_remote_hash()
+                except requests.exceptions.HTTPError:
+                    logging.error(f"{self.converted.local_path} couldn't verify remote hash")
+                return
+
+        # get the original state_dict
+        self.original.download()
+
+        # load the original state_dict
+        original_weights = load_from_safetensors(self.original.local_path)
+
+        # convert the state_dict
+        converted_state_dict = convert_state_dict(original_weights)
+        original_weights = self.change_dtype(converted_state_dict, self.dtype)
+
+        # save the converted state_dict
+        self.converted.local_path.parent.mkdir(parents=True, exist_ok=True)
+        save_to_safetensors(self.converted.local_path, original_weights)
+
+        # check the converted state_dict
+        assert self.converted.check_local_hash()
+        try:
+            assert self.converted.check_remote_hash()
+        except requests.exceptions.HTTPError:
+            logging.warning(f"{self.converted.local_path} couldn't verify remote hash")
+
+
+sd15_t5xl = ELLAConversion(
+    original=Hub(
+        repo_id="QQGYLab/ELLA",
+        filename="ella-sd1.5-tsc-t5xl.safetensors",
+        revision="c07675dea7873abe24a4152e1140cf0131c217d2",
+        expected_sha256="ca2018e325170d622389b531c0a061eea9d856b80e58e359ed54ade881517417",
+    ),
+    converted=Hub(
+        repo_id="refiners/sd15.ella.tsc_t5xl",
+        filename="model.safetensors",
+        expected_sha256="ffc368afb97b93792f581d4a75275f4195cf76c225961cce61c3e1ef687df7da",
+    ),
+    dtype=torch.float16,
+)
--- a/src/refiners/conversion/models/hq_sam.py
+++ b/src/refiners/conversion/models/hq_sam.py
@ -0,0 +1,36 @@
+import torch
+
+from refiners.conversion.utils import Conversion, Hub, WeightRecipe
+
+recipe = WeightRecipe(
+    key_map={
+        "mask_decoder.compress_vit_feat.0": "Chain.HQSAMMaskPrediction.Chain.DenseEmbeddingUpscalingHQ.HQFeatures.CompressViTFeat.ConvTranspose2d_1",
+        "mask_decoder.embedding_encoder.0": "Chain.HQSAMMaskPrediction.Chain.DenseEmbeddingUpscalingHQ.HQFeatures.EmbeddingEncoder.ConvTranspose2d_1",
+        "mask_decoder.embedding_maskfeature.0": "Chain.HQSAMMaskPrediction.Chain.DenseEmbeddingUpscalingHQ.EmbeddingMaskfeature.Conv2d_1",
+        "mask_decoder.compress_vit_feat.1": "Chain.HQSAMMaskPrediction.Chain.DenseEmbeddingUpscalingHQ.HQFeatures.CompressViTFeat.LayerNorm2d",
+        "mask_decoder.embedding_encoder.1": "Chain.HQSAMMaskPrediction.Chain.DenseEmbeddingUpscalingHQ.HQFeatures.EmbeddingEncoder.LayerNorm2d",
+        "mask_decoder.embedding_maskfeature.1": "Chain.HQSAMMaskPrediction.Chain.DenseEmbeddingUpscalingHQ.EmbeddingMaskfeature.LayerNorm2d",
+        "mask_decoder.compress_vit_feat.3": "Chain.HQSAMMaskPrediction.Chain.DenseEmbeddingUpscalingHQ.HQFeatures.CompressViTFeat.ConvTranspose2d_2",
+        "mask_decoder.embedding_encoder.3": "Chain.HQSAMMaskPrediction.Chain.DenseEmbeddingUpscalingHQ.HQFeatures.EmbeddingEncoder.ConvTranspose2d_2",
+        "mask_decoder.embedding_maskfeature.3": "Chain.HQSAMMaskPrediction.Chain.DenseEmbeddingUpscalingHQ.EmbeddingMaskfeature.Conv2d_2",
+        "mask_decoder.hf_mlp.layers.0": "Chain.HQSAMMaskPrediction.HQTokenMLP.MultiLinear.Linear_1",
+        "mask_decoder.hf_mlp.layers.1": "Chain.HQSAMMaskPrediction.HQTokenMLP.MultiLinear.Linear_2",
+        "mask_decoder.hf_mlp.layers.2": "Chain.HQSAMMaskPrediction.HQTokenMLP.MultiLinear.Linear_3",
+        "mask_decoder.hf_token": "MaskDecoderTokensExtender.hq_token",
+    },
+)
+
+vit_h = Conversion(
+    original=Hub(
+        repo_id="lkeab/hq-sam",
+        filename="sam_hq_vit_h.pth",
+        expected_sha256="a7ac14a085326d9fa6199c8c698c4f0e7280afdbb974d2c4660ec60877b45e35",
+    ),
+    converted=Hub(
+        repo_id="refiners/sam.hq.vit_h",
+        filename="model.safetensors",
+        expected_sha256="017630c780ff67673d71e91beaec8804f8b5ae3a9ea607456b4504562f96cc2f",
+    ),
+    recipe=recipe,
+    dtype=torch.float32,
+)
--- a/src/refiners/conversion/models/ipadapter_sd15.py
+++ b/src/refiners/conversion/models/ipadapter_sd15.py
@ -0,0 +1,147 @@
+import torch
+
+from refiners.conversion.utils import Conversion, Hub, WeightRecipe
+
+diffusers_recipe = WeightRecipe(
+    key_map={
+        "image_proj.proj": "image_proj.Linear",
+        "image_proj.norm": "image_proj.LayerNorm",
+        "ip_adapter.1.to_k_ip": "ip_adapter.000.to_k_ip",
+        "ip_adapter.1.to_v_ip": "ip_adapter.000.to_v_ip",
+        "ip_adapter.3.to_k_ip": "ip_adapter.001.to_k_ip",
+        "ip_adapter.3.to_v_ip": "ip_adapter.001.to_v_ip",
+        "ip_adapter.5.to_k_ip": "ip_adapter.002.to_k_ip",
+        "ip_adapter.5.to_v_ip": "ip_adapter.002.to_v_ip",
+        "ip_adapter.7.to_k_ip": "ip_adapter.003.to_k_ip",
+        "ip_adapter.7.to_v_ip": "ip_adapter.003.to_v_ip",
+        "ip_adapter.9.to_k_ip": "ip_adapter.004.to_k_ip",
+        "ip_adapter.9.to_v_ip": "ip_adapter.004.to_v_ip",
+        "ip_adapter.11.to_k_ip": "ip_adapter.005.to_k_ip",
+        "ip_adapter.11.to_v_ip": "ip_adapter.005.to_v_ip",
+        "ip_adapter.31.to_k_ip": "ip_adapter.006.to_k_ip",
+        "ip_adapter.31.to_v_ip": "ip_adapter.006.to_v_ip",
+        "ip_adapter.13.to_k_ip": "ip_adapter.007.to_k_ip",
+        "ip_adapter.13.to_v_ip": "ip_adapter.007.to_v_ip",
+        "ip_adapter.15.to_k_ip": "ip_adapter.008.to_k_ip",
+        "ip_adapter.15.to_v_ip": "ip_adapter.008.to_v_ip",
+        "ip_adapter.17.to_k_ip": "ip_adapter.009.to_k_ip",
+        "ip_adapter.17.to_v_ip": "ip_adapter.009.to_v_ip",
+        "ip_adapter.19.to_k_ip": "ip_adapter.010.to_k_ip",
+        "ip_adapter.19.to_v_ip": "ip_adapter.010.to_v_ip",
+        "ip_adapter.21.to_k_ip": "ip_adapter.011.to_k_ip",
+        "ip_adapter.21.to_v_ip": "ip_adapter.011.to_v_ip",
+        "ip_adapter.23.to_k_ip": "ip_adapter.012.to_k_ip",
+        "ip_adapter.23.to_v_ip": "ip_adapter.012.to_v_ip",
+        "ip_adapter.25.to_k_ip": "ip_adapter.013.to_k_ip",
+        "ip_adapter.25.to_v_ip": "ip_adapter.013.to_v_ip",
+        "ip_adapter.27.to_k_ip": "ip_adapter.014.to_k_ip",
+        "ip_adapter.27.to_v_ip": "ip_adapter.014.to_v_ip",
+        "ip_adapter.29.to_k_ip": "ip_adapter.015.to_k_ip",
+        "ip_adapter.29.to_v_ip": "ip_adapter.015.to_v_ip",
+    },
+)
+
+diffusers_plus_recipe = WeightRecipe(
+    key_map={
+        "image_proj.latents": "image_proj.LatentsToken.Parameter.weight",
+        "image_proj.proj_in": "image_proj.Linear_1",
+        "image_proj.proj_out": "image_proj.Linear_2",
+        "image_proj.norm_out": "image_proj.LayerNorm",
+        "image_proj.layers.0.0.norm1": "image_proj.Transformer.TransformerLayer_1.Residual_1.PerceiverAttention.Distribute.LayerNorm_1",
+        "image_proj.layers.0.0.norm2": "image_proj.Transformer.TransformerLayer_1.Residual_1.PerceiverAttention.Distribute.LayerNorm_2",
+        "image_proj.layers.0.0.to_q": "image_proj.Transformer.TransformerLayer_1.Residual_1.PerceiverAttention.Parallel.Chain_2.Linear",
+        "image_proj.layers.0.0.to_kv": "image_proj.Transformer.TransformerLayer_1.Residual_1.PerceiverAttention.Parallel.Chain_1.Linear",
+        "image_proj.layers.0.0.to_out": "image_proj.Transformer.TransformerLayer_1.Residual_1.PerceiverAttention.Linear",
+        "image_proj.layers.0.1.0": "image_proj.Transformer.TransformerLayer_1.Residual_2.LayerNorm",
+        "image_proj.layers.0.1.1": "image_proj.Transformer.TransformerLayer_1.Residual_2.FeedForward.Linear_1",
+        "image_proj.layers.0.1.3": "image_proj.Transformer.TransformerLayer_1.Residual_2.FeedForward.Linear_2",
+        "image_proj.layers.1.0.norm1": "image_proj.Transformer.TransformerLayer_2.Residual_1.PerceiverAttention.Distribute.LayerNorm_1",
+        "image_proj.layers.1.0.norm2": "image_proj.Transformer.TransformerLayer_2.Residual_1.PerceiverAttention.Distribute.LayerNorm_2",
+        "image_proj.layers.1.0.to_q": "image_proj.Transformer.TransformerLayer_2.Residual_1.PerceiverAttention.Parallel.Chain_2.Linear",
+        "image_proj.layers.1.0.to_kv": "image_proj.Transformer.TransformerLayer_2.Residual_1.PerceiverAttention.Parallel.Chain_1.Linear",
+        "image_proj.layers.1.0.to_out": "image_proj.Transformer.TransformerLayer_2.Residual_1.PerceiverAttention.Linear",
+        "image_proj.layers.1.1.0": "image_proj.Transformer.TransformerLayer_2.Residual_2.LayerNorm",
+        "image_proj.layers.1.1.1": "image_proj.Transformer.TransformerLayer_2.Residual_2.FeedForward.Linear_1",
+        "image_proj.layers.1.1.3": "image_proj.Transformer.TransformerLayer_2.Residual_2.FeedForward.Linear_2",
+        "image_proj.layers.2.0.norm1": "image_proj.Transformer.TransformerLayer_3.Residual_1.PerceiverAttention.Distribute.LayerNorm_1",
+        "image_proj.layers.2.0.norm2": "image_proj.Transformer.TransformerLayer_3.Residual_1.PerceiverAttention.Distribute.LayerNorm_2",
+        "image_proj.layers.2.0.to_q": "image_proj.Transformer.TransformerLayer_3.Residual_1.PerceiverAttention.Parallel.Chain_2.Linear",
+        "image_proj.layers.2.0.to_kv": "image_proj.Transformer.TransformerLayer_3.Residual_1.PerceiverAttention.Parallel.Chain_1.Linear",
+        "image_proj.layers.2.0.to_out": "image_proj.Transformer.TransformerLayer_3.Residual_1.PerceiverAttention.Linear",
+        "image_proj.layers.2.1.0": "image_proj.Transformer.TransformerLayer_3.Residual_2.LayerNorm",
+        "image_proj.layers.2.1.1": "image_proj.Transformer.TransformerLayer_3.Residual_2.FeedForward.Linear_1",
+        "image_proj.layers.2.1.3": "image_proj.Transformer.TransformerLayer_3.Residual_2.FeedForward.Linear_2",
+        "image_proj.layers.3.0.norm1": "image_proj.Transformer.TransformerLayer_4.Residual_1.PerceiverAttention.Distribute.LayerNorm_1",
+        "image_proj.layers.3.0.norm2": "image_proj.Transformer.TransformerLayer_4.Residual_1.PerceiverAttention.Distribute.LayerNorm_2",
+        "image_proj.layers.3.0.to_q": "image_proj.Transformer.TransformerLayer_4.Residual_1.PerceiverAttention.Parallel.Chain_2.Linear",
+        "image_proj.layers.3.0.to_kv": "image_proj.Transformer.TransformerLayer_4.Residual_1.PerceiverAttention.Parallel.Chain_1.Linear",
+        "image_proj.layers.3.0.to_out": "image_proj.Transformer.TransformerLayer_4.Residual_1.PerceiverAttention.Linear",
+        "image_proj.layers.3.1.0": "image_proj.Transformer.TransformerLayer_4.Residual_2.LayerNorm",
+        "image_proj.layers.3.1.1": "image_proj.Transformer.TransformerLayer_4.Residual_2.FeedForward.Linear_1",
+        "image_proj.layers.3.1.3": "image_proj.Transformer.TransformerLayer_4.Residual_2.FeedForward.Linear_2",
+        "ip_adapter.1.to_k_ip": "ip_adapter.000.to_k_ip",
+        "ip_adapter.1.to_v_ip": "ip_adapter.000.to_v_ip",
+        "ip_adapter.3.to_k_ip": "ip_adapter.001.to_k_ip",
+        "ip_adapter.3.to_v_ip": "ip_adapter.001.to_v_ip",
+        "ip_adapter.5.to_k_ip": "ip_adapter.002.to_k_ip",
+        "ip_adapter.5.to_v_ip": "ip_adapter.002.to_v_ip",
+        "ip_adapter.7.to_k_ip": "ip_adapter.003.to_k_ip",
+        "ip_adapter.7.to_v_ip": "ip_adapter.003.to_v_ip",
+        "ip_adapter.9.to_k_ip": "ip_adapter.004.to_k_ip",
+        "ip_adapter.9.to_v_ip": "ip_adapter.004.to_v_ip",
+        "ip_adapter.11.to_k_ip": "ip_adapter.005.to_k_ip",
+        "ip_adapter.11.to_v_ip": "ip_adapter.005.to_v_ip",
+        "ip_adapter.31.to_k_ip": "ip_adapter.006.to_k_ip",
+        "ip_adapter.31.to_v_ip": "ip_adapter.006.to_v_ip",
+        "ip_adapter.13.to_k_ip": "ip_adapter.007.to_k_ip",
+        "ip_adapter.13.to_v_ip": "ip_adapter.007.to_v_ip",
+        "ip_adapter.15.to_k_ip": "ip_adapter.008.to_k_ip",
+        "ip_adapter.15.to_v_ip": "ip_adapter.008.to_v_ip",
+        "ip_adapter.17.to_k_ip": "ip_adapter.009.to_k_ip",
+        "ip_adapter.17.to_v_ip": "ip_adapter.009.to_v_ip",
+        "ip_adapter.19.to_k_ip": "ip_adapter.010.to_k_ip",
+        "ip_adapter.19.to_v_ip": "ip_adapter.010.to_v_ip",
+        "ip_adapter.21.to_k_ip": "ip_adapter.011.to_k_ip",
+        "ip_adapter.21.to_v_ip": "ip_adapter.011.to_v_ip",
+        "ip_adapter.23.to_k_ip": "ip_adapter.012.to_k_ip",
+        "ip_adapter.23.to_v_ip": "ip_adapter.012.to_v_ip",
+        "ip_adapter.25.to_k_ip": "ip_adapter.013.to_k_ip",
+        "ip_adapter.25.to_v_ip": "ip_adapter.013.to_v_ip",
+        "ip_adapter.27.to_k_ip": "ip_adapter.014.to_k_ip",
+        "ip_adapter.27.to_v_ip": "ip_adapter.014.to_v_ip",
+        "ip_adapter.29.to_k_ip": "ip_adapter.015.to_k_ip",
+        "ip_adapter.29.to_v_ip": "ip_adapter.015.to_v_ip",
+    },
+    tensor_reshapes={"image_proj.LatentsToken.Parameter.weight": (16, 768)},
+)
+
+base = Conversion(
+    original=Hub(
+        repo_id="h94/IP-Adapter",
+        filename="models/ip-adapter_sd15.safetensors",
+        revision="018e402774aeeddd60609b4ecdb7e298259dc729",
+        expected_sha256="289b45f16d043d0bf542e45831f971dcdaabe18b656f11e86d9dfba7e9ee3369",
+    ),
+    converted=Hub(
+        repo_id="refiners/sd15.ip_adapter",
+        filename="model.safetensors",
+        expected_sha256="ebabe531bac205e2fac942b353c22066abfb115b02f7fb72cd0e3361ee838ef3",
+    ),
+    recipe=diffusers_recipe,
+    dtype=torch.float16,
+)
+plus = Conversion(
+    original=Hub(
+        repo_id="h94/IP-Adapter",
+        filename="models/ip-adapter-plus_sd15.safetensors",
+        revision="018e402774aeeddd60609b4ecdb7e298259dc729",
+        expected_sha256="a1c250be40455cc61a43da1201ec3f1edaea71214865fb47f57927e06cbe4996",
+    ),
+    converted=Hub(
+        repo_id="refiners/sd15.ip_adapter.plus",
+        filename="model.safetensors",
+        expected_sha256="6eae5d2098fa83e3b8bf416fb46dd77a921ad044650f13890e8d41d7c84a71d2",
+    ),
+    recipe=diffusers_plus_recipe,
+    dtype=torch.float16,
+)
--- a/src/refiners/conversion/models/ipadapter_sdxl.py
+++ b/src/refiners/conversion/models/ipadapter_sdxl.py
@ -0,0 +1,363 @@
+import torch
+
+from refiners.conversion.utils import Conversion, Hub, WeightRecipe
+
+diffusers_recipe = WeightRecipe(
+    key_map={
+        "image_proj.proj": "image_proj.Linear",
+        "image_proj.norm": "image_proj.LayerNorm",
+        "ip_adapter.1.to_k_ip": "ip_adapter.000.to_k_ip",
+        "ip_adapter.1.to_v_ip": "ip_adapter.000.to_v_ip",
+        "ip_adapter.3.to_k_ip": "ip_adapter.001.to_k_ip",
+        "ip_adapter.3.to_v_ip": "ip_adapter.001.to_v_ip",
+        "ip_adapter.5.to_k_ip": "ip_adapter.002.to_k_ip",
+        "ip_adapter.5.to_v_ip": "ip_adapter.002.to_v_ip",
+        "ip_adapter.7.to_k_ip": "ip_adapter.003.to_k_ip",
+        "ip_adapter.7.to_v_ip": "ip_adapter.003.to_v_ip",
+        "ip_adapter.9.to_k_ip": "ip_adapter.004.to_k_ip",
+        "ip_adapter.9.to_v_ip": "ip_adapter.004.to_v_ip",
+        "ip_adapter.11.to_k_ip": "ip_adapter.005.to_k_ip",
+        "ip_adapter.11.to_v_ip": "ip_adapter.005.to_v_ip",
+        "ip_adapter.13.to_k_ip": "ip_adapter.006.to_k_ip",
+        "ip_adapter.13.to_v_ip": "ip_adapter.006.to_v_ip",
+        "ip_adapter.15.to_k_ip": "ip_adapter.007.to_k_ip",
+        "ip_adapter.15.to_v_ip": "ip_adapter.007.to_v_ip",
+        "ip_adapter.17.to_k_ip": "ip_adapter.008.to_k_ip",
+        "ip_adapter.17.to_v_ip": "ip_adapter.008.to_v_ip",
+        "ip_adapter.19.to_k_ip": "ip_adapter.009.to_k_ip",
+        "ip_adapter.19.to_v_ip": "ip_adapter.009.to_v_ip",
+        "ip_adapter.21.to_k_ip": "ip_adapter.010.to_k_ip",
+        "ip_adapter.21.to_v_ip": "ip_adapter.010.to_v_ip",
+        "ip_adapter.23.to_k_ip": "ip_adapter.011.to_k_ip",
+        "ip_adapter.23.to_v_ip": "ip_adapter.011.to_v_ip",
+        "ip_adapter.25.to_k_ip": "ip_adapter.012.to_k_ip",
+        "ip_adapter.25.to_v_ip": "ip_adapter.012.to_v_ip",
+        "ip_adapter.27.to_k_ip": "ip_adapter.013.to_k_ip",
+        "ip_adapter.27.to_v_ip": "ip_adapter.013.to_v_ip",
+        "ip_adapter.29.to_k_ip": "ip_adapter.014.to_k_ip",
+        "ip_adapter.29.to_v_ip": "ip_adapter.014.to_v_ip",
+        "ip_adapter.31.to_k_ip": "ip_adapter.015.to_k_ip",
+        "ip_adapter.31.to_v_ip": "ip_adapter.015.to_v_ip",
+        "ip_adapter.33.to_k_ip": "ip_adapter.016.to_k_ip",
+        "ip_adapter.33.to_v_ip": "ip_adapter.016.to_v_ip",
+        "ip_adapter.35.to_k_ip": "ip_adapter.017.to_k_ip",
+        "ip_adapter.35.to_v_ip": "ip_adapter.017.to_v_ip",
+        "ip_adapter.37.to_k_ip": "ip_adapter.018.to_k_ip",
+        "ip_adapter.37.to_v_ip": "ip_adapter.018.to_v_ip",
+        "ip_adapter.39.to_k_ip": "ip_adapter.019.to_k_ip",
+        "ip_adapter.39.to_v_ip": "ip_adapter.019.to_v_ip",
+        "ip_adapter.41.to_k_ip": "ip_adapter.020.to_k_ip",
+        "ip_adapter.41.to_v_ip": "ip_adapter.020.to_v_ip",
+        "ip_adapter.43.to_k_ip": "ip_adapter.021.to_k_ip",
+        "ip_adapter.43.to_v_ip": "ip_adapter.021.to_v_ip",
+        "ip_adapter.45.to_k_ip": "ip_adapter.022.to_k_ip",
+        "ip_adapter.45.to_v_ip": "ip_adapter.022.to_v_ip",
+        "ip_adapter.47.to_k_ip": "ip_adapter.023.to_k_ip",
+        "ip_adapter.47.to_v_ip": "ip_adapter.023.to_v_ip",
+        "ip_adapter.121.to_k_ip": "ip_adapter.024.to_k_ip",
+        "ip_adapter.121.to_v_ip": "ip_adapter.024.to_v_ip",
+        "ip_adapter.123.to_k_ip": "ip_adapter.025.to_k_ip",
+        "ip_adapter.123.to_v_ip": "ip_adapter.025.to_v_ip",
+        "ip_adapter.125.to_k_ip": "ip_adapter.026.to_k_ip",
+        "ip_adapter.125.to_v_ip": "ip_adapter.026.to_v_ip",
+        "ip_adapter.127.to_k_ip": "ip_adapter.027.to_k_ip",
+        "ip_adapter.127.to_v_ip": "ip_adapter.027.to_v_ip",
+        "ip_adapter.129.to_k_ip": "ip_adapter.028.to_k_ip",
+        "ip_adapter.129.to_v_ip": "ip_adapter.028.to_v_ip",
+        "ip_adapter.131.to_k_ip": "ip_adapter.029.to_k_ip",
+        "ip_adapter.131.to_v_ip": "ip_adapter.029.to_v_ip",
+        "ip_adapter.133.to_k_ip": "ip_adapter.030.to_k_ip",
+        "ip_adapter.133.to_v_ip": "ip_adapter.030.to_v_ip",
+        "ip_adapter.135.to_k_ip": "ip_adapter.031.to_k_ip",
+        "ip_adapter.135.to_v_ip": "ip_adapter.031.to_v_ip",
+        "ip_adapter.137.to_k_ip": "ip_adapter.032.to_k_ip",
+        "ip_adapter.137.to_v_ip": "ip_adapter.032.to_v_ip",
+        "ip_adapter.139.to_k_ip": "ip_adapter.033.to_k_ip",
+        "ip_adapter.139.to_v_ip": "ip_adapter.033.to_v_ip",
+        "ip_adapter.49.to_k_ip": "ip_adapter.034.to_k_ip",
+        "ip_adapter.49.to_v_ip": "ip_adapter.034.to_v_ip",
+        "ip_adapter.51.to_k_ip": "ip_adapter.035.to_k_ip",
+        "ip_adapter.51.to_v_ip": "ip_adapter.035.to_v_ip",
+        "ip_adapter.53.to_k_ip": "ip_adapter.036.to_k_ip",
+        "ip_adapter.53.to_v_ip": "ip_adapter.036.to_v_ip",
+        "ip_adapter.55.to_k_ip": "ip_adapter.037.to_k_ip",
+        "ip_adapter.55.to_v_ip": "ip_adapter.037.to_v_ip",
+        "ip_adapter.57.to_k_ip": "ip_adapter.038.to_k_ip",
+        "ip_adapter.57.to_v_ip": "ip_adapter.038.to_v_ip",
+        "ip_adapter.59.to_k_ip": "ip_adapter.039.to_k_ip",
+        "ip_adapter.59.to_v_ip": "ip_adapter.039.to_v_ip",
+        "ip_adapter.61.to_k_ip": "ip_adapter.040.to_k_ip",
+        "ip_adapter.61.to_v_ip": "ip_adapter.040.to_v_ip",
+        "ip_adapter.63.to_k_ip": "ip_adapter.041.to_k_ip",
+        "ip_adapter.63.to_v_ip": "ip_adapter.041.to_v_ip",
+        "ip_adapter.65.to_k_ip": "ip_adapter.042.to_k_ip",
+        "ip_adapter.65.to_v_ip": "ip_adapter.042.to_v_ip",
+        "ip_adapter.67.to_k_ip": "ip_adapter.043.to_k_ip",
+        "ip_adapter.67.to_v_ip": "ip_adapter.043.to_v_ip",
+        "ip_adapter.69.to_k_ip": "ip_adapter.044.to_k_ip",
+        "ip_adapter.69.to_v_ip": "ip_adapter.044.to_v_ip",
+        "ip_adapter.71.to_k_ip": "ip_adapter.045.to_k_ip",
+        "ip_adapter.71.to_v_ip": "ip_adapter.045.to_v_ip",
+        "ip_adapter.73.to_k_ip": "ip_adapter.046.to_k_ip",
+        "ip_adapter.73.to_v_ip": "ip_adapter.046.to_v_ip",
+        "ip_adapter.75.to_k_ip": "ip_adapter.047.to_k_ip",
+        "ip_adapter.75.to_v_ip": "ip_adapter.047.to_v_ip",
+        "ip_adapter.77.to_k_ip": "ip_adapter.048.to_k_ip",
+        "ip_adapter.77.to_v_ip": "ip_adapter.048.to_v_ip",
+        "ip_adapter.79.to_k_ip": "ip_adapter.049.to_k_ip",
+        "ip_adapter.79.to_v_ip": "ip_adapter.049.to_v_ip",
+        "ip_adapter.81.to_k_ip": "ip_adapter.050.to_k_ip",
+        "ip_adapter.81.to_v_ip": "ip_adapter.050.to_v_ip",
+        "ip_adapter.83.to_k_ip": "ip_adapter.051.to_k_ip",
+        "ip_adapter.83.to_v_ip": "ip_adapter.051.to_v_ip",
+        "ip_adapter.85.to_k_ip": "ip_adapter.052.to_k_ip",
+        "ip_adapter.85.to_v_ip": "ip_adapter.052.to_v_ip",
+        "ip_adapter.87.to_k_ip": "ip_adapter.053.to_k_ip",
+        "ip_adapter.87.to_v_ip": "ip_adapter.053.to_v_ip",
+        "ip_adapter.89.to_k_ip": "ip_adapter.054.to_k_ip",
+        "ip_adapter.89.to_v_ip": "ip_adapter.054.to_v_ip",
+        "ip_adapter.91.to_k_ip": "ip_adapter.055.to_k_ip",
+        "ip_adapter.91.to_v_ip": "ip_adapter.055.to_v_ip",
+        "ip_adapter.93.to_k_ip": "ip_adapter.056.to_k_ip",
+        "ip_adapter.93.to_v_ip": "ip_adapter.056.to_v_ip",
+        "ip_adapter.95.to_k_ip": "ip_adapter.057.to_k_ip",
+        "ip_adapter.95.to_v_ip": "ip_adapter.057.to_v_ip",
+        "ip_adapter.97.to_k_ip": "ip_adapter.058.to_k_ip",
+        "ip_adapter.97.to_v_ip": "ip_adapter.058.to_v_ip",
+        "ip_adapter.99.to_k_ip": "ip_adapter.059.to_k_ip",
+        "ip_adapter.99.to_v_ip": "ip_adapter.059.to_v_ip",
+        "ip_adapter.101.to_k_ip": "ip_adapter.060.to_k_ip",
+        "ip_adapter.101.to_v_ip": "ip_adapter.060.to_v_ip",
+        "ip_adapter.103.to_k_ip": "ip_adapter.061.to_k_ip",
+        "ip_adapter.103.to_v_ip": "ip_adapter.061.to_v_ip",
+        "ip_adapter.105.to_k_ip": "ip_adapter.062.to_k_ip",
+        "ip_adapter.105.to_v_ip": "ip_adapter.062.to_v_ip",
+        "ip_adapter.107.to_k_ip": "ip_adapter.063.to_k_ip",
+        "ip_adapter.107.to_v_ip": "ip_adapter.063.to_v_ip",
+        "ip_adapter.109.to_k_ip": "ip_adapter.064.to_k_ip",
+        "ip_adapter.109.to_v_ip": "ip_adapter.064.to_v_ip",
+        "ip_adapter.111.to_k_ip": "ip_adapter.065.to_k_ip",
+        "ip_adapter.111.to_v_ip": "ip_adapter.065.to_v_ip",
+        "ip_adapter.113.to_k_ip": "ip_adapter.066.to_k_ip",
+        "ip_adapter.113.to_v_ip": "ip_adapter.066.to_v_ip",
+        "ip_adapter.115.to_k_ip": "ip_adapter.067.to_k_ip",
+        "ip_adapter.115.to_v_ip": "ip_adapter.067.to_v_ip",
+        "ip_adapter.117.to_k_ip": "ip_adapter.068.to_k_ip",
+        "ip_adapter.117.to_v_ip": "ip_adapter.068.to_v_ip",
+        "ip_adapter.119.to_k_ip": "ip_adapter.069.to_k_ip",
+        "ip_adapter.119.to_v_ip": "ip_adapter.069.to_v_ip",
+    },
+)
+
+plus_diffusers_recipe = WeightRecipe(
+    key_map={
+        "image_proj.latents": "image_proj.LatentsToken.Parameter.weight",
+        "image_proj.proj_in": "image_proj.Linear_1",
+        "image_proj.proj_out": "image_proj.Linear_2",
+        "image_proj.norm_out": "image_proj.LayerNorm",
+        "image_proj.layers.0.0.norm1": "image_proj.Transformer.TransformerLayer_1.Residual_1.PerceiverAttention.Distribute.LayerNorm_1",
+        "image_proj.layers.0.0.norm2": "image_proj.Transformer.TransformerLayer_1.Residual_1.PerceiverAttention.Distribute.LayerNorm_2",
+        "image_proj.layers.0.0.to_q": "image_proj.Transformer.TransformerLayer_1.Residual_1.PerceiverAttention.Parallel.Chain_2.Linear",
+        "image_proj.layers.0.0.to_kv": "image_proj.Transformer.TransformerLayer_1.Residual_1.PerceiverAttention.Parallel.Chain_1.Linear",
+        "image_proj.layers.0.0.to_out": "image_proj.Transformer.TransformerLayer_1.Residual_1.PerceiverAttention.Linear",
+        "image_proj.layers.0.1.0": "image_proj.Transformer.TransformerLayer_1.Residual_2.LayerNorm",
+        "image_proj.layers.0.1.1": "image_proj.Transformer.TransformerLayer_1.Residual_2.FeedForward.Linear_1",
+        "image_proj.layers.0.1.3": "image_proj.Transformer.TransformerLayer_1.Residual_2.FeedForward.Linear_2",
+        "image_proj.layers.1.0.norm1": "image_proj.Transformer.TransformerLayer_2.Residual_1.PerceiverAttention.Distribute.LayerNorm_1",
+        "image_proj.layers.1.0.norm2": "image_proj.Transformer.TransformerLayer_2.Residual_1.PerceiverAttention.Distribute.LayerNorm_2",
+        "image_proj.layers.1.0.to_q": "image_proj.Transformer.TransformerLayer_2.Residual_1.PerceiverAttention.Parallel.Chain_2.Linear",
+        "image_proj.layers.1.0.to_kv": "image_proj.Transformer.TransformerLayer_2.Residual_1.PerceiverAttention.Parallel.Chain_1.Linear",
+        "image_proj.layers.1.0.to_out": "image_proj.Transformer.TransformerLayer_2.Residual_1.PerceiverAttention.Linear",
+        "image_proj.layers.1.1.0": "image_proj.Transformer.TransformerLayer_2.Residual_2.LayerNorm",
+        "image_proj.layers.1.1.1": "image_proj.Transformer.TransformerLayer_2.Residual_2.FeedForward.Linear_1",
+        "image_proj.layers.1.1.3": "image_proj.Transformer.TransformerLayer_2.Residual_2.FeedForward.Linear_2",
+        "image_proj.layers.2.0.norm1": "image_proj.Transformer.TransformerLayer_3.Residual_1.PerceiverAttention.Distribute.LayerNorm_1",
+        "image_proj.layers.2.0.norm2": "image_proj.Transformer.TransformerLayer_3.Residual_1.PerceiverAttention.Distribute.LayerNorm_2",
+        "image_proj.layers.2.0.to_q": "image_proj.Transformer.TransformerLayer_3.Residual_1.PerceiverAttention.Parallel.Chain_2.Linear",
+        "image_proj.layers.2.0.to_kv": "image_proj.Transformer.TransformerLayer_3.Residual_1.PerceiverAttention.Parallel.Chain_1.Linear",
+        "image_proj.layers.2.0.to_out": "image_proj.Transformer.TransformerLayer_3.Residual_1.PerceiverAttention.Linear",
+        "image_proj.layers.2.1.0": "image_proj.Transformer.TransformerLayer_3.Residual_2.LayerNorm",
+        "image_proj.layers.2.1.1": "image_proj.Transformer.TransformerLayer_3.Residual_2.FeedForward.Linear_1",
+        "image_proj.layers.2.1.3": "image_proj.Transformer.TransformerLayer_3.Residual_2.FeedForward.Linear_2",
+        "image_proj.layers.3.0.norm1": "image_proj.Transformer.TransformerLayer_4.Residual_1.PerceiverAttention.Distribute.LayerNorm_1",
+        "image_proj.layers.3.0.norm2": "image_proj.Transformer.TransformerLayer_4.Residual_1.PerceiverAttention.Distribute.LayerNorm_2",
+        "image_proj.layers.3.0.to_q": "image_proj.Transformer.TransformerLayer_4.Residual_1.PerceiverAttention.Parallel.Chain_2.Linear",
+        "image_proj.layers.3.0.to_kv": "image_proj.Transformer.TransformerLayer_4.Residual_1.PerceiverAttention.Parallel.Chain_1.Linear",
+        "image_proj.layers.3.0.to_out": "image_proj.Transformer.TransformerLayer_4.Residual_1.PerceiverAttention.Linear",
+        "image_proj.layers.3.1.0": "image_proj.Transformer.TransformerLayer_4.Residual_2.LayerNorm",
+        "image_proj.layers.3.1.1": "image_proj.Transformer.TransformerLayer_4.Residual_2.FeedForward.Linear_1",
+        "image_proj.layers.3.1.3": "image_proj.Transformer.TransformerLayer_4.Residual_2.FeedForward.Linear_2",
+        "ip_adapter.1.to_k_ip": "ip_adapter.000.to_k_ip",
+        "ip_adapter.1.to_v_ip": "ip_adapter.000.to_v_ip",
+        "ip_adapter.3.to_k_ip": "ip_adapter.001.to_k_ip",
+        "ip_adapter.3.to_v_ip": "ip_adapter.001.to_v_ip",
+        "ip_adapter.5.to_k_ip": "ip_adapter.002.to_k_ip",
+        "ip_adapter.5.to_v_ip": "ip_adapter.002.to_v_ip",
+        "ip_adapter.7.to_k_ip": "ip_adapter.003.to_k_ip",
+        "ip_adapter.7.to_v_ip": "ip_adapter.003.to_v_ip",
+        "ip_adapter.9.to_k_ip": "ip_adapter.004.to_k_ip",
+        "ip_adapter.9.to_v_ip": "ip_adapter.004.to_v_ip",
+        "ip_adapter.11.to_k_ip": "ip_adapter.005.to_k_ip",
+        "ip_adapter.11.to_v_ip": "ip_adapter.005.to_v_ip",
+        "ip_adapter.13.to_k_ip": "ip_adapter.006.to_k_ip",
+        "ip_adapter.13.to_v_ip": "ip_adapter.006.to_v_ip",
+        "ip_adapter.15.to_k_ip": "ip_adapter.007.to_k_ip",
+        "ip_adapter.15.to_v_ip": "ip_adapter.007.to_v_ip",
+        "ip_adapter.17.to_k_ip": "ip_adapter.008.to_k_ip",
+        "ip_adapter.17.to_v_ip": "ip_adapter.008.to_v_ip",
+        "ip_adapter.19.to_k_ip": "ip_adapter.009.to_k_ip",
+        "ip_adapter.19.to_v_ip": "ip_adapter.009.to_v_ip",
+        "ip_adapter.21.to_k_ip": "ip_adapter.010.to_k_ip",
+        "ip_adapter.21.to_v_ip": "ip_adapter.010.to_v_ip",
+        "ip_adapter.23.to_k_ip": "ip_adapter.011.to_k_ip",
+        "ip_adapter.23.to_v_ip": "ip_adapter.011.to_v_ip",
+        "ip_adapter.25.to_k_ip": "ip_adapter.012.to_k_ip",
+        "ip_adapter.25.to_v_ip": "ip_adapter.012.to_v_ip",
+        "ip_adapter.27.to_k_ip": "ip_adapter.013.to_k_ip",
+        "ip_adapter.27.to_v_ip": "ip_adapter.013.to_v_ip",
+        "ip_adapter.29.to_k_ip": "ip_adapter.014.to_k_ip",
+        "ip_adapter.29.to_v_ip": "ip_adapter.014.to_v_ip",
+        "ip_adapter.31.to_k_ip": "ip_adapter.015.to_k_ip",
+        "ip_adapter.31.to_v_ip": "ip_adapter.015.to_v_ip",
+        "ip_adapter.33.to_k_ip": "ip_adapter.016.to_k_ip",
+        "ip_adapter.33.to_v_ip": "ip_adapter.016.to_v_ip",
+        "ip_adapter.35.to_k_ip": "ip_adapter.017.to_k_ip",
+        "ip_adapter.35.to_v_ip": "ip_adapter.017.to_v_ip",
+        "ip_adapter.37.to_k_ip": "ip_adapter.018.to_k_ip",
+        "ip_adapter.37.to_v_ip": "ip_adapter.018.to_v_ip",
+        "ip_adapter.39.to_k_ip": "ip_adapter.019.to_k_ip",
+        "ip_adapter.39.to_v_ip": "ip_adapter.019.to_v_ip",
+        "ip_adapter.41.to_k_ip": "ip_adapter.020.to_k_ip",
+        "ip_adapter.41.to_v_ip": "ip_adapter.020.to_v_ip",
+        "ip_adapter.43.to_k_ip": "ip_adapter.021.to_k_ip",
+        "ip_adapter.43.to_v_ip": "ip_adapter.021.to_v_ip",
+        "ip_adapter.45.to_k_ip": "ip_adapter.022.to_k_ip",
+        "ip_adapter.45.to_v_ip": "ip_adapter.022.to_v_ip",
+        "ip_adapter.47.to_k_ip": "ip_adapter.023.to_k_ip",
+        "ip_adapter.47.to_v_ip": "ip_adapter.023.to_v_ip",
+        "ip_adapter.121.to_k_ip": "ip_adapter.024.to_k_ip",
+        "ip_adapter.121.to_v_ip": "ip_adapter.024.to_v_ip",
+        "ip_adapter.123.to_k_ip": "ip_adapter.025.to_k_ip",
+        "ip_adapter.123.to_v_ip": "ip_adapter.025.to_v_ip",
+        "ip_adapter.125.to_k_ip": "ip_adapter.026.to_k_ip",
+        "ip_adapter.125.to_v_ip": "ip_adapter.026.to_v_ip",
+        "ip_adapter.127.to_k_ip": "ip_adapter.027.to_k_ip",
+        "ip_adapter.127.to_v_ip": "ip_adapter.027.to_v_ip",
+        "ip_adapter.129.to_k_ip": "ip_adapter.028.to_k_ip",
+        "ip_adapter.129.to_v_ip": "ip_adapter.028.to_v_ip",
+        "ip_adapter.131.to_k_ip": "ip_adapter.029.to_k_ip",
+        "ip_adapter.131.to_v_ip": "ip_adapter.029.to_v_ip",
+        "ip_adapter.133.to_k_ip": "ip_adapter.030.to_k_ip",
+        "ip_adapter.133.to_v_ip": "ip_adapter.030.to_v_ip",
+        "ip_adapter.135.to_k_ip": "ip_adapter.031.to_k_ip",
+        "ip_adapter.135.to_v_ip": "ip_adapter.031.to_v_ip",
+        "ip_adapter.137.to_k_ip": "ip_adapter.032.to_k_ip",
+        "ip_adapter.137.to_v_ip": "ip_adapter.032.to_v_ip",
+        "ip_adapter.139.to_k_ip": "ip_adapter.033.to_k_ip",
+        "ip_adapter.139.to_v_ip": "ip_adapter.033.to_v_ip",
+        "ip_adapter.49.to_k_ip": "ip_adapter.034.to_k_ip",
+        "ip_adapter.49.to_v_ip": "ip_adapter.034.to_v_ip",
+        "ip_adapter.51.to_k_ip": "ip_adapter.035.to_k_ip",
+        "ip_adapter.51.to_v_ip": "ip_adapter.035.to_v_ip",
+        "ip_adapter.53.to_k_ip": "ip_adapter.036.to_k_ip",
+        "ip_adapter.53.to_v_ip": "ip_adapter.036.to_v_ip",
+        "ip_adapter.55.to_k_ip": "ip_adapter.037.to_k_ip",
+        "ip_adapter.55.to_v_ip": "ip_adapter.037.to_v_ip",
+        "ip_adapter.57.to_k_ip": "ip_adapter.038.to_k_ip",
+        "ip_adapter.57.to_v_ip": "ip_adapter.038.to_v_ip",
+        "ip_adapter.59.to_k_ip": "ip_adapter.039.to_k_ip",
+        "ip_adapter.59.to_v_ip": "ip_adapter.039.to_v_ip",
+        "ip_adapter.61.to_k_ip": "ip_adapter.040.to_k_ip",
+        "ip_adapter.61.to_v_ip": "ip_adapter.040.to_v_ip",
+        "ip_adapter.63.to_k_ip": "ip_adapter.041.to_k_ip",
+        "ip_adapter.63.to_v_ip": "ip_adapter.041.to_v_ip",
+        "ip_adapter.65.to_k_ip": "ip_adapter.042.to_k_ip",
+        "ip_adapter.65.to_v_ip": "ip_adapter.042.to_v_ip",
+        "ip_adapter.67.to_k_ip": "ip_adapter.043.to_k_ip",
+        "ip_adapter.67.to_v_ip": "ip_adapter.043.to_v_ip",
+        "ip_adapter.69.to_k_ip": "ip_adapter.044.to_k_ip",
+        "ip_adapter.69.to_v_ip": "ip_adapter.044.to_v_ip",
+        "ip_adapter.71.to_k_ip": "ip_adapter.045.to_k_ip",
+        "ip_adapter.71.to_v_ip": "ip_adapter.045.to_v_ip",
+        "ip_adapter.73.to_k_ip": "ip_adapter.046.to_k_ip",
+        "ip_adapter.73.to_v_ip": "ip_adapter.046.to_v_ip",
+        "ip_adapter.75.to_k_ip": "ip_adapter.047.to_k_ip",
+        "ip_adapter.75.to_v_ip": "ip_adapter.047.to_v_ip",
+        "ip_adapter.77.to_k_ip": "ip_adapter.048.to_k_ip",
+        "ip_adapter.77.to_v_ip": "ip_adapter.048.to_v_ip",
+        "ip_adapter.79.to_k_ip": "ip_adapter.049.to_k_ip",
+        "ip_adapter.79.to_v_ip": "ip_adapter.049.to_v_ip",
+        "ip_adapter.81.to_k_ip": "ip_adapter.050.to_k_ip",
+        "ip_adapter.81.to_v_ip": "ip_adapter.050.to_v_ip",
+        "ip_adapter.83.to_k_ip": "ip_adapter.051.to_k_ip",
+        "ip_adapter.83.to_v_ip": "ip_adapter.051.to_v_ip",
+        "ip_adapter.85.to_k_ip": "ip_adapter.052.to_k_ip",
+        "ip_adapter.85.to_v_ip": "ip_adapter.052.to_v_ip",
+        "ip_adapter.87.to_k_ip": "ip_adapter.053.to_k_ip",
+        "ip_adapter.87.to_v_ip": "ip_adapter.053.to_v_ip",
+        "ip_adapter.89.to_k_ip": "ip_adapter.054.to_k_ip",
+        "ip_adapter.89.to_v_ip": "ip_adapter.054.to_v_ip",
+        "ip_adapter.91.to_k_ip": "ip_adapter.055.to_k_ip",
+        "ip_adapter.91.to_v_ip": "ip_adapter.055.to_v_ip",
+        "ip_adapter.93.to_k_ip": "ip_adapter.056.to_k_ip",
+        "ip_adapter.93.to_v_ip": "ip_adapter.056.to_v_ip",
+        "ip_adapter.95.to_k_ip": "ip_adapter.057.to_k_ip",
+        "ip_adapter.95.to_v_ip": "ip_adapter.057.to_v_ip",
+        "ip_adapter.97.to_k_ip": "ip_adapter.058.to_k_ip",
+        "ip_adapter.97.to_v_ip": "ip_adapter.058.to_v_ip",
+        "ip_adapter.99.to_k_ip": "ip_adapter.059.to_k_ip",
+        "ip_adapter.99.to_v_ip": "ip_adapter.059.to_v_ip",
+        "ip_adapter.101.to_k_ip": "ip_adapter.060.to_k_ip",
+        "ip_adapter.101.to_v_ip": "ip_adapter.060.to_v_ip",
+        "ip_adapter.103.to_k_ip": "ip_adapter.061.to_k_ip",
+        "ip_adapter.103.to_v_ip": "ip_adapter.061.to_v_ip",
+        "ip_adapter.105.to_k_ip": "ip_adapter.062.to_k_ip",
+        "ip_adapter.105.to_v_ip": "ip_adapter.062.to_v_ip",
+        "ip_adapter.107.to_k_ip": "ip_adapter.063.to_k_ip",
+        "ip_adapter.107.to_v_ip": "ip_adapter.063.to_v_ip",
+        "ip_adapter.109.to_k_ip": "ip_adapter.064.to_k_ip",
+        "ip_adapter.109.to_v_ip": "ip_adapter.064.to_v_ip",
+        "ip_adapter.111.to_k_ip": "ip_adapter.065.to_k_ip",
+        "ip_adapter.111.to_v_ip": "ip_adapter.065.to_v_ip",
+        "ip_adapter.113.to_k_ip": "ip_adapter.066.to_k_ip",
+        "ip_adapter.113.to_v_ip": "ip_adapter.066.to_v_ip",
+        "ip_adapter.115.to_k_ip": "ip_adapter.067.to_k_ip",
+        "ip_adapter.115.to_v_ip": "ip_adapter.067.to_v_ip",
+        "ip_adapter.117.to_k_ip": "ip_adapter.068.to_k_ip",
+        "ip_adapter.117.to_v_ip": "ip_adapter.068.to_v_ip",
+        "ip_adapter.119.to_k_ip": "ip_adapter.069.to_k_ip",
+        "ip_adapter.119.to_v_ip": "ip_adapter.069.to_v_ip",
+    },
+    tensor_reshapes={"image_proj.LatentsToken.Parameter.weight": (16, 1280)},
+)
+
+base = Conversion(
+    original=Hub(
+        repo_id="h94/IP-Adapter",
+        filename="sdxl_models/ip-adapter_sdxl_vit-h.safetensors",
+        revision="018e402774aeeddd60609b4ecdb7e298259dc729",
+        expected_sha256="ebf05d918348aec7abb02a5e9ecef77e0aaea6914a5c4ea13f50d45eb1681831",
+    ),
+    converted=Hub(
+        repo_id="refiners/sdxl.ip_adapter",
+        filename="model.safetensors",
+        expected_sha256="91fc7f3c9571ed26a93372e7251596c7269f37e134fae3a6a5f4f7247d998ab8",
+    ),
+    recipe=diffusers_recipe,
+    dtype=torch.float16,
+)
+plus = Conversion(
+    original=Hub(
+        repo_id="h94/IP-Adapter",
+        filename="sdxl_models/ip-adapter-plus_sdxl_vit-h.safetensors",
+        revision="018e402774aeeddd60609b4ecdb7e298259dc729",
+        expected_sha256="3f5062b8400c94b7159665b21ba5c62acdcd7682262743d7f2aefedef00e6581",
+    ),
+    converted=Hub(
+        repo_id="refiners/sdxl.ip_adapter.plus",
+        filename="model.safetensors",
+        expected_sha256="9fdbcb4c6e3a643b6e8c002945685cc9d12ddd9787ce8b3e53fdeb814002ca22",
+    ),
+    recipe=plus_diffusers_recipe,
+    dtype=torch.float16,
+)
--- a/src/refiners/conversion/models/loras.py
+++ b/src/refiners/conversion/models/loras.py
@ -0,0 +1,56 @@
+from refiners.conversion.utils import Hub
+
+sd15_pokemon = Hub(
+    repo_id="pcuenq/pokemon-lora",
+    filename="pytorch_lora_weights.bin",
+    revision="31ae8fe6f588a78c02828e9b8d352dccd90f1a24",
+    expected_sha256="f712fcfb6618da14d25a4f3e0c9460a878fc2417e2df95cdd683a73f71b50384",
+)
+sdxl_dpo = Hub(
+    repo_id="radames/sdxl-DPO-LoRA",
+    filename="pytorch_lora_weights.safetensors",
+    revision="319a544fff501b3ed907df67e1db356bee364c9f",
+    expected_sha256="aeb5ec4a7db6679ea8085f794db1abca92cfd8e4c667a1b301b2b8ecd5599a5d",
+)
+sdxl_scifi = Hub(
+    repo_id="civitai/Ciro_Negrogni",
+    filename="Sci-fi_Environments_sdxl.safetensors",
+    expected_sha256="5a3f738c9f79c65c1fac1418b1fe593967b0c1bd24fdb27f120ef1685e815c8e",
+    download_url="https://civitai.com/api/download/models/140624?type=Model&format=SafeTensor",
+)
+sdxl_pixelart = Hub(
+    repo_id="civitai/NeriJS",
+    filename="pixel-art-xl-v1.1.safetensors",
+    expected_sha256="bbf3d8defbfb3fb71331545225c0cf50c74a748d2525f7c19ebb8f74445de274",
+    download_url="https://civitai.com/api/download/models/135931?type=Model&format=SafeTensor",
+)
+sdxl_age_slider = Hub(
+    repo_id="baulab/sliders",
+    filename="age.pt",
+    expected_sha256="8c1c096f7cc1109b4072cbc604c811a5f0ff034fc0f6dc7cf66a558550aa4890",
+    download_url="https://sliders.baulab.info/weights/xl_sliders/age.pt",
+)
+sdxl_cartoon_slider = Hub(
+    repo_id="baulab/sliders",
+    filename="cartoon_style.pt",
+    expected_sha256="e07c30e4f82f709a474ae11dc5108ac48f81b6996b937757c8dd198920ea9b4d",
+    download_url="https://sliders.baulab.info/weights/xl_sliders/cartoon_style.pt",
+)
+sdxl_eyesize_slider = Hub(
+    repo_id="baulab/sliders",
+    filename="eyesize.pt",
+    expected_sha256="8fdffa3e7788f4bd6be9a2fe3b91957b4f35999fc9fa19eabfb49f92fbf6650b",
+    download_url="https://sliders.baulab.info/weights/xl_sliders/eyesize.pt",
+)
+sdxl_lcm = Hub(
+    repo_id="latent-consistency/lcm-lora-sdxl",
+    filename="pytorch_lora_weights.safetensors",
+    revision="a18548dd4956b174ec5b0d78d340c8dae0a129cd",
+    expected_sha256="a764e6859b6e04047cd761c08ff0cee96413a8e004c9f07707530cd776b19141",
+)
+sdxl_lightning_4steps = Hub(
+    repo_id="ByteDance/SDXL-Lightning",
+    filename="sdxl_lightning_4step_lora.safetensors",
+    revision="c9a24f48e1c025556787b0c58dd67a091ece2e44",
+    expected_sha256="bf56cf2657efb15e465d81402ed481d1e11c4677e4bcce1bc11fe71ad8506b79",
+)
--- a/src/refiners/foundationals/swin/mvanet/converter.py
+++ b/src/refiners/foundationals/swin/mvanet/converter.py
@ -1,9 +1,14 @@
+import logging
 import re

-from torch import Tensor
+import requests
+import torch
+
+from refiners.conversion.utils import Conversion, Hub, TensorDict
+from refiners.fluxion.utils import save_to_safetensors


-def convert_weights(official_state_dict: dict[str, Tensor]) -> dict[str, Tensor]:
+def convert_weights(official_state_dict: TensorDict) -> TensorDict:
    rm_list = [
        # Official weights contains useless keys
        # See https://github.com/qianyu-dlut/MVANet/issues/3#issuecomment-2105650425
@ -136,3 +141,72 @@ def convert_weights(official_state_dict: dict[str, Tensor]) -> dict[str, Tensor]
        state_dict.pop(key)

    return state_dict
+
+
+class MVANetConversion(Conversion):
+    def __init__(
+        self,
+        original: Hub,
+        converted: Hub,
+        dtype: torch.dtype = torch.float16,
+    ) -> None:
+        self.original = original
+        self.converted = converted
+        self.dtype = dtype
+
+    def convert(self) -> None:  # type: ignore
+        """Convert the weights from the original to the converted weights."""
+        logging.info(f"Converting {self.original.repo_id}/{self.original.filename} to {self.converted.repo_id}")
+
+        # check if the converted file already exists
+        if self.converted.local_path.is_file():
+            logging.warning(f"{self.converted.local_path} already exists")
+            if self.converted.check_local_hash():
+                try:
+                    assert self.converted.check_remote_hash()
+                except requests.exceptions.HTTPError:
+                    logging.error(f"{self.converted.local_path} couldn't verify remote hash")
+                return
+
+        # get the original state_dict
+        self.original.download()
+
+        # load the original state_dict
+        original_weights = self.load_state_dict(self.original.local_path)
+
+        # convert the state_dict
+        converted_weights = convert_weights(original_weights)
+        converted_weights = self.change_dtype(converted_weights, self.dtype)
+
+        # save the converted state_dict
+        self.converted.local_path.parent.mkdir(parents=True, exist_ok=True)
+        save_to_safetensors(self.converted.local_path, converted_weights)
+
+        # check the converted state_dict
+        assert self.converted.check_local_hash()
+        try:
+            assert self.converted.check_remote_hash()
+        except requests.exceptions.HTTPError:
+            logging.warning(f"{self.converted.local_path} couldn't verify remote hash")
+
+
+mvanet = MVANetConversion(
+    original=Hub(
+        repo_id="creative-graphic-design/MVANet-checkpoints",
+        filename="Model_80.pth",
+        revision="62d38c42a28b999067e2f755e32b27249bcc66c6",
+        expected_sha256="ffec20a382b0a1832786438475e8b912a03be727a0e3197e7ab039153fb3bc46",
+    ),
+    converted=Hub(
+        repo_id="refiners/mvanet",
+        filename="model.safetensors",
+        expected_sha256="cca9a6e05e977ee9ac98b3f9a248430d7fe8385f7d249eaddece318e777788e5",
+    ),
+    dtype=torch.float16,
+)
+finegrain_v01 = Hub(
+    repo_id="finegrain/finegrain-box-segmenter",
+    filename="model.safetensors",
+    revision="v0.1",
+    expected_sha256="fd5f13919dfc0dda102df1af648c3773c61221aa65fe58d6af978637baded1ae",
+)
--- a/src/refiners/conversion/models/preprocessors.py
+++ b/src/refiners/conversion/models/preprocessors.py
@ -0,0 +1,36 @@
+import torch
+
+from refiners.conversion.utils import Conversion, Hub, WeightRecipe
+
+informative_drawings_recipe = WeightRecipe(
+    key_map={
+        "model0.1": "Chain_1.Conv2d",
+        "model1.0": "Chain_2.Conv2d",
+        "model1.3": "Chain_3.Conv2d",
+        "model2.0.conv_block.1": "Residual_1.Conv2d_1",
+        "model2.0.conv_block.5": "Residual_1.Conv2d_2",
+        "model2.1.conv_block.1": "Residual_2.Conv2d_1",
+        "model2.1.conv_block.5": "Residual_2.Conv2d_2",
+        "model2.2.conv_block.1": "Residual_3.Conv2d_1",
+        "model2.2.conv_block.5": "Residual_3.Conv2d_2",
+        "model3.0": "Chain_4.ConvTranspose2d",
+        "model3.3": "Chain_5.ConvTranspose2d",
+        "model4.1": "Chain_6.Conv2d",
+    },
+)
+
+informative_drawings = Conversion(
+    original=Hub(
+        repo_id="carolineec/informativedrawings",
+        filename="model.pth",
+        expected_sha256="30a534781061f34e83bb9406b4335da4ff2616c95d22a585c1245aa8363e74e0",
+        download_url="https://huggingface.co/spaces/carolineec/informativedrawings/resolve/main/model2.pth",
+    ),
+    converted=Hub(
+        repo_id="refiners/preprocessor.informativedrawings",
+        filename="model.safetensors",
+        expected_sha256="0f9a34bfcd95d89aedcc213b8d279ba1bab1279b73d8d009d1632d6276e6fcf3",
+    ),
+    recipe=informative_drawings_recipe,
+    dtype=torch.float32,
+)
--- a/src/refiners/conversion/models/sam.py
+++ b/src/refiners/conversion/models/sam.py
@ -0,0 +1,293 @@
+import logging
+import types
+from typing import Any, Callable, cast
+
+import requests
+import torch
+import torch.nn as nn
+from segment_anything import build_sam_vit_h  # type: ignore
+from segment_anything.modeling.common import LayerNorm2d  # type: ignore
+from torch import Tensor, nn
+
+import refiners.fluxion.layers as fl
+from refiners.conversion.model_converter import ModelConverter
+from refiners.conversion.utils import Conversion, Hub
+from refiners.fluxion.utils import load_tensors, manual_seed, save_to_safetensors
+from refiners.foundationals.segment_anything.image_encoder import PositionalEncoder, SAMViTH
+from refiners.foundationals.segment_anything.mask_decoder import MaskDecoder
+from refiners.foundationals.segment_anything.prompt_encoder import MaskEncoder, PointEncoder
+
+
+class FacebookSAM(nn.Module):
+    image_encoder: nn.Module
+    prompt_encoder: nn.Module
+    mask_decoder: nn.Module
+
+
+build_sam_vit_h = cast(Callable[[], FacebookSAM], build_sam_vit_h)
+
+
+assert issubclass(LayerNorm2d, nn.Module)
+custom_layers = {LayerNorm2d: fl.LayerNorm2d}
+
+
+def convert_mask_encoder(prompt_encoder: nn.Module) -> dict[str, Tensor]:
+    manual_seed(seed=0)
+    refiners_mask_encoder = MaskEncoder()
+
+    converter = ModelConverter(
+        source_model=prompt_encoder.mask_downscaling,
+        target_model=refiners_mask_encoder,
+        custom_layer_mapping=custom_layers,  # type: ignore
+        verbose=False,
+    )
+
+    x = torch.randn(1, 256, 256)
+    mapping = converter.map_state_dicts(source_args=(x,))
+    assert mapping
+
+    source_state_dict = prompt_encoder.mask_downscaling.state_dict()
+    target_state_dict = refiners_mask_encoder.state_dict()
+
+    # Mapping handled manually (see below) because nn.Parameter is a special case
+    del target_state_dict["no_mask_embedding"]
+
+    converted_source = converter._convert_state_dict(  # pyright: ignore[reportPrivateUsage]
+        source_state_dict=source_state_dict, target_state_dict=target_state_dict, state_dict_mapping=mapping
+    )
+
+    state_dict: dict[str, Tensor] = {
+        "no_mask_embedding": nn.Parameter(data=prompt_encoder.no_mask_embed.weight.clone()),  # type: ignore
+    }
+
+    state_dict.update(converted_source)
+
+    refiners_mask_encoder.load_state_dict(state_dict=state_dict)
+
+    return state_dict
+
+
+def convert_point_encoder(prompt_encoder: nn.Module) -> dict[str, Tensor]:
+    manual_seed(seed=0)
+    point_embeddings: list[Tensor] = [pe.weight for pe in prompt_encoder.point_embeddings] + [
+        prompt_encoder.not_a_point_embed.weight
+    ]  # type: ignore
+    pe = prompt_encoder.pe_layer.positional_encoding_gaussian_matrix  # type: ignore
+    assert isinstance(pe, Tensor)
+    state_dict: dict[str, Tensor] = {
+        "Residual.PointTypeEmbedding.weight": nn.Parameter(data=torch.cat(tensors=point_embeddings, dim=0)),
+        "CoordinateEncoder.Linear.weight": nn.Parameter(data=pe.T.contiguous()),
+    }
+
+    refiners_prompt_encoder = PointEncoder()
+    refiners_prompt_encoder.load_state_dict(state_dict=state_dict)
+
+    return state_dict
+
+
+def convert_vit(vit: nn.Module) -> dict[str, Tensor]:
+    manual_seed(seed=0)
+    refiners_sam_vit_h = SAMViTH()
+
+    converter = ModelConverter(
+        source_model=vit,
+        target_model=refiners_sam_vit_h,
+        custom_layer_mapping=custom_layers,  # type: ignore
+        verbose=False,
+    )
+    converter.skip_init_check = True
+
+    x = torch.randn(1, 3, 1024, 1024)
+    mapping = converter.map_state_dicts(source_args=(x,))
+    assert mapping
+
+    mapping["PositionalEncoder.Parameter.weight"] = "pos_embed"
+
+    target_state_dict = refiners_sam_vit_h.state_dict()
+    del target_state_dict["PositionalEncoder.Parameter.weight"]
+
+    source_state_dict = vit.state_dict()
+    pos_embed = source_state_dict["pos_embed"]
+    del source_state_dict["pos_embed"]
+
+    target_rel_keys = [
+        (
+            f"Transformer.TransformerLayer_{i}.Residual_1.FusedSelfAttention.RelativePositionAttention.horizontal_embedding",
+            f"Transformer.TransformerLayer_{i}.Residual_1.FusedSelfAttention.RelativePositionAttention.vertical_embedding",
+        )
+        for i in range(1, 33)
+    ]
+    source_rel_keys = [(f"blocks.{i}.attn.rel_pos_w", f"blocks.{i}.attn.rel_pos_h") for i in range(32)]
+
+    rel_items: dict[str, Tensor] = {}
+
+    for (key_w, key_h), (target_key_w, target_key_h) in zip(source_rel_keys, target_rel_keys):
+        rel_items[target_key_w] = source_state_dict[key_w]
+        rel_items[target_key_h] = source_state_dict[key_h]
+        del source_state_dict[key_w]
+        del source_state_dict[key_h]
+        del target_state_dict[target_key_w]
+        del target_state_dict[target_key_h]
+
+    converted_source = converter._convert_state_dict(  # pyright: ignore[reportPrivateUsage]
+        source_state_dict=source_state_dict, target_state_dict=target_state_dict, state_dict_mapping=mapping
+    )
+
+    positional_encoder = refiners_sam_vit_h.layer("PositionalEncoder", PositionalEncoder)
+    embed = pos_embed.reshape_as(positional_encoder.layer("Parameter", fl.Parameter).weight)
+    converted_source["PositionalEncoder.Parameter.weight"] = embed  # type: ignore
+    converted_source.update(rel_items)
+
+    refiners_sam_vit_h.load_state_dict(state_dict=converted_source)
+    assert converter.compare_models((x,), threshold=0.5)
+
+    return converted_source
+
+
+def convert_mask_decoder(mask_decoder: nn.Module) -> dict[str, Tensor]:
+    manual_seed(seed=0)
+
+    refiners_mask_decoder = MaskDecoder()
+
+    image_embedding = torch.randn(1, 256, 64, 64)
+    dense_positional_embedding = torch.randn(1, 256, 64, 64)
+    point_embedding = torch.randn(1, 3, 256)
+    mask_embedding = torch.randn(1, 256, 64, 64)
+
+    from segment_anything.modeling.common import LayerNorm2d  # type: ignore
+
+    import refiners.fluxion.layers as fl
+
+    assert issubclass(LayerNorm2d, nn.Module)
+    custom_layers = {LayerNorm2d: fl.LayerNorm2d}
+
+    converter = ModelConverter(
+        source_model=mask_decoder,
+        target_model=refiners_mask_decoder,
+        custom_layer_mapping=custom_layers,  # type: ignore
+        verbose=False,
+    )
+
+    inputs = {
+        "image_embeddings": image_embedding,
+        "image_pe": dense_positional_embedding,
+        "sparse_prompt_embeddings": point_embedding,
+        "dense_prompt_embeddings": mask_embedding,
+        "multimask_output": True,
+    }
+
+    refiners_mask_decoder.set_image_embedding(image_embedding)
+    refiners_mask_decoder.set_point_embedding(point_embedding)
+    refiners_mask_decoder.set_mask_embedding(mask_embedding)
+    refiners_mask_decoder.set_dense_positional_embedding(dense_positional_embedding)
+
+    mapping = converter.map_state_dicts(source_args=inputs, target_args={})
+    assert mapping is not None
+    mapping["MaskDecoderTokens.Parameter"] = "iou_token"
+
+    state_dict = converter._convert_state_dict(  # type: ignore
+        source_state_dict=mask_decoder.state_dict(),
+        target_state_dict=refiners_mask_decoder.state_dict(),
+        state_dict_mapping=mapping,
+    )
+    state_dict["MaskDecoderTokens.Parameter.weight"] = torch.cat(
+        tensors=[mask_decoder.iou_token.weight, mask_decoder.mask_tokens.weight], dim=0
+    )  # type: ignore
+    refiners_mask_decoder.load_state_dict(state_dict=state_dict)
+
+    refiners_mask_decoder.set_image_embedding(image_embedding)
+    refiners_mask_decoder.set_point_embedding(point_embedding)
+    refiners_mask_decoder.set_mask_embedding(mask_embedding)
+    refiners_mask_decoder.set_dense_positional_embedding(dense_positional_embedding)
+
+    # Perform (1) upscaling then (2) mask prediction in this order (= like in the official implementation) to make
+    # `compare_models` happy (MaskPrediction's Matmul runs those in the reverse order by default)
+    matmul = refiners_mask_decoder.ensure_find(fl.Matmul)
+
+    def forward_swapped_order(self: Any, *args: Any) -> Any:
+        y = self[1](*args)  # (1)
+        x = self[0](*args)  # (2)
+        return torch.matmul(input=x, other=y)
+
+    matmul.forward = types.MethodType(forward_swapped_order, matmul)
+
+    assert converter.compare_models(source_args=inputs, target_args={}, threshold=1e-3)
+
+    return state_dict
+
+
+# TODO(laurent): convert this to a simple mapping
+class ModelConverterHubDuo(Conversion):
+    def __init__(
+        self,
+        original: Hub,
+        converted: Hub,
+        dtype: torch.dtype,
+    ) -> None:
+        self.original = original
+        self.converted = converted
+        self.dtype = dtype
+
+    def convert(self) -> None:
+        logging.info(f"Converting {self.original.repo_id} to {self.converted.repo_id}")
+
+        # check if the converted file already exists
+        if self.converted.local_path.is_file():
+            logging.warning(f"{self.converted.local_path} already exists")
+            if self.converted.check_local_hash():
+                try:
+                    assert self.converted.check_remote_hash()
+                except requests.exceptions.HTTPError:
+                    logging.error(f"{self.converted.local_path} couldn't verify remote hash")
+                return
+
+        # get the original state_dict
+        self.original.download()
+
+        # load the original model
+        sam_h = build_sam_vit_h()  # type: ignore
+        sam_h.load_state_dict(state_dict=load_tensors(self.original.local_path))
+
+        # convert each part of the model
+        vit_state_dict = convert_vit(vit=sam_h.image_encoder)
+        mask_decoder_state_dict = convert_mask_decoder(mask_decoder=sam_h.mask_decoder)
+        point_encoder_state_dict = convert_point_encoder(prompt_encoder=sam_h.prompt_encoder)
+        mask_encoder_state_dict = convert_mask_encoder(prompt_encoder=sam_h.prompt_encoder)
+
+        # build the entire state_dict
+        output_state_dict = {
+            **{f"SAMViTH.{key}": value for key, value in vit_state_dict.items()},
+            **{f"MaskDecoder.{key}": value for key, value in mask_decoder_state_dict.items()},
+            **{f"PointEncoder.{key}": value for key, value in point_encoder_state_dict.items()},
+            **{f"MaskEncoder.{key}": value for key, value in mask_encoder_state_dict.items()},
+        }
+
+        # extract the state_dict from the DoubleTextEncoder model
+        state_dict = self.change_dtype(output_state_dict, self.dtype)
+
+        # save the converted state_dict
+        self.converted.local_path.parent.mkdir(parents=True, exist_ok=True)
+        save_to_safetensors(self.converted.local_path, state_dict)
+
+        # check the converted state_dict
+        assert self.converted.check_local_hash()
+        try:
+            assert self.converted.check_remote_hash()
+        except requests.exceptions.HTTPError:
+            logging.warning(f"{self.converted.local_path} couldn't verify remote hash")
+
+
+vit_h = ModelConverterHubDuo(
+    original=Hub(
+        repo_id="facebook/github_segment_anything",
+        filename="sam_vit_h.pth",
+        expected_sha256="a7bf3b02f3ebf1267aba913ff637d9a2d5c33d3173bb679e46d9f338c26f262e",
+        download_url="https://dl.fbaipublicfiles.com/segment_anything/sam_vit_h_4b8939.pth",
+    ),
+    converted=Hub(
+        repo_id="refiners/sam.vit_h",
+        filename="model.safetensors",
+        expected_sha256="acc3034e9253b8e91d3e56b12e4c846c5bd44b640fd2e08bf328229f4714e8cf",
+    ),
+    dtype=torch.float32,
+)
--- a/src/refiners/conversion/models/t2iadapter_sd15.py
+++ b/src/refiners/conversion/models/t2iadapter_sd15.py
@ -0,0 +1,46 @@
+import torch
+
+from refiners.conversion.utils import Conversion, Hub, WeightRecipe
+
+diffusers_recipe = WeightRecipe(
+    key_map={
+        "adapter.conv_in": "Conv2d",
+        "adapter.body.0.resnets.0.block1": "StatefulResidualBlocks_1.ResidualBlocks.Chain.ResidualBlock_1.Conv2d_1",
+        "adapter.body.0.resnets.1.block1": "StatefulResidualBlocks_1.ResidualBlocks.Chain.ResidualBlock_2.Conv2d_1",
+        "adapter.body.0.resnets.0.block2": "StatefulResidualBlocks_1.ResidualBlocks.Chain.ResidualBlock_1.Conv2d_2",
+        "adapter.body.0.resnets.1.block2": "StatefulResidualBlocks_1.ResidualBlocks.Chain.ResidualBlock_2.Conv2d_2",
+        "adapter.body.1.downsample": "StatefulResidualBlocks_2.ResidualBlocks.Downsample2d",
+        "adapter.body.2.downsample": "StatefulResidualBlocks_3.ResidualBlocks.Downsample2d",
+        "adapter.body.3.downsample": "StatefulResidualBlocks_4.ResidualBlocks.Downsample2d",
+        "adapter.body.1.in_conv": "StatefulResidualBlocks_2.ResidualBlocks.Conv2d",
+        "adapter.body.1.resnets.0.block1": "StatefulResidualBlocks_2.ResidualBlocks.Chain.ResidualBlock_1.Conv2d_1",
+        "adapter.body.1.resnets.1.block1": "StatefulResidualBlocks_2.ResidualBlocks.Chain.ResidualBlock_2.Conv2d_1",
+        "adapter.body.1.resnets.0.block2": "StatefulResidualBlocks_2.ResidualBlocks.Chain.ResidualBlock_1.Conv2d_2",
+        "adapter.body.1.resnets.1.block2": "StatefulResidualBlocks_2.ResidualBlocks.Chain.ResidualBlock_2.Conv2d_2",
+        "adapter.body.2.in_conv": "StatefulResidualBlocks_3.ResidualBlocks.Conv2d",
+        "adapter.body.2.resnets.0.block1": "StatefulResidualBlocks_3.ResidualBlocks.Chain.ResidualBlock_1.Conv2d_1",
+        "adapter.body.2.resnets.1.block1": "StatefulResidualBlocks_3.ResidualBlocks.Chain.ResidualBlock_2.Conv2d_1",
+        "adapter.body.3.resnets.0.block1": "StatefulResidualBlocks_4.ResidualBlocks.Chain.ResidualBlock_1.Conv2d_1",
+        "adapter.body.3.resnets.1.block1": "StatefulResidualBlocks_4.ResidualBlocks.Chain.ResidualBlock_2.Conv2d_1",
+        "adapter.body.2.resnets.0.block2": "StatefulResidualBlocks_3.ResidualBlocks.Chain.ResidualBlock_1.Conv2d_2",
+        "adapter.body.2.resnets.1.block2": "StatefulResidualBlocks_3.ResidualBlocks.Chain.ResidualBlock_2.Conv2d_2",
+        "adapter.body.3.resnets.0.block2": "StatefulResidualBlocks_4.ResidualBlocks.Chain.ResidualBlock_1.Conv2d_2",
+        "adapter.body.3.resnets.1.block2": "StatefulResidualBlocks_4.ResidualBlocks.Chain.ResidualBlock_2.Conv2d_2",
+    },
+)
+
+depth = Conversion(
+    original=Hub(
+        repo_id="TencentARC/t2iadapter_depth_sd15v2",
+        filename="diffusion_pytorch_model.bin",
+        revision="9f96518933daa6c9386692914f72af81a0f6978f",
+        expected_sha256="68aaebf5e7d5eeb62eaea9476c68d279ba98d0876b385cc925e12c43cee19edd",
+    ),
+    converted=Hub(
+        repo_id="refiners/sd15.t2i_adapter.depth",
+        filename="model.safetensors",
+        expected_sha256="0178baeb59713ef4ae4dcbca0a2d3447fdd42bbeeaed019d3dc01f0f1913f74f",
+    ),
+    recipe=diffusers_recipe,
+    dtype=torch.float16,
+)
--- a/src/refiners/conversion/models/t2iadapter_sdxl.py
+++ b/src/refiners/conversion/models/t2iadapter_sdxl.py
@ -0,0 +1,44 @@
+import torch
+
+from refiners.conversion.utils import Conversion, Hub, WeightRecipe
+
+diffusers_recipe = WeightRecipe(
+    key_map={
+        "adapter.conv_in": "Conv2d",
+        "adapter.body.0.resnets.0.block1": "StatefulResidualBlocks_1.ResidualBlocks.Chain.ResidualBlock_1.Conv2d_1",
+        "adapter.body.0.resnets.1.block1": "StatefulResidualBlocks_1.ResidualBlocks.Chain.ResidualBlock_2.Conv2d_1",
+        "adapter.body.0.resnets.0.block2": "StatefulResidualBlocks_1.ResidualBlocks.Chain.ResidualBlock_1.Conv2d_2",
+        "adapter.body.0.resnets.1.block2": "StatefulResidualBlocks_1.ResidualBlocks.Chain.ResidualBlock_2.Conv2d_2",
+        "adapter.body.1.in_conv": "StatefulResidualBlocks_2.ResidualBlocks.Conv2d",
+        "adapter.body.1.resnets.0.block1": "StatefulResidualBlocks_2.ResidualBlocks.Chain.ResidualBlock_1.Conv2d_1",
+        "adapter.body.1.resnets.1.block1": "StatefulResidualBlocks_2.ResidualBlocks.Chain.ResidualBlock_2.Conv2d_1",
+        "adapter.body.1.resnets.0.block2": "StatefulResidualBlocks_2.ResidualBlocks.Chain.ResidualBlock_1.Conv2d_2",
+        "adapter.body.1.resnets.1.block2": "StatefulResidualBlocks_2.ResidualBlocks.Chain.ResidualBlock_2.Conv2d_2",
+        "adapter.body.2.downsample": "StatefulResidualBlocks_3.ResidualBlocks.Downsample2d",
+        "adapter.body.2.in_conv": "StatefulResidualBlocks_3.ResidualBlocks.Conv2d",
+        "adapter.body.2.resnets.0.block1": "StatefulResidualBlocks_3.ResidualBlocks.Chain.ResidualBlock_1.Conv2d_1",
+        "adapter.body.2.resnets.1.block1": "StatefulResidualBlocks_3.ResidualBlocks.Chain.ResidualBlock_2.Conv2d_1",
+        "adapter.body.3.resnets.0.block1": "StatefulResidualBlocks_4.ResidualBlocks.Chain.ResidualBlock_1.Conv2d_1",
+        "adapter.body.3.resnets.1.block1": "StatefulResidualBlocks_4.ResidualBlocks.Chain.ResidualBlock_2.Conv2d_1",
+        "adapter.body.2.resnets.0.block2": "StatefulResidualBlocks_3.ResidualBlocks.Chain.ResidualBlock_1.Conv2d_2",
+        "adapter.body.2.resnets.1.block2": "StatefulResidualBlocks_3.ResidualBlocks.Chain.ResidualBlock_2.Conv2d_2",
+        "adapter.body.3.resnets.0.block2": "StatefulResidualBlocks_4.ResidualBlocks.Chain.ResidualBlock_1.Conv2d_2",
+        "adapter.body.3.resnets.1.block2": "StatefulResidualBlocks_4.ResidualBlocks.Chain.ResidualBlock_2.Conv2d_2",
+    },
+)
+
+canny = Conversion(
+    original=Hub(
+        repo_id="TencentARC/t2i-adapter-canny-sdxl-1.0",
+        filename="diffusion_pytorch_model.safetensors",
+        revision="2d7244ba45ded9129cfbf8e96a4befb7f6094210",
+        expected_sha256="b601b28b7df0c0dcbbaf704ab8ba6fd22bcf35c9a875fa0c9bc933d47cc27438",
+    ),
+    converted=Hub(
+        repo_id="refiners/sdxl.t2i_adapter.canny",
+        filename="model.safetensors",
+        expected_sha256="3aabc9b964b220b0ff80ad383eebf1885f6298f74425c1dbee659c86127d4b60",
+    ),
+    recipe=diffusers_recipe,
+    dtype=torch.float16,
+)
--- a/src/refiners/conversion/models/unet_sd15.py
+++ b/src/refiners/conversion/models/unet_sd15.py
@ -0,0 +1,949 @@
+import torch
+
+from refiners.conversion.utils import Conversion, Hub, WeightRecipe
+
+diffusers_recipe = WeightRecipe(
+    key_map={
+        "time_embedding.linear_1": "TimestepEncoder.RangeEncoder.Linear_1",
+        "time_embedding.linear_2": "TimestepEncoder.RangeEncoder.Linear_2",
+        "down_blocks.2.resnets.0.time_emb_proj": "DownBlocks.Chain_8.ResidualBlock.Chain.RangeAdapter2d.Chain.Linear",
+        "down_blocks.2.attentions.0.transformer_blocks.0.attn1.to_out.0": "DownBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Linear",
+        "down_blocks.2.attentions.0.transformer_blocks.0.attn2.to_out.0": "DownBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Linear",
+        "down_blocks.2.resnets.1.time_emb_proj": "DownBlocks.Chain_9.ResidualBlock.Chain.RangeAdapter2d.Chain.Linear",
+        "down_blocks.2.attentions.1.transformer_blocks.0.attn1.to_out.0": "DownBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Linear",
+        "down_blocks.2.attentions.1.transformer_blocks.0.attn2.to_out.0": "DownBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Linear",
+        "down_blocks.3.resnets.0.time_emb_proj": "DownBlocks.Chain_11.ResidualBlock.Chain.RangeAdapter2d.Chain.Linear",
+        "down_blocks.3.resnets.1.time_emb_proj": "DownBlocks.Chain_12.ResidualBlock.Chain.RangeAdapter2d.Chain.Linear",
+        "mid_block.resnets.0.time_emb_proj": "Sum.MiddleBlock.ResidualBlock_1.Chain.RangeAdapter2d.Chain.Linear",
+        "mid_block.attentions.0.transformer_blocks.0.attn1.to_out.0": "Sum.MiddleBlock.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Linear",
+        "mid_block.attentions.0.transformer_blocks.0.attn2.to_out.0": "Sum.MiddleBlock.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Linear",
+        "mid_block.resnets.1.time_emb_proj": "Sum.MiddleBlock.ResidualBlock_2.Chain.RangeAdapter2d.Chain.Linear",
+        "up_blocks.0.resnets.0.time_emb_proj": "UpBlocks.Chain_1.ResidualBlock.Chain.RangeAdapter2d.Chain.Linear",
+        "up_blocks.0.resnets.1.time_emb_proj": "UpBlocks.Chain_2.ResidualBlock.Chain.RangeAdapter2d.Chain.Linear",
+        "up_blocks.0.resnets.2.time_emb_proj": "UpBlocks.Chain_3.ResidualBlock.Chain.RangeAdapter2d.Chain.Linear",
+        "up_blocks.1.resnets.0.time_emb_proj": "UpBlocks.Chain_4.ResidualBlock.Chain.RangeAdapter2d.Chain.Linear",
+        "up_blocks.1.attentions.0.transformer_blocks.0.attn1.to_out.0": "UpBlocks.Chain_4.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Linear",
+        "up_blocks.1.attentions.0.transformer_blocks.0.attn2.to_out.0": "UpBlocks.Chain_4.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Linear",
+        "up_blocks.1.resnets.1.time_emb_proj": "UpBlocks.Chain_5.ResidualBlock.Chain.RangeAdapter2d.Chain.Linear",
+        "up_blocks.1.attentions.1.transformer_blocks.0.attn1.to_out.0": "UpBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Linear",
+        "up_blocks.1.attentions.1.transformer_blocks.0.attn2.to_out.0": "UpBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Linear",
+        "up_blocks.1.resnets.2.time_emb_proj": "UpBlocks.Chain_6.ResidualBlock.Chain.RangeAdapter2d.Chain.Linear",
+        "up_blocks.1.attentions.2.transformer_blocks.0.attn1.to_out.0": "UpBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Linear",
+        "up_blocks.1.attentions.2.transformer_blocks.0.attn2.to_out.0": "UpBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Linear",
+        "conv_in": "DownBlocks.Chain_1.Conv2d",
+        "down_blocks.0.resnets.0.norm1": "DownBlocks.Chain_2.ResidualBlock.Chain.GroupNorm_1",
+        "down_blocks.0.resnets.0.norm2": "DownBlocks.Chain_2.ResidualBlock.Chain.GroupNorm_2",
+        "down_blocks.0.attentions.0.norm": "DownBlocks.Chain_2.CLIPLCrossAttention.Chain_1.GroupNorm",
+        "down_blocks.0.resnets.1.norm1": "DownBlocks.Chain_3.ResidualBlock.Chain.GroupNorm_1",
+        "down_blocks.0.resnets.1.norm2": "DownBlocks.Chain_3.ResidualBlock.Chain.GroupNorm_2",
+        "down_blocks.0.attentions.1.norm": "DownBlocks.Chain_3.CLIPLCrossAttention.Chain_1.GroupNorm",
+        "down_blocks.1.resnets.0.norm1": "DownBlocks.Chain_5.ResidualBlock.Chain.GroupNorm_1",
+        "up_blocks.3.resnets.0.norm2": "UpBlocks.Chain_10.ResidualBlock.Chain.GroupNorm_2",
+        "up_blocks.3.attentions.0.norm": "UpBlocks.Chain_10.CLIPLCrossAttention.Chain_1.GroupNorm",
+        "up_blocks.3.resnets.1.norm2": "UpBlocks.Chain_11.ResidualBlock.Chain.GroupNorm_2",
+        "up_blocks.3.attentions.1.norm": "UpBlocks.Chain_11.CLIPLCrossAttention.Chain_1.GroupNorm",
+        "up_blocks.3.resnets.2.norm2": "UpBlocks.Chain_12.ResidualBlock.Chain.GroupNorm_2",
+        "up_blocks.3.attentions.2.norm": "UpBlocks.Chain_12.CLIPLCrossAttention.Chain_1.GroupNorm",
+        "conv_norm_out": "Chain.GroupNorm",
+        "down_blocks.0.resnets.0.conv1": "DownBlocks.Chain_2.ResidualBlock.Chain.RangeAdapter2d.Conv2d",
+        "down_blocks.0.resnets.0.conv2": "DownBlocks.Chain_2.ResidualBlock.Chain.Conv2d",
+        "down_blocks.0.resnets.1.conv1": "DownBlocks.Chain_3.ResidualBlock.Chain.RangeAdapter2d.Conv2d",
+        "down_blocks.0.resnets.1.conv2": "DownBlocks.Chain_3.ResidualBlock.Chain.Conv2d",
+        "down_blocks.0.downsamplers.0.conv": "DownBlocks.Chain_4.Downsample.Conv2d",
+        "up_blocks.3.resnets.0.conv2": "UpBlocks.Chain_10.ResidualBlock.Chain.Conv2d",
+        "up_blocks.3.resnets.1.conv2": "UpBlocks.Chain_11.ResidualBlock.Chain.Conv2d",
+        "up_blocks.3.resnets.2.conv2": "UpBlocks.Chain_12.ResidualBlock.Chain.Conv2d",
+        "down_blocks.0.resnets.0.time_emb_proj": "DownBlocks.Chain_2.ResidualBlock.Chain.RangeAdapter2d.Chain.Linear",
+        "down_blocks.0.attentions.0.transformer_blocks.0.ff.net.2": "DownBlocks.Chain_2.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_2",
+        "down_blocks.0.resnets.1.time_emb_proj": "DownBlocks.Chain_3.ResidualBlock.Chain.RangeAdapter2d.Chain.Linear",
+        "down_blocks.0.attentions.1.transformer_blocks.0.ff.net.2": "DownBlocks.Chain_3.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_2",
+        "up_blocks.3.resnets.0.time_emb_proj": "UpBlocks.Chain_10.ResidualBlock.Chain.RangeAdapter2d.Chain.Linear",
+        "up_blocks.3.attentions.0.transformer_blocks.0.ff.net.2": "UpBlocks.Chain_10.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_2",
+        "up_blocks.3.resnets.1.time_emb_proj": "UpBlocks.Chain_11.ResidualBlock.Chain.RangeAdapter2d.Chain.Linear",
+        "up_blocks.3.attentions.1.transformer_blocks.0.ff.net.2": "UpBlocks.Chain_11.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_2",
+        "up_blocks.3.resnets.2.time_emb_proj": "UpBlocks.Chain_12.ResidualBlock.Chain.RangeAdapter2d.Chain.Linear",
+        "up_blocks.3.attentions.2.transformer_blocks.0.ff.net.2": "UpBlocks.Chain_12.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_2",
+        "down_blocks.0.attentions.0.proj_in": "DownBlocks.Chain_2.CLIPLCrossAttention.Chain_1.Conv2d",
+        "down_blocks.0.attentions.0.proj_out": "DownBlocks.Chain_2.CLIPLCrossAttention.Chain_3.Conv2d",
+        "down_blocks.0.attentions.1.proj_in": "DownBlocks.Chain_3.CLIPLCrossAttention.Chain_1.Conv2d",
+        "down_blocks.0.attentions.1.proj_out": "DownBlocks.Chain_3.CLIPLCrossAttention.Chain_3.Conv2d",
+        "up_blocks.3.attentions.0.proj_in": "UpBlocks.Chain_10.CLIPLCrossAttention.Chain_1.Conv2d",
+        "up_blocks.3.attentions.0.proj_out": "UpBlocks.Chain_10.CLIPLCrossAttention.Chain_3.Conv2d",
+        "up_blocks.3.attentions.1.proj_in": "UpBlocks.Chain_11.CLIPLCrossAttention.Chain_1.Conv2d",
+        "up_blocks.3.attentions.1.proj_out": "UpBlocks.Chain_11.CLIPLCrossAttention.Chain_3.Conv2d",
+        "up_blocks.3.attentions.2.proj_in": "UpBlocks.Chain_12.CLIPLCrossAttention.Chain_1.Conv2d",
+        "up_blocks.3.attentions.2.proj_out": "UpBlocks.Chain_12.CLIPLCrossAttention.Chain_3.Conv2d",
+        "down_blocks.0.attentions.0.transformer_blocks.0.norm1": "DownBlocks.Chain_2.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.LayerNorm",
+        "down_blocks.0.attentions.0.transformer_blocks.0.norm2": "DownBlocks.Chain_2.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.LayerNorm",
+        "down_blocks.0.attentions.0.transformer_blocks.0.norm3": "DownBlocks.Chain_2.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.LayerNorm",
+        "down_blocks.0.attentions.1.transformer_blocks.0.norm1": "DownBlocks.Chain_3.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.LayerNorm",
+        "down_blocks.0.attentions.1.transformer_blocks.0.norm2": "DownBlocks.Chain_3.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.LayerNorm",
+        "down_blocks.0.attentions.1.transformer_blocks.0.norm3": "DownBlocks.Chain_3.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.LayerNorm",
+        "up_blocks.3.attentions.0.transformer_blocks.0.norm1": "UpBlocks.Chain_10.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.LayerNorm",
+        "up_blocks.3.attentions.0.transformer_blocks.0.norm2": "UpBlocks.Chain_10.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.LayerNorm",
+        "up_blocks.3.attentions.0.transformer_blocks.0.norm3": "UpBlocks.Chain_10.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.LayerNorm",
+        "up_blocks.3.attentions.1.transformer_blocks.0.norm1": "UpBlocks.Chain_11.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.LayerNorm",
+        "up_blocks.3.attentions.1.transformer_blocks.0.norm2": "UpBlocks.Chain_11.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.LayerNorm",
+        "up_blocks.3.attentions.1.transformer_blocks.0.norm3": "UpBlocks.Chain_11.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.LayerNorm",
+        "up_blocks.3.attentions.2.transformer_blocks.0.norm1": "UpBlocks.Chain_12.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.LayerNorm",
+        "up_blocks.3.attentions.2.transformer_blocks.0.norm2": "UpBlocks.Chain_12.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.LayerNorm",
+        "up_blocks.3.attentions.2.transformer_blocks.0.norm3": "UpBlocks.Chain_12.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.LayerNorm",
+        "down_blocks.0.attentions.0.transformer_blocks.0.attn1.to_q": "DownBlocks.Chain_2.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_1",
+        "down_blocks.0.attentions.0.transformer_blocks.0.attn1.to_k": "DownBlocks.Chain_2.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_2",
+        "down_blocks.0.attentions.0.transformer_blocks.0.attn1.to_v": "DownBlocks.Chain_2.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_3",
+        "down_blocks.0.attentions.0.transformer_blocks.0.attn2.to_q": "DownBlocks.Chain_2.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_1",
+        "down_blocks.0.attentions.1.transformer_blocks.0.attn1.to_q": "DownBlocks.Chain_3.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_1",
+        "down_blocks.0.attentions.1.transformer_blocks.0.attn1.to_k": "DownBlocks.Chain_3.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_2",
+        "down_blocks.0.attentions.1.transformer_blocks.0.attn1.to_v": "DownBlocks.Chain_3.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_3",
+        "down_blocks.0.attentions.1.transformer_blocks.0.attn2.to_q": "DownBlocks.Chain_3.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_1",
+        "up_blocks.3.attentions.0.transformer_blocks.0.attn1.to_q": "UpBlocks.Chain_10.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_1",
+        "up_blocks.3.attentions.0.transformer_blocks.0.attn1.to_k": "UpBlocks.Chain_10.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_2",
+        "up_blocks.3.attentions.0.transformer_blocks.0.attn1.to_v": "UpBlocks.Chain_10.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_3",
+        "up_blocks.3.attentions.0.transformer_blocks.0.attn2.to_q": "UpBlocks.Chain_10.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_1",
+        "up_blocks.3.attentions.1.transformer_blocks.0.attn1.to_q": "UpBlocks.Chain_11.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_1",
+        "up_blocks.3.attentions.1.transformer_blocks.0.attn1.to_k": "UpBlocks.Chain_11.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_2",
+        "up_blocks.3.attentions.1.transformer_blocks.0.attn1.to_v": "UpBlocks.Chain_11.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_3",
+        "up_blocks.3.attentions.1.transformer_blocks.0.attn2.to_q": "UpBlocks.Chain_11.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_1",
+        "up_blocks.3.attentions.2.transformer_blocks.0.attn1.to_q": "UpBlocks.Chain_12.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_1",
+        "up_blocks.3.attentions.2.transformer_blocks.0.attn1.to_k": "UpBlocks.Chain_12.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_2",
+        "up_blocks.3.attentions.2.transformer_blocks.0.attn1.to_v": "UpBlocks.Chain_12.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_3",
+        "up_blocks.3.attentions.2.transformer_blocks.0.attn2.to_q": "UpBlocks.Chain_12.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_1",
+        "down_blocks.0.attentions.0.transformer_blocks.0.attn1.to_out.0": "DownBlocks.Chain_2.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Linear",
+        "down_blocks.0.attentions.0.transformer_blocks.0.attn2.to_out.0": "DownBlocks.Chain_2.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Linear",
+        "down_blocks.0.attentions.1.transformer_blocks.0.attn1.to_out.0": "DownBlocks.Chain_3.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Linear",
+        "down_blocks.0.attentions.1.transformer_blocks.0.attn2.to_out.0": "DownBlocks.Chain_3.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Linear",
+        "up_blocks.3.attentions.0.transformer_blocks.0.attn1.to_out.0": "UpBlocks.Chain_10.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Linear",
+        "up_blocks.3.attentions.0.transformer_blocks.0.attn2.to_out.0": "UpBlocks.Chain_10.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Linear",
+        "up_blocks.3.attentions.1.transformer_blocks.0.attn1.to_out.0": "UpBlocks.Chain_11.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Linear",
+        "up_blocks.3.attentions.1.transformer_blocks.0.attn2.to_out.0": "UpBlocks.Chain_11.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Linear",
+        "up_blocks.3.attentions.2.transformer_blocks.0.attn1.to_out.0": "UpBlocks.Chain_12.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Linear",
+        "up_blocks.3.attentions.2.transformer_blocks.0.attn2.to_out.0": "UpBlocks.Chain_12.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Linear",
+        "down_blocks.0.attentions.0.transformer_blocks.0.attn2.to_k": "DownBlocks.Chain_2.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_2",
+        "down_blocks.0.attentions.0.transformer_blocks.0.attn2.to_v": "DownBlocks.Chain_2.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_3",
+        "down_blocks.0.attentions.1.transformer_blocks.0.attn2.to_k": "DownBlocks.Chain_3.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_2",
+        "down_blocks.0.attentions.1.transformer_blocks.0.attn2.to_v": "DownBlocks.Chain_3.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_3",
+        "up_blocks.3.attentions.0.transformer_blocks.0.attn2.to_k": "UpBlocks.Chain_10.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_2",
+        "up_blocks.3.attentions.0.transformer_blocks.0.attn2.to_v": "UpBlocks.Chain_10.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_3",
+        "up_blocks.3.attentions.1.transformer_blocks.0.attn2.to_k": "UpBlocks.Chain_11.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_2",
+        "up_blocks.3.attentions.1.transformer_blocks.0.attn2.to_v": "UpBlocks.Chain_11.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_3",
+        "up_blocks.3.attentions.2.transformer_blocks.0.attn2.to_k": "UpBlocks.Chain_12.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_2",
+        "up_blocks.3.attentions.2.transformer_blocks.0.attn2.to_v": "UpBlocks.Chain_12.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_3",
+        "down_blocks.0.attentions.0.transformer_blocks.0.ff.net.0.proj": "DownBlocks.Chain_2.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_1",
+        "down_blocks.0.attentions.1.transformer_blocks.0.ff.net.0.proj": "DownBlocks.Chain_3.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_1",
+        "up_blocks.3.attentions.0.transformer_blocks.0.ff.net.0.proj": "UpBlocks.Chain_10.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_1",
+        "up_blocks.3.attentions.1.transformer_blocks.0.ff.net.0.proj": "UpBlocks.Chain_11.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_1",
+        "up_blocks.3.attentions.2.transformer_blocks.0.ff.net.0.proj": "UpBlocks.Chain_12.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_1",
+        "down_blocks.1.resnets.0.conv1": "DownBlocks.Chain_5.ResidualBlock.Chain.RangeAdapter2d.Conv2d",
+        "down_blocks.1.resnets.0.time_emb_proj": "DownBlocks.Chain_5.ResidualBlock.Chain.RangeAdapter2d.Chain.Linear",
+        "down_blocks.1.resnets.1.time_emb_proj": "DownBlocks.Chain_6.ResidualBlock.Chain.RangeAdapter2d.Chain.Linear",
+        "up_blocks.2.resnets.0.time_emb_proj": "UpBlocks.Chain_7.ResidualBlock.Chain.RangeAdapter2d.Chain.Linear",
+        "up_blocks.2.resnets.1.time_emb_proj": "UpBlocks.Chain_8.ResidualBlock.Chain.RangeAdapter2d.Chain.Linear",
+        "up_blocks.2.resnets.2.time_emb_proj": "UpBlocks.Chain_9.ResidualBlock.Chain.RangeAdapter2d.Chain.Linear",
+        "down_blocks.1.resnets.0.norm2": "DownBlocks.Chain_5.ResidualBlock.Chain.GroupNorm_2",
+        "down_blocks.1.attentions.0.norm": "DownBlocks.Chain_5.CLIPLCrossAttention.Chain_1.GroupNorm",
+        "down_blocks.1.resnets.1.norm1": "DownBlocks.Chain_6.ResidualBlock.Chain.GroupNorm_1",
+        "down_blocks.1.resnets.1.norm2": "DownBlocks.Chain_6.ResidualBlock.Chain.GroupNorm_2",
+        "down_blocks.1.attentions.1.norm": "DownBlocks.Chain_6.CLIPLCrossAttention.Chain_1.GroupNorm",
+        "down_blocks.2.resnets.0.norm1": "DownBlocks.Chain_8.ResidualBlock.Chain.GroupNorm_1",
+        "up_blocks.2.resnets.0.norm2": "UpBlocks.Chain_7.ResidualBlock.Chain.GroupNorm_2",
+        "up_blocks.2.attentions.0.norm": "UpBlocks.Chain_7.CLIPLCrossAttention.Chain_1.GroupNorm",
+        "up_blocks.2.resnets.1.norm2": "UpBlocks.Chain_8.ResidualBlock.Chain.GroupNorm_2",
+        "up_blocks.2.attentions.1.norm": "UpBlocks.Chain_8.CLIPLCrossAttention.Chain_1.GroupNorm",
+        "up_blocks.2.resnets.2.norm2": "UpBlocks.Chain_9.ResidualBlock.Chain.GroupNorm_2",
+        "up_blocks.2.attentions.2.norm": "UpBlocks.Chain_9.CLIPLCrossAttention.Chain_1.GroupNorm",
+        "up_blocks.3.resnets.1.norm1": "UpBlocks.Chain_11.ResidualBlock.Chain.GroupNorm_1",
+        "up_blocks.3.resnets.2.norm1": "UpBlocks.Chain_12.ResidualBlock.Chain.GroupNorm_1",
+        "down_blocks.1.resnets.0.conv2": "DownBlocks.Chain_5.ResidualBlock.Chain.Conv2d",
+        "down_blocks.1.resnets.1.conv1": "DownBlocks.Chain_6.ResidualBlock.Chain.RangeAdapter2d.Conv2d",
+        "down_blocks.1.resnets.1.conv2": "DownBlocks.Chain_6.ResidualBlock.Chain.Conv2d",
+        "down_blocks.1.downsamplers.0.conv": "DownBlocks.Chain_7.Downsample.Conv2d",
+        "up_blocks.2.resnets.0.conv2": "UpBlocks.Chain_7.ResidualBlock.Chain.Conv2d",
+        "up_blocks.2.resnets.1.conv2": "UpBlocks.Chain_8.ResidualBlock.Chain.Conv2d",
+        "up_blocks.2.resnets.2.conv2": "UpBlocks.Chain_9.ResidualBlock.Chain.Conv2d",
+        "up_blocks.2.upsamplers.0.conv": "UpBlocks.Chain_9.Upsample.Conv2d",
+        "down_blocks.1.resnets.0.conv_shortcut": "DownBlocks.Chain_5.ResidualBlock.Conv2d",
+        "down_blocks.1.attentions.0.proj_in": "DownBlocks.Chain_5.CLIPLCrossAttention.Chain_1.Conv2d",
+        "down_blocks.1.attentions.0.proj_out": "DownBlocks.Chain_5.CLIPLCrossAttention.Chain_3.Conv2d",
+        "down_blocks.1.attentions.1.proj_in": "DownBlocks.Chain_6.CLIPLCrossAttention.Chain_1.Conv2d",
+        "down_blocks.1.attentions.1.proj_out": "DownBlocks.Chain_6.CLIPLCrossAttention.Chain_3.Conv2d",
+        "up_blocks.2.attentions.0.proj_in": "UpBlocks.Chain_7.CLIPLCrossAttention.Chain_1.Conv2d",
+        "up_blocks.2.attentions.0.proj_out": "UpBlocks.Chain_7.CLIPLCrossAttention.Chain_3.Conv2d",
+        "up_blocks.2.attentions.1.proj_in": "UpBlocks.Chain_8.CLIPLCrossAttention.Chain_1.Conv2d",
+        "up_blocks.2.attentions.1.proj_out": "UpBlocks.Chain_8.CLIPLCrossAttention.Chain_3.Conv2d",
+        "up_blocks.2.attentions.2.proj_in": "UpBlocks.Chain_9.CLIPLCrossAttention.Chain_1.Conv2d",
+        "up_blocks.2.attentions.2.proj_out": "UpBlocks.Chain_9.CLIPLCrossAttention.Chain_3.Conv2d",
+        "down_blocks.1.attentions.0.transformer_blocks.0.norm1": "DownBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.LayerNorm",
+        "down_blocks.1.attentions.0.transformer_blocks.0.norm2": "DownBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.LayerNorm",
+        "down_blocks.1.attentions.0.transformer_blocks.0.norm3": "DownBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.LayerNorm",
+        "down_blocks.1.attentions.1.transformer_blocks.0.norm1": "DownBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.LayerNorm",
+        "down_blocks.1.attentions.1.transformer_blocks.0.norm2": "DownBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.LayerNorm",
+        "down_blocks.1.attentions.1.transformer_blocks.0.norm3": "DownBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.LayerNorm",
+        "up_blocks.2.attentions.0.transformer_blocks.0.norm1": "UpBlocks.Chain_7.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.LayerNorm",
+        "up_blocks.2.attentions.0.transformer_blocks.0.norm2": "UpBlocks.Chain_7.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.LayerNorm",
+        "up_blocks.2.attentions.0.transformer_blocks.0.norm3": "UpBlocks.Chain_7.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.LayerNorm",
+        "up_blocks.2.attentions.1.transformer_blocks.0.norm1": "UpBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.LayerNorm",
+        "up_blocks.2.attentions.1.transformer_blocks.0.norm2": "UpBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.LayerNorm",
+        "up_blocks.2.attentions.1.transformer_blocks.0.norm3": "UpBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.LayerNorm",
+        "up_blocks.2.attentions.2.transformer_blocks.0.norm1": "UpBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.LayerNorm",
+        "up_blocks.2.attentions.2.transformer_blocks.0.norm2": "UpBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.LayerNorm",
+        "up_blocks.2.attentions.2.transformer_blocks.0.norm3": "UpBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.LayerNorm",
+        "down_blocks.1.attentions.0.transformer_blocks.0.attn1.to_q": "DownBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_1",
+        "down_blocks.1.attentions.0.transformer_blocks.0.attn1.to_k": "DownBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_2",
+        "down_blocks.1.attentions.0.transformer_blocks.0.attn1.to_v": "DownBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_3",
+        "down_blocks.1.attentions.0.transformer_blocks.0.attn2.to_q": "DownBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_1",
+        "down_blocks.1.attentions.1.transformer_blocks.0.attn1.to_q": "DownBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_1",
+        "down_blocks.1.attentions.1.transformer_blocks.0.attn1.to_k": "DownBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_2",
+        "down_blocks.1.attentions.1.transformer_blocks.0.attn1.to_v": "DownBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_3",
+        "down_blocks.1.attentions.1.transformer_blocks.0.attn2.to_q": "DownBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_1",
+        "up_blocks.2.attentions.0.transformer_blocks.0.attn1.to_q": "UpBlocks.Chain_7.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_1",
+        "up_blocks.2.attentions.0.transformer_blocks.0.attn1.to_k": "UpBlocks.Chain_7.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_2",
+        "up_blocks.2.attentions.0.transformer_blocks.0.attn1.to_v": "UpBlocks.Chain_7.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_3",
+        "up_blocks.2.attentions.0.transformer_blocks.0.attn2.to_q": "UpBlocks.Chain_7.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_1",
+        "up_blocks.2.attentions.1.transformer_blocks.0.attn1.to_q": "UpBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_1",
+        "up_blocks.2.attentions.1.transformer_blocks.0.attn1.to_k": "UpBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_2",
+        "up_blocks.2.attentions.1.transformer_blocks.0.attn1.to_v": "UpBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_3",
+        "up_blocks.2.attentions.1.transformer_blocks.0.attn2.to_q": "UpBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_1",
+        "up_blocks.2.attentions.2.transformer_blocks.0.attn1.to_q": "UpBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_1",
+        "up_blocks.2.attentions.2.transformer_blocks.0.attn1.to_k": "UpBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_2",
+        "up_blocks.2.attentions.2.transformer_blocks.0.attn1.to_v": "UpBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_3",
+        "up_blocks.2.attentions.2.transformer_blocks.0.attn2.to_q": "UpBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_1",
+        "down_blocks.1.attentions.0.transformer_blocks.0.attn1.to_out.0": "DownBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Linear",
+        "down_blocks.1.attentions.0.transformer_blocks.0.attn2.to_out.0": "DownBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Linear",
+        "down_blocks.1.attentions.1.transformer_blocks.0.attn1.to_out.0": "DownBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Linear",
+        "down_blocks.1.attentions.1.transformer_blocks.0.attn2.to_out.0": "DownBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Linear",
+        "up_blocks.2.attentions.0.transformer_blocks.0.attn1.to_out.0": "UpBlocks.Chain_7.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Linear",
+        "up_blocks.2.attentions.0.transformer_blocks.0.attn2.to_out.0": "UpBlocks.Chain_7.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Linear",
+        "up_blocks.2.attentions.1.transformer_blocks.0.attn1.to_out.0": "UpBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Linear",
+        "up_blocks.2.attentions.1.transformer_blocks.0.attn2.to_out.0": "UpBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Linear",
+        "up_blocks.2.attentions.2.transformer_blocks.0.attn1.to_out.0": "UpBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Linear",
+        "up_blocks.2.attentions.2.transformer_blocks.0.attn2.to_out.0": "UpBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Linear",
+        "down_blocks.1.attentions.0.transformer_blocks.0.attn2.to_k": "DownBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_2",
+        "down_blocks.1.attentions.0.transformer_blocks.0.attn2.to_v": "DownBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_3",
+        "down_blocks.1.attentions.1.transformer_blocks.0.attn2.to_k": "DownBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_2",
+        "down_blocks.1.attentions.1.transformer_blocks.0.attn2.to_v": "DownBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_3",
+        "up_blocks.2.attentions.0.transformer_blocks.0.attn2.to_k": "UpBlocks.Chain_7.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_2",
+        "up_blocks.2.attentions.0.transformer_blocks.0.attn2.to_v": "UpBlocks.Chain_7.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_3",
+        "up_blocks.2.attentions.1.transformer_blocks.0.attn2.to_k": "UpBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_2",
+        "up_blocks.2.attentions.1.transformer_blocks.0.attn2.to_v": "UpBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_3",
+        "up_blocks.2.attentions.2.transformer_blocks.0.attn2.to_k": "UpBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_2",
+        "up_blocks.2.attentions.2.transformer_blocks.0.attn2.to_v": "UpBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_3",
+        "down_blocks.1.attentions.0.transformer_blocks.0.ff.net.0.proj": "DownBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_1",
+        "down_blocks.1.attentions.1.transformer_blocks.0.ff.net.0.proj": "DownBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_1",
+        "up_blocks.2.attentions.0.transformer_blocks.0.ff.net.0.proj": "UpBlocks.Chain_7.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_1",
+        "up_blocks.2.attentions.1.transformer_blocks.0.ff.net.0.proj": "UpBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_1",
+        "up_blocks.2.attentions.2.transformer_blocks.0.ff.net.0.proj": "UpBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_1",
+        "down_blocks.1.attentions.0.transformer_blocks.0.ff.net.2": "DownBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_2",
+        "down_blocks.1.attentions.1.transformer_blocks.0.ff.net.2": "DownBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_2",
+        "up_blocks.2.attentions.0.transformer_blocks.0.ff.net.2": "UpBlocks.Chain_7.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_2",
+        "up_blocks.2.attentions.1.transformer_blocks.0.ff.net.2": "UpBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_2",
+        "up_blocks.2.attentions.2.transformer_blocks.0.ff.net.2": "UpBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_2",
+        "down_blocks.2.resnets.0.conv1": "DownBlocks.Chain_8.ResidualBlock.Chain.RangeAdapter2d.Conv2d",
+        "down_blocks.2.resnets.0.norm2": "DownBlocks.Chain_8.ResidualBlock.Chain.GroupNorm_2",
+        "down_blocks.2.attentions.0.norm": "DownBlocks.Chain_8.CLIPLCrossAttention.Chain_1.GroupNorm",
+        "down_blocks.2.resnets.1.norm1": "DownBlocks.Chain_9.ResidualBlock.Chain.GroupNorm_1",
+        "down_blocks.2.resnets.1.norm2": "DownBlocks.Chain_9.ResidualBlock.Chain.GroupNorm_2",
+        "down_blocks.2.attentions.1.norm": "DownBlocks.Chain_9.CLIPLCrossAttention.Chain_1.GroupNorm",
+        "down_blocks.3.resnets.0.norm1": "DownBlocks.Chain_11.ResidualBlock.Chain.GroupNorm_1",
+        "down_blocks.3.resnets.0.norm2": "DownBlocks.Chain_11.ResidualBlock.Chain.GroupNorm_2",
+        "down_blocks.3.resnets.1.norm1": "DownBlocks.Chain_12.ResidualBlock.Chain.GroupNorm_1",
+        "down_blocks.3.resnets.1.norm2": "DownBlocks.Chain_12.ResidualBlock.Chain.GroupNorm_2",
+        "mid_block.resnets.0.norm1": "Sum.MiddleBlock.ResidualBlock_1.Chain.GroupNorm_1",
+        "mid_block.resnets.0.norm2": "Sum.MiddleBlock.ResidualBlock_1.Chain.GroupNorm_2",
+        "mid_block.attentions.0.norm": "Sum.MiddleBlock.CLIPLCrossAttention.Chain_1.GroupNorm",
+        "mid_block.resnets.1.norm1": "Sum.MiddleBlock.ResidualBlock_2.Chain.GroupNorm_1",
+        "mid_block.resnets.1.norm2": "Sum.MiddleBlock.ResidualBlock_2.Chain.GroupNorm_2",
+        "up_blocks.0.resnets.0.norm2": "UpBlocks.Chain_1.ResidualBlock.Chain.GroupNorm_2",
+        "up_blocks.0.resnets.1.norm2": "UpBlocks.Chain_2.ResidualBlock.Chain.GroupNorm_2",
+        "up_blocks.0.resnets.2.norm2": "UpBlocks.Chain_3.ResidualBlock.Chain.GroupNorm_2",
+        "up_blocks.1.resnets.0.norm2": "UpBlocks.Chain_4.ResidualBlock.Chain.GroupNorm_2",
+        "up_blocks.1.attentions.0.norm": "UpBlocks.Chain_4.CLIPLCrossAttention.Chain_1.GroupNorm",
+        "up_blocks.1.resnets.1.norm2": "UpBlocks.Chain_5.ResidualBlock.Chain.GroupNorm_2",
+        "up_blocks.1.attentions.1.norm": "UpBlocks.Chain_5.CLIPLCrossAttention.Chain_1.GroupNorm",
+        "up_blocks.1.resnets.2.norm2": "UpBlocks.Chain_6.ResidualBlock.Chain.GroupNorm_2",
+        "up_blocks.1.attentions.2.norm": "UpBlocks.Chain_6.CLIPLCrossAttention.Chain_1.GroupNorm",
+        "up_blocks.2.resnets.1.norm1": "UpBlocks.Chain_8.ResidualBlock.Chain.GroupNorm_1",
+        "down_blocks.2.resnets.0.conv2": "DownBlocks.Chain_8.ResidualBlock.Chain.Conv2d",
+        "down_blocks.2.resnets.1.conv1": "DownBlocks.Chain_9.ResidualBlock.Chain.RangeAdapter2d.Conv2d",
+        "down_blocks.2.resnets.1.conv2": "DownBlocks.Chain_9.ResidualBlock.Chain.Conv2d",
+        "down_blocks.2.downsamplers.0.conv": "DownBlocks.Chain_10.Downsample.Conv2d",
+        "down_blocks.3.resnets.0.conv1": "DownBlocks.Chain_11.ResidualBlock.Chain.RangeAdapter2d.Conv2d",
+        "down_blocks.3.resnets.0.conv2": "DownBlocks.Chain_11.ResidualBlock.Chain.Conv2d",
+        "down_blocks.3.resnets.1.conv1": "DownBlocks.Chain_12.ResidualBlock.Chain.RangeAdapter2d.Conv2d",
+        "down_blocks.3.resnets.1.conv2": "DownBlocks.Chain_12.ResidualBlock.Chain.Conv2d",
+        "mid_block.resnets.0.conv1": "Sum.MiddleBlock.ResidualBlock_1.Chain.RangeAdapter2d.Conv2d",
+        "mid_block.resnets.0.conv2": "Sum.MiddleBlock.ResidualBlock_1.Chain.Conv2d",
+        "mid_block.resnets.1.conv1": "Sum.MiddleBlock.ResidualBlock_2.Chain.RangeAdapter2d.Conv2d",
+        "mid_block.resnets.1.conv2": "Sum.MiddleBlock.ResidualBlock_2.Chain.Conv2d",
+        "up_blocks.0.resnets.0.conv2": "UpBlocks.Chain_1.ResidualBlock.Chain.Conv2d",
+        "up_blocks.0.resnets.1.conv2": "UpBlocks.Chain_2.ResidualBlock.Chain.Conv2d",
+        "up_blocks.0.resnets.2.conv2": "UpBlocks.Chain_3.ResidualBlock.Chain.Conv2d",
+        "up_blocks.0.upsamplers.0.conv": "UpBlocks.Chain_3.Upsample.Conv2d",
+        "up_blocks.1.resnets.0.conv2": "UpBlocks.Chain_4.ResidualBlock.Chain.Conv2d",
+        "up_blocks.1.resnets.1.conv2": "UpBlocks.Chain_5.ResidualBlock.Chain.Conv2d",
+        "up_blocks.1.resnets.2.conv2": "UpBlocks.Chain_6.ResidualBlock.Chain.Conv2d",
+        "up_blocks.1.upsamplers.0.conv": "UpBlocks.Chain_6.Upsample.Conv2d",
+        "down_blocks.2.resnets.0.conv_shortcut": "DownBlocks.Chain_8.ResidualBlock.Conv2d",
+        "down_blocks.2.attentions.0.proj_in": "DownBlocks.Chain_8.CLIPLCrossAttention.Chain_1.Conv2d",
+        "down_blocks.2.attentions.0.proj_out": "DownBlocks.Chain_8.CLIPLCrossAttention.Chain_3.Conv2d",
+        "down_blocks.2.attentions.1.proj_in": "DownBlocks.Chain_9.CLIPLCrossAttention.Chain_1.Conv2d",
+        "down_blocks.2.attentions.1.proj_out": "DownBlocks.Chain_9.CLIPLCrossAttention.Chain_3.Conv2d",
+        "mid_block.attentions.0.proj_in": "Sum.MiddleBlock.CLIPLCrossAttention.Chain_1.Conv2d",
+        "mid_block.attentions.0.proj_out": "Sum.MiddleBlock.CLIPLCrossAttention.Chain_3.Conv2d",
+        "up_blocks.1.attentions.0.proj_in": "UpBlocks.Chain_4.CLIPLCrossAttention.Chain_1.Conv2d",
+        "up_blocks.1.attentions.0.proj_out": "UpBlocks.Chain_4.CLIPLCrossAttention.Chain_3.Conv2d",
+        "up_blocks.1.attentions.1.proj_in": "UpBlocks.Chain_5.CLIPLCrossAttention.Chain_1.Conv2d",
+        "up_blocks.1.attentions.1.proj_out": "UpBlocks.Chain_5.CLIPLCrossAttention.Chain_3.Conv2d",
+        "up_blocks.1.attentions.2.proj_in": "UpBlocks.Chain_6.CLIPLCrossAttention.Chain_1.Conv2d",
+        "up_blocks.1.attentions.2.proj_out": "UpBlocks.Chain_6.CLIPLCrossAttention.Chain_3.Conv2d",
+        "down_blocks.2.attentions.0.transformer_blocks.0.norm1": "DownBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.LayerNorm",
+        "down_blocks.2.attentions.0.transformer_blocks.0.norm2": "DownBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.LayerNorm",
+        "down_blocks.2.attentions.0.transformer_blocks.0.norm3": "DownBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.LayerNorm",
+        "down_blocks.2.attentions.1.transformer_blocks.0.norm1": "DownBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.LayerNorm",
+        "down_blocks.2.attentions.1.transformer_blocks.0.norm2": "DownBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.LayerNorm",
+        "down_blocks.2.attentions.1.transformer_blocks.0.norm3": "DownBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.LayerNorm",
+        "mid_block.attentions.0.transformer_blocks.0.norm1": "Sum.MiddleBlock.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.LayerNorm",
+        "mid_block.attentions.0.transformer_blocks.0.norm2": "Sum.MiddleBlock.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.LayerNorm",
+        "mid_block.attentions.0.transformer_blocks.0.norm3": "Sum.MiddleBlock.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.LayerNorm",
+        "up_blocks.1.attentions.0.transformer_blocks.0.norm1": "UpBlocks.Chain_4.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.LayerNorm",
+        "up_blocks.1.attentions.0.transformer_blocks.0.norm2": "UpBlocks.Chain_4.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.LayerNorm",
+        "up_blocks.1.attentions.0.transformer_blocks.0.norm3": "UpBlocks.Chain_4.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.LayerNorm",
+        "up_blocks.1.attentions.1.transformer_blocks.0.norm1": "UpBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.LayerNorm",
+        "up_blocks.1.attentions.1.transformer_blocks.0.norm2": "UpBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.LayerNorm",
+        "up_blocks.1.attentions.1.transformer_blocks.0.norm3": "UpBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.LayerNorm",
+        "up_blocks.1.attentions.2.transformer_blocks.0.norm1": "UpBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.LayerNorm",
+        "up_blocks.1.attentions.2.transformer_blocks.0.norm2": "UpBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.LayerNorm",
+        "up_blocks.1.attentions.2.transformer_blocks.0.norm3": "UpBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.LayerNorm",
+        "down_blocks.2.attentions.0.transformer_blocks.0.attn1.to_q": "DownBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_1",
+        "down_blocks.2.attentions.0.transformer_blocks.0.attn1.to_k": "DownBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_2",
+        "down_blocks.2.attentions.0.transformer_blocks.0.attn1.to_v": "DownBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_3",
+        "down_blocks.2.attentions.0.transformer_blocks.0.attn2.to_q": "DownBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_1",
+        "down_blocks.2.attentions.1.transformer_blocks.0.attn1.to_q": "DownBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_1",
+        "down_blocks.2.attentions.1.transformer_blocks.0.attn1.to_k": "DownBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_2",
+        "down_blocks.2.attentions.1.transformer_blocks.0.attn1.to_v": "DownBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_3",
+        "down_blocks.2.attentions.1.transformer_blocks.0.attn2.to_q": "DownBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_1",
+        "mid_block.attentions.0.transformer_blocks.0.attn1.to_q": "Sum.MiddleBlock.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_1",
+        "mid_block.attentions.0.transformer_blocks.0.attn1.to_k": "Sum.MiddleBlock.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_2",
+        "mid_block.attentions.0.transformer_blocks.0.attn1.to_v": "Sum.MiddleBlock.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_3",
+        "mid_block.attentions.0.transformer_blocks.0.attn2.to_q": "Sum.MiddleBlock.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_1",
+        "up_blocks.1.attentions.0.transformer_blocks.0.attn1.to_q": "UpBlocks.Chain_4.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_1",
+        "up_blocks.1.attentions.0.transformer_blocks.0.attn1.to_k": "UpBlocks.Chain_4.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_2",
+        "up_blocks.1.attentions.0.transformer_blocks.0.attn1.to_v": "UpBlocks.Chain_4.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_3",
+        "up_blocks.1.attentions.0.transformer_blocks.0.attn2.to_q": "UpBlocks.Chain_4.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_1",
+        "up_blocks.1.attentions.1.transformer_blocks.0.attn1.to_q": "UpBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_1",
+        "up_blocks.1.attentions.1.transformer_blocks.0.attn1.to_k": "UpBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_2",
+        "up_blocks.1.attentions.1.transformer_blocks.0.attn1.to_v": "UpBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_3",
+        "up_blocks.1.attentions.1.transformer_blocks.0.attn2.to_q": "UpBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_1",
+        "up_blocks.1.attentions.2.transformer_blocks.0.attn1.to_q": "UpBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_1",
+        "up_blocks.1.attentions.2.transformer_blocks.0.attn1.to_k": "UpBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_2",
+        "up_blocks.1.attentions.2.transformer_blocks.0.attn1.to_v": "UpBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_3",
+        "up_blocks.1.attentions.2.transformer_blocks.0.attn2.to_q": "UpBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_1",
+        "down_blocks.2.attentions.0.transformer_blocks.0.attn2.to_k": "DownBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_2",
+        "down_blocks.2.attentions.0.transformer_blocks.0.attn2.to_v": "DownBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_3",
+        "down_blocks.2.attentions.1.transformer_blocks.0.attn2.to_k": "DownBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_2",
+        "down_blocks.2.attentions.1.transformer_blocks.0.attn2.to_v": "DownBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_3",
+        "mid_block.attentions.0.transformer_blocks.0.attn2.to_k": "Sum.MiddleBlock.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_2",
+        "mid_block.attentions.0.transformer_blocks.0.attn2.to_v": "Sum.MiddleBlock.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_3",
+        "up_blocks.1.attentions.0.transformer_blocks.0.attn2.to_k": "UpBlocks.Chain_4.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_2",
+        "up_blocks.1.attentions.0.transformer_blocks.0.attn2.to_v": "UpBlocks.Chain_4.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_3",
+        "up_blocks.1.attentions.1.transformer_blocks.0.attn2.to_k": "UpBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_2",
+        "up_blocks.1.attentions.1.transformer_blocks.0.attn2.to_v": "UpBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_3",
+        "up_blocks.1.attentions.2.transformer_blocks.0.attn2.to_k": "UpBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_2",
+        "up_blocks.1.attentions.2.transformer_blocks.0.attn2.to_v": "UpBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_3",
+        "down_blocks.2.attentions.0.transformer_blocks.0.ff.net.0.proj": "DownBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_1",
+        "down_blocks.2.attentions.1.transformer_blocks.0.ff.net.0.proj": "DownBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_1",
+        "mid_block.attentions.0.transformer_blocks.0.ff.net.0.proj": "Sum.MiddleBlock.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_1",
+        "up_blocks.1.attentions.0.transformer_blocks.0.ff.net.0.proj": "UpBlocks.Chain_4.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_1",
+        "up_blocks.1.attentions.1.transformer_blocks.0.ff.net.0.proj": "UpBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_1",
+        "up_blocks.1.attentions.2.transformer_blocks.0.ff.net.0.proj": "UpBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_1",
+        "down_blocks.2.attentions.0.transformer_blocks.0.ff.net.2": "DownBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_2",
+        "down_blocks.2.attentions.1.transformer_blocks.0.ff.net.2": "DownBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_2",
+        "mid_block.attentions.0.transformer_blocks.0.ff.net.2": "Sum.MiddleBlock.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_2",
+        "up_blocks.1.attentions.0.transformer_blocks.0.ff.net.2": "UpBlocks.Chain_4.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_2",
+        "up_blocks.1.attentions.1.transformer_blocks.0.ff.net.2": "UpBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_2",
+        "up_blocks.1.attentions.2.transformer_blocks.0.ff.net.2": "UpBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_2",
+        "up_blocks.0.resnets.0.norm1": "UpBlocks.Chain_1.ResidualBlock.Chain.GroupNorm_1",
+        "up_blocks.0.resnets.1.norm1": "UpBlocks.Chain_2.ResidualBlock.Chain.GroupNorm_1",
+        "up_blocks.0.resnets.2.norm1": "UpBlocks.Chain_3.ResidualBlock.Chain.GroupNorm_1",
+        "up_blocks.1.resnets.0.norm1": "UpBlocks.Chain_4.ResidualBlock.Chain.GroupNorm_1",
+        "up_blocks.1.resnets.1.norm1": "UpBlocks.Chain_5.ResidualBlock.Chain.GroupNorm_1",
+        "up_blocks.0.resnets.0.conv1": "UpBlocks.Chain_1.ResidualBlock.Chain.RangeAdapter2d.Conv2d",
+        "up_blocks.0.resnets.1.conv1": "UpBlocks.Chain_2.ResidualBlock.Chain.RangeAdapter2d.Conv2d",
+        "up_blocks.0.resnets.2.conv1": "UpBlocks.Chain_3.ResidualBlock.Chain.RangeAdapter2d.Conv2d",
+        "up_blocks.1.resnets.0.conv1": "UpBlocks.Chain_4.ResidualBlock.Chain.RangeAdapter2d.Conv2d",
+        "up_blocks.1.resnets.1.conv1": "UpBlocks.Chain_5.ResidualBlock.Chain.RangeAdapter2d.Conv2d",
+        "up_blocks.0.resnets.0.conv_shortcut": "UpBlocks.Chain_1.ResidualBlock.Conv2d",
+        "up_blocks.0.resnets.1.conv_shortcut": "UpBlocks.Chain_2.ResidualBlock.Conv2d",
+        "up_blocks.0.resnets.2.conv_shortcut": "UpBlocks.Chain_3.ResidualBlock.Conv2d",
+        "up_blocks.1.resnets.0.conv_shortcut": "UpBlocks.Chain_4.ResidualBlock.Conv2d",
+        "up_blocks.1.resnets.1.conv_shortcut": "UpBlocks.Chain_5.ResidualBlock.Conv2d",
+        "up_blocks.1.resnets.2.norm1": "UpBlocks.Chain_6.ResidualBlock.Chain.GroupNorm_1",
+        "up_blocks.2.resnets.0.norm1": "UpBlocks.Chain_7.ResidualBlock.Chain.GroupNorm_1",
+        "up_blocks.1.resnets.2.conv1": "UpBlocks.Chain_6.ResidualBlock.Chain.RangeAdapter2d.Conv2d",
+        "up_blocks.1.resnets.2.conv_shortcut": "UpBlocks.Chain_6.ResidualBlock.Conv2d",
+        "up_blocks.2.resnets.0.conv1": "UpBlocks.Chain_7.ResidualBlock.Chain.RangeAdapter2d.Conv2d",
+        "up_blocks.2.resnets.0.conv_shortcut": "UpBlocks.Chain_7.ResidualBlock.Conv2d",
+        "up_blocks.2.resnets.1.conv1": "UpBlocks.Chain_8.ResidualBlock.Chain.RangeAdapter2d.Conv2d",
+        "up_blocks.2.resnets.1.conv_shortcut": "UpBlocks.Chain_8.ResidualBlock.Conv2d",
+        "up_blocks.2.resnets.2.norm1": "UpBlocks.Chain_9.ResidualBlock.Chain.GroupNorm_1",
+        "up_blocks.3.resnets.0.norm1": "UpBlocks.Chain_10.ResidualBlock.Chain.GroupNorm_1",
+        "up_blocks.2.resnets.2.conv1": "UpBlocks.Chain_9.ResidualBlock.Chain.RangeAdapter2d.Conv2d",
+        "up_blocks.2.resnets.2.conv_shortcut": "UpBlocks.Chain_9.ResidualBlock.Conv2d",
+        "up_blocks.3.resnets.0.conv1": "UpBlocks.Chain_10.ResidualBlock.Chain.RangeAdapter2d.Conv2d",
+        "up_blocks.3.resnets.0.conv_shortcut": "UpBlocks.Chain_10.ResidualBlock.Conv2d",
+        "up_blocks.3.resnets.1.conv1": "UpBlocks.Chain_11.ResidualBlock.Chain.RangeAdapter2d.Conv2d",
+        "up_blocks.3.resnets.2.conv1": "UpBlocks.Chain_12.ResidualBlock.Chain.RangeAdapter2d.Conv2d",
+        "up_blocks.3.resnets.1.conv_shortcut": "UpBlocks.Chain_11.ResidualBlock.Conv2d",
+        "up_blocks.3.resnets.2.conv_shortcut": "UpBlocks.Chain_12.ResidualBlock.Conv2d",
+        "conv_out": "Chain.Conv2d",
+    },
+)
+
+civitai_recipe = WeightRecipe(
+    key_prefix="model.diffusion_model.",
+    key_map={
+        "time_embed.0": "TimestepEncoder.RangeEncoder.Linear_1",
+        "time_embed.2": "TimestepEncoder.RangeEncoder.Linear_2",
+        "input_blocks.0.0": "DownBlocks.Chain_1.Conv2d",
+        "input_blocks.1.0.in_layers.0": "DownBlocks.Chain_2.ResidualBlock.Chain.GroupNorm_1",
+        "input_blocks.1.0.in_layers.2": "DownBlocks.Chain_2.ResidualBlock.Chain.RangeAdapter2d.Conv2d",
+        "input_blocks.1.0.emb_layers.1": "DownBlocks.Chain_2.ResidualBlock.Chain.RangeAdapter2d.Chain.Linear",
+        "input_blocks.1.0.out_layers.0": "DownBlocks.Chain_2.ResidualBlock.Chain.GroupNorm_2",
+        "input_blocks.1.0.out_layers.3": "DownBlocks.Chain_2.ResidualBlock.Chain.Conv2d",
+        "input_blocks.1.1.norm": "DownBlocks.Chain_2.CLIPLCrossAttention.Chain_1.GroupNorm",
+        "input_blocks.1.1.proj_in": "DownBlocks.Chain_2.CLIPLCrossAttention.Chain_1.Conv2d",
+        "input_blocks.1.1.transformer_blocks.0.norm1": "DownBlocks.Chain_2.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.LayerNorm",
+        "input_blocks.1.1.transformer_blocks.0.attn1.to_q": "DownBlocks.Chain_2.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_1",
+        "input_blocks.1.1.transformer_blocks.0.attn1.to_k": "DownBlocks.Chain_2.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_2",
+        "input_blocks.1.1.transformer_blocks.0.attn1.to_v": "DownBlocks.Chain_2.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_3",
+        "input_blocks.1.1.transformer_blocks.0.attn1.to_out.0": "DownBlocks.Chain_2.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Linear",
+        "input_blocks.1.1.transformer_blocks.0.norm2": "DownBlocks.Chain_2.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.LayerNorm",
+        "input_blocks.1.1.transformer_blocks.0.attn2.to_q": "DownBlocks.Chain_2.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_1",
+        "input_blocks.1.1.transformer_blocks.0.attn2.to_k": "DownBlocks.Chain_2.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_2",
+        "input_blocks.1.1.transformer_blocks.0.attn2.to_v": "DownBlocks.Chain_2.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_3",
+        "input_blocks.1.1.transformer_blocks.0.attn2.to_out.0": "DownBlocks.Chain_2.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Linear",
+        "input_blocks.1.1.transformer_blocks.0.norm3": "DownBlocks.Chain_2.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.LayerNorm",
+        "input_blocks.1.1.transformer_blocks.0.ff.net.0.proj": "DownBlocks.Chain_2.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_1",
+        "input_blocks.1.1.transformer_blocks.0.ff.net.2": "DownBlocks.Chain_2.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_2",
+        "input_blocks.1.1.proj_out": "DownBlocks.Chain_2.CLIPLCrossAttention.Chain_3.Conv2d",
+        "input_blocks.2.0.in_layers.0": "DownBlocks.Chain_3.ResidualBlock.Chain.GroupNorm_1",
+        "input_blocks.2.0.in_layers.2": "DownBlocks.Chain_3.ResidualBlock.Chain.RangeAdapter2d.Conv2d",
+        "input_blocks.2.0.emb_layers.1": "DownBlocks.Chain_3.ResidualBlock.Chain.RangeAdapter2d.Chain.Linear",
+        "input_blocks.2.0.out_layers.0": "DownBlocks.Chain_3.ResidualBlock.Chain.GroupNorm_2",
+        "input_blocks.2.0.out_layers.3": "DownBlocks.Chain_3.ResidualBlock.Chain.Conv2d",
+        "input_blocks.2.1.norm": "DownBlocks.Chain_3.CLIPLCrossAttention.Chain_1.GroupNorm",
+        "input_blocks.2.1.proj_in": "DownBlocks.Chain_3.CLIPLCrossAttention.Chain_1.Conv2d",
+        "input_blocks.2.1.transformer_blocks.0.norm1": "DownBlocks.Chain_3.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.LayerNorm",
+        "input_blocks.2.1.transformer_blocks.0.attn1.to_q": "DownBlocks.Chain_3.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_1",
+        "input_blocks.2.1.transformer_blocks.0.attn1.to_k": "DownBlocks.Chain_3.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_2",
+        "input_blocks.2.1.transformer_blocks.0.attn1.to_v": "DownBlocks.Chain_3.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_3",
+        "input_blocks.2.1.transformer_blocks.0.attn1.to_out.0": "DownBlocks.Chain_3.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Linear",
+        "input_blocks.2.1.transformer_blocks.0.norm2": "DownBlocks.Chain_3.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.LayerNorm",
+        "input_blocks.2.1.transformer_blocks.0.attn2.to_q": "DownBlocks.Chain_3.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_1",
+        "input_blocks.2.1.transformer_blocks.0.attn2.to_k": "DownBlocks.Chain_3.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_2",
+        "input_blocks.2.1.transformer_blocks.0.attn2.to_v": "DownBlocks.Chain_3.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_3",
+        "input_blocks.2.1.transformer_blocks.0.attn2.to_out.0": "DownBlocks.Chain_3.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Linear",
+        "input_blocks.2.1.transformer_blocks.0.norm3": "DownBlocks.Chain_3.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.LayerNorm",
+        "input_blocks.2.1.transformer_blocks.0.ff.net.0.proj": "DownBlocks.Chain_3.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_1",
+        "input_blocks.2.1.transformer_blocks.0.ff.net.2": "DownBlocks.Chain_3.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_2",
+        "input_blocks.2.1.proj_out": "DownBlocks.Chain_3.CLIPLCrossAttention.Chain_3.Conv2d",
+        "input_blocks.3.0.op": "DownBlocks.Chain_4.Downsample.Conv2d",
+        "input_blocks.4.0.in_layers.0": "DownBlocks.Chain_5.ResidualBlock.Chain.GroupNorm_1",
+        "input_blocks.4.0.in_layers.2": "DownBlocks.Chain_5.ResidualBlock.Chain.RangeAdapter2d.Conv2d",
+        "input_blocks.4.0.emb_layers.1": "DownBlocks.Chain_5.ResidualBlock.Chain.RangeAdapter2d.Chain.Linear",
+        "input_blocks.4.0.out_layers.0": "DownBlocks.Chain_5.ResidualBlock.Chain.GroupNorm_2",
+        "input_blocks.4.0.out_layers.3": "DownBlocks.Chain_5.ResidualBlock.Chain.Conv2d",
+        "input_blocks.4.0.skip_connection": "DownBlocks.Chain_5.ResidualBlock.Conv2d",
+        "input_blocks.4.1.norm": "DownBlocks.Chain_5.CLIPLCrossAttention.Chain_1.GroupNorm",
+        "input_blocks.4.1.proj_in": "DownBlocks.Chain_5.CLIPLCrossAttention.Chain_1.Conv2d",
+        "input_blocks.4.1.transformer_blocks.0.norm1": "DownBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.LayerNorm",
+        "input_blocks.4.1.transformer_blocks.0.attn1.to_q": "DownBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_1",
+        "input_blocks.4.1.transformer_blocks.0.attn1.to_k": "DownBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_2",
+        "input_blocks.4.1.transformer_blocks.0.attn1.to_v": "DownBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_3",
+        "input_blocks.4.1.transformer_blocks.0.attn1.to_out.0": "DownBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Linear",
+        "input_blocks.4.1.transformer_blocks.0.norm2": "DownBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.LayerNorm",
+        "input_blocks.4.1.transformer_blocks.0.attn2.to_q": "DownBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_1",
+        "input_blocks.4.1.transformer_blocks.0.attn2.to_k": "DownBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_2",
+        "input_blocks.4.1.transformer_blocks.0.attn2.to_v": "DownBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_3",
+        "input_blocks.4.1.transformer_blocks.0.attn2.to_out.0": "DownBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Linear",
+        "input_blocks.4.1.transformer_blocks.0.norm3": "DownBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.LayerNorm",
+        "input_blocks.4.1.transformer_blocks.0.ff.net.0.proj": "DownBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_1",
+        "input_blocks.4.1.transformer_blocks.0.ff.net.2": "DownBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_2",
+        "input_blocks.4.1.proj_out": "DownBlocks.Chain_5.CLIPLCrossAttention.Chain_3.Conv2d",
+        "input_blocks.5.0.in_layers.0": "DownBlocks.Chain_6.ResidualBlock.Chain.GroupNorm_1",
+        "input_blocks.5.0.in_layers.2": "DownBlocks.Chain_6.ResidualBlock.Chain.RangeAdapter2d.Conv2d",
+        "input_blocks.5.0.emb_layers.1": "DownBlocks.Chain_6.ResidualBlock.Chain.RangeAdapter2d.Chain.Linear",
+        "input_blocks.5.0.out_layers.0": "DownBlocks.Chain_6.ResidualBlock.Chain.GroupNorm_2",
+        "input_blocks.5.0.out_layers.3": "DownBlocks.Chain_6.ResidualBlock.Chain.Conv2d",
+        "input_blocks.5.1.norm": "DownBlocks.Chain_6.CLIPLCrossAttention.Chain_1.GroupNorm",
+        "input_blocks.5.1.proj_in": "DownBlocks.Chain_6.CLIPLCrossAttention.Chain_1.Conv2d",
+        "input_blocks.5.1.transformer_blocks.0.norm1": "DownBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.LayerNorm",
+        "input_blocks.5.1.transformer_blocks.0.attn1.to_q": "DownBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_1",
+        "input_blocks.5.1.transformer_blocks.0.attn1.to_k": "DownBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_2",
+        "input_blocks.5.1.transformer_blocks.0.attn1.to_v": "DownBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_3",
+        "input_blocks.5.1.transformer_blocks.0.attn1.to_out.0": "DownBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Linear",
+        "input_blocks.5.1.transformer_blocks.0.norm2": "DownBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.LayerNorm",
+        "input_blocks.5.1.transformer_blocks.0.attn2.to_q": "DownBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_1",
+        "input_blocks.5.1.transformer_blocks.0.attn2.to_k": "DownBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_2",
+        "input_blocks.5.1.transformer_blocks.0.attn2.to_v": "DownBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_3",
+        "input_blocks.5.1.transformer_blocks.0.attn2.to_out.0": "DownBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Linear",
+        "input_blocks.5.1.transformer_blocks.0.norm3": "DownBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.LayerNorm",
+        "input_blocks.5.1.transformer_blocks.0.ff.net.0.proj": "DownBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_1",
+        "input_blocks.5.1.transformer_blocks.0.ff.net.2": "DownBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_2",
+        "input_blocks.5.1.proj_out": "DownBlocks.Chain_6.CLIPLCrossAttention.Chain_3.Conv2d",
+        "input_blocks.6.0.op": "DownBlocks.Chain_7.Downsample.Conv2d",
+        "input_blocks.7.0.in_layers.0": "DownBlocks.Chain_8.ResidualBlock.Chain.GroupNorm_1",
+        "input_blocks.7.0.in_layers.2": "DownBlocks.Chain_8.ResidualBlock.Chain.RangeAdapter2d.Conv2d",
+        "input_blocks.7.0.emb_layers.1": "DownBlocks.Chain_8.ResidualBlock.Chain.RangeAdapter2d.Chain.Linear",
+        "input_blocks.7.0.out_layers.0": "DownBlocks.Chain_8.ResidualBlock.Chain.GroupNorm_2",
+        "input_blocks.7.0.out_layers.3": "DownBlocks.Chain_8.ResidualBlock.Chain.Conv2d",
+        "input_blocks.7.0.skip_connection": "DownBlocks.Chain_8.ResidualBlock.Conv2d",
+        "input_blocks.7.1.norm": "DownBlocks.Chain_8.CLIPLCrossAttention.Chain_1.GroupNorm",
+        "input_blocks.7.1.proj_in": "DownBlocks.Chain_8.CLIPLCrossAttention.Chain_1.Conv2d",
+        "input_blocks.7.1.transformer_blocks.0.norm1": "DownBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.LayerNorm",
+        "input_blocks.7.1.transformer_blocks.0.attn1.to_q": "DownBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_1",
+        "input_blocks.7.1.transformer_blocks.0.attn1.to_k": "DownBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_2",
+        "input_blocks.7.1.transformer_blocks.0.attn1.to_v": "DownBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_3",
+        "input_blocks.7.1.transformer_blocks.0.attn1.to_out.0": "DownBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Linear",
+        "input_blocks.7.1.transformer_blocks.0.norm2": "DownBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.LayerNorm",
+        "input_blocks.7.1.transformer_blocks.0.attn2.to_q": "DownBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_1",
+        "input_blocks.7.1.transformer_blocks.0.attn2.to_k": "DownBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_2",
+        "input_blocks.7.1.transformer_blocks.0.attn2.to_v": "DownBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_3",
+        "input_blocks.7.1.transformer_blocks.0.attn2.to_out.0": "DownBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Linear",
+        "input_blocks.7.1.transformer_blocks.0.norm3": "DownBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.LayerNorm",
+        "input_blocks.7.1.transformer_blocks.0.ff.net.0.proj": "DownBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_1",
+        "input_blocks.7.1.transformer_blocks.0.ff.net.2": "DownBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_2",
+        "input_blocks.7.1.proj_out": "DownBlocks.Chain_8.CLIPLCrossAttention.Chain_3.Conv2d",
+        "input_blocks.8.0.in_layers.0": "DownBlocks.Chain_9.ResidualBlock.Chain.GroupNorm_1",
+        "input_blocks.8.0.in_layers.2": "DownBlocks.Chain_9.ResidualBlock.Chain.RangeAdapter2d.Conv2d",
+        "input_blocks.8.0.emb_layers.1": "DownBlocks.Chain_9.ResidualBlock.Chain.RangeAdapter2d.Chain.Linear",
+        "input_blocks.8.0.out_layers.0": "DownBlocks.Chain_9.ResidualBlock.Chain.GroupNorm_2",
+        "input_blocks.8.0.out_layers.3": "DownBlocks.Chain_9.ResidualBlock.Chain.Conv2d",
+        "input_blocks.8.1.norm": "DownBlocks.Chain_9.CLIPLCrossAttention.Chain_1.GroupNorm",
+        "input_blocks.8.1.proj_in": "DownBlocks.Chain_9.CLIPLCrossAttention.Chain_1.Conv2d",
+        "input_blocks.8.1.transformer_blocks.0.norm1": "DownBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.LayerNorm",
+        "input_blocks.8.1.transformer_blocks.0.attn1.to_q": "DownBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_1",
+        "input_blocks.8.1.transformer_blocks.0.attn1.to_k": "DownBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_2",
+        "input_blocks.8.1.transformer_blocks.0.attn1.to_v": "DownBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_3",
+        "input_blocks.8.1.transformer_blocks.0.attn1.to_out.0": "DownBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Linear",
+        "input_blocks.8.1.transformer_blocks.0.norm2": "DownBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.LayerNorm",
+        "input_blocks.8.1.transformer_blocks.0.attn2.to_q": "DownBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_1",
+        "input_blocks.8.1.transformer_blocks.0.attn2.to_k": "DownBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_2",
+        "input_blocks.8.1.transformer_blocks.0.attn2.to_v": "DownBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_3",
+        "input_blocks.8.1.transformer_blocks.0.attn2.to_out.0": "DownBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Linear",
+        "input_blocks.8.1.transformer_blocks.0.norm3": "DownBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.LayerNorm",
+        "input_blocks.8.1.transformer_blocks.0.ff.net.0.proj": "DownBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_1",
+        "input_blocks.8.1.transformer_blocks.0.ff.net.2": "DownBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_2",
+        "input_blocks.8.1.proj_out": "DownBlocks.Chain_9.CLIPLCrossAttention.Chain_3.Conv2d",
+        "input_blocks.9.0.op": "DownBlocks.Chain_10.Downsample.Conv2d",
+        "input_blocks.10.0.in_layers.0": "DownBlocks.Chain_11.ResidualBlock.Chain.GroupNorm_1",
+        "input_blocks.10.0.in_layers.2": "DownBlocks.Chain_11.ResidualBlock.Chain.RangeAdapter2d.Conv2d",
+        "input_blocks.10.0.emb_layers.1": "DownBlocks.Chain_11.ResidualBlock.Chain.RangeAdapter2d.Chain.Linear",
+        "input_blocks.10.0.out_layers.0": "DownBlocks.Chain_11.ResidualBlock.Chain.GroupNorm_2",
+        "input_blocks.10.0.out_layers.3": "DownBlocks.Chain_11.ResidualBlock.Chain.Conv2d",
+        "input_blocks.11.0.in_layers.0": "DownBlocks.Chain_12.ResidualBlock.Chain.GroupNorm_1",
+        "input_blocks.11.0.in_layers.2": "DownBlocks.Chain_12.ResidualBlock.Chain.RangeAdapter2d.Conv2d",
+        "input_blocks.11.0.emb_layers.1": "DownBlocks.Chain_12.ResidualBlock.Chain.RangeAdapter2d.Chain.Linear",
+        "input_blocks.11.0.out_layers.0": "DownBlocks.Chain_12.ResidualBlock.Chain.GroupNorm_2",
+        "input_blocks.11.0.out_layers.3": "DownBlocks.Chain_12.ResidualBlock.Chain.Conv2d",
+        "middle_block.0.in_layers.0": "Sum.MiddleBlock.ResidualBlock_1.Chain.GroupNorm_1",
+        "middle_block.0.in_layers.2": "Sum.MiddleBlock.ResidualBlock_1.Chain.RangeAdapter2d.Conv2d",
+        "middle_block.0.emb_layers.1": "Sum.MiddleBlock.ResidualBlock_1.Chain.RangeAdapter2d.Chain.Linear",
+        "middle_block.0.out_layers.0": "Sum.MiddleBlock.ResidualBlock_1.Chain.GroupNorm_2",
+        "middle_block.0.out_layers.3": "Sum.MiddleBlock.ResidualBlock_1.Chain.Conv2d",
+        "middle_block.1.norm": "Sum.MiddleBlock.CLIPLCrossAttention.Chain_1.GroupNorm",
+        "middle_block.1.proj_in": "Sum.MiddleBlock.CLIPLCrossAttention.Chain_1.Conv2d",
+        "middle_block.1.transformer_blocks.0.norm1": "Sum.MiddleBlock.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.LayerNorm",
+        "middle_block.1.transformer_blocks.0.attn1.to_q": "Sum.MiddleBlock.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_1",
+        "middle_block.1.transformer_blocks.0.attn1.to_k": "Sum.MiddleBlock.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_2",
+        "middle_block.1.transformer_blocks.0.attn1.to_v": "Sum.MiddleBlock.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_3",
+        "middle_block.1.transformer_blocks.0.attn1.to_out.0": "Sum.MiddleBlock.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Linear",
+        "middle_block.1.transformer_blocks.0.norm2": "Sum.MiddleBlock.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.LayerNorm",
+        "middle_block.1.transformer_blocks.0.attn2.to_q": "Sum.MiddleBlock.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_1",
+        "middle_block.1.transformer_blocks.0.attn2.to_k": "Sum.MiddleBlock.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_2",
+        "middle_block.1.transformer_blocks.0.attn2.to_v": "Sum.MiddleBlock.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_3",
+        "middle_block.1.transformer_blocks.0.attn2.to_out.0": "Sum.MiddleBlock.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Linear",
+        "middle_block.1.transformer_blocks.0.norm3": "Sum.MiddleBlock.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.LayerNorm",
+        "middle_block.1.transformer_blocks.0.ff.net.0.proj": "Sum.MiddleBlock.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_1",
+        "middle_block.1.transformer_blocks.0.ff.net.2": "Sum.MiddleBlock.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_2",
+        "middle_block.1.proj_out": "Sum.MiddleBlock.CLIPLCrossAttention.Chain_3.Conv2d",
+        "middle_block.2.in_layers.0": "Sum.MiddleBlock.ResidualBlock_2.Chain.GroupNorm_1",
+        "middle_block.2.in_layers.2": "Sum.MiddleBlock.ResidualBlock_2.Chain.RangeAdapter2d.Conv2d",
+        "middle_block.2.emb_layers.1": "Sum.MiddleBlock.ResidualBlock_2.Chain.RangeAdapter2d.Chain.Linear",
+        "middle_block.2.out_layers.0": "Sum.MiddleBlock.ResidualBlock_2.Chain.GroupNorm_2",
+        "middle_block.2.out_layers.3": "Sum.MiddleBlock.ResidualBlock_2.Chain.Conv2d",
+        "output_blocks.0.0.in_layers.0": "UpBlocks.Chain_1.ResidualBlock.Chain.GroupNorm_1",
+        "output_blocks.0.0.in_layers.2": "UpBlocks.Chain_1.ResidualBlock.Chain.RangeAdapter2d.Conv2d",
+        "output_blocks.0.0.emb_layers.1": "UpBlocks.Chain_1.ResidualBlock.Chain.RangeAdapter2d.Chain.Linear",
+        "output_blocks.0.0.out_layers.0": "UpBlocks.Chain_1.ResidualBlock.Chain.GroupNorm_2",
+        "output_blocks.0.0.out_layers.3": "UpBlocks.Chain_1.ResidualBlock.Chain.Conv2d",
+        "output_blocks.0.0.skip_connection": "UpBlocks.Chain_1.ResidualBlock.Conv2d",
+        "output_blocks.1.0.in_layers.0": "UpBlocks.Chain_2.ResidualBlock.Chain.GroupNorm_1",
+        "output_blocks.1.0.in_layers.2": "UpBlocks.Chain_2.ResidualBlock.Chain.RangeAdapter2d.Conv2d",
+        "output_blocks.1.0.emb_layers.1": "UpBlocks.Chain_2.ResidualBlock.Chain.RangeAdapter2d.Chain.Linear",
+        "output_blocks.1.0.out_layers.0": "UpBlocks.Chain_2.ResidualBlock.Chain.GroupNorm_2",
+        "output_blocks.1.0.out_layers.3": "UpBlocks.Chain_2.ResidualBlock.Chain.Conv2d",
+        "output_blocks.1.0.skip_connection": "UpBlocks.Chain_2.ResidualBlock.Conv2d",
+        "output_blocks.2.0.in_layers.0": "UpBlocks.Chain_3.ResidualBlock.Chain.GroupNorm_1",
+        "output_blocks.2.0.in_layers.2": "UpBlocks.Chain_3.ResidualBlock.Chain.RangeAdapter2d.Conv2d",
+        "output_blocks.2.0.emb_layers.1": "UpBlocks.Chain_3.ResidualBlock.Chain.RangeAdapter2d.Chain.Linear",
+        "output_blocks.2.0.out_layers.0": "UpBlocks.Chain_3.ResidualBlock.Chain.GroupNorm_2",
+        "output_blocks.2.0.out_layers.3": "UpBlocks.Chain_3.ResidualBlock.Chain.Conv2d",
+        "output_blocks.2.0.skip_connection": "UpBlocks.Chain_3.ResidualBlock.Conv2d",
+        "output_blocks.2.1.conv": "UpBlocks.Chain_3.Upsample.Conv2d",
+        "output_blocks.3.0.in_layers.0": "UpBlocks.Chain_4.ResidualBlock.Chain.GroupNorm_1",
+        "output_blocks.3.0.in_layers.2": "UpBlocks.Chain_4.ResidualBlock.Chain.RangeAdapter2d.Conv2d",
+        "output_blocks.3.0.emb_layers.1": "UpBlocks.Chain_4.ResidualBlock.Chain.RangeAdapter2d.Chain.Linear",
+        "output_blocks.3.0.out_layers.0": "UpBlocks.Chain_4.ResidualBlock.Chain.GroupNorm_2",
+        "output_blocks.3.0.out_layers.3": "UpBlocks.Chain_4.ResidualBlock.Chain.Conv2d",
+        "output_blocks.3.0.skip_connection": "UpBlocks.Chain_4.ResidualBlock.Conv2d",
+        "output_blocks.3.1.norm": "UpBlocks.Chain_4.CLIPLCrossAttention.Chain_1.GroupNorm",
+        "output_blocks.3.1.proj_in": "UpBlocks.Chain_4.CLIPLCrossAttention.Chain_1.Conv2d",
+        "output_blocks.3.1.transformer_blocks.0.norm1": "UpBlocks.Chain_4.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.LayerNorm",
+        "output_blocks.3.1.transformer_blocks.0.attn1.to_q": "UpBlocks.Chain_4.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_1",
+        "output_blocks.3.1.transformer_blocks.0.attn1.to_k": "UpBlocks.Chain_4.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_2",
+        "output_blocks.3.1.transformer_blocks.0.attn1.to_v": "UpBlocks.Chain_4.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_3",
+        "output_blocks.3.1.transformer_blocks.0.attn1.to_out.0": "UpBlocks.Chain_4.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Linear",
+        "output_blocks.3.1.transformer_blocks.0.norm2": "UpBlocks.Chain_4.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.LayerNorm",
+        "output_blocks.3.1.transformer_blocks.0.attn2.to_q": "UpBlocks.Chain_4.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_1",
+        "output_blocks.3.1.transformer_blocks.0.attn2.to_k": "UpBlocks.Chain_4.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_2",
+        "output_blocks.3.1.transformer_blocks.0.attn2.to_v": "UpBlocks.Chain_4.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_3",
+        "output_blocks.3.1.transformer_blocks.0.attn2.to_out.0": "UpBlocks.Chain_4.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Linear",
+        "output_blocks.3.1.transformer_blocks.0.norm3": "UpBlocks.Chain_4.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.LayerNorm",
+        "output_blocks.3.1.transformer_blocks.0.ff.net.0.proj": "UpBlocks.Chain_4.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_1",
+        "output_blocks.3.1.transformer_blocks.0.ff.net.2": "UpBlocks.Chain_4.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_2",
+        "output_blocks.3.1.proj_out": "UpBlocks.Chain_4.CLIPLCrossAttention.Chain_3.Conv2d",
+        "output_blocks.4.0.in_layers.0": "UpBlocks.Chain_5.ResidualBlock.Chain.GroupNorm_1",
+        "output_blocks.4.0.in_layers.2": "UpBlocks.Chain_5.ResidualBlock.Chain.RangeAdapter2d.Conv2d",
+        "output_blocks.4.0.emb_layers.1": "UpBlocks.Chain_5.ResidualBlock.Chain.RangeAdapter2d.Chain.Linear",
+        "output_blocks.4.0.out_layers.0": "UpBlocks.Chain_5.ResidualBlock.Chain.GroupNorm_2",
+        "output_blocks.4.0.out_layers.3": "UpBlocks.Chain_5.ResidualBlock.Chain.Conv2d",
+        "output_blocks.4.0.skip_connection": "UpBlocks.Chain_5.ResidualBlock.Conv2d",
+        "output_blocks.4.1.norm": "UpBlocks.Chain_5.CLIPLCrossAttention.Chain_1.GroupNorm",
+        "output_blocks.4.1.proj_in": "UpBlocks.Chain_5.CLIPLCrossAttention.Chain_1.Conv2d",
+        "output_blocks.4.1.transformer_blocks.0.norm1": "UpBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.LayerNorm",
+        "output_blocks.4.1.transformer_blocks.0.attn1.to_q": "UpBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_1",
+        "output_blocks.4.1.transformer_blocks.0.attn1.to_k": "UpBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_2",
+        "output_blocks.4.1.transformer_blocks.0.attn1.to_v": "UpBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_3",
+        "output_blocks.4.1.transformer_blocks.0.attn1.to_out.0": "UpBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Linear",
+        "output_blocks.4.1.transformer_blocks.0.norm2": "UpBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.LayerNorm",
+        "output_blocks.4.1.transformer_blocks.0.attn2.to_q": "UpBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_1",
+        "output_blocks.4.1.transformer_blocks.0.attn2.to_k": "UpBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_2",
+        "output_blocks.4.1.transformer_blocks.0.attn2.to_v": "UpBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_3",
+        "output_blocks.4.1.transformer_blocks.0.attn2.to_out.0": "UpBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Linear",
+        "output_blocks.4.1.transformer_blocks.0.norm3": "UpBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.LayerNorm",
+        "output_blocks.4.1.transformer_blocks.0.ff.net.0.proj": "UpBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_1",
+        "output_blocks.4.1.transformer_blocks.0.ff.net.2": "UpBlocks.Chain_5.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_2",
+        "output_blocks.4.1.proj_out": "UpBlocks.Chain_5.CLIPLCrossAttention.Chain_3.Conv2d",
+        "output_blocks.5.0.in_layers.0": "UpBlocks.Chain_6.ResidualBlock.Chain.GroupNorm_1",
+        "output_blocks.5.0.in_layers.2": "UpBlocks.Chain_6.ResidualBlock.Chain.RangeAdapter2d.Conv2d",
+        "output_blocks.5.0.emb_layers.1": "UpBlocks.Chain_6.ResidualBlock.Chain.RangeAdapter2d.Chain.Linear",
+        "output_blocks.5.0.out_layers.0": "UpBlocks.Chain_6.ResidualBlock.Chain.GroupNorm_2",
+        "output_blocks.5.0.out_layers.3": "UpBlocks.Chain_6.ResidualBlock.Chain.Conv2d",
+        "output_blocks.5.0.skip_connection": "UpBlocks.Chain_6.ResidualBlock.Conv2d",
+        "output_blocks.5.1.norm": "UpBlocks.Chain_6.CLIPLCrossAttention.Chain_1.GroupNorm",
+        "output_blocks.5.1.proj_in": "UpBlocks.Chain_6.CLIPLCrossAttention.Chain_1.Conv2d",
+        "output_blocks.5.1.transformer_blocks.0.norm1": "UpBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.LayerNorm",
+        "output_blocks.5.1.transformer_blocks.0.attn1.to_q": "UpBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_1",
+        "output_blocks.5.1.transformer_blocks.0.attn1.to_k": "UpBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_2",
+        "output_blocks.5.1.transformer_blocks.0.attn1.to_v": "UpBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_3",
+        "output_blocks.5.1.transformer_blocks.0.attn1.to_out.0": "UpBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Linear",
+        "output_blocks.5.1.transformer_blocks.0.norm2": "UpBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.LayerNorm",
+        "output_blocks.5.1.transformer_blocks.0.attn2.to_q": "UpBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_1",
+        "output_blocks.5.1.transformer_blocks.0.attn2.to_k": "UpBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_2",
+        "output_blocks.5.1.transformer_blocks.0.attn2.to_v": "UpBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_3",
+        "output_blocks.5.1.transformer_blocks.0.attn2.to_out.0": "UpBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Linear",
+        "output_blocks.5.1.transformer_blocks.0.norm3": "UpBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.LayerNorm",
+        "output_blocks.5.1.transformer_blocks.0.ff.net.0.proj": "UpBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_1",
+        "output_blocks.5.1.transformer_blocks.0.ff.net.2": "UpBlocks.Chain_6.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_2",
+        "output_blocks.5.1.proj_out": "UpBlocks.Chain_6.CLIPLCrossAttention.Chain_3.Conv2d",
+        "output_blocks.5.2.conv": "UpBlocks.Chain_6.Upsample.Conv2d",
+        "output_blocks.6.0.in_layers.0": "UpBlocks.Chain_7.ResidualBlock.Chain.GroupNorm_1",
+        "output_blocks.6.0.in_layers.2": "UpBlocks.Chain_7.ResidualBlock.Chain.RangeAdapter2d.Conv2d",
+        "output_blocks.6.0.emb_layers.1": "UpBlocks.Chain_7.ResidualBlock.Chain.RangeAdapter2d.Chain.Linear",
+        "output_blocks.6.0.out_layers.0": "UpBlocks.Chain_7.ResidualBlock.Chain.GroupNorm_2",
+        "output_blocks.6.0.out_layers.3": "UpBlocks.Chain_7.ResidualBlock.Chain.Conv2d",
+        "output_blocks.6.0.skip_connection": "UpBlocks.Chain_7.ResidualBlock.Conv2d",
+        "output_blocks.6.1.norm": "UpBlocks.Chain_7.CLIPLCrossAttention.Chain_1.GroupNorm",
+        "output_blocks.6.1.proj_in": "UpBlocks.Chain_7.CLIPLCrossAttention.Chain_1.Conv2d",
+        "output_blocks.6.1.transformer_blocks.0.norm1": "UpBlocks.Chain_7.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.LayerNorm",
+        "output_blocks.6.1.transformer_blocks.0.attn1.to_q": "UpBlocks.Chain_7.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_1",
+        "output_blocks.6.1.transformer_blocks.0.attn1.to_k": "UpBlocks.Chain_7.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_2",
+        "output_blocks.6.1.transformer_blocks.0.attn1.to_v": "UpBlocks.Chain_7.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_3",
+        "output_blocks.6.1.transformer_blocks.0.attn1.to_out.0": "UpBlocks.Chain_7.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Linear",
+        "output_blocks.6.1.transformer_blocks.0.norm2": "UpBlocks.Chain_7.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.LayerNorm",
+        "output_blocks.6.1.transformer_blocks.0.attn2.to_q": "UpBlocks.Chain_7.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_1",
+        "output_blocks.6.1.transformer_blocks.0.attn2.to_k": "UpBlocks.Chain_7.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_2",
+        "output_blocks.6.1.transformer_blocks.0.attn2.to_v": "UpBlocks.Chain_7.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_3",
+        "output_blocks.6.1.transformer_blocks.0.attn2.to_out.0": "UpBlocks.Chain_7.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Linear",
+        "output_blocks.6.1.transformer_blocks.0.norm3": "UpBlocks.Chain_7.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.LayerNorm",
+        "output_blocks.6.1.transformer_blocks.0.ff.net.0.proj": "UpBlocks.Chain_7.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_1",
+        "output_blocks.6.1.transformer_blocks.0.ff.net.2": "UpBlocks.Chain_7.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_2",
+        "output_blocks.6.1.proj_out": "UpBlocks.Chain_7.CLIPLCrossAttention.Chain_3.Conv2d",
+        "output_blocks.7.0.in_layers.0": "UpBlocks.Chain_8.ResidualBlock.Chain.GroupNorm_1",
+        "output_blocks.7.0.in_layers.2": "UpBlocks.Chain_8.ResidualBlock.Chain.RangeAdapter2d.Conv2d",
+        "output_blocks.7.0.emb_layers.1": "UpBlocks.Chain_8.ResidualBlock.Chain.RangeAdapter2d.Chain.Linear",
+        "output_blocks.7.0.out_layers.0": "UpBlocks.Chain_8.ResidualBlock.Chain.GroupNorm_2",
+        "output_blocks.7.0.out_layers.3": "UpBlocks.Chain_8.ResidualBlock.Chain.Conv2d",
+        "output_blocks.7.0.skip_connection": "UpBlocks.Chain_8.ResidualBlock.Conv2d",
+        "output_blocks.7.1.norm": "UpBlocks.Chain_8.CLIPLCrossAttention.Chain_1.GroupNorm",
+        "output_blocks.7.1.proj_in": "UpBlocks.Chain_8.CLIPLCrossAttention.Chain_1.Conv2d",
+        "output_blocks.7.1.transformer_blocks.0.norm1": "UpBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.LayerNorm",
+        "output_blocks.7.1.transformer_blocks.0.attn1.to_q": "UpBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_1",
+        "output_blocks.7.1.transformer_blocks.0.attn1.to_k": "UpBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_2",
+        "output_blocks.7.1.transformer_blocks.0.attn1.to_v": "UpBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_3",
+        "output_blocks.7.1.transformer_blocks.0.attn1.to_out.0": "UpBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Linear",
+        "output_blocks.7.1.transformer_blocks.0.norm2": "UpBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.LayerNorm",
+        "output_blocks.7.1.transformer_blocks.0.attn2.to_q": "UpBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_1",
+        "output_blocks.7.1.transformer_blocks.0.attn2.to_k": "UpBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_2",
+        "output_blocks.7.1.transformer_blocks.0.attn2.to_v": "UpBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_3",
+        "output_blocks.7.1.transformer_blocks.0.attn2.to_out.0": "UpBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Linear",
+        "output_blocks.7.1.transformer_blocks.0.norm3": "UpBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.LayerNorm",
+        "output_blocks.7.1.transformer_blocks.0.ff.net.0.proj": "UpBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_1",
+        "output_blocks.7.1.transformer_blocks.0.ff.net.2": "UpBlocks.Chain_8.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_2",
+        "output_blocks.7.1.proj_out": "UpBlocks.Chain_8.CLIPLCrossAttention.Chain_3.Conv2d",
+        "output_blocks.8.0.in_layers.0": "UpBlocks.Chain_9.ResidualBlock.Chain.GroupNorm_1",
+        "output_blocks.8.0.in_layers.2": "UpBlocks.Chain_9.ResidualBlock.Chain.RangeAdapter2d.Conv2d",
+        "output_blocks.8.0.emb_layers.1": "UpBlocks.Chain_9.ResidualBlock.Chain.RangeAdapter2d.Chain.Linear",
+        "output_blocks.8.0.out_layers.0": "UpBlocks.Chain_9.ResidualBlock.Chain.GroupNorm_2",
+        "output_blocks.8.0.out_layers.3": "UpBlocks.Chain_9.ResidualBlock.Chain.Conv2d",
+        "output_blocks.8.0.skip_connection": "UpBlocks.Chain_9.ResidualBlock.Conv2d",
+        "output_blocks.8.1.norm": "UpBlocks.Chain_9.CLIPLCrossAttention.Chain_1.GroupNorm",
+        "output_blocks.8.1.proj_in": "UpBlocks.Chain_9.CLIPLCrossAttention.Chain_1.Conv2d",
+        "output_blocks.8.1.transformer_blocks.0.norm1": "UpBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.LayerNorm",
+        "output_blocks.8.1.transformer_blocks.0.attn1.to_q": "UpBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_1",
+        "output_blocks.8.1.transformer_blocks.0.attn1.to_k": "UpBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_2",
+        "output_blocks.8.1.transformer_blocks.0.attn1.to_v": "UpBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_3",
+        "output_blocks.8.1.transformer_blocks.0.attn1.to_out.0": "UpBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Linear",
+        "output_blocks.8.1.transformer_blocks.0.norm2": "UpBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.LayerNorm",
+        "output_blocks.8.1.transformer_blocks.0.attn2.to_q": "UpBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_1",
+        "output_blocks.8.1.transformer_blocks.0.attn2.to_k": "UpBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_2",
+        "output_blocks.8.1.transformer_blocks.0.attn2.to_v": "UpBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_3",
+        "output_blocks.8.1.transformer_blocks.0.attn2.to_out.0": "UpBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Linear",
+        "output_blocks.8.1.transformer_blocks.0.norm3": "UpBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.LayerNorm",
+        "output_blocks.8.1.transformer_blocks.0.ff.net.0.proj": "UpBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_1",
+        "output_blocks.8.1.transformer_blocks.0.ff.net.2": "UpBlocks.Chain_9.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_2",
+        "output_blocks.8.1.proj_out": "UpBlocks.Chain_9.CLIPLCrossAttention.Chain_3.Conv2d",
+        "output_blocks.8.2.conv": "UpBlocks.Chain_9.Upsample.Conv2d",
+        "output_blocks.9.0.in_layers.0": "UpBlocks.Chain_10.ResidualBlock.Chain.GroupNorm_1",
+        "output_blocks.9.0.in_layers.2": "UpBlocks.Chain_10.ResidualBlock.Chain.RangeAdapter2d.Conv2d",
+        "output_blocks.9.0.emb_layers.1": "UpBlocks.Chain_10.ResidualBlock.Chain.RangeAdapter2d.Chain.Linear",
+        "output_blocks.9.0.out_layers.0": "UpBlocks.Chain_10.ResidualBlock.Chain.GroupNorm_2",
+        "output_blocks.9.0.out_layers.3": "UpBlocks.Chain_10.ResidualBlock.Chain.Conv2d",
+        "output_blocks.9.0.skip_connection": "UpBlocks.Chain_10.ResidualBlock.Conv2d",
+        "output_blocks.9.1.norm": "UpBlocks.Chain_10.CLIPLCrossAttention.Chain_1.GroupNorm",
+        "output_blocks.9.1.proj_in": "UpBlocks.Chain_10.CLIPLCrossAttention.Chain_1.Conv2d",
+        "output_blocks.9.1.transformer_blocks.0.norm1": "UpBlocks.Chain_10.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.LayerNorm",
+        "output_blocks.9.1.transformer_blocks.0.attn1.to_q": "UpBlocks.Chain_10.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_1",
+        "output_blocks.9.1.transformer_blocks.0.attn1.to_k": "UpBlocks.Chain_10.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_2",
+        "output_blocks.9.1.transformer_blocks.0.attn1.to_v": "UpBlocks.Chain_10.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_3",
+        "output_blocks.9.1.transformer_blocks.0.attn1.to_out.0": "UpBlocks.Chain_10.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Linear",
+        "output_blocks.9.1.transformer_blocks.0.norm2": "UpBlocks.Chain_10.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.LayerNorm",
+        "output_blocks.9.1.transformer_blocks.0.attn2.to_q": "UpBlocks.Chain_10.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_1",
+        "output_blocks.9.1.transformer_blocks.0.attn2.to_k": "UpBlocks.Chain_10.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_2",
+        "output_blocks.9.1.transformer_blocks.0.attn2.to_v": "UpBlocks.Chain_10.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_3",
+        "output_blocks.9.1.transformer_blocks.0.attn2.to_out.0": "UpBlocks.Chain_10.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Linear",
+        "output_blocks.9.1.transformer_blocks.0.norm3": "UpBlocks.Chain_10.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.LayerNorm",
+        "output_blocks.9.1.transformer_blocks.0.ff.net.0.proj": "UpBlocks.Chain_10.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_1",
+        "output_blocks.9.1.transformer_blocks.0.ff.net.2": "UpBlocks.Chain_10.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_2",
+        "output_blocks.9.1.proj_out": "UpBlocks.Chain_10.CLIPLCrossAttention.Chain_3.Conv2d",
+        "output_blocks.10.0.in_layers.0": "UpBlocks.Chain_11.ResidualBlock.Chain.GroupNorm_1",
+        "output_blocks.10.0.in_layers.2": "UpBlocks.Chain_11.ResidualBlock.Chain.RangeAdapter2d.Conv2d",
+        "output_blocks.10.0.emb_layers.1": "UpBlocks.Chain_11.ResidualBlock.Chain.RangeAdapter2d.Chain.Linear",
+        "output_blocks.10.0.out_layers.0": "UpBlocks.Chain_11.ResidualBlock.Chain.GroupNorm_2",
+        "output_blocks.10.0.out_layers.3": "UpBlocks.Chain_11.ResidualBlock.Chain.Conv2d",
+        "output_blocks.10.0.skip_connection": "UpBlocks.Chain_11.ResidualBlock.Conv2d",
+        "output_blocks.10.1.norm": "UpBlocks.Chain_11.CLIPLCrossAttention.Chain_1.GroupNorm",
+        "output_blocks.10.1.proj_in": "UpBlocks.Chain_11.CLIPLCrossAttention.Chain_1.Conv2d",
+        "output_blocks.10.1.transformer_blocks.0.norm1": "UpBlocks.Chain_11.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.LayerNorm",
+        "output_blocks.10.1.transformer_blocks.0.attn1.to_q": "UpBlocks.Chain_11.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_1",
+        "output_blocks.10.1.transformer_blocks.0.attn1.to_k": "UpBlocks.Chain_11.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_2",
+        "output_blocks.10.1.transformer_blocks.0.attn1.to_v": "UpBlocks.Chain_11.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_3",
+        "output_blocks.10.1.transformer_blocks.0.attn1.to_out.0": "UpBlocks.Chain_11.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Linear",
+        "output_blocks.10.1.transformer_blocks.0.norm2": "UpBlocks.Chain_11.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.LayerNorm",
+        "output_blocks.10.1.transformer_blocks.0.attn2.to_q": "UpBlocks.Chain_11.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_1",
+        "output_blocks.10.1.transformer_blocks.0.attn2.to_k": "UpBlocks.Chain_11.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_2",
+        "output_blocks.10.1.transformer_blocks.0.attn2.to_v": "UpBlocks.Chain_11.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_3",
+        "output_blocks.10.1.transformer_blocks.0.attn2.to_out.0": "UpBlocks.Chain_11.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Linear",
+        "output_blocks.10.1.transformer_blocks.0.norm3": "UpBlocks.Chain_11.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.LayerNorm",
+        "output_blocks.10.1.transformer_blocks.0.ff.net.0.proj": "UpBlocks.Chain_11.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_1",
+        "output_blocks.10.1.transformer_blocks.0.ff.net.2": "UpBlocks.Chain_11.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_2",
+        "output_blocks.10.1.proj_out": "UpBlocks.Chain_11.CLIPLCrossAttention.Chain_3.Conv2d",
+        "output_blocks.11.0.in_layers.0": "UpBlocks.Chain_12.ResidualBlock.Chain.GroupNorm_1",
+        "output_blocks.11.0.in_layers.2": "UpBlocks.Chain_12.ResidualBlock.Chain.RangeAdapter2d.Conv2d",
+        "output_blocks.11.0.emb_layers.1": "UpBlocks.Chain_12.ResidualBlock.Chain.RangeAdapter2d.Chain.Linear",
+        "output_blocks.11.0.out_layers.0": "UpBlocks.Chain_12.ResidualBlock.Chain.GroupNorm_2",
+        "output_blocks.11.0.out_layers.3": "UpBlocks.Chain_12.ResidualBlock.Chain.Conv2d",
+        "output_blocks.11.0.skip_connection": "UpBlocks.Chain_12.ResidualBlock.Conv2d",
+        "output_blocks.11.1.norm": "UpBlocks.Chain_12.CLIPLCrossAttention.Chain_1.GroupNorm",
+        "output_blocks.11.1.proj_in": "UpBlocks.Chain_12.CLIPLCrossAttention.Chain_1.Conv2d",
+        "output_blocks.11.1.transformer_blocks.0.norm1": "UpBlocks.Chain_12.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.LayerNorm",
+        "output_blocks.11.1.transformer_blocks.0.attn1.to_q": "UpBlocks.Chain_12.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_1",
+        "output_blocks.11.1.transformer_blocks.0.attn1.to_k": "UpBlocks.Chain_12.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_2",
+        "output_blocks.11.1.transformer_blocks.0.attn1.to_v": "UpBlocks.Chain_12.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Distribute.Linear_3",
+        "output_blocks.11.1.transformer_blocks.0.attn1.to_out.0": "UpBlocks.Chain_12.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_1.SelfAttention.Linear",
+        "output_blocks.11.1.transformer_blocks.0.norm2": "UpBlocks.Chain_12.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.LayerNorm",
+        "output_blocks.11.1.transformer_blocks.0.attn2.to_q": "UpBlocks.Chain_12.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_1",
+        "output_blocks.11.1.transformer_blocks.0.attn2.to_k": "UpBlocks.Chain_12.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_2",
+        "output_blocks.11.1.transformer_blocks.0.attn2.to_v": "UpBlocks.Chain_12.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Distribute.Linear_3",
+        "output_blocks.11.1.transformer_blocks.0.attn2.to_out.0": "UpBlocks.Chain_12.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_2.Attention.Linear",
+        "output_blocks.11.1.transformer_blocks.0.norm3": "UpBlocks.Chain_12.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.LayerNorm",
+        "output_blocks.11.1.transformer_blocks.0.ff.net.0.proj": "UpBlocks.Chain_12.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_1",
+        "output_blocks.11.1.transformer_blocks.0.ff.net.2": "UpBlocks.Chain_12.CLIPLCrossAttention.Chain_2.CrossAttentionBlock.Residual_3.Linear_2",
+        "output_blocks.11.1.proj_out": "UpBlocks.Chain_12.CLIPLCrossAttention.Chain_3.Conv2d",
+        "out.0": "Chain.GroupNorm",
+        "out.2": "Chain.Conv2d",
+    },
+)
+
+runwayml = Conversion(
+    original=Hub(
+        repo_id="stable-diffusion-v1-5/stable-diffusion-v1-5",
+        filename="unet/diffusion_pytorch_model.safetensors",
+        revision="f03de327dd89b501a01da37fc5240cf4fdba85a1",
+        expected_sha256="19da7aaa4b880e59d56843f1fcb4dd9b599c28a1d9d9af7c1143057c8ffae9f1",
+    ),
+    converted=Hub(
+        repo_id="refiners/sd15.unet",
+        filename="model.safetensors",
+        expected_sha256="6c0488a590f151128565bac105dbc3ce6563643f270c5c32ea756fa317a1c256",
+    ),
+    recipe=diffusers_recipe,
+    dtype=torch.float16,
+)
+runwayml_inpainting = Conversion(
+    original=Hub(
+        repo_id="stable-diffusion-v1-5/stable-diffusion-inpainting",
+        filename="unet/diffusion_pytorch_model.fp16.safetensors",
+        revision="8a4288a76071f7280aedbdb3253bdb9e9d5d84bb",
+        expected_sha256="24b788b4a777748377cc20364eea4ae113c8c42f4468c16bc8c02fdae5492af9",
+    ),
+    converted=Hub(
+        repo_id="refiners/sd15.unet_inpainting",
+        filename="model.safetensors",
+        expected_sha256="331283db7631bfe0027d5f7107ec00ac64679e25fe6e195b79a7b040ad3666ae",
+    ),
+    recipe=diffusers_recipe,
+    dtype=torch.float16,
+)
+juggernaut_reborn = Conversion(
+    original=Hub(
+        repo_id="civitai/KandooAi/juggernaut",
+        filename="reborn/onefile_fp16.safetensors",
+        download_url="https://civitai.com/api/download/models/274039?type=Model&format=SafeTensor&size=pruned&fp=fp16",
+        expected_sha256="338b85bc4f7628bc42cce336242e79154a57c2a4360531436e97f7793568f18c",
+    ),
+    converted=Hub(
+        repo_id="refiners/sd15.juggernaut.reborn.unet",
+        filename="model.safetensors",
+        expected_sha256="64a75d16fdb11faeedbef8270fcdfe3051284f743cdf46d8bb89c09499a22591",
+    ),
+    recipe=civitai_recipe,
+    dtype=torch.float16,
+)
+juggernaut_aftermath = Conversion(
+    original=Hub(
+        repo_id="civitai/KandooAi/juggernaut",
+        filename="aftermath/onefile_fp32.safetensors",
+        download_url="https://civitai.com/api/download/models/127207?type=Model&format=SafeTensor&size=full&fp=fp32",
+        expected_sha256="7ed60a2f5842de8e6755965ffbf2a0ee273429939f307233c22f7dffd8d7ae3d",
+    ),
+    converted=Hub(
+        repo_id="refiners/sd15.juggernaut.aftermath.unet",
+        filename="model.safetensors",
+        expected_sha256="5882c517eac0670df60755cb9eb762081a1d6a37431d3f7f9a3a6d8dfe764d86",
+    ),
+    recipe=civitai_recipe,
+    dtype=torch.float32,
+)
+juggernaut_aftermath_inpainting = Conversion(
+    original=Hub(
+        repo_id="civitai/KandooAi/juggernaut",
+        filename="aftermath-inpainting/onefile_fp32.safetensors",
+        download_url="https://civitai.com/api/download/models/129549?type=Model&format=SafeTensor&size=full&fp=fp32",
+        expected_sha256="b370189733ef44a3661a96139c02fde22d36df5ad12d1112b0b56fc3d6bfbdba",
+    ),
+    converted=Hub(
+        repo_id="refiners/sd15.juggernaut.aftermath.unet_inpainting",
+        filename="model.safetensors",
+        expected_sha256="c00a85060de351d617cc3a3be6865cf3493a0557f1f32303cb8a385c6368b9a8",
+    ),
+    recipe=civitai_recipe,
+    dtype=torch.float32,
+)
+realistic_stock_photo_v3 = Conversion(
+    original=Hub(
+        repo_id="Yntec/realisticStockPhoto3",
+        filename="realisticStockPhoto_v30SD15.safetensors",
+        expected_sha256="f85affae9aae16276eaf670f810946e2d03c4d300791a0380f07653cb78ba31b",
+        # download_url="https://civitai.com/api/download/models/524032?type=Model&format=SafeTensor&size=full&fp=fp16",
+        # civitai model is gated by auth, using a mirror on hf hub instead
+    ),
+    converted=Hub(
+        repo_id="refiners/sd15.realistic_stock_photo.v3_0.unet",
+        filename="model.safetensors",
+        expected_sha256="18a8616375a8738cc051c3d5a63979e7d40dec4d720f88247424db2ebd663131",
+    ),
+    recipe=civitai_recipe,
+    dtype=torch.float16,
+)
+realistic_vision_v5 = Conversion(
+    original=Hub(
+        repo_id="civitai/SG_161222/realistic_vision",
+        filename="v5/onefile_fp32.safetensors",
+        download_url="https://civitai.com/api/download/models/130072?type=Model&format=SafeTensor&size=full&fp=fp16",
+        expected_sha256="ef76aa2332635f4352463343beec9c5aae3bd107a73c0fd7221abbbcf8bd5470",
+    ),
+    converted=Hub(
+        repo_id="refiners/sd15.realistic_vision.v5_1.unet",
+        filename="model.safetensors",
+        expected_sha256="3d6fc9cb9eabb1487e0337ed17ab29bbfabfc5e5faf47c3635a4ee73b5bb1164",
+    ),
+    recipe=civitai_recipe,
+    dtype=torch.float16,
+)
+
+ic_light_fc = Conversion(
+    original=Hub(
+        repo_id="lllyasviel/ic-light",
+        filename="iclight_sd15_fc.safetensors",
+        revision="f5950d474dc0cd5bb5a0c66189534cd13f28eb70",
+        expected_sha256="a033fbaaa2f3f7859fa6a4477ee63ebbf9c116bf3569d5811856d2807f3468cd",
+    ),
+    converted=Hub(
+        repo_id="refiners/sd15.ic_light.fc",
+        filename="model.safetensors",
+        expected_sha256="2d4e8ff0ac65274ec9655eeac459226e4790de1326e4338e34c4348bdf763350",
+    ),
+    recipe=diffusers_recipe,
+    dtype=torch.float16,
+)
+ic_light_fcon = Conversion(
+    original=Hub(
+        repo_id="lllyasviel/ic-light",
+        filename="iclight_sd15_fcon.safetensors",
+        revision="f5950d474dc0cd5bb5a0c66189534cd13f28eb70",
+        expected_sha256="37652ef27028c8fdb9882830b1621e4e648d26e19cb2035a6af8d52f3a6d8d87",
+    ),
+    converted=Hub(
+        repo_id="refiners/sd15.ic_light.fcon",
+        filename="model.safetensors",
+        expected_sha256="856cf6a6cb6b57335073c3140bb38c3cc35bcffa69cd8a57c166fac37b3594d4",
+    ),
+    recipe=diffusers_recipe,
+    dtype=torch.float16,
+)
+ic_light_fbc = Conversion(
+    original=Hub(
+        repo_id="lllyasviel/ic-light",
+        filename="iclight_sd15_fbc.safetensors",
+        revision="f5950d474dc0cd5bb5a0c66189534cd13f28eb70",
+        expected_sha256="bb8ccedaa4944b16cfa8356afcbc2c2174cc4c4af57de19124ae0cddd0d96947",
+    ),
+    converted=Hub(
+        repo_id="refiners/sd15.ic_light.fbc",
+        filename="model.safetensors",
+        expected_sha256="c79f275b94566da66801cf8fe9c1872202ff5c9b634d321a7e6ecaface0e456f",
+    ),
+    recipe=diffusers_recipe,
+    dtype=torch.float16,
+)
--- a/src/refiners/conversion/models/unet_sdxl.py
+++ b/src/refiners/conversion/models/unet_sdxl.py
--- a/src/refiners/conversion/utils.py
+++ b/src/refiners/conversion/utils.py
@ -0,0 +1,347 @@
+import logging
+import os
+from hashlib import sha256
+from pathlib import Path
+from typing import Any, cast
+from warnings import warn
+
+import requests
+import torch
+from huggingface_hub import (  # pyright: ignore[reportMissingTypeStubs]
+    HfFileMetadata,
+    get_hf_file_metadata,  # pyright: ignore[reportUnknownVariableType]
+    hf_hub_download,  # pyright: ignore[reportUnknownVariableType]
+    hf_hub_url,
+)
+from tqdm import tqdm
+
+from refiners.fluxion.utils import load_from_safetensors, load_tensors, save_to_safetensors
+
+AnyDict = dict[str, Any]
+TensorDict = dict[str, torch.Tensor]
+
+
+def download_file_url(url: str, destination: Path) -> None:
+    """Download a file from a url to a destination."""
+    logging.debug(f"Downloading {url} to {destination}")
+
+    # get the size of the file
+    response = requests.get(url, stream=True)
+    response.raise_for_status()
+    total = int(response.headers.get("content-length", 0))
+
+    # create a progress bar
+    bar = tqdm(
+        desc=destination.name,
+        total=total,
+        unit="iB",
+        unit_scale=True,
+        unit_divisor=1024,
+        leave=False,
+    )
+
+    # download the file
+    destination.parent.mkdir(parents=True, exist_ok=True)
+    with destination.open("wb") as f:
+        with requests.get(url, stream=True) as r:
+            r.raise_for_status()
+            for chunk in r.iter_content(chunk_size=1024 * 1000):
+                size = f.write(chunk)
+                bar.update(size)
+        bar.close()
+
+
+class Hub:
+    """A class representing a weight on the Hub.
+
+    Note:
+        The Hub denotes a directory on the local machine where the weights are stored.
+        The Hub may also correspond to a remote repository on the Hugging Face Hub.
+    """
+
+    def __init__(
+        self,
+        repo_id: str,
+        filename: str,
+        expected_sha256: str,
+        revision: str = "main",
+        download_url: str | None = None,
+    ) -> None:
+        """Initialize the HubPath.
+
+        Args:
+            repo_id: The repository identifier on the hub.
+            filename: The filename of the file in the repository.
+            revision: The revision of the file on the hf hub.
+            expected_sha256: The sha256 hash of the file.
+            download_url: The url to download the file from, if not from the huggingface hub.
+        """
+        self.repo_id = repo_id
+        self.filename = filename
+        self.revision = revision
+        self.expected_sha256 = expected_sha256.lower()
+        self.override_download_url = download_url
+
+    @staticmethod
+    def hub_location():
+        """Return the path to the local hub root directory."""
+        return Path(os.getenv("REFINERS_HUB_PATH", "tests/weights"))
+
+    @property
+    def hf_url(self) -> str:
+        """Return the url to the file on the hf hub."""
+        assert self.override_download_url is None, f"{self.repo_id}/{self.filename} is not available on the hub"
+        return hf_hub_url(
+            repo_id=self.repo_id,
+            filename=self.filename,
+            revision=self.revision,
+        )
+
+    @property
+    def hf_cache_path(self) -> Path:
+        """Download the file from the hf hub and return its path in the local hf cache."""
+        return Path(
+            hf_hub_download(
+                repo_id=self.repo_id,
+                filename=self.filename,
+                revision=self.revision,
+            ),
+        )
+
+    @property
+    def hf_metadata(self) -> HfFileMetadata:
+        """Return the metadata of the file on the hf hub."""
+        return get_hf_file_metadata(self.hf_url)
+
+    @property
+    def hf_sha256_hash(self) -> str:
+        """Return the sha256 hash of the file on the hf hub."""
+        remote_hash = self.hf_metadata.etag
+        assert remote_hash is not None
+        assert len(remote_hash) == 64
+        return remote_hash.lower()
+
+    @property
+    def local_path(self) -> Path:
+        """Return the path to the file in the local hub."""
+        return self.hub_location() / self.repo_id / self.filename
+
+    @property
+    def local_hash(self) -> str:
+        """Return the sha256 hash of the file in the local hub."""
+        assert self.local_path.is_file(), f"{self.local_path} does not exist"
+        # TODO: use https://docs.python.org/3/library/hashlib.html#hashlib.file_digest when support python >= 3.11
+        return sha256(self.local_path.read_bytes()).hexdigest().lower()
+
+    def check_local_hash(self) -> bool:
+        """Check if the sha256 hash of the file in the local hub is correct."""
+        if self.expected_sha256 != self.local_hash:
+            logging.warning(f"{self.local_path} local sha256 mismatch, {self.local_hash} != {self.expected_sha256}")
+            return False
+        else:
+            logging.debug(f"{self.local_path} local sha256 is correct ({self.local_hash})")
+            return True
+
+    def check_remote_hash(self) -> bool:
+        """Check if the sha256 hash of the file on the hf hub is correct."""
+        if self.expected_sha256 != self.hf_sha256_hash:
+            logging.warning(
+                f"{self.local_path} remote sha256 mismatch, {self.hf_sha256_hash} != {self.expected_sha256}"
+            )
+            return False
+        else:
+            logging.debug(f"{self.local_path} remote sha256 is correct ({self.hf_sha256_hash})")
+            return True
+
+    def download(self) -> None:
+        """Download the file from the hf hub or from the override download url."""
+        self.local_path.parent.mkdir(parents=True, exist_ok=True)
+        if self.local_path.is_file():
+            logging.warning(f"{self.local_path} already exists")
+        elif self.override_download_url is not None:
+            download_file_url(url=self.override_download_url, destination=self.local_path)
+        else:
+            # TODO: pas assez de message de log quand local_path existe pas et que ça vient du hf cache
+            self.local_path.symlink_to(self.hf_cache_path)
+        assert self.check_local_hash()
+
+
+class WeightRecipe:
+    """A class representing a recipe to convert weights from one format to another."""
+
+    def __init__(
+        self,
+        key_map: dict[str, str],
+        key_prefix: str = "",
+        key_aliases: dict[str, str] = {},
+        tensor_reshapes: dict[str, tuple[int, ...]] = {},
+    ):
+        """Initialize the weight recipe.
+
+        Args:
+            key_map: A dictionary mapping the keys of the original state dict to the converted state dict.
+            key_prefix: A prefix to remove from the keys of the original state dict.
+            key_aliases: A dictionary mapping the keys of the original state dict to their aliases.
+            tensor_reshapes: A dictionary mapping the keys of the original state dict to their new shapes.
+        """
+        self.key_prefix = key_prefix
+        self.key_map = key_map
+        self.key_aliases = key_aliases
+        self.tensor_reshapes = tensor_reshapes
+
+    @staticmethod
+    def flatten_state_dict(state_dict: AnyDict, sep: str = ".") -> AnyDict:
+        """Flattens a nested dictionary into a dictionary with dot-separated keys.
+
+        Args:
+            state_dict: A nested dictionary.
+            sep: The separator to use between keys when flattening.
+        """
+
+        def _flatten(current_dict: AnyDict, parent_key: str = "") -> AnyDict:
+            items: AnyDict = {}
+            for k, v in current_dict.items():
+                new_key = f"{parent_key}{sep}{k}" if parent_key else k
+                if isinstance(v, dict):
+                    items.update(_flatten(cast(AnyDict, v), new_key))
+                else:
+                    items[new_key] = v
+            return items
+
+        return _flatten(state_dict)
+
+    def name_map_keys(self, state_dict: TensorDict) -> TensorDict:
+        """Map the keys of the state dict according to the name map."""
+        new_state_dict: TensorDict = {}
+        for key, value in state_dict.items():
+            # check for .weight or .bias suffixes
+            suffix = next(s for s in (".weight", ".bias", "") if key.endswith(s))
+            key = key.removesuffix(suffix)
+
+            # remove key_prefix
+            key = key.removeprefix(self.key_prefix)
+
+            # check for key aliases
+            source_key = self.key_aliases.get(key, key)
+
+            # get target_key from key_map
+            target_key = self.key_map.get(source_key)
+            if target_key is None:
+                continue  # ignore key if it doesn't exist in the key_map
+
+            # add value to new_state_dict with the mapped key
+            new_state_dict[target_key + suffix] = value
+
+        return new_state_dict
+
+    def reshape_tensors(self, state_dict: TensorDict) -> TensorDict:
+        """Reshape tensors in the state dict according to tensor_reshapes."""
+        new_state_dict = state_dict.copy()
+        for key, value in state_dict.items():
+            if key in self.tensor_reshapes:
+                new_shape = self.tensor_reshapes[key]
+                new_state_dict[key] = value.reshape(new_shape)
+        return new_state_dict
+
+    def translate_keys(self, state_dict: AnyDict, flatten_state_dict: bool = True) -> TensorDict:
+        """Translate the keys of a state dict."""
+        if flatten_state_dict:
+            state_dict = self.flatten_state_dict(state_dict)
+
+        state_dict = self.name_map_keys(state_dict)
+        state_dict = self.reshape_tensors(state_dict)
+
+        return state_dict
+
+
+class Conversion:
+    """Structure to link original and converted weights on the Hub."""
+
+    def __init__(
+        self,
+        original: Hub,
+        converted: Hub,
+        recipe: WeightRecipe,
+        dtype: torch.dtype,
+    ) -> None:
+        """Initialize the weight structure.
+
+        Args:
+            original: A Hub object representing the original weight.
+            converted: A Hub object representing the converted weight.
+            recipe: A WeightRecipe object used to convert from the original to the converted weight.
+            dtype: The dtype of the converted weights.
+        """
+        self.original = original
+        self.converted = converted
+        self.recipe = recipe
+        self.dtype = dtype
+
+    @staticmethod
+    def load_state_dict(path: Path) -> AnyDict:
+        """Load a state dict from a file."""
+        if path.suffix == ".safetensors" or path.suffix == ".sft":
+            return load_from_safetensors(path)
+        else:
+            return load_tensors(path)
+
+    @staticmethod
+    def filter_tensors_state_dict(state_dict: AnyDict) -> TensorDict:
+        """Filter out non-tensor values and tensors with NaNs from a state dict."""
+        new_state_dict: TensorDict = {}
+        for key, value in state_dict.items():
+            if not isinstance(value, torch.Tensor):
+                warn(f"Value for key {key} is not a tensor, filtering")
+                continue
+            if torch.isnan(value).sum().item() > 0:
+                warn(f"Found NaNs in {key}, filtering")
+                continue
+            new_state_dict[key] = value
+        return new_state_dict
+
+    @staticmethod
+    def change_dtype(state_dict: TensorDict, dtype: torch.dtype) -> TensorDict:
+        """Change the dtype of the tensors in a state dict."""
+        return {k: v.to(dtype=dtype) for k, v in state_dict.items()}
+
+    def convert(self) -> None:
+        """Convert the weights from the original to the converted weights.
+
+        Note: The original weights are automatically downloaded if they are not already present.
+        """
+        logging.info(
+            f"Converting {self.original.repo_id}/{self.original.filename} "
+            f"to {self.converted.repo_id}/{self.converted.filename}"
+        )
+
+        # check if the converted file already exists
+        if self.converted.local_path.is_file():
+            logging.warning(f"{self.converted.local_path} already exists")
+            if self.converted.check_local_hash():
+                try:
+                    assert self.converted.check_remote_hash()
+                except requests.exceptions.HTTPError:
+                    logging.error(f"{self.converted.local_path} couldn't verify remote hash")
+                return
+
+        # get the original state_dict
+        self.original.download()
+
+        # load the original state_dict
+        original_state_dict = self.load_state_dict(self.original.local_path)
+        original_state_dict = self.filter_tensors_state_dict(original_state_dict)
+
+        # convert the state_dict
+        converted_state_dict = self.recipe.translate_keys(original_state_dict)
+        converted_state_dict = self.change_dtype(converted_state_dict, self.dtype)
+
+        # save the converted state_dict
+        self.converted.local_path.parent.mkdir(parents=True, exist_ok=True)
+        save_to_safetensors(self.converted.local_path, converted_state_dict)
+
+        # check the converted state_dict
+        assert self.converted.check_local_hash()
+        try:
+            assert self.converted.check_remote_hash()
+        except requests.exceptions.HTTPError:
+            logging.warning(f"{self.converted.local_path} couldn't verify remote hash")