ajout paragraphes vdm et arm

This commit is contained in:
Laureηt 2023-07-07 15:27:35 +02:00
parent 33cbe7b30e
commit 5405648c96
3 changed files with 177 additions and 18 deletions

View file

@ -228,6 +228,10 @@ On retrouve de même dans les \gls{gnn} des architectures avancées, inspirées
Les applications les plus courantes de ces réseaux incluent la classification\cite{kipf_semi-supervised_2017} de documents, la détection de fraudes\cite{ma_comprehensive_2021} et les systèmes de recommandation\cite{gao_survey_2023}. En revanche, la génération de graphes est moins répandue et se limite souvent dans la littérature à la génération de petites molécules\cite{kipf_graph_2020,simonovsky_graphvae_2018}.
\cite{thomas_kpconv_2019}
\cite{tang_searching_2020}
\cite{liu_point-voxel_2019}
\FloatBarrier
\section{Modèles génératifs}
@ -257,16 +261,20 @@ Il existe plusieurs sous familles de modèles génératifs, chacune basées sur
\label{fig:gan-architecture}
\end{figure}
Les \gls{gan} sont la famille de modèles génératifs la plus renommée et également la plus ancienne\cite{goodfellow_generative_2014}. Ces modèles reposent sur un principe compétitif impliquant deux réseaux de neurones. Le premier réseau, connu sous le nom de générateur, a pour objectif de produire de nouvelles données. Le deuxième réseau, appelé discriminateur, est chargé de distinguer les données générées par le générateur des données réelles. Le générateur est entraîné à tromper le discriminateur tandis que le discriminateur est entraîné à identifier les données générées par rapport aux données réelles. Cette compétition entre les deux réseaux permet de former le générateur à générer des données de plus en plus réalistes. Ce type d'apprentissage est auto-supervisé, car il ne nécessite pas l'utilisation d'annotations sur les données pour entraîner un \gls{gan}.
Les \gls{gan} sont la famille de modèles génératifs la plus renommée et également la plus ancienne\cite{goodfellow_generative_2014}. Ces modèles reposent sur un principe compétitif impliquant deux réseaux de neurones. Le premier réseau, connu sous le nom de générateur, a pour objectif de produire de nouvelles données. Le deuxième réseau, appelé discriminateur, est chargé de distinguer les données générées par le générateur des données réelles. Le générateur est entraîné à tromper le discriminateur tandis que le discriminateur est entraîné à identifier les données générées par rapport aux données réelles. Cette compétition entre les deux réseaux permet de former le générateur à générer des données de plus en plus réalistes. Ce type d'apprentissage est auto-supervisé, car il ne nécessite pas l'utilisation d'annotations sur les données pour entraîner le modèle.
Les \gls{gan} ont su démontrer leur efficacité pour générer des images réalistes. Cependant, ces modèles sont très difficiles à entraîner\cite{arjovsky_towards_2017}. Les \gls{gan} sont par exemple suceptible au problème des \textit{mode collapse}, où le générateur génère toujours la même image, au problème de \textit{non convergence}, où le générateur et/ou le discriminateur ont une fonction de cout instable et ne convergent ainsi pas vers un équilibre de Nash, ou encore au problème de \textit{vanishing gradient}, où le discriminateur devient trop efficace et empêche le générateur d'apprendre.
Au fil des années, de nombreuses améliorations\cite{salimans_improved_2016}, variations et cas d'applications (WGAN\cite{arjovsky_wasserstein_2017}, CycleGAN\cite{zhu_unpaired_2020}, SGAN\cite{odena_semi-supervised_2016}, DiscoGAN\cite{kim_learning_2017}, SRGAN\cite{ledig_photo-realistic_2017}, etc.) ont été proposées, mais ces modèles restent complexes à entraîner et à évaluer. De plus, ces modèles sont très sensibles aux hyperparamètres et nécessitent une grande quantité de données pour être efficaces.
Au fil des années, de nombreuses améliorations\cite{salimans_improved_2016}, variations ((WGAN\cite{arjovsky_wasserstein_2017}, etc.) et cas d'applications (CycleGAN\cite{zhu_unpaired_2020}, SGAN\cite{odena_semi-supervised_2016}, DiscoGAN\cite{kim_learning_2017}, SRGAN\cite{ledig_photo-realistic_2017}, etc.) ont été proposées, mais ces modèles restent complexes à entraîner et à évaluer. De plus, ces modèles sont très sensibles aux hyperparamètres et nécessitent une grande quantité de données pour être efficaces.
Face à ces inconvénients, et puisque nous ne possédons pas de grandes quantités de données, nous avons choisi de ne pas utiliser cette famille de modèles.
\FloatBarrier
\glsreset{vae}
\subsection{\gls{vae}}
% parler des vae hiereachiques
\begin{figure}[h]
\centering
\includegraphics[width=14cm]{vae-architecture.png}
@ -282,7 +290,9 @@ La particularité des \gls{vae} réside dans l'espace latent intermédiaire entr
L'intéret de cet espace latent est qu'il permet de générer de nouvelles données en interpolant entre deux points de cet espace. De même, il permet de générer de nouvelles données en modifiant légèrement un point spécifique de cet espace. Ces deux caractéristiques permettent la génération de nouvelles données à partir de données existantes, ce qui se révèle extrêmement utile dans le domaine de l'ingénierie, offrant ainsi des possibilités de création et de conception de nouvelles données basées sur des modèles existants.
Tout comme les \gls{gan}, de nombreuses améliorations\cite{burgess_understanding_2018,higgins_beta-vae_2022,alemi_deep_2019} et variations\cite{kim_setvae_2021,shah_auto-decoding_2020,simonovsky_graphvae_2018} ont été proposées pour les \gls{vae}. Ces modèles sont plus faciles à entraîner que les \gls{gan} et présentent une plus grande stabilité. Cependant, les \gls{vae} ont tendance à générer des données floues et peu réalistes\cite{yacoby_failure_2021}, et en général produisent des résultats de moins bonne qualité que les \gls{gan}, en particulier pour des résolutions élevées.
Tout comme les \gls{gan}, de nombreuses améliorations\cite{burgess_understanding_2018,higgins_beta-vae_2022,alemi_deep_2019,su_f-vaes_2018} et variations\cite{kim_setvae_2021,shah_auto-decoding_2020,simonovsky_graphvae_2018} ont été proposées pour les \gls{vae}. Ces modèles sont plus faciles à entraîner que les \gls{gan} et présentent une plus grande stabilité. Cependant, les \gls{vae} ont tendance à générer des données floues et peu réalistes\cite{yacoby_failure_2021}, et en général produisent des résultats de moins bonne qualité que les \gls{gan}, en particulier pour des résolutions élevées.
nous avons choisi d'explorer ces modèles dans un premier temps lors de nos experiementations.
\FloatBarrier
\glsreset{nf}
@ -297,12 +307,10 @@ Tout comme les \gls{gan}, de nombreuses améliorations\cite{burgess_understandin
\label{fig:nf-architecture}
\end{figure}
Les \gls{nf} sont une autre classe de modèles génératifs qui ont gagné en popularité ces dernières années. Ces modèles se basent des transformations inversibles et différentiables. Ces transformations sont appliquées à une distribution de base, généralement une distribution simple comme une gaussienne, pour obtenir une distribution plus complexe et plus proche de la distribution des données réelles.
Les \gls{nf} sont une autre classe de modèles génératifs qui ont gagné en popularité ces dernières années. Ces modèles se basent des transformations inversibles (bijectives) et différentiables. Ces transformations sont appliquées à une distribution de base, généralement une distribution simple comme une gaussienne, pour obtenir une distribution plus complexe et plus proche de la distribution des données réelles.
Les transformations inversibles utilisées dans les \gls{nf} sont souvent paramétrisées par des réseaux de neurones, ce qui permet d'apprendre des fonctions non linéaires complexes. En utilisant plusieurs transformations en séquence, on peut construire des modèles génératifs flexibles capables de capturer des distributions complexes.
L'idée principale des \gls{nf} est d'apprendre à modéliser la transformation de la distribution de base vers la distribution cible. Les transformations inversibles utilisées dans les \gls{nf} sont souvent paramétrisées par des réseaux de neurones, ce qui permet d'apprendre des fonctions non linéaires complexes. En utilisant plusieurs transformations en séquence, on peut construire des modèles génératifs flexibles capables de capturer des distributions complexes.
\cite{su_f-vaes_2018}
\cite{yang_pointflow_2019}
Dans la littérature, ces réseaux sont assez peu appliqué aux types de données qui nous intéressent, à l'exception notable de PointFlow\cite{yang_pointflow_2019} qui aura posé certaines bases pour évaluer les réseaux génératifs de pointclouds.
\FloatBarrier
\glsreset{vdm}
@ -317,9 +325,26 @@ L'idée principale des \gls{nf} est d'apprendre à modéliser la transformation
\label{fig:vdm-architecture}
\end{figure}
Les \gls{vdm} sont la famille de réseaux générateurs la plus récente et aussi la plus performante. La manière la plus simple de décrire ces modèles est de les considérer comme une mélange des \gls{vae} et des \gls{nf}. En effet, le principe des \gls{vdm} est de trouver un processus réversible entre notre distribution de données et distribution totalement différente, mais que l'on connait de préférence parfaitement mathématiquement, comme une gaussienne isentropique par exemple. Dans leur architecture, les \gls{vdm} peuvent être vus comme des \gls{vae} hiérarchiques où la taille de la dimension latente est égale à celle des données d'entrée, où les encodeurs ne sont pas appris, mais sont déterminés par le processus de diffusion. De même, contrairement aux \gls{nf}, les \gls{vdm} ne sont pas basés sur des transformations déterministes et continues, mais sur des transformations stochastiques et discrètes.
Il peut cependant être montré théoriquement\cite{luo_understanding_2022} l'équivalence entre les \gls{vdm} et les méthodes de score matching lorsque que T tend vers l'infini. Les méthodes de score matching sont une famille de méthodes qui permettent d'estimer la densité de probabilité d'un ensemble de données en travaillant uniquement le gradient de la densité de probabilité. mécanique langevin pour estime la distrib à partir du gradient.
Plusieurs sous-familles de modèles existent pour faire de la diffusion, la plus connue d'entre elles étant les \gls{ddpm}\cite{ho_denoising_2020}. Cette moéthode consiste à trouver un mapping réversible entre nos données et du bruit gaussien.
% descritpion du training bref
% description du sampling bref
Une fois notre modèle correctement entrainés, nous somme donc capable de débruiter nos données. Le plus intéréessant est cependant lorsque nous demandons à notre réseau de débruiter du bruit pure. Le réseau se met alors à halluciner quelque chose qui ressemble fortement à nos données d'entraiments.
\cite{song_generative_2020}
\FloatBarrier
\glsreset{ldm}
\subsection{\gls{ldm}}
\subsubsection{\gls{ldm}}
\begin{figure}[h!]
\centering
@ -330,14 +355,24 @@ L'idée principale des \gls{nf} est d'apprendre à modéliser la transformation
\label{fig:ldm-architecture}
\end{figure}
\cite{song_generative_2020}
\cite{thomas_kpconv_2019}
\cite{tang_searching_2020}
\cite{liu_point-voxel_2019}
Une amélioration notable des \gls{vdm} est l'utilisation intelligente des espaces latent. Cette technique à été popularisé par \cite{rombach_high-resolution_2022}
\FloatBarrier
\subsubsection{Conditionnemnt \& Guidance}
% https://liorsinai.github.io/coding/2023/01/04/denoising-diffusion-3-guidance.html#guided-diffusion
\cite{dhariwal_diffusion_2021}
\cite{ho_classifier-free_2022}
\cite{nichol_glide_2022}
\cite{song_score-based_2021}
\cite{zhou_3d_2021}
\cite{nguyen_point-set_2021}
\cite{zeng_lion_2022}
\cite{nichol_point-e_2022}
\cite{nam_3d-ldm_2022}
\FloatBarrier
\glsreset{arm}
@ -352,8 +387,7 @@ L'idée principale des \gls{nf} est d'apprendre à modéliser la transformation
\label{fig:arm-architecture}
\end{figure}
\cite{nash_polygen_2020}
\cite{liao_efficient_2020}
Les modèles auto-régressifs sont des méthodes de génération de séquences qui utilisent les éléments précédents pour prédire chaque élément suivant. Ces modèles ont été largement utilisés dans le domaine du traitement du langage naturel, où ils ont montré d'excellentes performances. Cependant, l'application de ces modèles à la génération de graphes présente des défis particuliers en raison de la structure complexe des graphes. En effet, les graphes sont des structures de données non linéaires et non séquentielles, ce qui rend difficile l'utilisation des modèles auto-régressifs. Malgré cela, plusieurs approches\cite{nash_polygen_2020,liao_efficient_2020} ont été proposées pour adapter ces modèles à la génération de graphes. Cependant, il est important de noter que ces modèles deviennent de moins en moins précis de manière exponentielle à mesure que la taille de la séquence à générer augmente. De ce fait nous n'avons pas encore utilisé ces modèles dans nos travaux.
\FloatBarrier
\glsreset{nerf}
@ -378,6 +412,8 @@ Les \gls{nerf} sont donc une alternative aux méthodes traditionnelles de recons
Dans notre cas, étant donné que notre ensemble de données ne convient pas à l'application des \gls{nerf}, puisque cela necessiterait un travail lourd de pre-processing (conversion de nos maillages/scènes en image via un moteur de rendu) et de post-precessing (marching cube) de notre dataset. Nous n'utiliserons donc pas cette approche.
\cite{nichol_point-e_2022}
\chapter{Déroulement du stage}
Ce chapitre présente un aperçu détaillé du déroulement de mon stage de 6 mois au sein de \gls{ssa}. Tout au long de cette période, j'ai travaillé en tant que Stagiaire Ingénieur en Machine Learning au sein du département Safran Techn, dans l'équipe flex (chercher acronyme bidule), dont le but est de développer des outils de simulation et de modélisation pour les besoins de \gls{ssa}. J'ai été encadré par Xavier Roynard, Michel Alessandro Bucci et Brian Staber.
@ -398,7 +434,7 @@ Au cours de cette période, j'ai également eu des discussions régulières avec
\FloatBarrier
\section{Prise en main des données}
En parallèle de ma lecture de la littérature, j'ai entamé l'exploration des données fournies par \gls{ssa}. J'ai acquis une compréhension des différents formats de données spécifiques utilisés par l'entreprise pour stocker les résultats des simulations numériques de mécaniques des fluides. De plus, j'ai appris à manipuler ces données en utilisant des outils tels que Paraview.
En parallèle de ma lecture de la littérature, j'ai entamé l'exploration des données fournies par \gls{ssa}. J'ai acquis une compréhension des différents formats de données spécifiques utilisés par l'entreprise pour stocker les résultats des simulations numériques de mécaniques des fluides. De plus, j'ai appris à manipuler ces données en utilisant des outils tels que Paraview\cite{ParaView}.
Le principal ensemble de données sur lequel j'ai travaillé pendant mon stage s'appelle Rotor37\_1200. Il s'agit d'un ensemble de données de simulation \gls{cfd} d'une des 37 pales d'une turbine d'un moteur d'avion. Cet ensemble de données contient 1200 échantillons, qui ont été créé via un processus d'optimisation consistant en l'exploration de paramètres en quête de la maximisation d'un critère de performance.
@ -483,7 +519,7 @@ classifier-free guidance
\backmatter
\addcontentsline{toc}{chapter}{Bibliographie}
\bibliography{zotero}
\bibliography{zotero,softs}
\bibliographystyle{plainnat}
\end{document}

47
src/softs.bib Normal file
View file

@ -0,0 +1,47 @@
@incollection{ParaView,
author = {James Ahrens and Berk Geveci and Charles Law},
booktitle = {Visualization Handbook},
publisher = {Elesvier},
title = {{ParaView}: An End-User Tool for Large Data Visualization},
year = {2005},
note = {{ISBN}~978-0123875822},
url = {http://www.paraview.org/}
}
@incollection{NEURIPS2019_9015,
title = {PyTorch: An Imperative Style, High-Performance Deep Learning Library},
author = {Paszke, Adam and Gross, Sam and Massa, Francisco and Lerer, Adam and Bradbury, James and Chanan, Gregory and Killeen, Trevor and Lin, Zeming and Gimelshein, Natalia and Antiga, Luca and Desmaison, Alban and Kopf, Andreas and Yang, Edward and DeVito, Zachary and Raison, Martin and Tejani, Alykhan and Chilamkurthy, Sasank and Steiner, Benoit and Fang, Lu and Bai, Junjie and Chintala, Soumith},
booktitle = {Advances in Neural Information Processing Systems 32},
pages = {8024--8035},
year = {2019},
publisher = {Curran Associates, Inc.},
url = {http://papers.neurips.cc/paper/9015-pytorch-an-imperative-style-high-performance-deep-learning-library.pdf}
}
@software{Falcon_PyTorch_Lightning_2019,
author = {Falcon, William and {The PyTorch Lightning team}},
doi = {10.5281/zenodo.3828935},
license = {Apache-2.0},
month = {3},
title = {{PyTorch Lightning}},
url = {https://github.com/Lightning-AI/lightning},
version = {1.4},
year = {2019}
}
@inproceedings{lhoest-etal-2021-datasets,
title = {Datasets: A Community Library for Natural Language Processing},
author = {Lhoest, Quentin and {The HuggingFace team}},
booktitle = {Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing: System Demonstrations},
month = nov,
year = {2021},
address = {Online and Punta Cana, Dominican Republic},
publisher = {Association for Computational Linguistics},
url = {https://aclanthology.org/2021.emnlp-demo.21},
pages = {175--184},
abstract = {The scale, variety, and quantity of publicly-available NLP datasets has grown rapidly as researchers propose new tasks, larger models, and novel benchmarks. Datasets is a community library for contemporary NLP designed to support this ecosystem. Datasets aims to standardize end-user interfaces, versioning, and documentation, while providing a lightweight front-end that behaves similarly for small datasets as for internet-scale corpora. The design of the library incorporates a distributed, community-driven approach to adding datasets and documenting usage. After a year of development, the library now includes more than 650 unique datasets, has more than 250 contributors, and has helped support a variety of novel cross-dataset research projects and shared tasks. The library is available at https://github.com/huggingface/datasets.},
eprint = {2109.02846},
archiveprefix = {arXiv},
primaryclass = {cs.CL},
url = {https://github.com/huggingface/datasets}
}

View file

@ -812,5 +812,81 @@ version: 1},
month = sep,
year = {2017},
note = {arXiv:1511.05493 [cs, stat]},
keywords = {Computer Science - Artificial Intelligence, Computer Science - Machine Learning, Computer Science - Neural and Evolutionary Computing, Statistics - Machine Learning},
keywords = {Computer Science - Machine Learning, Computer Science - Neural and Evolutionary Computing, Statistics - Machine Learning, Computer Science - Artificial Intelligence},
file = {arXiv Fulltext PDF:/home/laurent/Zotero/storage/L3VNMV2A/Li et al. - 2017 - Gated Graph Sequence Neural Networks.pdf:application/pdf;arXiv.org Snapshot:/home/laurent/Zotero/storage/5LW4NDAB/1511.html:text/html},
}
@misc{kingma_variational_2023,
title = {Variational {Diffusion} {Models}},
url = {http://arxiv.org/abs/2107.00630},
doi = {10.48550/arXiv.2107.00630},
abstract = {Diffusion-based generative models have demonstrated a capacity for perceptually impressive synthesis, but can they also be great likelihood-based models? We answer this in the affirmative, and introduce a family of diffusion-based generative models that obtain state-of-the-art likelihoods on standard image density estimation benchmarks. Unlike other diffusion-based models, our method allows for efficient optimization of the noise schedule jointly with the rest of the model. We show that the variational lower bound (VLB) simplifies to a remarkably short expression in terms of the signal-to-noise ratio of the diffused data, thereby improving our theoretical understanding of this model class. Using this insight, we prove an equivalence between several models proposed in the literature. In addition, we show that the continuous-time VLB is invariant to the noise schedule, except for the signal-to-noise ratio at its endpoints. This enables us to learn a noise schedule that minimizes the variance of the resulting VLB estimator, leading to faster optimization. Combining these advances with architectural improvements, we obtain state-of-the-art likelihoods on image density estimation benchmarks, outperforming autoregressive models that have dominated these benchmarks for many years, with often significantly faster optimization. In addition, we show how to use the model as part of a bits-back compression scheme, and demonstrate lossless compression rates close to the theoretical optimum. Code is available at https://github.com/google-research/vdm .},
urldate = {2023-07-07},
publisher = {arXiv},
author = {Kingma, Diederik P. and Salimans, Tim and Poole, Ben and Ho, Jonathan},
month = apr,
year = {2023},
note = {arXiv:2107.00630 [cs, stat]},
keywords = {Computer Science - Machine Learning, Statistics - Machine Learning},
file = {arXiv Fulltext PDF:/home/laurent/Zotero/storage/YKZMA3CJ/Kingma et al. - 2023 - Variational Diffusion Models.pdf:application/pdf;arXiv.org Snapshot:/home/laurent/Zotero/storage/QR227N9K/2107.html:text/html},
}
@misc{dhariwal_diffusion_2021,
title = {Diffusion {Models} {Beat} {GANs} on {Image} {Synthesis}},
url = {http://arxiv.org/abs/2105.05233},
doi = {10.48550/arXiv.2105.05233},
abstract = {We show that diffusion models can achieve image sample quality superior to the current state-of-the-art generative models. We achieve this on unconditional image synthesis by finding a better architecture through a series of ablations. For conditional image synthesis, we further improve sample quality with classifier guidance: a simple, compute-efficient method for trading off diversity for fidelity using gradients from a classifier. We achieve an FID of 2.97 on ImageNet 128\${\textbackslash}times\$128, 4.59 on ImageNet 256\${\textbackslash}times\$256, and 7.72 on ImageNet 512\${\textbackslash}times\$512, and we match BigGAN-deep even with as few as 25 forward passes per sample, all while maintaining better coverage of the distribution. Finally, we find that classifier guidance combines well with upsampling diffusion models, further improving FID to 3.94 on ImageNet 256\${\textbackslash}times\$256 and 3.85 on ImageNet 512\${\textbackslash}times\$512. We release our code at https://github.com/openai/guided-diffusion},
urldate = {2023-07-07},
publisher = {arXiv},
author = {Dhariwal, Prafulla and Nichol, Alex},
month = jun,
year = {2021},
note = {arXiv:2105.05233 [cs, stat]},
keywords = {Computer Science - Artificial Intelligence, Computer Science - Computer Vision and Pattern Recognition, Computer Science - Machine Learning, Statistics - Machine Learning},
file = {arXiv Fulltext PDF:/home/laurent/Zotero/storage/PWT54DE7/Dhariwal and Nichol - 2021 - Diffusion Models Beat GANs on Image Synthesis.pdf:application/pdf;arXiv.org Snapshot:/home/laurent/Zotero/storage/8J2YBIJV/2105.html:text/html},
}
@misc{ho_classifier-free_2022,
title = {Classifier-{Free} {Diffusion} {Guidance}},
url = {http://arxiv.org/abs/2207.12598},
doi = {10.48550/arXiv.2207.12598},
abstract = {Classifier guidance is a recently introduced method to trade off mode coverage and sample fidelity in conditional diffusion models post training, in the same spirit as low temperature sampling or truncation in other types of generative models. Classifier guidance combines the score estimate of a diffusion model with the gradient of an image classifier and thereby requires training an image classifier separate from the diffusion model. It also raises the question of whether guidance can be performed without a classifier. We show that guidance can be indeed performed by a pure generative model without such a classifier: in what we call classifier-free guidance, we jointly train a conditional and an unconditional diffusion model, and we combine the resulting conditional and unconditional score estimates to attain a trade-off between sample quality and diversity similar to that obtained using classifier guidance.},
urldate = {2023-07-07},
publisher = {arXiv},
author = {Ho, Jonathan and Salimans, Tim},
month = jul,
year = {2022},
note = {arXiv:2207.12598 [cs]},
keywords = {Computer Science - Artificial Intelligence, Computer Science - Machine Learning},
file = {arXiv Fulltext PDF:/home/laurent/Zotero/storage/TBVUH8VL/Ho and Salimans - 2022 - Classifier-Free Diffusion Guidance.pdf:application/pdf;arXiv.org Snapshot:/home/laurent/Zotero/storage/ZLTAMX75/2207.html:text/html},
}
@misc{song_score-based_2021,
title = {Score-{Based} {Generative} {Modeling} through {Stochastic} {Differential} {Equations}},
url = {http://arxiv.org/abs/2011.13456},
doi = {10.48550/arXiv.2011.13456},
abstract = {Creating noise from data is easy; creating data from noise is generative modeling. We present a stochastic differential equation (SDE) that smoothly transforms a complex data distribution to a known prior distribution by slowly injecting noise, and a corresponding reverse-time SDE that transforms the prior distribution back into the data distribution by slowly removing the noise. Crucially, the reverse-time SDE depends only on the time-dependent gradient field ({\textbackslash}aka, score) of the perturbed data distribution. By leveraging advances in score-based generative modeling, we can accurately estimate these scores with neural networks, and use numerical SDE solvers to generate samples. We show that this framework encapsulates previous approaches in score-based generative modeling and diffusion probabilistic modeling, allowing for new sampling procedures and new modeling capabilities. In particular, we introduce a predictor-corrector framework to correct errors in the evolution of the discretized reverse-time SDE. We also derive an equivalent neural ODE that samples from the same distribution as the SDE, but additionally enables exact likelihood computation, and improved sampling efficiency. In addition, we provide a new way to solve inverse problems with score-based models, as demonstrated with experiments on class-conditional generation, image inpainting, and colorization. Combined with multiple architectural improvements, we achieve record-breaking performance for unconditional image generation on CIFAR-10 with an Inception score of 9.89 and FID of 2.20, a competitive likelihood of 2.99 bits/dim, and demonstrate high fidelity generation of 1024 x 1024 images for the first time from a score-based generative model.},
urldate = {2023-07-07},
publisher = {arXiv},
author = {Song, Yang and Sohl-Dickstein, Jascha and Kingma, Diederik P. and Kumar, Abhishek and Ermon, Stefano and Poole, Ben},
month = feb,
year = {2021},
note = {arXiv:2011.13456 [cs, stat]},
keywords = {Computer Science - Machine Learning, Statistics - Machine Learning},
file = {arXiv Fulltext PDF:/home/laurent/Zotero/storage/TBFPXY9C/Song et al. - 2021 - Score-Based Generative Modeling through Stochastic.pdf:application/pdf;arXiv.org Snapshot:/home/laurent/Zotero/storage/DCVZ9TA3/2011.html:text/html},
}
@misc{nichol_glide_2022,
title = {{GLIDE}: {Towards} {Photorealistic} {Image} {Generation} and {Editing} with {Text}-{Guided} {Diffusion} {Models}},
shorttitle = {{GLIDE}},
url = {http://arxiv.org/abs/2112.10741},
doi = {10.48550/arXiv.2112.10741},
abstract = {Diffusion models have recently been shown to generate high-quality synthetic images, especially when paired with a guidance technique to trade off diversity for fidelity. We explore diffusion models for the problem of text-conditional image synthesis and compare two different guidance strategies: CLIP guidance and classifier-free guidance. We find that the latter is preferred by human evaluators for both photorealism and caption similarity, and often produces photorealistic samples. Samples from a 3.5 billion parameter text-conditional diffusion model using classifier-free guidance are favored by human evaluators to those from DALL-E, even when the latter uses expensive CLIP reranking. Additionally, we find that our models can be fine-tuned to perform image inpainting, enabling powerful text-driven image editing. We train a smaller model on a filtered dataset and release the code and weights at https://github.com/openai/glide-text2im.},
urldate = {2023-07-07},
publisher = {arXiv},
author = {Nichol, Alex and Dhariwal, Prafulla and Ramesh, Aditya and Shyam, Pranav and Mishkin, Pamela and McGrew, Bob and Sutskever, Ilya and Chen, Mark},
month = mar,
year = {2022},
note = {arXiv:2112.10741 [cs]},
keywords = {Computer Science - Computer Vision and Pattern Recognition, Computer Science - Graphics, Computer Science - Machine Learning},
}