bunch of changes

This commit is contained in:
Laureηt 2023-07-06 14:19:58 +02:00
parent ef63f72b8d
commit 42aa3963f9
5 changed files with 225 additions and 82 deletions

BIN
assets/gan-architecture.png (Stored with Git LFS) Normal file

Binary file not shown.

View file

@ -17,6 +17,7 @@
\usepackage{glossaries}
\usepackage{nomencl}
\usepackage{caption}
\usepackage{placeins}
% pdfx loads both hyperref and xcolor internally
% \usepackage{hyperref}
@ -70,6 +71,7 @@
\newacronym{vdm}{VDM}{Variational Diffusion Models}
\newacronym{ldm}{LDM}{Latent Diffusion Models}
\newacronym{ddpm}{DDPM}{Denoising Diffusion Probabilistic Models}
\newacronym{ae}{AE}{Auto-Encoder}
\newacronym{vae}{VAE}{Variational Auto-Encoder}
\newacronym{gan}{GAN}{Generative Adversarial Network}
\newacronym{nerf}{NeRF}{Neural Radiance Fields}
@ -159,6 +161,8 @@ J'aimerais également remercier l'ensemble de mes professeurs de l'\gls{n7}, pou
\centering
\includegraphics[width=16cm]{aube.jpg}
\caption{Aubes du moteur Leap-1A}
\vspace*{-11pt}
\caption*{Copyright \href{https://medialibrary.safran-group.com/Photos/media/179440}{Cyril Abad / CAPA Pictures / Safran}}
\end{figure}
Dans le domaine industriel, les codes de simulation numérique sont désormais un outil indispensable pour la conception de systèmes complexes, en particulier pour les modules de réacteurs d'avions ou d'hélicoptères.
@ -189,7 +193,7 @@ Différentes solutions pour ont été proposées dans la littérature pour réal
Le but de ce stage est d'évaluer le potentiel de ces nouvelles méthodes sur des jeux de données réalisés en internes et représentatifs pour \gls{ssa}. Et éventuellement de proposer des améliorations spécifiques aux maillages utilisés en simulations numériques.
L'étude vise tout d'abord à étudier la bibliographie disponible d'un côté sur les modèles génératifs et d'un autre sur les réseaux convolutionnels sur graphes. L'objectif est, dans une première phase, de faire un benchmark des différentes solutions de modèles génératifs sur graphe de type \gls{vae} et \gls{gan} afin de créer une représentation latente des géométries d'aubes 3D. Pour cela un dataset avec quelques milliers d'échantillons d'aubes 3D et leurs performances aérodynamique est disponible à \gls{ssa}. Le modèle résultant sera ensuite testé pour générer de nouvelles géométries et pour prédire les quantités d'intérêt par le biais de métamodèles classiques. Enfin, si l'avancement sur les premières tâches le permet, d'autres modèles génératifs peuvent être considérés comme le \gls{nf} ou les \gls{ldm}.
L'étude vise tout d'abord à étudier la bibliographie disponible d'un côté sur les modèles génératifs et d'un autre sur les réseaux convolutionnels sur graphes. L'objectif est, dans une première phase, de faire un benchmark des différentes solutions de modèles génératifs sur graphe de type \gls{vae} et \gls{gan} afin de créer une représentation latente des géométries d'aubes 3D. Pour cela un dataset avec quelques milliers d'échantillons d'aubes 3D et leurs performances aérodynamique est disponible à \gls{ssa}. Le modèle résultant sera ensuite testé pour générer de nouvelles géométries et pour prédire les quantités d'intérêt par le biais de métamodèles classiques. Enfin, si l'avancement sur les premières tâches le permet, d'autres modèles génératifs peuvent être considérés comme le \gls{nf} ou les \gls{vdm}.
\chapter{État de l'art}
@ -199,19 +203,18 @@ Dans le cadre de cette étude, nous nous intéressons à la génération de géo
Il reste pertinent de noter que les méthodes présentées dans ce chapitre sont récentes et que la littérature évolue très rapidement. De plus, les méthodes présentées ici sont très nombreuses et il est impossible de toutes les présenter. Nous avons donc choisi de présenter les méthodes les plus pertinentes pour permettre une bonne compréhension globale du travail réalisé durant ce stage.
\cite{peng_shape_2021}
\cite{sulzer_deep_2022}
% \cite{peng_shape_2021}
% \cite{sulzer_deep_2022}
\FloatBarrier
\glsreset{gnn}
\section{\gls{gnn}}
\subsection{Définition}
Les graphes sont des structures de données qui permettent de représenter des relations entre des entités. Un graphe est défini par un ensemble de nœuds et un ensemble d'arêtes. Les arêtes représentent des relations entre les nœuds. Ces relations peuvent être de différents types, comme des relations de parenté, de proximité ou encore de similarité. Les graphes peuvent être dirigés ou non. Dans le cas d'un graphe dirigé, les arêtes sont orientées et représentent une relation unidirectionnelle. Dans le cas d'un graphe non dirigé, les arêtes ne sont pas orientées et représentent une relation bidirectionnelle. Les graphes peuvent être pondérés ou non. Dans le cas d'un graphe pondéré, les arêtes sont associées à une valeur qui représente l'intensité de la relation entre les nœuds.
Les graphes permettent par exemple de représenter de manière intuitive des réseaux de communication, des réseaux sociaux, des molécules ou encore des maillages. Les graphes sont donc une modalité de données très commune dans le domaine de l'ingénierie.
Les graphes offrent une représentation intuitive de diverses structures telles que les réseaux de communication, les réseaux sociaux, les molécules ou encore les maillages. Par conséquent, les graphes sont un type de données largement présents dans la nature et sont très répandu dans le domaine de l'ingénierie. De manière générale, les graphes peuvent être considérés comme une généralisation des données structurées, telles que les images ou les séries temporelles. En effet, toute données structurées peut facilement être traduite en un graphe régulier.
\begin{figure}[h]
\begin{figure}[h!]
\centering
\includegraphics[width=14cm]{example-graphs.jpg}
\caption{Exemple de graphes}
@ -220,26 +223,21 @@ Les graphes permettent par exemple de représenter de manière intuitive des ré
\label{fig:graph_example}
\end{figure}
De manière plus générale, les graphes peuvent être vu comme une généralisation des données structurées comme les images ou les séries temporelles. En effet, les graphes peuvent être vus comme des données structurées où les relations entre les entités sont définies par la position des entités dans l'espace ou dans le temps. Les graphes peuvent donc être utilisés pour représenter des données structurées, mais aussi des données non structurées comme des maillages ou des nuages de points.
Les \gls{gnn} sont une famille de modèles qui permettent de traiter ce type de structures de données. Ces modèles sont majoritairement basés sur des opérations de convolution et d'agrégation, similairement aux opérations de convolution et de pooling utilisées dans les réseaux de neurones pour les modalités plus classique comme les images.
On retrouve de même dans les \gls{gnn} des architectures avancées, inspirées des réseaux de neurones classiques, comme les réseaux résiduels\cite{gao_graph_2019}, les réseaux récurrents\cite{li_gated_2017} ou l'attention\cite{velickovic_graph_2018,brody_how_2022}.
Les \gls{gnn} sont une famille de modèles qui permettent de traiter ce type de structures. Ces modèles sont basés sur des opérations de convolution et d'agrégation, similairement aux opérations de convolution et de pooling utilisées dans les réseaux de neurones classiques pour les données structurées comme les images. Des examples d'application de ces réseaux sont la classification de documents, la détection de fraude, la génération de molécules ou des systèmes de recommandation.
% Mais on retrouve aussi des architectures spécifiques aux \gls{gnn} comme PointNet\cite{qi_pointnet_2017,qi_pointnet_2017-1} ou GraphSAGE\cite{hamilton_inductive_2017}, qui ne permettent de traiter uniquement que des données non structurées
Les applications les plus courantes de ces réseaux incluent la classification\cite{kipf_semi-supervised_2017} de documents, la détection de fraudes\cite{ma_comprehensive_2021} et les systèmes de recommandation\cite{gao_survey_2023}. En revanche, la génération de graphes est moins répandue et se limite souvent dans la littérature à la génération de petites molécules\cite{kipf_graph_2020}.
\cite{velickovic_graph_2018}
\cite{gao_graph_2019}
\cite{brody_how_2022}
\cite{kipf_semi-supervised_2017}
\cite{qi_pointnet_2017}
\cite{qi_pointnet_2017-1}
\FloatBarrier
\section{Modèles génératifs}
Les modèles génératifs sont une famille de modèles qui permettent de générer de nouvelles données d'une distribution de données au préalablement apprise. Ces modèles sont très utilisés dans le domaine de l'apprentissage automatique pour générer des images, du texte ou encore de la musique. Ces modèles sont encore relativement peu utilisés dans le domaine de l'ingénierie pour générer des pièces industrielles.
Il existe plusieurs sous familles de modèles génératifs, chacune basées sur des principes différents, possédant ainsi des avantages et des inconvénients. Il est donc important de bien comprendre les différences entre ces modèles pour pouvoir choisir le modèle le plus adapté à la problématique.
Il existe plusieurs sous familles de modèles génératifs, chacune basées sur des principes différents, possédant ainsi des avantages et des inconvénients. Il est donc important de bien comprendre les différences entre ces modèles pour pouvoir choisir le modèle le plus adapté à la problématique. Plusieurs études ont déjà été réalisées pour comparer ces modèles, nous nous baserons donc partiellement sur ces études\cite{faez_deep_2020,guo_systematic_2022,zhu_survey_2022} pour présenter les modèles les plus pertinents pour notre problématique.
\begin{figure}
\begin{figure}[h!]
\centering
\includegraphics[width=14cm]{generative-overview.png}
\caption{Principales familles de modèles génératifs}
@ -248,18 +246,24 @@ Il existe plusieurs sous familles de modèles génératifs, chacune basées sur
\label{fig:generative_models}
\end{figure}
\cite{faez_deep_2020}
\cite{guo_systematic_2022}
\cite{zhu_survey_2022}
\FloatBarrier
\glsreset{gan}
\subsection{\gls{gan}}
Les \gls{gan} sont la famille de modèles génératifs la plus connue, et aussi les plus anciens\cite{goodfellow_generative_2014}. Ces modèles sont basés sur un principe de compétition entre deux réseaux de neurones. Le premier réseau, appelé générateur, a pour but de générer de nouvelles données. Le second réseau, appelé discriminateur, a pour but de distinguer les données générées par le générateur des données réelles. Le générateur est entraîné pour tromper le discriminateur, tandis que le discriminateur est entraîné pour distinguer les données générées des données réelles. Ce principe de compétition permet d'entraîner le générateur à générer des données de plus en plus réalistes.
\begin{figure}[h!]
\centering
\includegraphics[width=14cm]{gan-architecture.png}
\caption{Architecture d'un \gls{gan}}
\vspace*{-11pt}
\caption*{Source: \href{https://lilianweng.github.io/posts/2017-08-20-gan/}{Lilian Weng, 2017}}
\label{fig:gan-architecture}
\end{figure}
Les \gls{gan} sont la famille de modèles génératifs la plus renommée et également la plus ancienne\cite{goodfellow_generative_2014}. Ces modèles reposent sur un principe compétitif impliquant deux réseaux de neurones. Le premier réseau, connu sous le nom de générateur, a pour objectif de produire de nouvelles données. Le deuxième réseau, appelé discriminateur, est chargé de distinguer les données générées par le générateur des données réelles. Le générateur est entraîné à tromper le discriminateur tandis que le discriminateur est entraîné à identifier les données générées par rapport aux données réelles. Cette compétition entre les deux réseaux permet de former le générateur à générer des données de plus en plus réalistes. Ce type d'apprentissage est auto-supervisé, car il ne nécessite pas l'utilisation d'annotations sur les données pour entraîner un \gls{gan}.
Les \gls{gan} ont su démontrer leur efficacité pour générer des images réalistes. Cependant, ces modèles sont très difficiles à entraîner\cite{arjovsky_towards_2017}. Les \gls{gan} sont par exemple suceptible au problème des \textit{mode collapse}, où le générateur génère toujours la même image, au problème de \textit{non convergence}, où le générateur et/ou le discriminateur ont une fonction de cout instable et ne convergent ainsi pas vers un équilibre de Nash, ou encore au problème de \textit{vanishing gradient}, où le discriminateur devient trop efficace et empêche le générateur d'apprendre.
Au fil des années, de nombreuses améliorations\cite{salimans_improved_2016} et variations (WGAN\cite{arjovsky_wasserstein_2017}, CycleGAN, SGAN, DiscoGAN...) ont été proposées, mais ces modèles restent complexes à entraîner et à évaluer. De plus, ces modèles sont très sensibles aux hyperparamètres et nécessitent une grande quantité de données pour être efficaces.
Au fil des années, de nombreuses améliorations\cite{salimans_improved_2016}, variations et cas d'applications (WGAN\cite{arjovsky_wasserstein_2017}, CycleGAN\cite{zhu_unpaired_2020}, SGAN\cite{odena_semi-supervised_2016}, DiscoGAN\cite{kim_learning_2017}, SRGAN\cite{ledig_photo-realistic_2017}, etc.) ont été proposées, mais ces modèles restent complexes à entraîner et à évaluer. De plus, ces modèles sont très sensibles aux hyperparamètres et nécessitent une grande quantité de données pour être efficaces.
% https://lilianweng.github.io/posts/2017-08-20-gan/
% TODO plein de refs à choper dans le blog
@ -268,11 +272,21 @@ Au fil des années, de nombreuses améliorations\cite{salimans_improved_2016} et
% placer, le but est d'apprendre une distribution de données qui se rapproche fortement de la distribution des données d'entrainement
% on esssaie donc d'apprend l'identité
\FloatBarrier
\glsreset{vae}
\subsection{\gls{vae}}
% vae, voisins des AE
\begin{figure}[h]
\centering
\includegraphics[width=14cm]{vae-architecture.png}
\caption{Architecture d'un \gls{vae}}
\vspace*{-11pt}
\caption*{Source: \href{https://lilianweng.github.io/posts/2018-08-12-vae/}{Lilian Weng, 2018}}
\label{fig:vae-architecture}
\end{figure}
Les \gls{vae} sont une deuxième famille de modèles génératifs, probablement tout aussi connus que les \gls{gan}, et plutôt ancien. Ces modèles sont basés sur deux réseaux de neurones entrainés conjointement: un encodeur et un décodeur. Le but de l'encodeur est de transformer les données d'entrée en une distribution de probabilité, tandis que le but du décodeur est de générer de nouvelles données à partir de cette distribution. Tout comme pour les \gls{gan}, le principe de ces modèles est donc d'estimer une distribution de données qui se rapproche fortement de la distribution des données d'entrainement, on leur demande donc d'apprendre l'identité.
La particulité des \gls{vae} provient donc de cet espace (latent) intermédiaire entre l'encodeur et le décodeur. Cet espace est défini par l'architecture du réseau et peut ainsi être aussi petit que l'on le souhaite. L'encodeur et décodeur peuvent alors être vu comme des opérateurs de compressions et de décompression.
@ -296,6 +310,7 @@ L'intéret de cet espace latent est qu'il permet de générer de nouvelles donn
\cite{salha-galvan_contributions_2022}
\cite{higgins_beta-vae_2022}
\FloatBarrier
\glsreset{nf}
\subsection{\gls{nf}}
@ -306,9 +321,23 @@ L'idée principale des \gls{nf} est d'apprendre à modéliser la transformation
\cite{su_f-vaes_2018}
\cite{yang_pointflow_2019}
\FloatBarrier
\glsreset{vdm}
\subsection{\gls{vdm}}
\FloatBarrier
\glsreset{ldm}
\subsection{\gls{ldm}}
\begin{figure}[h]
\centering
\includegraphics[width=14cm]{ae-architecture.png}
\caption{Architecture d'un \gls{ae}}
\vspace*{-11pt}
\caption*{Source: \href{https://lilianweng.github.io/posts/2018-08-12-vae/}{Lilian Weng, 2018}}
\label{fig:ae-architecture}
\end{figure}
\cite{song_generative_2020}
\cite{thomas_kpconv_2019}
\cite{tang_searching_2020}
@ -318,18 +347,14 @@ L'idée principale des \gls{nf} est d'apprendre à modéliser la transformation
\cite{zeng_lion_2022}
\cite{nichol_point-e_2022}
\FloatBarrier
\glsreset{arm}
\subsection{\gls{arm}}
Les \gls{gan} sont largement reconnus comme la famille la plus célèbre et la plus ancienne de modèles génératifs \cite{goodfellow_generative_2014}. Ces modèles reposent sur un principe compétitif impliquant deux réseaux neuronaux. Le générateur, le premier réseau, est chargé de produire de nouvelles données, tandis que le discriminateur, le second réseau, cherche à distinguer les données générées par le générateur des données réelles. L'apprentissage des GAN repose sur l'idée que le générateur doit tromper le discriminateur, tandis que le discriminateur doit devenir de plus en plus habile à discriminer les données générées des données réelles. Ce mécanisme compétitif permet d'entraîner le générateur à produire des données de plus en plus réalistes.
Les GAN se sont révélés très efficaces pour générer des images réalistes. Cependant, ces modèles sont notoirement difficiles à entraîner \cite{arjovsky_towards_2017}. Ils sont sensibles à divers problèmes tels que l'effondrement du mode (\textit{mode collapse}), où le générateur produit constamment la même image, la non-convergence (\textit{non convergence}), où le générateur et/ou le discriminateur ont une fonction de coût instable et ne convergent pas vers un équilibre de Nash, ainsi que le problème du gradient qui disparaît (\textit{vanishing gradient}), où le discriminateur devient trop performant et entrave l'apprentissage du générateur.
Au fil des années, de nombreuses améliorations \cite{salimans_improved_2016} et variantes (WGAN \cite{arjovsky_wasserstein_2017}, CycleGAN, SGAN, DiscoGAN, etc.) ont été proposées pour remédier à ces problèmes, mais ces modèles restent complexes à entraîner et à évaluer. De plus, ils sont extrêmement sensibles aux hyperparamètres et nécessitent une quantité considérable de données pour être efficaces.
\cite{nash_polygen_2020}
\cite{liao_efficient_2020}
\FloatBarrier
\glsreset{nerf}
\subsection{\gls{nerf}}
@ -347,10 +372,11 @@ Dans notre cas, étant donné que notre ensemble de données ne convient pas à
\chapter{Déroulement du stage}
Ce chapitre présente un aperçu détaillé du déroulement de mon stage de 6 mois au sein de \gls{ssa}. Tout au long de cette période, j'ai travaillé en tant que Stagiaire Ingénieur en Machine Learning au sein du département Safran Techn, dans l'équipe flex (acronyme), dont le but est de développer des outils de simulation et de modélisation pour les besoins de \gls{ssa}. J'ai été encadré par Xavier Roynard, Michel Alessandro Bucci et Brian Staber.
Ce chapitre présente un aperçu détaillé du déroulement de mon stage de 6 mois au sein de \gls{ssa}. Tout au long de cette période, j'ai travaillé en tant que Stagiaire Ingénieur en Machine Learning au sein du département Safran Techn, dans l'équipe flex (chercher acronyme bidule), dont le but est de développer des outils de simulation et de modélisation pour les besoins de \gls{ssa}. J'ai été encadré par Xavier Roynard, Michel Alessandro Bucci et Brian Staber.
Je décrirai dans les prochaines sections les différentes étapes de mon stage, les tâches qui m'ont été confiées ainsi que les projets auxquels j'ai contribué.
\FloatBarrier
\section{Lecture de la littérature}
Les premiers jours de mon stage ont été dédiés à mon intégration au sein de l'entreprise. J'ai rencontré mes tuteurs de stage qui m'ont présenté l'équipe et les différents membres du département. Une visite des locaux de l'entreprise m'a été proposée, accompagnée d'explications sur les mesures de sécurité en vigueur. J'ai également pris connaissance des outils et des logiciels utilisés dans le cadre de mon projet. Ces premiers jours ont été l'occasion pour moi de participer à des réunions d'équipe, en présence d'autres stagiaires et d'ingénieurs, afin de me familiariser avec les différents projets en cours et de préciser les objectifs de mon stage.
@ -361,23 +387,25 @@ Lors de ma lecture, j'ai pris des notes sur les concepts clés, les méthodologi
Au cours de cette période, j'ai également eu des discussions régulières avec mes tuteurs de stage pour discuter des articles lus, clarifier certains points et définir la direction à suivre pour mon projet. Ces échanges m'ont permis d'approfondir ma compréhension et de cibler les aspects spécifiques sur lesquels je devais me concentrer lors des prochaines phases de mon stage.
\FloatBarrier
\section{Prise en main des données}
En parallèle de ma lecture de la littérature, j'ai entamé l'exploration des données fournies par \gls{ssa}. J'ai acquis une compréhension des différents formats de données spécifiques utilisés par l'entreprise pour stocker les résultats des simulations numériques de mécaniques des fluides. De plus, j'ai appris à manipuler ces données en utilisant des outils tels que Paraview.
Le principal ensemble de données sur lequel j'ai travaillé pendant mon stage s'appelle Rotor37\_1200. Il s'agit d'un ensemble de données de simulation \gls{cfd} d'une des 37 pales d'une turbine d'un moteur d'avion. Cet ensemble de données contient 1200 échantillons, qui ont été créé via un processus d'optimisation consistant en l'exploration de paramètres en quête de la maximisation d'un critère de performance.
\begin{figure}[h!]
\centering
\includegraphics[width=14cm]{online_adaptative_sampling_DOE}
\caption{Processus d'optimisation ayant permis de générer l'ensemble de données Rotor37\_1200}
\label{fig:process-rotor37-1200}
\end{figure}
Chaque aube du jeu de données est une déformation de l'aube nominale. Ainsi tout les maillages possèdent le même nombre de points et la même connectivité. Pour donner un ordre de grandeur, chaque maillage est constitué de 29773 points, 59328 triangles et 89100 arêtes.
Chaque échantillon est constitué de deux fichiers distincts. Le premier est un fichier au format .vtk qui contient le maillage de l'aube, comprenant les positions 3D, les normales et la connectivité de chaque point du maillage. Ce fichier .vtk inclut également les champs physiques associés à chaque point, tels que la température, la pression, etc. Le second fichier est un fichier .csv qui contient des métadonnées globales spécifiques à l'échantillon, telles que les entrées et les sorties de la simulation \gls{cfd}.
\begin{figure}
\centering
\includegraphics[width=0.8\textwidth]{online_adaptative_sampling_DOE}
\caption{Rotor37\_1200}
\label{fig:rotor37_1200}
\end{figure}
\FloatBarrier
\section{Test de l'état de l'art}
Les implémentations que j'ai pris le temps de tester car le code était disponible sont les suivantes :
@ -392,6 +420,7 @@ PVD (checkpoint, code à chier, trop chiant les opérations de voxelization devo
KPConv (c'est français, pas mal non ?)
LION (pas de checkpoint, mais code utile)
\FloatBarrier
\section{Réimplementation de l'état de l'art}
Backbone KPConv, car implement ezkpconv cool + huggingface diffusers pour gérer toute la partie diffusion.
@ -410,7 +439,7 @@ classifier-free guidance
\chapter{Conclusion}
🎉
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
@ -420,7 +449,6 @@ classifier-free guidance
\backmatter
\nocite{*}
\addcontentsline{toc}{chapter}{Bibliographie}
\bibliography{zotero}
\bibliographystyle{plainnat}

View file

@ -71,7 +71,6 @@
year = {2020},
note = {arXiv:1907.05600 [cs, stat]},
keywords = {Computer Science - Machine Learning, Statistics - Machine Learning},
annote = {Comment: NeurIPS 2019 (Oral)},
file = {arXiv Fulltext PDF:/home/laurent/Zotero/storage/NDB8ZJRC/Song and Ermon - 2020 - Generative Modeling by Estimating Gradients of the.pdf:application/pdf;arXiv.org Snapshot:/home/laurent/Zotero/storage/KG2SAQFI/1907.html:text/html},
}
@ -112,7 +111,6 @@
year = {2022},
note = {arXiv:1312.6114 [cs, stat]},
keywords = {Computer Science - Machine Learning, Statistics - Machine Learning},
annote = {Comment: Fixes a typo in the abstract, no other changes},
file = {arXiv Fulltext PDF:/home/laurent/Zotero/storage/8MXMAC2E/Kingma and Welling - 2022 - Auto-Encoding Variational Bayes.pdf:application/pdf;arXiv.org Snapshot:/home/laurent/Zotero/storage/TDNMVVSS/1312.html:text/html},
}
@ -129,7 +127,6 @@
year = {2022},
note = {arXiv:2210.06978 [cs, stat]},
keywords = {Computer Science - Computer Vision and Pattern Recognition, Computer Science - Machine Learning, Statistics - Machine Learning},
annote = {Comment: NeurIPS 2022},
file = {arXiv Fulltext PDF:/home/laurent/Zotero/storage/FACF8TI9/Zeng et al. - 2022 - LION Latent Point Diffusion Models for 3D Shape G.pdf:application/pdf;arXiv.org Snapshot:/home/laurent/Zotero/storage/X57XTJQR/2210.html:text/html},
}
@ -146,7 +143,6 @@
year = {2022},
note = {arXiv:2212.08751 [cs]},
keywords = {Computer Science - Computer Vision and Pattern Recognition, Computer Science - Machine Learning},
annote = {Comment: 8 pages, 11 figures},
file = {arXiv Fulltext PDF:/home/laurent/Zotero/storage/8IW28GBH/Nichol et al. - 2022 - Point-E A System for Generating 3D Point Clouds f.pdf:application/pdf;arXiv.org Snapshot:/home/laurent/Zotero/storage/LMQF9Q55/2212.html:text/html},
}
@ -163,7 +159,6 @@
year = {2021},
note = {arXiv:2103.15619 [cs]},
keywords = {Computer Science - Computer Vision and Pattern Recognition, Computer Science - Machine Learning},
annote = {Comment: 19 pages, 20 figures},
file = {arXiv Fulltext PDF:/home/laurent/Zotero/storage/WUTNGI56/Kim et al. - 2021 - SetVAE Learning Hierarchical Composition for Gene.pdf:application/pdf;arXiv.org Snapshot:/home/laurent/Zotero/storage/25K7W3C4/2103.html:text/html},
}
@ -212,7 +207,6 @@
year = {2023},
note = {arXiv:2301.11445 [cs]},
keywords = {Computer Science - Computer Vision and Pattern Recognition, Computer Science - Graphics},
annote = {Comment: Project demo: https://youtu.be/KKQsQccpBFk},
file = {arXiv Fulltext PDF:/home/laurent/Zotero/storage/T8R7H6N4/Zhang et al. - 2023 - 3DShape2VecSet A 3D Shape Representation for Neur.pdf:application/pdf;arXiv.org Snapshot:/home/laurent/Zotero/storage/6GNICSIQ/2301.html:text/html},
}
@ -229,7 +223,6 @@
year = {2019},
note = {arXiv:1906.12320 [cs]},
keywords = {Computer Science - Computer Vision and Pattern Recognition, Computer Science - Machine Learning},
annote = {Comment: Published in ICCV 2019},
file = {arXiv Fulltext PDF:/home/laurent/Zotero/storage/V87MQMLC/Yang et al. - 2019 - PointFlow 3D Point Cloud Generation with Continuo.pdf:application/pdf;arXiv.org Snapshot:/home/laurent/Zotero/storage/KEHU85VD/1906.html:text/html},
}
@ -246,19 +239,6 @@
year = {2023},
note = {arXiv:2302.02591 [cs]},
keywords = {Computer Science - Machine Learning, Computer Science - Artificial Intelligence, Computer Science - Social and Information Networks},
annote = {
Score Matching with Langevin Dynamics (SMLD)
Denoising Diffusion Probabilistic Model (DDPM)
Score-based Generative Model (SGM)
},
file = {arXiv Fulltext PDF:/home/laurent/Zotero/storage/3M3G2JY5/Fan et al. - 2023 - Generative Diffusion Models on Graphs Methods and.pdf:application/pdf;arXiv.org Snapshot:/home/laurent/Zotero/storage/8YV9HJ3W/2302.html:text/html},
}
@ -275,7 +255,6 @@ Score-based Generative Model (SGM)
year = {2022},
note = {arXiv:2203.06714 [cs, q-bio]},
keywords = {Computer Science - Machine Learning, Computer Science - Social and Information Networks, Quantitative Biology - Molecular Networks},
annote = {Comment: Accepted to the First Learning on Graphs Conference (LoG 2022)},
file = {arXiv Fulltext PDF:/home/laurent/Zotero/storage/SQWM9VTD/Zhu et al. - 2022 - A Survey on Deep Graph Generation Methods and App.pdf:application/pdf;arXiv.org Snapshot:/home/laurent/Zotero/storage/IWAETBS6/2203.html:text/html},
}
@ -323,14 +302,15 @@ Score-based Generative Model (SGM)
year = {2023},
note = {arXiv:2301.11273 [cs]},
keywords = {Computer Science - Machine Learning, Computer Science - Social and Information Networks},
annote = {Comment: 12 pages, 2 figures, 4 tables},
file = {arXiv Fulltext PDF:/home/laurent/Zotero/storage/I69NJXUI/Shayestehfard et al. - 2023 - AlignGraph A Group of Generative Models for Graph.pdf:application/pdf;arXiv.org Snapshot:/home/laurent/Zotero/storage/LPF9DVAW/2301.html:text/html},
}
@article{kipf_graph_nodate,
@article{kipf_graph_2020,
title = {Graph {Neural} {Networks} for {Modeling} {Small} {Molecules}},
language = {en},
author = {Kipf, Thomas and Veličković, Petar and Li, Yujia},
month = mar,
year = {2020},
file = {Kipf et al. - Graph Neural Networks for Modeling Small Molecules.pdf:/home/laurent/Zotero/storage/6WZAZFX8/Kipf et al. - Graph Neural Networks for Modeling Small Molecules.pdf:application/pdf},
}
@ -361,7 +341,6 @@ Score-based Generative Model (SGM)
year = {2020},
note = {arXiv:1910.00760 [cs, stat]},
keywords = {Computer Science - Machine Learning, Statistics - Machine Learning},
annote = {Comment: Neural Information Processing Systems (NeurIPS) 2019},
file = {arXiv Fulltext PDF:/home/laurent/Zotero/storage/YB44QN2I/Liao et al. - 2020 - Efficient Graph Generation with Graph Recurrent At.pdf:application/pdf;arXiv.org Snapshot:/home/laurent/Zotero/storage/XXCHWITE/1910.html:text/html},
}
@ -377,7 +356,6 @@ Score-based Generative Model (SGM)
year = {2022},
note = {arXiv:2007.06686 [cs, stat]},
keywords = {Computer Science - Machine Learning, Statistics - Machine Learning},
annote = {Comment: Accepted in TPAMI},
file = {arXiv Fulltext PDF:/home/laurent/Zotero/storage/M6I3YJP8/Guo et Zhao - 2022 - A Systematic Survey on Deep Generative Models for .pdf:application/pdf;arXiv.org Snapshot:/home/laurent/Zotero/storage/8N8L3XCF/2007.html:text/html},
}
@ -409,7 +387,6 @@ Score-based Generative Model (SGM)
note = {arXiv:2205.14651 [cs]
version: 1},
keywords = {Computer Science - Machine Learning, Computer Science - Social and Information Networks, Computer Science - Information Retrieval},
annote = {Comment: Ph.D. thesis defended at {\textbackslash}'Ecole Polytechnique (IPP) in March 2022. As mentioned in this thesis, several chapters present results also published in scientific articles written with co-authors},
file = {arXiv Fulltext PDF:/home/laurent/Zotero/storage/4R2Z87LG/Salha-Galvan - 2022 - Contributions to Representation Learning with Grap.pdf:application/pdf;arXiv.org Snapshot:/home/laurent/Zotero/storage/AMRY4RUI/2205.html:text/html},
}
@ -441,7 +418,6 @@ version: 1},
year = {2018},
note = {arXiv:1804.03599 [cs, stat]},
keywords = {Computer Science - Machine Learning, Statistics - Machine Learning, Computer Science - Artificial Intelligence},
annote = {Comment: Presented at the 2017 NIPS Workshop on Learning Disentangled Representations},
file = {arXiv Fulltext PDF:/home/laurent/Zotero/storage/I7FNXM4I/Burgess et al. - 2018 - Understanding disentangling in \$beta\$-VAE.pdf:application/pdf;arXiv.org Snapshot:/home/laurent/Zotero/storage/4JPKDD7F/1804.html:text/html},
}
@ -457,7 +433,6 @@ version: 1},
year = {2022},
note = {arXiv:2105.14491 [cs]},
keywords = {Computer Science - Machine Learning},
annote = {Comment: Published in ICLR 2022},
file = {arXiv Fulltext PDF:/home/laurent/Zotero/storage/C5CY9B82/Brody et al. - 2022 - How Attentive are Graph Attention Networks.pdf:application/pdf;arXiv.org Snapshot:/home/laurent/Zotero/storage/RWEJ8RAY/2105.html:text/html},
}
@ -473,7 +448,6 @@ version: 1},
year = {2018},
note = {arXiv:1710.10903 [cs, stat]},
keywords = {Computer Science - Machine Learning, Statistics - Machine Learning, Computer Science - Artificial Intelligence, Computer Science - Social and Information Networks},
annote = {Comment: To appear at ICLR 2018. 12 pages, 2 figures},
file = {arXiv Fulltext PDF:/home/laurent/Zotero/storage/3X4HALUD/Veličković et al. - 2018 - Graph Attention Networks.pdf:application/pdf;arXiv.org Snapshot:/home/laurent/Zotero/storage/JGM27EQ6/1710.html:text/html},
}
@ -489,7 +463,6 @@ version: 1},
year = {2017},
note = {arXiv:1609.02907 [cs, stat]},
keywords = {Computer Science - Machine Learning, Statistics - Machine Learning},
annote = {Comment: Published as a conference paper at ICLR 2017},
file = {arXiv Fulltext PDF:/home/laurent/Zotero/storage/N2GXN6ZZ/Kipf et Welling - 2017 - Semi-Supervised Classification with Graph Convolut.pdf:application/pdf;arXiv.org Snapshot:/home/laurent/Zotero/storage/WMTNID7V/1609.html:text/html},
}
@ -505,7 +478,6 @@ version: 1},
year = {2019},
note = {arXiv:1905.05178 [cs, stat]},
keywords = {Computer Science - Machine Learning, Statistics - Machine Learning},
annote = {Comment: 10 pages, ICML19},
file = {arXiv Fulltext PDF:/home/laurent/Zotero/storage/QIVY2Z39/Gao et Ji - 2019 - Graph U-Nets.pdf:application/pdf;arXiv.org Snapshot:/home/laurent/Zotero/storage/YHWGK3H7/1905.html:text/html},
}
@ -521,7 +493,6 @@ version: 1},
year = {2016},
note = {arXiv:1611.07308 [cs, stat]},
keywords = {Computer Science - Machine Learning, Statistics - Machine Learning},
annote = {Comment: Bayesian Deep Learning Workshop (NIPS 2016)},
file = {arXiv Fulltext PDF:/home/laurent/Zotero/storage/8LYSMTVS/Kipf et Welling - 2016 - Variational Graph Auto-Encoders.pdf:application/pdf;arXiv.org Snapshot:/home/laurent/Zotero/storage/KCLQX6TX/1611.html:text/html},
}
@ -537,7 +508,6 @@ version: 1},
year = {2019},
note = {arXiv:1612.00410 [cs, math]},
keywords = {Computer Science - Machine Learning, Computer Science - Information Theory},
annote = {Comment: 19 pages, 8 figures, Accepted to ICLR17},
file = {arXiv Fulltext PDF:/home/laurent/Zotero/storage/LMPVVWG5/Alemi et al. - 2019 - Deep Variational Information Bottleneck.pdf:application/pdf;arXiv.org Snapshot:/home/laurent/Zotero/storage/VBXN4EUZ/1612.html:text/html},
}
@ -553,7 +523,6 @@ version: 1},
year = {2019},
note = {arXiv:1904.08889 [cs]},
keywords = {Computer Science - Computer Vision and Pattern Recognition},
annote = {Comment: Camera-ready, accepted to ICCV 2019; project website: https://github.com/HuguesTHOMAS/KPConv},
file = {arXiv.org Snapshot:/home/laurent/Zotero/storage/5CY645DK/1904.html:text/html;Full Text PDF:/home/laurent/Zotero/storage/782FKEML/Thomas et al. - 2019 - KPConv Flexible and Deformable Convolution for Po.pdf:application/pdf},
}
@ -569,7 +538,6 @@ version: 1},
year = {2020},
note = {arXiv:2007.16100 [cs]},
keywords = {Computer Science - Computer Vision and Pattern Recognition},
annote = {Comment: ECCV 2020. The first two authors contributed equally to this work. Project page: http://spvnas.mit.edu/},
file = {arXiv Fulltext PDF:/home/laurent/Zotero/storage/A2S9RZVE/Tang et al. - 2020 - Searching Efficient 3D Architectures with Sparse P.pdf:application/pdf;arXiv.org Snapshot:/home/laurent/Zotero/storage/QK6WTDZH/2007.html:text/html},
}
@ -585,7 +553,6 @@ version: 1},
year = {2021},
note = {arXiv:2102.04014 [cs]},
keywords = {Computer Science - Computer Vision and Pattern Recognition},
annote = {Comment: ICCV 2021 camera-ready paper (8 pages) with supplementary (3.5 pages)},
file = {arXiv Fulltext PDF:/home/laurent/Zotero/storage/ZND8758D/Nguyen et al. - 2021 - Point-set Distances for Learning Representations o.pdf:application/pdf;arXiv.org Snapshot:/home/laurent/Zotero/storage/IUDCHXC2/2102.html:text/html},
}
@ -602,7 +569,6 @@ version: 1},
year = {2021},
note = {arXiv:2106.03452 [cs]},
keywords = {Computer Science - Computer Vision and Pattern Recognition, Computer Science - Graphics},
annote = {Comment: NeurIPS 2021 (Oral). Project page: https://pengsongyou.github.io/sap. Code: https://github.com/autonomousvision/shape\_as\_points},
file = {arXiv Fulltext PDF:/home/laurent/Zotero/storage/V5BVL34J/Peng et al. - 2021 - Shape As Points A Differentiable Poisson Solver.pdf:application/pdf;arXiv.org Snapshot:/home/laurent/Zotero/storage/7J3IDAKQ/2106.html:text/html},
}
@ -618,7 +584,6 @@ version: 1},
year = {2022},
note = {arXiv:2202.01810 [cs]},
keywords = {Computer Science - Computer Vision and Pattern Recognition},
annote = {Comment: 13 pages},
file = {arXiv Fulltext PDF:/home/laurent/Zotero/storage/ZDTHHW9H/Sulzer et al. - 2022 - Deep Surface Reconstruction from Point Clouds with.pdf:application/pdf;arXiv.org Snapshot:/home/laurent/Zotero/storage/X84KMGRU/2202.html:text/html},
}
@ -650,7 +615,6 @@ version: 1},
year = {2021},
note = {arXiv:2104.03670 [cs]},
keywords = {Computer Science - Computer Vision and Pattern Recognition},
annote = {Comment: Project page: https://alexzhou907.github.io/pvd},
file = {arXiv Fulltext PDF:/home/laurent/Zotero/storage/WGECL3FJ/Zhou et al. - 2021 - 3D Shape Generation and Completion through Point-V.pdf:application/pdf;arXiv.org Snapshot:/home/laurent/Zotero/storage/C3AEKFNE/2104.html:text/html},
}
@ -666,7 +630,6 @@ version: 1},
year = {2019},
note = {arXiv:1907.03739 [cs]},
keywords = {Computer Science - Computer Vision and Pattern Recognition},
annote = {Comment: NeurIPS 2019. The first two authors contributed equally to this work. Project page: http://pvcnn.mit.edu/},
file = {arXiv Fulltext PDF:/home/laurent/Zotero/storage/A2XJARYA/Liu et al. - 2019 - Point-Voxel CNN for Efficient 3D Deep Learning.pdf:application/pdf;arXiv.org Snapshot:/home/laurent/Zotero/storage/LF7RPTGF/1907.html:text/html},
}
@ -683,7 +646,6 @@ version: 1},
year = {2017},
note = {arXiv:1612.00593 [cs]},
keywords = {Computer Science - Computer Vision and Pattern Recognition},
annote = {Comment: CVPR 2017},
file = {arXiv Fulltext PDF:/home/laurent/Zotero/storage/SV6H7XA9/Qi et al. - 2017 - PointNet Deep Learning on Point Sets for 3D Class.pdf:application/pdf;arXiv.org Snapshot:/home/laurent/Zotero/storage/YF79EZLH/1612.html:text/html},
}
@ -702,3 +664,153 @@ version: 1},
keywords = {Computer Science - Computer Vision and Pattern Recognition},
file = {arXiv Fulltext PDF:/home/laurent/Zotero/storage/4FPME54R/Qi et al. - 2017 - PointNet++ Deep Hierarchical Feature Learning on .pdf:application/pdf;arXiv.org Snapshot:/home/laurent/Zotero/storage/SXSSFMBW/1706.html:text/html},
}
@misc{hang_efficient_2023,
title = {Efficient {Diffusion} {Training} via {Min}-{SNR} {Weighting} {Strategy}},
url = {http://arxiv.org/abs/2303.09556},
doi = {10.48550/arXiv.2303.09556},
abstract = {Denoising diffusion models have been a mainstream approach for image generation, however, training these models often suffers from slow convergence. In this paper, we discovered that the slow convergence is partly due to conflicting optimization directions between timesteps. To address this issue, we treat the diffusion training as a multi-task learning problem, and introduce a simple yet effective approach referred to as Min-SNR-\${\textbackslash}gamma\$. This method adapts loss weights of timesteps based on clamped signal-to-noise ratios, which effectively balances the conflicts among timesteps. Our results demonstrate a significant improvement in converging speed, 3.4\${\textbackslash}times\$ faster than previous weighting strategies. It is also more effective, achieving a new record FID score of 2.06 on the ImageNet \$256{\textbackslash}times256\$ benchmark using smaller architectures than that employed in previous state-of-the-art. The code is available at https://github.com/TiankaiHang/Min-SNR-Diffusion-Training.},
urldate = {2023-06-15},
publisher = {arXiv},
author = {Hang, Tiankai and Gu, Shuyang and Li, Chen and Bao, Jianmin and Chen, Dong and Hu, Han and Geng, Xin and Guo, Baining},
month = mar,
year = {2023},
note = {arXiv:2303.09556 [cs]},
keywords = {Computer Science - Computer Vision and Pattern Recognition},
file = {arXiv.org Snapshot:/home/laurent/Zotero/storage/EQPT236P/Hang et al. - 2023 - Efficient Diffusion Training via Min-SNR Weighting.html:text/html},
}
@misc{rombach_high-resolution_2022,
title = {High-{Resolution} {Image} {Synthesis} with {Latent} {Diffusion} {Models}},
url = {http://arxiv.org/abs/2112.10752},
abstract = {By decomposing the image formation process into a sequential application of denoising autoencoders, diffusion models (DMs) achieve state-of-the-art synthesis results on image data and beyond. Additionally, their formulation allows for a guiding mechanism to control the image generation process without retraining. However, since these models typically operate directly in pixel space, optimization of powerful DMs often consumes hundreds of GPU days and inference is expensive due to sequential evaluations. To enable DM training on limited computational resources while retaining their quality and flexibility, we apply them in the latent space of powerful pretrained autoencoders. In contrast to previous work, training diffusion models on such a representation allows for the first time to reach a near-optimal point between complexity reduction and detail preservation, greatly boosting visual fidelity. By introducing cross-attention layers into the model architecture, we turn diffusion models into powerful and flexible generators for general conditioning inputs such as text or bounding boxes and high-resolution synthesis becomes possible in a convolutional manner. Our latent diffusion models (LDMs) achieve a new state of the art for image inpainting and highly competitive performance on various tasks, including unconditional image generation, semantic scene synthesis, and super-resolution, while significantly reducing computational requirements compared to pixel-based DMs. Code is available at https://github.com/CompVis/latent-diffusion .},
urldate = {2023-06-13},
publisher = {arXiv},
author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Björn},
month = apr,
year = {2022},
note = {arXiv:2112.10752 [cs]},
keywords = {Computer Science - Computer Vision and Pattern Recognition},
file = {arXiv.org Snapshot:/home/laurent/Zotero/storage/7AQALVMG/2112.html:text/html;Full Text PDF:/home/laurent/Zotero/storage/NSX4PSPP/Rombach et al. - 2022 - High-Resolution Image Synthesis with Latent Diffus.pdf:application/pdf},
}
@misc{luo_understanding_2022,
title = {Understanding {Diffusion} {Models}: {A} {Unified} {Perspective}},
shorttitle = {Understanding {Diffusion} {Models}},
url = {http://arxiv.org/abs/2208.11970},
abstract = {Diffusion models have shown incredible capabilities as generative models; indeed, they power the current state-of-the-art models on text-conditioned image generation such as Imagen and DALL-E 2. In this work we review, demystify, and unify the understanding of diffusion models across both variational and score-based perspectives. We first derive Variational Diffusion Models (VDM) as a special case of a Markovian Hierarchical Variational Autoencoder, where three key assumptions enable tractable computation and scalable optimization of the ELBO. We then prove that optimizing a VDM boils down to learning a neural network to predict one of three potential objectives: the original source input from any arbitrary noisification of it, the original source noise from any arbitrarily noisified input, or the score function of a noisified input at any arbitrary noise level. We then dive deeper into what it means to learn the score function, and connect the variational perspective of a diffusion model explicitly with the Score-based Generative Modeling perspective through Tweedie's Formula. Lastly, we cover how to learn a conditional distribution using diffusion models via guidance.},
urldate = {2023-06-12},
publisher = {arXiv},
author = {Luo, Calvin},
month = aug,
year = {2022},
note = {arXiv:2208.11970 [cs]},
keywords = {Computer Science - Computer Vision and Pattern Recognition, Computer Science - Machine Learning},
file = {arXiv.org Snapshot:/home/laurent/Zotero/storage/YBCUMCLB/2208.html:text/html;Full Text PDF:/home/laurent/Zotero/storage/6C9BARLG/Luo - 2022 - Understanding Diffusion Models A Unified Perspect.pdf:application/pdf},
}
@misc{zhu_unpaired_2020,
title = {Unpaired {Image}-to-{Image} {Translation} using {Cycle}-{Consistent} {Adversarial} {Networks}},
url = {http://arxiv.org/abs/1703.10593},
doi = {10.48550/arXiv.1703.10593},
abstract = {Image-to-image translation is a class of vision and graphics problems where the goal is to learn the mapping between an input image and an output image using a training set of aligned image pairs. However, for many tasks, paired training data will not be available. We present an approach for learning to translate an image from a source domain \$X\$ to a target domain \$Y\$ in the absence of paired examples. Our goal is to learn a mapping \$G: X {\textbackslash}rightarrow Y\$ such that the distribution of images from \$G(X)\$ is indistinguishable from the distribution \$Y\$ using an adversarial loss. Because this mapping is highly under-constrained, we couple it with an inverse mapping \$F: Y {\textbackslash}rightarrow X\$ and introduce a cycle consistency loss to push \$F(G(X)) {\textbackslash}approx X\$ (and vice versa). Qualitative results are presented on several tasks where paired training data does not exist, including collection style transfer, object transfiguration, season transfer, photo enhancement, etc. Quantitative comparisons against several prior methods demonstrate the superiority of our approach.},
urldate = {2023-07-06},
publisher = {arXiv},
author = {Zhu, Jun-Yan and Park, Taesung and Isola, Phillip and Efros, Alexei A.},
month = aug,
year = {2020},
note = {arXiv:1703.10593 [cs]},
keywords = {Computer Science - Computer Vision and Pattern Recognition},
file = {arXiv Fulltext PDF:/home/laurent/Zotero/storage/Y6SLL26A/Zhu et al. - 2020 - Unpaired Image-to-Image Translation using Cycle-Co.pdf:application/pdf;arXiv.org Snapshot:/home/laurent/Zotero/storage/EWW8TRT2/1703.html:text/html},
}
@misc{odena_semi-supervised_2016,
title = {Semi-{Supervised} {Learning} with {Generative} {Adversarial} {Networks}},
url = {http://arxiv.org/abs/1606.01583},
doi = {10.48550/arXiv.1606.01583},
abstract = {We extend Generative Adversarial Networks (GANs) to the semi-supervised context by forcing the discriminator network to output class labels. We train a generative model G and a discriminator D on a dataset with inputs belonging to one of N classes. At training time, D is made to predict which of N+1 classes the input belongs to, where an extra class is added to correspond to the outputs of G. We show that this method can be used to create a more data-efficient classifier and that it allows for generating higher quality samples than a regular GAN.},
urldate = {2023-07-06},
publisher = {arXiv},
author = {Odena, Augustus},
month = oct,
year = {2016},
note = {arXiv:1606.01583 [cs, stat]},
keywords = {Computer Science - Machine Learning, Statistics - Machine Learning},
file = {arXiv Fulltext PDF:/home/laurent/Zotero/storage/XM4QQ2FW/Odena - 2016 - Semi-Supervised Learning with Generative Adversari.pdf:application/pdf;arXiv.org Snapshot:/home/laurent/Zotero/storage/TXCYUE77/1606.html:text/html},
}
@misc{kim_learning_2017,
title = {Learning to {Discover} {Cross}-{Domain} {Relations} with {Generative} {Adversarial} {Networks}},
url = {http://arxiv.org/abs/1703.05192},
doi = {10.48550/arXiv.1703.05192},
abstract = {While humans easily recognize relations between data from different domains without any supervision, learning to automatically discover them is in general very challenging and needs many ground-truth pairs that illustrate the relations. To avoid costly pairing, we address the task of discovering cross-domain relations given unpaired data. We propose a method based on generative adversarial networks that learns to discover relations between different domains (DiscoGAN). Using the discovered relations, our proposed network successfully transfers style from one domain to another while preserving key attributes such as orientation and face identity. Source code for official implementation is publicly available https://github.com/SKTBrain/DiscoGAN},
urldate = {2023-07-06},
publisher = {arXiv},
author = {Kim, Taeksoo and Cha, Moonsu and Kim, Hyunsoo and Lee, Jung Kwon and Kim, Jiwon},
month = may,
year = {2017},
note = {arXiv:1703.05192 [cs]},
keywords = {Computer Science - Computer Vision and Pattern Recognition},
file = {arXiv Fulltext PDF:/home/laurent/Zotero/storage/Q6LM7LUP/Kim et al. - 2017 - Learning to Discover Cross-Domain Relations with G.pdf:application/pdf;arXiv.org Snapshot:/home/laurent/Zotero/storage/VWK3IQCR/1703.html:text/html},
}
@misc{ledig_photo-realistic_2017,
title = {Photo-{Realistic} {Single} {Image} {Super}-{Resolution} {Using} a {Generative} {Adversarial} {Network}},
url = {http://arxiv.org/abs/1609.04802},
doi = {10.48550/arXiv.1609.04802},
abstract = {Despite the breakthroughs in accuracy and speed of single image super-resolution using faster and deeper convolutional neural networks, one central problem remains largely unsolved: how do we recover the finer texture details when we super-resolve at large upscaling factors? The behavior of optimization-based super-resolution methods is principally driven by the choice of the objective function. Recent work has largely focused on minimizing the mean squared reconstruction error. The resulting estimates have high peak signal-to-noise ratios, but they are often lacking high-frequency details and are perceptually unsatisfying in the sense that they fail to match the fidelity expected at the higher resolution. In this paper, we present SRGAN, a generative adversarial network (GAN) for image super-resolution (SR). To our knowledge, it is the first framework capable of inferring photo-realistic natural images for 4x upscaling factors. To achieve this, we propose a perceptual loss function which consists of an adversarial loss and a content loss. The adversarial loss pushes our solution to the natural image manifold using a discriminator network that is trained to differentiate between the super-resolved images and original photo-realistic images. In addition, we use a content loss motivated by perceptual similarity instead of similarity in pixel space. Our deep residual network is able to recover photo-realistic textures from heavily downsampled images on public benchmarks. An extensive mean-opinion-score (MOS) test shows hugely significant gains in perceptual quality using SRGAN. The MOS scores obtained with SRGAN are closer to those of the original high-resolution images than to those obtained with any state-of-the-art method.},
urldate = {2023-07-06},
publisher = {arXiv},
author = {Ledig, Christian and Theis, Lucas and Huszar, Ferenc and Caballero, Jose and Cunningham, Andrew and Acosta, Alejandro and Aitken, Andrew and Tejani, Alykhan and Totz, Johannes and Wang, Zehan and Shi, Wenzhe},
month = may,
year = {2017},
note = {arXiv:1609.04802 [cs, stat]},
keywords = {Computer Science - Computer Vision and Pattern Recognition, Statistics - Machine Learning},
file = {arXiv Fulltext PDF:/home/laurent/Zotero/storage/VN4Z76ZB/Ledig et al. - 2017 - Photo-Realistic Single Image Super-Resolution Usin.pdf:application/pdf;arXiv.org Snapshot:/home/laurent/Zotero/storage/RN7MPPTH/1609.html:text/html},
}
@article{ma_comprehensive_2021,
title = {A {Comprehensive} {Survey} on {Graph} {Anomaly} {Detection} with {Deep} {Learning}},
issn = {1041-4347, 1558-2191, 2326-3865},
url = {http://arxiv.org/abs/2106.07178},
doi = {10.1109/TKDE.2021.3118815},
abstract = {Anomalies represent rare observations (e.g., data records or events) that deviate significantly from others. Over several decades, research on anomaly mining has received increasing interests due to the implications of these occurrences in a wide range of disciplines. Anomaly detection, which aims to identify rare observations, is among the most vital tasks in the world, and has shown its power in preventing detrimental events, such as financial fraud, network intrusion, and social spam. The detection task is typically solved by identifying outlying data points in the feature space and inherently overlooks the relational information in real-world data. Graphs have been prevalently used to represent the structural information, which raises the graph anomaly detection problem - identifying anomalous graph objects (i.e., nodes, edges and sub-graphs) in a single graph, or anomalous graphs in a database/set of graphs. However, conventional anomaly detection techniques cannot tackle this problem well because of the complexity of graph data. For the advent of deep learning, graph anomaly detection with deep learning has received a growing attention recently. In this survey, we aim to provide a systematic and comprehensive review of the contemporary deep learning techniques for graph anomaly detection. We compile open-sourced implementations, public datasets, and commonly-used evaluation metrics to provide affluent resources for future studies. More importantly, we highlight twelve extensive future research directions according to our survey results covering unsolved and emerging research problems and real-world applications. With this survey, our goal is to create a "one-stop-shop" that provides a unified understanding of the problem categories and existing approaches, publicly available hands-on resources, and high-impact open challenges for graph anomaly detection using deep learning.},
urldate = {2023-07-06},
journal = {IEEE Transactions on Knowledge and Data Engineering},
author = {Ma, Xiaoxiao and Wu, Jia and Xue, Shan and Yang, Jian and Zhou, Chuan and Sheng, Quan Z. and Xiong, Hui and Akoglu, Leman},
year = {2021},
note = {arXiv:2106.07178 [cs]},
keywords = {Computer Science - Machine Learning},
pages = {1--1},
file = {arXiv Fulltext PDF:/home/laurent/Zotero/storage/HLLPJA3X/Ma et al. - 2021 - A Comprehensive Survey on Graph Anomaly Detection .pdf:application/pdf;arXiv.org Snapshot:/home/laurent/Zotero/storage/RK3I3FR2/2106.html:text/html},
}
@misc{gao_survey_2023,
title = {A {Survey} of {Graph} {Neural} {Networks} for {Recommender} {Systems}: {Challenges}, {Methods}, and {Directions}},
shorttitle = {A {Survey} of {Graph} {Neural} {Networks} for {Recommender} {Systems}},
url = {http://arxiv.org/abs/2109.12843},
doi = {10.48550/arXiv.2109.12843},
abstract = {Recommender system is one of the most important information services on today's Internet. Recently, graph neural networks have become the new state-of-the-art approach to recommender systems. In this survey, we conduct a comprehensive review of the literature on graph neural network-based recommender systems. We first introduce the background and the history of the development of both recommender systems and graph neural networks. For recommender systems, in general, there are four aspects for categorizing existing works: stage, scenario, objective, and application. For graph neural networks, the existing methods consist of two categories, spectral models and spatial ones. We then discuss the motivation of applying graph neural networks into recommender systems, mainly consisting of the high-order connectivity, the structural property of data, and the enhanced supervision signal. We then systematically analyze the challenges in graph construction, embedding propagation/aggregation, model optimization, and computation efficiency. Afterward and primarily, we provide a comprehensive overview of a multitude of existing works of graph neural network-based recommender systems, following the taxonomy above. Finally, we raise discussions on the open problems and promising future directions in this area. We summarize the representative papers along with their code repositories in {\textbackslash}url\{https://github.com/tsinghua-fib-lab/GNN-Recommender-Systems\}.},
urldate = {2023-07-06},
publisher = {arXiv},
author = {Gao, Chen and Zheng, Yu and Li, Nian and Li, Yinfeng and Qin, Yingrong and Piao, Jinghua and Quan, Yuhan and Chang, Jianxin and Jin, Depeng and He, Xiangnan and Li, Yong},
month = jan,
year = {2023},
note = {arXiv:2109.12843 [cs]},
keywords = {Computer Science - Information Retrieval},
file = {arXiv Fulltext PDF:/home/laurent/Zotero/storage/WUJ2Y5V4/Gao et al. - 2023 - A Survey of Graph Neural Networks for Recommender .pdf:application/pdf;arXiv.org Snapshot:/home/laurent/Zotero/storage/MADG65MH/2109.html:text/html},
}
@misc{li_gated_2017,
title = {Gated {Graph} {Sequence} {Neural} {Networks}},
url = {http://arxiv.org/abs/1511.05493},
doi = {10.48550/arXiv.1511.05493},
abstract = {Graph-structured data appears frequently in domains including chemistry, natural language semantics, social networks, and knowledge bases. In this work, we study feature learning techniques for graph-structured inputs. Our starting point is previous work on Graph Neural Networks (Scarselli et al., 2009), which we modify to use gated recurrent units and modern optimization techniques and then extend to output sequences. The result is a flexible and broadly useful class of neural network models that has favorable inductive biases relative to purely sequence-based models (e.g., LSTMs) when the problem is graph-structured. We demonstrate the capabilities on some simple AI (bAbI) and graph algorithm learning tasks. We then show it achieves state-of-the-art performance on a problem from program verification, in which subgraphs need to be matched to abstract data structures.},
urldate = {2023-07-06},
publisher = {arXiv},
author = {Li, Yujia and Tarlow, Daniel and Brockschmidt, Marc and Zemel, Richard},
month = sep,
year = {2017},
note = {arXiv:1511.05493 [cs, stat]},
keywords = {Computer Science - Artificial Intelligence, Computer Science - Machine Learning, Computer Science - Neural and Evolutionary Computing, Statistics - Machine Learning},
}