dernieres modifs
This commit is contained in:
parent
11ae97260b
commit
3f07274b19
|
@ -247,7 +247,9 @@ Plusieurs méthodes pour faire dla diffusion, \
|
|||
la + simple d'entre elles c'est DDPM. \
|
||||
Le principe, apprendre mapping entre données et gaussienne isotropique.
|
||||
|
||||
Ce mapping apprendre via réseau débruiteur (denoising). \
|
||||
Plus exactement, apprendre mapping inverse car, \
|
||||
Pour passer données à gaussienne on ajoute juste du bruit, \
|
||||
Pour process inverse, approximer réseau débruiteur (denoising). \
|
||||
Pour se faire (algo 1), \
|
||||
on prend une de nos données (x0), \
|
||||
on la bruite (xt), \
|
||||
|
@ -255,7 +257,8 @@ on la donne notre réseau, on récupère la prédiction (eps_theta), \
|
|||
on opti le réseau à prédire le bruit que l'on a ajouté (eps).
|
||||
|
||||
Convergence atteinte, \
|
||||
on est capable de débruiter des données.
|
||||
on est capable de débruiter des données, \
|
||||
(plusieurs étape, itérativement)
|
||||
|
||||
Intéressant lorsqu'on part d'un bruit blanc (xT), \
|
||||
et que l'on demande quand même au réseau de débruiter. \
|
||||
|
@ -282,7 +285,8 @@ et génère finalement nouvelle donnée même distrib de celles qu'il a apprises
|
|||
On peut l'appliquer à nos aubes,
|
||||
example du forward process sur une aube 3D, \
|
||||
(subsample 2048 points et normalisé donc un peu applati), \
|
||||
à la fin on obtient truc qui ressemble à une gaussienne.
|
||||
à la fin on obtient truc qui ressemble à une gaussienne. \
|
||||
(mapping discret, ici 100 pas de temps).
|
||||
|
||||
Ce genre de données input réseau capable traiter des pointcloud, \
|
||||
comme par exemple un réseau basés sur des KPConvs, \
|
||||
|
@ -353,16 +357,13 @@ mais meilleurs méthodes depuis 2020.
|
|||
<a href="https://arxiv.org/abs/2112.10752" class="absolute bottom-0 font-extralight mb-1 mr-2 right-0 text-xs">arxiv:2112.10752</a>
|
||||
|
||||
<!--
|
||||
Présentation des LDM qui permettent de traiter plus efficacement nos données.
|
||||
auteur du papier observent que si prend x0, \
|
||||
et que pour tout t allant de 0 a T, \
|
||||
calcul RMSE (distortion) + Rate (KLD reverse process et approx), \
|
||||
et que l'on trace RMSE fonction de Rate, \
|
||||
on obtient ceci.
|
||||
|
||||
Part du constat que si l'on trace pour t, \
|
||||
l'erreur de reconstruction (RMSE, distortion) en fonction de t, \
|
||||
(on prend x_0, on le bruite x_t, on prédit x_0_hat, pour chaque t), \
|
||||
le Rate (issue de l'ELBO, une KLD) en fonction de t, \
|
||||
(KLD=#bits nécéssaire pour passer de P à Q), \
|
||||
on combine les deux pour avoir distortion en fonction de rate. \
|
||||
|
||||
On observe qu'on a deux domaine dans le processus de diffusion, \
|
||||
Interprétaion, deux zones dans processus diffusion, \
|
||||
un domaine nécéssite bcp de bits et encode peu de distortion, \
|
||||
l'autre inverse, peu bits, bcp de distortion, \
|
||||
donc un peu du gachi de réseau neurone le perceptuel, \
|
||||
|
@ -373,9 +374,8 @@ Espace latent sont une possibilité, \
|
|||
utilisation, par ex, d'autoencoder, qui s'occuper du perceptuel, \
|
||||
la diffusion préoccupe que du semantic. \
|
||||
|
||||
Ça revient à modifier la pipeline de diffusion comme suit:
|
||||
|
||||
avantage, latent space plus petit, donc modèle plus petit, simple, rapide...
|
||||
Ça revient à modifier la pipeline de diffusion comme suit: \
|
||||
avantage, latent space petit, donc modèl, petit, simple, rapide...
|
||||
-->
|
||||
|
||||
---
|
||||
|
@ -414,11 +414,12 @@ pas besoin méthode reconstruction dans ce cas.
|
|||
|
||||
<!--
|
||||
Jusqu'à présent, avec tout ce que j'ai dit, \
|
||||
capable de générer des données ressemble certaine densité proba. \
|
||||
capable de générer des données ressemble données d'entrée. \
|
||||
(non conditionné)
|
||||
|
||||
Cependant on veut générer données ressemblent densité proba jointe avec classe. \
|
||||
(conditionné).
|
||||
Cependant on veut générer données ressemblent données d'entrée specifiques. \
|
||||
On pourrait très bien entrainer un modèle par classe, \
|
||||
mais c'est long et en plus nous on a pas de classes discète.
|
||||
|
||||
Il existe plusieurs méthode pour faire cela, \
|
||||
l'un d'entre elle etant cfg.
|
||||
|
@ -428,10 +429,6 @@ prédiction non conditionnée et conditionnée.
|
|||
|
||||
On complexifie un peu plus l'apprentissage, \
|
||||
mais sampling pouvoir choisir quel densité de proba on veut gen.
|
||||
|
||||
On pourrait très bien entrainer un modèle par classe, \
|
||||
mais c'est long et en plus nous on a pas de classes discète, \
|
||||
là on fait tout en même temps...
|
||||
-->
|
||||
|
||||
---
|
||||
|
|
Loading…
Reference in a new issue