Chapter 4 Apprentissage non supervisé et réduction de dimension
L'apprentissage non-supervisé est unr branche de l'apprentissage dont qui ne cherche pas construire un modèle de type \(y=f(x)\) avec des données d'entrée ou de sortie mais qui cherche simplement a déterminer un modèle a partir d'échantillon de données \(\left\{x_1,...x_n\right\}\text{.}\) On peut lister plusieurs type de problème:
La réduction de dimension: cela consiste à construire une transformation des données vers un espace de dimension nettement inférieur en perdant le moins d'information possibles. Cela peut permettre de compresser des données, de trouver les principales variables explicatives, de visualiser des fonnées en grandes dimension.
Le partitionnement de données (clustering): il s'agit de diviser les données en en ensemble de groupe assez homogène dans ou le sens ou les données d'un groupe sont assez similaires l'une de l'autre. Cela se rapproche des poroblèmes de classification. On peut l'utiliser pour faire de la classification mais aussi d'extraction de connaissances ou de la compression de données.
L'apprentissage de dictionnaire parcimonieux: il s'agit de construire une transformations des données pour obtenir une représentation de même dymension mais parcimonieuse (ou creuse).
L'estimation de densité et les modèles génératifs: l'enjeu ici est de construire une densité de probabilité générant les données de l'échantillon. Cela permet notamment ensuite de générer de nouveau exemple qui suivent la même loi. En apprentissage classique on parlera surtout d'estimation de densité car on essayera de construire directement la fonction de densité de loi de probabilité. Plus tard, en apprentissage profond, on parlera de modèle génératifs qui vont permettrent de générer des échantillons suivant la même loi de probabilité que celle des données fournies sans construire explicitement cette loi de probabilité.
Un modèle génératif est un modèle probabiliste paramétrique \(p_{\theta}(x)\) que l'ont va construire pour estimer une densité de probabilité des données \(p(x)\) inconnu. On parle d'un \(modèle génératif\) à variables latentes si on approche \(p(x)\) par un modèle \(p_{\theta}(x\mid z)\) avec \(p(z)\) une distribution donnée.
Définition 4.1. Modèle génératif à variables latentes.
Réduction de dimension: cela revient souvant \(p(z)=\mathcal{N}(0,\sigma^2)\) et \(p_{\theta}(x\mid z)=\mathcal{N}(D_{\theta}(z),\sigma^2)\) avec \(D_{\theta}\) un fonction nonlinéaire qui passe d'une petit dimension à la dimension des données.
Clustering: cela revient souvant \(p(z)\) une loi multinomiale et on cherche à déterminer \(p_{\theta}(x\mid z= k)\text{.}\)
Apprentissage de Dictionnaire: to do
Dans la suite on oublira ce formalisme pour définir les algorithmes de réduction de dimension.