Section 4.5 Méthodes "probabilistes"
On va finir par introduire une méthode de réduction probabiliste qui est à la fois différente de toutes les approches précédentes et en même temps proche dans la philosophie.
Subsection 4.5.1 Méthode SNE
L'idée de la méthode SNE (Stochastic Neighbor Embedding) est assez proche de la méthode LLE dans son premier objectif. En effet l'idée est toujours de définir un plongement qui préserve les voisinages. La différence principale vient dans la définition de cette notion de voisinage. Pour la méthode LLE, on définissait des moyennes locales qui reliait un point à ces voisins et on essayait de préserver ses moyennes locales. Ici on va définir une loi de probabilité des voisinages. Étant donné \(x_i\text{,}\) on définit la probabilité de choisir \(x_j\) comme voisin on parle de similarité entre les données. On appelle \(P_i = (p_{j|i})_j\) - loi de probabilité de voisinage autour de \(x_i\)
Définition 4.35.
et \(Q_i = (q_{j|i})_j\) - loi de voisinage autour de \(z_i\text{.}\) Jusqu'à présent on a toujours construit les plongements en préservant certaines propriétés. Ic on va essayer de conserver les lois de voisinage à travers de plongement.
L'objectif est de minimiser l'écart entre les distributions de loi de voisinages dans l'espace complet et l'espace réduit:Objectif.
Proposition 4.36.
Le gradient de la fonction de coût (4.14) est donnée par
Preuve.
On remarque que
en notant \(Z_i = \sum_{\ell\neq i} \exp\left(-||z_i - z_\ell||^2\right)\text{.}\) On obtient donc:
Avec ce calcul du gradient, on peut mettre en place un algorithme d'optimisation et calculer la solution.
Subsection 4.5.2 Variante t-SNE
Dans certains cas on veut absolument plonger les données en dimension ou 2 ou 3 afin de visualiser les données. Pour cela on utilise une variante de la méthode SNE qui s'appelle la méthode t-SNE. En effet en pratique la fonction de coût est pas facile a minimiser et les points en dimension 2 ou 3 ont tendance a ne pas assez s'écarter. On utilise pour cela deux ingrédients:
On symétrise les loi. par exemple \(p_{ij}=\frac12(p_{j|i}+p_{i|j})\)
Pour l'espace en basse dimension on utilise une loi de Student plutôt qu'une gaussienne:
\begin{equation*} p_{ij} = \frac{p_{i|j}+p_{j|i}}{2},\qquad q_{ij} = \frac{(1+||z_i - z_i||^2)^{-1}}{\sum_{k\neq \ell}(1+||z_\ell - z_k||^2)^{-1}} \end{equation*}
Le gradient de la fonction de coût dans le cas t-SNE est donnée par
Proposition 4.37.
Preuve.