Séminaire Modélisation statistique
organisé par l'équipe Modélisation et contrôle
-
Jimmy Armoogum
Le potentiel de la technologie pour analyser le transport
25 mars 2019 - 14:00Salle de séminaires 309
-
Vincent Runge
On the Limit Imbalanced Logistic Regression by Binary Predictors
24 mai 2019 - 14:00Salle de conférences IRMA
Ce travail porte sur l'étude de la régression logistique restreinte à des variables explicatives binaires. Lorsque le vecteur réponse est déséquilibré (faible proportion de 1) nous construisons une vraisemblance limite en accentuant ce déséquilibre à l'infini par réplication de la classe des 0. Cette stratégie déjà présente dans un travail de Owen s'oppose à la méthode usuelle consistant à rééquilibrer les classes par échantillonnage. Grâce à la binarité des données, les simulations effectuées montrent que la valeur des coefficients de régression varie faiblement (même lorsque la réponse n'est pas déséquilibrée). À partir de cette nouvelle vraisemblance, il est possible de construire un chemin Lasso pour effectuer une sélection de modèle. Nous proposons un nouvel algorithme rapide et stable ne faisant pas intervenir la descente par coordonnées à pas lent (comme dans le package R gbnnet) et les approximations successives de la fonction logistique. L'algorithme construit un chemin logarithmique par morceaux qui reconstruit fidèlement le chemin Lasso gbnnet de la vraisemblance non-limite. Pour certains design aléatoires nous donnons une expression analytique du chemin Lasso, permettant ainsi d'analyser quantitativement son comportement -
Gilbert Saporta
Quelques méthodes sparses en analyse des données non supervisée
12 novembre 2019 - 11:00Salle de conférences IRMA
L'analyse en composantes principales (ACP), l'analyse des correspondances (AFC) et l'analyse des correspondances multiples (ACM) sont parmi les techniques les plus efficaces pour visualiser et explorer des données numériques et catégorielles de façon non supervisée. Cependant, dans le cas de données de grande dimension, l'interprétation de combinaisons linéaires de centaines ou de milliers de variables devient très difficile. L'objectif des méthodes sparse est d'obtenir des pseudo-composantes qui sont des combinaisons linéaires d'un petit nombre de variables seulement, et donc de faciliter l'interprétation en mettant en évidence uniquement les caractéristiques les plus importantes. Cette simplification se fait au prix de la perte de propriétés caractéristiques comme l'orthogonalité des composantes et des facteurs. Ceci explique pourquoi il existe plus de 20 variantes d'ACP sparse. Par contre, la "sparsification" de l'analyse des correspondances n'a reçu que peu ou pas d'attention dans la littérature, à l'exception de l'analyse des correspondances multiples. Après un bref survol de l'ACP sparse, nous nous concentrerons sur les variantes sparse de l'analyse des correspondances (AFC) pour les grands tableaux de contingence comme les matrices documents-termes. Nous utilisons le fait que l'AFC est à la fois une ACP (ou une SVD pondérée) et une analyse canonique, pour développer une AFC sparse en colonnes (ou sparse en lignes) et une AFC doublement sparse pour les lignes et les colonnes.