Robustesse et dimensions des modèles de régression PLS en cas de données incomplètes

Thèse soutenue par Titin Agustin Nengsih

Lundi 16 mars 2020 - 14:00

Salle de conférences IRMA

Jury

Nicolas Meyer, Professeur des universités, université de Strasbourg, Directeur de thèse.
Frédéric Bertrand, Professeur des universités, Université de Technologie de Troyes, Co-directeur de thèse.
Anne Gégout-Petit, Professeur des universités, Université de Lorraine, Rapporteur.
Robert Sabatier, Professeur des universités, Université de Montpellier, Rapporteur.
Erik-André Sauleau, Professeur des universités, Université de Strasbourg, Examinateur.
Nicolas Jay, Professeur des universités, Université de Lorraine, Examinateur.
Myriam Maumy-Bertrand, Maître de conférences, Université de Strasbourg, Examinateur.

Résumé :
Dans la recherche et dans le développement, les données manquantes sont un réel problème pour le praticien. Plusieurs approches statistiques ont été développées pour traiter des données manquantes. Les techniques d’imputation consistent à remplacer les données manquantes par une valeur générée au cours d'un processus d’imputation. La régression PLS est un modèle multivarié pour lequel deux algorithmes (SIMPLS ou NIPALS) existent et qui a été largement utilisée en raison de son efficacité dans l'analyse des relations entre plusieurs composantes. L’algorithme NIPALS a l’avantage de pouvoir estimer les composantes même lorsque les données sont incomplètes, dans la mesure où chaque composante est estimée à partir des seules données complètes, de manière itérative sur chaque dimension du jeu de données et ceci, sans devoir recourir à l’imputation des éventuelles donnés manquantes. Bien qu’il soit désormais considéré comme une méthode de référence dans le traitement des données incomplètes, les performances de l’algorithme NIPALS sont mal connues dans ce cas des données incomplètes. La détermination du nombre de composantes construites lors de la régression PLS ne tient pas compte ni du type de manquant ni de la proportion de données manquantes dans le jeu de données. Pourtant il s’agit d’un point essentiel pour établir des modèles de régression fiables ainsi que pour sélectionner correctement des prédicteurs. Dans la détermination du nombre de composantes, plusieurs critères ont été étudiés. Nous avons comparé les performances des critères sur un jeu de données incomplet et sur un jeu de données imputé en utilisant trois méthodes d’imputation : MICE, l’imputation KNN et l’imputation SVD. Nous avons testé plusieurs critères sous différentes hypothèses de type et de proportion de données manquantes et sur des jeux de données de différentes dimensions

English summary
Missing data are known to be a concern for the applied researcher. Several methods have been developed for handling incomplete data. Method of Imputation is the process of substituting missing data before estimating the relevant model parameters. Furthermore, PLS regression is a multivariate model for which two algorithms (SIMPLS or NIPALS) can be used to provide its parameters estimates. This model has been extensively used in research because of its effectiveness in analyzing relationships between several components. The NIPALS algorithm has the interesting property of being able to provide estimates on incomplete data. However, the NIPALS-PLS algorithm performances are not known when applied to incomplete data. Selection of the number of components to build a representative model in PLS regression is an important problem. Fitting the number of components of a PLS regression on incomplete data set leads to the problem of model validation, which is generally done using one of several criteria with simulations. We compared the criteria for selection of the number of components of a PLS regression according to PLS regression with NIPALS algorithm on incomplete data and PLS regression on imputed data set, applying three methods of imputation: MICE, KNN imputation and SVD imputation. The comparison was performed under different assumptions on proportions of missing data and missingness mechanism, for different dataset dimensions.