event

Séminaire Statistique

organisé par l'équipe Statistique

  • Machine learning for survival data prediction: Application of the super learner on pseudo-observations

    — Ariane Cwiling

    16 mai 2022 - 11:00Salle de séminaire 418

    La moyenne restreinte du temps de survie ("restricted mean survival time" ou RMST) est aisément interprétable, ce qui en fait un objet d'étude intéressant en analyse de survie. Sa prédiction par rapport aux caractéristiques d'un patient peut être très utile dans le domaine de la santé. Cependant peu de méthodes traitent de cette question en analyse de survie. Un article récent de Zhao (2021) propose d'appliquer un réseau de neurones profonds sur des pseudo-observations. Ces dernières peuvent être décrites comme une transformation des temps censurés en données pouvant être gérées comme non censurées. Dans ce travail, nous proposons une nouvelle méthode de prédiction pour le RMST basée sur les pseudo-observations et combinée avec le super learner, un algorithme de prédiction qui propose une combinaison pondérée optimale de différents algorithmes d'apprentissage.
  • Des approches heuristiques pour le modèle moyenne-risque du problème du plus court chemin et de la classification par k-médiane

    — Chifaa Dahik

    18 mars 2022 - 15:00Salle 301

    On s’intéresse à la version robuste des problèmes linéaires à variables binaires avec un ensemble d’incertitude ellipsoïdal corrélé. Ce problème s'écrit sous la forme du problème de moyenne-risque à résoudre. Puisque ce problème est NP-difficile, une approche heuristique intitulée DFW et basée sur l’algorithme de Frank-Wolfe est proposée. Dans cette approche, nous examinons la puissance d’exploration des itérations internes binaires de la méthode. Pour les problèmes de petites tailles, la méthode est capable de fournir la solution optimale fournie par CPLEX, après quelques centaines d’itérations. De plus, contrairement à la méthode exacte, notre approche s’applique à des problèmes de grandes tailles également. Les résultats numériques ont été appliqués au plus court chemin robuste. Ensuite, une autre adaptation de l’algorithme de Frank-Wolfe a été réalisé pour le problème du k-médiane, accompagnée d’un algorithme d’arrondissement qui satisfait les contraintes.
  • Targeted Active Learning for Bayesian Decision-Making

    — Louis Filstroff

    11 mars 2022 - 14:00Web-séminaire

    Active learning is usually applied to acquire labels of informative data points in supervised learning, to maximize accuracy in a sample-efficient way. However, maximizing the accuracy is not the end goal when the results are used for decision-making, for example in personalized medicine or economics. We argue that when acquiring samples sequentially, separating learning and decision-making is sub-optimal, and we introduce an active learning strategy which takes the down-the-line decision problem into account. Specifically, we adopt a Bayesian experimental design approach, and the proposed criterion maximizes the expected information gain on the posterior distribution of the optimal decision. We compare our targeted active learning strategy to existing alternatives on both simulated and real data, and show improved performance in decision-making accuracy. https://arxiv.org/pdf/2106.04193.pdf
  • Minimax optimal goodness-of-fit testing under non-interactive local differential privacy

    — Joseph Lam

    3 mars 2022 - 10:30Salle de séminaire 418

    Finding anonymization mechanisms to protect personal data is at the heart of recent research in statistics. Here, we consider the consequences of non-interactive local differential privacy constraints on goodness-of-fit testing, that is, the statistical problem assessing whether sample points are generated from a fixed density $f_0$, or not. The observations are kept hidden and replaced by a stochastic transformation satisfying the local differential privacy constraint. In this setting, we propose a testing procedure which is based on an estimation of the quadratic distance between the density f of the unobserved samples and $f_0$. We establish an upper bound on the separation distance associated with this test, and a matching lower bound on the minimax separation rates of testing under non-interactive privacy in the case that $f_0$ is uniform, in discrete and continuous settings, quantifying the price to pay for data privacy.