Séminaire Statistique
organisé par l'équipe Statistique
-
Joseph Lam
Minimax optimal goodness-of-fit testing under non-interactive local differential privacy
3 mars 2022 - 10:30Salle de séminaire 418
Finding anonymization mechanisms to protect personal data is at the heart of recent research in statistics. Here, we consider the consequences of non-interactive local differential privacy constraints on goodness-of-fit testing, that is, the statistical problem assessing whether sample points are generated from a fixed density $f_0$, or not. The observations are kept hidden and replaced by a stochastic transformation satisfying the local differential privacy constraint. In this setting, we propose a testing procedure which is based on an estimation of the quadratic distance between the density f of the unobserved samples and $f_0$. We establish an upper bound on the separation distance associated with this test, and a matching lower bound on the minimax separation rates of testing under non-interactive privacy in the case that $f_0$ is uniform, in discrete and continuous settings, quantifying the price to pay for data privacy. -
Louis Filstroff
Targeted Active Learning for Bayesian Decision-Making
11 mars 2022 - 14:00Web-séminaire
Active learning is usually applied to acquire labels of informative data points in supervised learning, to maximize accuracy in a sample-efficient way. However, maximizing the accuracy is not the end goal when the results are used for decision-making, for example in personalized medicine or economics. We argue that when acquiring samples sequentially, separating learning and decision-making is sub-optimal, and we introduce an active learning strategy which takes the down-the-line decision problem into account. Specifically, we adopt a Bayesian experimental design approach, and the proposed criterion maximizes the expected information gain on the posterior distribution of the optimal decision. We compare our targeted active learning strategy to existing alternatives on both simulated and real data, and show improved performance in decision-making accuracy. https://arxiv.org/pdf/2106.04193.pdf -
Chifaa Dahik
Des approches heuristiques pour le modèle moyenne-risque du problème du plus court chemin et de la classification par k-médiane
18 mars 2022 - 15:00Salle 301
On s’intéresse à la version robuste des problèmes linéaires à variables binaires avec un ensemble d’incertitude ellipsoïdal corrélé. Ce problème s'écrit sous la forme du problème de moyenne-risque à résoudre. Puisque ce problème est NP-difficile, une approche heuristique intitulée DFW et basée sur l’algorithme de Frank-Wolfe est proposée. Dans cette approche, nous examinons la puissance d’exploration des itérations internes binaires de la méthode. Pour les problèmes de petites tailles, la méthode est capable de fournir la solution optimale fournie par CPLEX, après quelques centaines d’itérations. De plus, contrairement à la méthode exacte, notre approche s’applique à des problèmes de grandes tailles également. Les résultats numériques ont été appliqués au plus court chemin robuste. Ensuite, une autre adaptation de l’algorithme de Frank-Wolfe a été réalisé pour le problème du k-médiane, accompagnée d’un algorithme d’arrondissement qui satisfait les contraintes. -
Ariane Cwiling
Machine learning for survival data prediction: Application of the super learner on pseudo-observations
16 mai 2022 - 11:00Salle de séminaire 418
La moyenne restreinte du temps de survie ("restricted mean survival time" ou RMST) est aisément interprétable, ce qui en fait un objet d'étude intéressant en analyse de survie. Sa prédiction par rapport aux caractéristiques d'un patient peut être très utile dans le domaine de la santé. Cependant peu de méthodes traitent de cette question en analyse de survie. Un article récent de Zhao (2021) propose d'appliquer un réseau de neurones profonds sur des pseudo-observations. Ces dernières peuvent être décrites comme une transformation des temps censurés en données pouvant être gérées comme non censurées. Dans ce travail, nous proposons une nouvelle méthode de prédiction pour le RMST basée sur les pseudo-observations et combinée avec le super learner, un algorithme de prédiction qui propose une combinaison pondérée optimale de différents algorithmes d'apprentissage. -
Augustin Chevallier
Échantilloner des distributions de probabilités avec des processus de Markov déterministes par morceaux (PDMP)
14 novembre 2022 - 17:00Salle de séminaires IRMA
Les PDMP sont une classe de processus faisant l'objet de developpement récents dans le cadre des algorithmes d'échantillonage, à cause de leur caractère non réversible. On introduira ici ces algorithmes, ainsi que leurs limites. On s'interessera particulièrement aux différentes techniques proposées pour la simulation de ces processus et des processus de poisson nonhomogènes sous-jacents. -
Pierre-Olivier Goffard
Calcul Bayésien approximatif et applications en actuariat
21 novembre 2022 - 17:00Salle de séminaires IRMA
Le Calcul Bayésien approximatif, ou Approximate Bayesian Computation (ABC) est une méthode d’inférence paramétrique qui se passe de la fonction de vraisemblance. L’utilisation de cette technique requiert simplement de pouvoir simuler des données suivant le modèle que l’on souhaite calibrer. Suite à une brève introduction des algorithmes permettant d’échantillonner la loi a posteriori sans faire appel à la vraisemblance, je passerais en revue les différentes applications potentielles d’ABC en finance et en assurance avant de me focaliser sur l’une d’entre elle. Cette dernière propose de décomposer une somme aléatoire. Il s'agit d'une somme d’un nombre aléatoire de variables aléatoires. -
Gérard Letac
Randomisation par des lois de Wishart et information de Fisher
28 novembre 2022 - 17:00A confirmer
Soit E l'espace euclidien des matrices symétriques d'ordre $n$ et $E_+$ les matrices définies positives. Soit $X\sim N(0,\Sigma)$ avec $\Sigma^{-1}$ de loi de Wishart de paramètre de forme $p>(n-1)/2$ fixé et de moyenne $p\sigma$ où $\sigma\in E_+$ est le paramètre à estimer. On note $f_{\sigma}(x)$ la densité de $X$ et $I(\sigma)$ son information de Fisher. Deux endomorphismes de $E$ sont importants dans les calculs, définis par $\mathbb{P}(\sigma)(x)=\sigma\, x\, \sigma$ et $(\sigma\otimes \sigma)(x)=\sigma\, \mathrm{trace}\, (\sigma x)$ : ils engendrent le plan $H(\sigma).$ Nous verrons que $I(\sigma)\in H(\sigma^{-1}),$ que $I(\sigma)^{-1}\in H(\sigma)$ et que ces plans $H(u)$ jouent encore leur rôle dans l'inégalité de van Trees quand même $\sigma$ est lui-même randomisé par une loi de Wishart ou son inverse. On donnera quelques indications sur le cas complexe.