Rappels de probabilités

Section 1.1 Rappels de probabilités

On va proposer quelques rappels sur les probabilités. En effet la théorie de l'apprentissage peut difficilement se passer de probabilité.

Subsection 1.1.1 Généralité sur les probabilité

Rappelons au préalable quelques notions de probabilité. Dans cette section, $\Omega$ désignera un ensemble non vide muni d'une tribu $\mathcal A$ et $\mathbb{P}$ une mesure de probabilité (autrement dit, une mesure positive bornée sur $(\Omega,\mathcal A)$ telle que $\mathbb{P}(\Omega)=1$) sur $(\Omega,\mathcal A)\text{,}$ de sorte que $(\Omega,\mathcal A,\mathbb{P})$ est un espace de probabilité. Cet espace est théorique, il représente les expériences possibles.

Soit $\mathcal B(\R)\text{,}$ la tribu borélienne (autrement dit, la plus petite tribu contenant tous les ouverts de $\R\text{.}$) sur $\R\text{.}$ Une variable aléatoire réelle (v.a. ou v.a.r. en abrégé) $X$ désigne une application mesurable de $(\Omega,\mathcal A)$ dans $(\R,\mathcal B(\R))\text{.}$ On dit que $X$ est discrète si $X(\Omega)$ est un ensemble fini ou dénombrable. A l'inverse, on dit que $X$ admet une densité s'il existe une fonction borélienne $f$ à valeurs dans $[0,+\infty]$ telle que

\begin{equation*} \forall A\in \mathcal{B}(\R), \qquad \mathbb{P}(X\in A)=\int_\R f(x)\chi_A(x)\, dx. \end{equation*}

avec $\chi$ la focntion indicatrice.

Définition 1.1. Loi de probabilité.

Soit $X$ une v.a.r. sur l'espace probabilisé $(\Omega ,{\mathcal {A}},\mathbb {P} )\text{.}$ La loi de probabilité de la variable aléatoire $X$ est la mesure de probabilité, notée $\mathbb{P}_{X}\text{,}$ définie sur l'espace mesurable $(\R , \mathcal B (\R ) )$ par

\begin{equation*} \mathbb{P}_{X}(B)=\mathbb {P} {\big (}X^{-1}(B){\big )}=\mathbb {P} (X\in B) \end{equation*}

pour tout borélien $B\in {\mathcal {B}}(\R )\text{.}$ Autrement dit, $\mathbb {P} _{X}$ est la mesure image de $\mathbb {P}$ par $X\text{.}$ Une v.a.r. discrète (resp. à densité) $X$ est associée à une loi de probabilité dite discrète (resp. absolument continue).

Exemple 1.2.

Notons $\delta_a\text{,}$ la mesure de Dirac en $a\text{.}$ Voici quelques exemples de lois discrètes :

Loi de Bernoulli de paramètre $p\in [0,1]$ : $\mathbb{P}_X=(1-p)\delta_0+p\delta_1$ ;
Loi binomiale de paramètres $n\in \N^*$ et $p\in ]0,1[\text{,}$ notée $\mathcal B(n,p)$ : $\mathbb{P}_X=\sum_{k=0}^n C_n^kp^k(1-p)^{n-k}\delta_k$ ;
Loi géométrique de paramètre $p\in ]0,1[\text{,}$ notée $\mathcal G(p)$ : $\mathbb{P}_X=\sum_{k=1}^{+\infty}p(1-p)^{k-1}\delta_k$ ;
Loi de Poisson de paramètre $\lambda \in ]0,+\infty[\text{,}$ notée $\mathcal P(\lambda)$ : $\mathbb{P}_X=\sum_{k=0}^{+\infty}\frac{\lambda^k}{k!}e^{-\lambda}\delta_k$ ;

Rappelons qu'une v.a.r. $X$ admet une densité si, et seulement si la loi $\mathbb{P}_X$ est absolument continue (autrement dit, pour tout $A\in \mathcal A$ tel que $|A|=0\text{,}$ on a $\mathbb{P}_X(A)=0$). Voici quelques exemples de lois discrètes:

Exemple 1.3.

Notons $\delta_a\text{,}$ la mesure de Dirac en $a\text{.}$ Voici quelques exemples de lois discrètes :

Loi uniforme sur $[a,b]\text{,}$ avec $a \lt b\text{,}$ notée $\mathcal U([a,b])$ : $\mathbb{P}_X=\frac{1}{b-a}\chi_{[a,b]}(x)\, dx$ ;
Loi exponentielle de paramètre $\lambda \gt 0\text{,}$ notée $\mathcal E(\lambda)$ : $\mathbb{P}_X=\frac{e^{-x/\lambda}}{\lambda}\chi_{]0,+\infty[}(x)\, dx$ ;
Loi normale de paramètres $m\in \R$ et $\sigma \gt 0\text{,}$ notée $\mathcal N(m,\sigma^2)$ : $\mathbb{P}_X=\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{(x-m)^2}{2\sigma^2}\right)\, dx$ ;

Nous serons amenés par la suite à utiliser fréquemment les notions d'espérance et de variance de v.a.r.

Définition 1.4. Espérance et variance.

Soit $X\text{,}$ une v.a.r. définie sur $(\Omega,\mathcal A,\mathbb P)$ et à valeurs dans $\overline{\R}\text{.}$

Si $X$ est $\mathbb P$-intégrable ou à valeurs dans $[0,+\infty]$ $\mathbb P$-presque sûrement, l'espérance de $X\text{,}$ notée $\mathbb{E}(X)$ est définie par

\begin{equation*} \mathbb{E}(X)=\int_\Omega X(\omega)d\mathbb{P}(\omega). \end{equation*}
Si $X$ est telle que $\mathbb{E}(|X|^2)\lt +\infty$ (on dit alors que $X$ admet un moment d'ordre 2), la variance de $X$ est définie par

\begin{equation*} \operatorname{Var}(X)=\mathbb{E}\left[(X-\mathbb{E}(X))^2\right]=\mathbb{E}(X^2)-\left(\mathbb{E}(X)\right)^2. \end{equation*}

Exemple 1.5.

Dans le cas discret, soit $\{x_i, \ i\in I\}$ avec $I$ fini ou dénombrable et $\varphi$ une fonction à valeurs dans $[0,+\infty]$ ou telle que

\begin{equation*} \sum_{i\in I}|\varphi(x_i)|\mathbb{P}(X=x_i)|\lt +\infty\qquad {\small(\text{on dit que est intégrable})} \end{equation*}

Supposons également que $X$ admet un moment d'ordre 2. On a alors

\begin{equation*} \mathbb{E}[\varphi(X)] =\sum_{i\in I} \varphi(x_i)\mathbb{P}(X=x_i), \qquad \operatorname{Var}[X]=\sum_{i\in I}\left(x_i- \mathbb{E}[X]\right)^2\mathbb{P}(X=x_i). \end{equation*}

L'expression de l'espérance utilise le théorème de transfert.

Loi	$\mathcal B(n,p) $	$\mathcal{G}(p) $	$\mathcal{P}(\lambda)$
Espérance	$np $	$\frac{1}{p} $	$\lambda$
Variance	$np(1-p) $	$\frac{(1-p)}{p^2} $	$\lambda$

Nous terminons cette section en rappelant quelques résultats de convergence de suites de v.a.r. que nous serons amenés à utiliser par la suite. Au préalable, rappelons les différentes notions de convergence de suites de v.a.r.

Définition 1.6. Convergence de v.a.r..

Soit $(X_n)_{n\in \N}\text{,}$ une suite de v.a.r.

On dit que $(X_n)_{n\in \N}$ converge presque sûrement vers la v.a. $X$ et l'on écrit $X_n\xrightarrow[n\to +\infty]{p.s.} X$ s'il existe un ensemble négligeable $N$ tel que, pour tout $\omega\notin N\text{,}$ $(X_n(\omega))_{n\in \N}$ converge vers $X(\omega)\text{,}$ autrement dit

\begin{equation*} \mathbb{P}\left(\lim_{n\to +\infty}X_n=X\right)=1. \end{equation*}
On dit que $(X_n)_{n\in \N}$ converge en probabilité vers la v.a. $X$ et l'on écrit $X_n\xrightarrow[n\to +\infty]{\mathbb{P}} X$ si pour tout $\varepsilon \lt 0\text{,}$ on a

\begin{equation*} \lim_{n\to +\infty}\mathbb{P}(|X_n-X|\lt \varepsilon)=0. \end{equation*}
On dit que $(X_n)_{n\in \N}$ converge dans $\boldsymbol{L^p}$ vers la v.a. $X$ et l'on écrit $X_n\xrightarrow[n\to +\infty]{L^p} X$ si

\begin{equation*} \lim_{n\to +\infty}\mathbb{E}(|X_n-X|^p)=0. \end{equation*}
On dit que $(X_n)_{n\in \N}$ converge en loi vers la v.a. $X$ et l'on écrit $X_n\xrightarrow[n\to +\infty]{\mathcal{L}} X$ si pour toute fonction $f:\R\to \R$ continue et bornée, on a

\begin{equation*} \lim_{n\to +\infty}\mathbb{E}(f(X_n))=\mathbb{E}(f(X)). \end{equation*}

Lien entre les notions de CV.

La convergence presque sûre et la convergence $L^p$ ($p\geq 1$) impliquent la convergence en probabilité, qui implique elle-même la convergence en loi. La convergence en loi est donc la plus faible des convergences ci-dessus.

Exemple 1.7.

Soit $X\text{,}$ une v.a.r. de loi uniforme sur $[0,1]$ et $X_n=\chi_{[0,1/n]}(X)\text{.}$ Si $X(\omega)\neq 0\text{,}$ on a $\lim_{n\to +\infty}X_n(\omega)=0\text{.}$ Or, $\mathbb{P}(X\neq 0)=1$ car $X$ suit une loi uniforme sur $[0,1]\text{.}$ Par conséquent, $X_n\xrightarrow[n\to +\infty]{p.s.} 0\text{.}$
Soit $X_n\text{,}$ une v.a.r. de loi $\mathbb{P}_{X_n}=\frac12 \delta_{1/n}+\frac{1}{2}\delta_{n/(n+1)}\text{.}$ Alors, pour tout fonction $f$ continue et bornée sur $\R\text{,}$

\begin{equation*} \mathbb{E}(f(X_n))=\frac{1}{2}f\left(\frac{1}{n}\right)+\frac{1}{2}f\left(\frac{n}{n+1}\right)\xrightarrow[n\to +\infty]{}\frac{1}{2}f(0)+\frac{1}{2}f(1), \end{equation*}

où $X$ est une v.a.r. de loi de Bernoulli de paramètre $p=1/2\text{.}$ Par conséquent, $X_n\xrightarrow[n\to +\infty]{\mathcal{L}} X\text{.}$

La méthode de Monte-Carlo une méthode permettant d'estimer des espérance et d'intégrer des fonctions.

Théorème 1.8. Loi des grands nombres.

Soit une variable aléatoire $X$ de moi $p$ tel que $\mathbb{E}[\mid X\mid]\lt \infty$ . Soit $(X_n)_{n\in \N^*}$ une suite de v.a.r. i.i.d. (autrement dit, indépendantes et identiquement distribuées ou encore indépendantes et de même loi). Alors la moyenne empirique converge vers l'espérance

\begin{equation*} \bar{X}_n=\frac{1}{n}\sum_{i=1}^n X_i \xrightarrow{ p.s. } \mathbb{E}[X] \end{equation*}

Preuve.

Admis

La moyenne empirique $\bar{X}_n$ est appelé estimateur sans biais car son espérance coincince avec celle de $X\text{.}$

Théorème 1.9. Théorème centrale limite.

Soit une variable aléatoire $X$ de moi $p$ tel que $\mathbb{E}[\mid X\mid^2]\lt \infty$ . Soit $(X_n)_{n\in \N^*}$ une suite de v.a.r. i.i.d. On note la variance de $X$

\begin{equation*} \sigma^2= \mathbb{E}[(X-\mathbb{E}[X])^2] \end{equation*}

alors

\begin{equation*} \frac{\sqrt{n}}{\sigma}\left(\bar{X}_n- \mathbb{E}[X]\right)\underset{\mbox{loi }}{\rightarrow}\mathcal{N}(0,1) \end{equation*}

Preuve.

Admis

Subsection 1.1.2 Estimateur statistique

La notion d'estimateur statistique est utile pour calculer numériquement les paramètres d'une loi de probabilité à partir d'échantillons. Considérons une loi de probabilité $\mathscr{L}_\theta$ dépendant d'un paramètre $\theta$ (nombre ou vecteur). En général, on dispose d'observations, c'est-à-dire de réalisations de cette loi $\mathscr{L}_\theta$ et on se pose la question d'estimer le paramètre $\theta$ de $\mathscr{L}_\theta$ à partir de réalisations d'échantillons de cette loi.

Définition 1.10. $n$-échantillon, observation, estimateur.

Soit $n\in \N^*\text{.}$

Un $n$-échantillon d'un loi $\mathscr{L}_\theta$ est une famille $(X_k)_{1\leq k\leq n}$ de variables aléatoires indépendantes et de même loi de probabilité $\mathscr{L}_\theta\text{.}$
Une observation $(x_1,\dots,x_n)$ est une réalisation du $n$-échantillon $(X_1,\dots,X_n)\text{.}$
Un estimateur de $\theta$ est une variable aléatoire $\hat{\theta}_n$ de la forme $F_n(X_1,...,X_n)$ où $F_n:\R^n\to \R\text{.}$ Une estimation est la valeur de l’estimateur correspondant à une réalisation de l’échantillon.

Prenons l’exemple d’un référendum où les électeurs ne peuvent que répondre par 'oui' ou 'non'. Choisissons $n=1000$ personnes et considérons pour $i\in \llbracket 1,n\rrbracket$ la v.a.r. $X_i$ égale à 1 si la ième personne déclare savoir ce qu’elle ira voter et vouloir voter 'oui' et 0 sinon (si elle déclare ne pas savoir ou ne pas envisager de voter, on écarte cette réponse de la présente analyse). Considérons un 1000-échantillon $X_1\text{,}$ \dots, $X_{1000}$ d’une loi de Bernoulli $\mathcal B(1,\theta)\text{.}$ On considère que l’opinion est en faveur du “oui” si et seulement si $\theta\geq 1/2\text{.}$ On est alors confronté au problème d’estimer la valeur du paramètre $\theta\text{.}$ Dans ce cas, il est raisonnable d'utiliser la loi des grands nombres Théorème 1.8, assurant que

\begin{equation} \lim_{n\to +\infty}\hat{\theta}_n = \lim_{n\to +\infty}\frac{X_1+...+X_n}{n}=\mathbb{E}(X_1)=\theta \tag{1.1} \end{equation}

Par conséquent, $\hat{\theta}_n:= (X_1+...+X_n)/n$ est un estimateur du paramètre $\theta$ et une estimation de $\theta$ est donc $(x_1+\dots+x_n)/n\text{,}$ où $x_i$ est la réalisation de $X_i\text{.}$

Définition 1.11. Estimateur consistant.

Un estimateur $\hat{\theta}_n$ pour le paramètre $\theta$ est dit convergeant (resp. consistant) si $\hat{\theta}_n \xrightarrow{\mathcal{L}} \theta$ (resp. $\hat{\theta}_n \xrightarrow{p.s.} \theta$) par rapport à la loi de probabilité $\mathscr{L}_{\theta}$ lorsque $n\rightarrow +\infty\text{.}$

Définition 1.12. Biais d'un estimateur.

Le biais de l'estimateur $\hat{\theta}_n$ est défini par

\begin{equation*} b(\hat{\theta}_n,\theta) =\mathbb{E}[\hat{\theta}_n] -\theta . \end{equation*}

S’il est nul, on dit que $\hat{\theta}_n$ est un estimateur sans biais.

Lemme 1.13. Inégalité de Bienaymé-Tchebychev.

Soit $X$ une v.a.r. d'espérance $\mathbb{E}(X)$ et de variance finie $\operatorname{Var}(X)\text{.}$ Pour tout réel strictement positif $\varepsilon\text{,}$ on a

\begin{equation*} \mathbb{P} ( | X - \mathbb{E} (X) | \geq \varepsilon ) \le \frac{\operatorname{Var}(X)^2}{\varepsilon^2}. \end{equation*}

Il résulte de cette inégalité qu'un estimateur sans biais est convergeant si

\begin{equation*} \lim_{n\to+\infty}\operatorname{Var}(\hat{\theta}_n)=0. \end{equation*}

Exemple 1.14.

Soit $X\text{,}$ une v.a.r. d'espérance $m$ et de variance $\sigma^2$ avec $\sigma\in \R_+^*\text{.}$ Soit $(X_1,\dots,X_n)\text{,}$ un $n$-échantillon de $X\text{.}$ La moyenne empirique $\hat{\theta}_n:= (X_1+...+X_n)/n$ est un estimateur sans biais et convergeant de $m\text{.}$ En effet, on vérifie aisément que $\mathbb{E}( \hat{\theta}_n)=m$ et $\operatorname{Var}( \overline{X}_n)=\sigma^2/n\to 0$ si $n\to +\infty\text{.}$ En utilisant le théorème de la limite centrale Théorème 1.9, on peut de plus démontrer que $\hat{\theta}_n$ converge en loi vers une v.a.r. de loi $\mathcal{N}(0,\sigma^2)\text{.}$

Définition 1.15. Erreur quadratique.

L'erreur quadratique associée à l'estimateur $\hat{\theta}_n$ de $\theta$ est définie par

\begin{equation*} R(\hat{\theta}_n,\theta) =\mathbb{E}[(\hat{\theta}_n -\theta)^2] = b(\hat{\theta}_n,\theta)^2 + \mathbb{V}_{\theta}(\hat{\theta}_n). \end{equation*}

Loi	\(\mathcal B(n,p) \)	\(\mathcal{G}(p) \)	\(\mathcal{P}(\lambda)\)
Espérance	\(np \)	\(\frac{1}{p} \)	\(\lambda\)
Variance	\(np(1-p) \)	\(\frac{(1-p)}{p^2} \)	\(\lambda\)

Apprentissage et calcul scientifique

Section 1.1 Rappels de probabilités

Subsection 1.1.1 Généralité sur les probabilité

Définition 1.1. Loi de probabilité.

Exemple 1.2.

Exemple 1.3.

Définition 1.4. Espérance et variance.

Exemple 1.5.

Définition 1.6. Convergence de v.a.r..

Lien entre les notions de CV.

Exemple 1.7.

Théorème 1.8. Loi des grands nombres.

Preuve.

Théorème 1.9. Théorème centrale limite.

Preuve.

Subsection 1.1.2 Estimateur statistique

Définition 1.10. \(n\)-échantillon, observation, estimateur.

Définition 1.11. Estimateur consistant.

Définition 1.12. Biais d'un estimateur.

Lemme 1.13. Inégalité de Bienaymé-Tchebychev.

Exemple 1.14.

Définition 1.15. Erreur quadratique.