Section 1.1 Rappels de probabilités
Subsection 1.1.1 Généralité sur les probabilité
Rappelons au préalable quelques notions de probabilité. Dans cette section, \(\Omega\) désignera un ensemble non vide muni d'une tribu \(\mathcal A\) et \(\mathbb{P}\) une mesure de probabilité (autrement dit, une mesure positive bornée sur \((\Omega,\mathcal A)\) telle que \(\mathbb{P}(\Omega)=1\)) sur \((\Omega,\mathcal A)\text{,}\) de sorte que \((\Omega,\mathcal A,\mathbb{P})\) est un espace de probabilité. Cet espace est théorique, il représente les expériences possibles.
Soit \(\mathcal B(\R)\text{,}\) la tribu borélienne (autrement dit, la plus petite tribu contenant tous les ouverts de \(\R\text{.}\)) sur \(\R\text{.}\) Une variable aléatoire réelle (v.a. ou v.a.r. en abrégé) \(X\) désigne une application mesurable de \((\Omega,\mathcal A)\) dans \((\R,\mathcal B(\R))\text{.}\) On dit que $X$ est discrète si \(X(\Omega)\) est un ensemble fini ou dénombrable. A l'inverse, on dit que \(X\) admet une densité s'il existe une fonction borélienne \(f\) à valeurs dans \([0,+\infty]\) telle que
avec \(\chi\) la focntion indicatrice.
Définition 1.1. Loi de probabilité.
Soit \(X\) une v.a.r. sur l'espace probabilisé \((\Omega ,{\mathcal {A}},\mathbb {P} )\text{.}\) La loi de probabilité de la variable aléatoire \(X\) est la mesure de probabilité, notée \(\mathbb{P}_{X}\text{,}\) définie sur l'espace mesurable \((\R , \mathcal B (\R ) )\) par
pour tout borélien \(B\in {\mathcal {B}}(\R )\text{.}\) Autrement dit, \(\mathbb {P} _{X}\) est la mesure image de \(\mathbb {P}\) par \(X\text{.}\) Une v.a.r. discrète (resp. à densité) \(X\) est associée à une loi de probabilité dite discrète (resp. absolument continue).
Exemple 1.2.
Notons \(\delta_a\text{,}\) la mesure de Dirac en \(a\text{.}\) Voici quelques exemples de lois discrètes :
Loi de Bernoulli de paramètre \(p\in [0,1]\) : \(\mathbb{P}_X=(1-p)\delta_0+p\delta_1\) ;
Loi binomiale de paramètres \(n\in \N^*\) et \(p\in ]0,1[\text{,}\) notée \(\mathcal B(n,p)\) : \(\mathbb{P}_X=\sum_{k=0}^n C_n^kp^k(1-p)^{n-k}\delta_k\) ;
Loi géométrique de paramètre \(p\in ]0,1[\text{,}\) notée \(\mathcal G(p)\) : \(\mathbb{P}_X=\sum_{k=1}^{+\infty}p(1-p)^{k-1}\delta_k\) ;
Loi de Poisson de paramètre \(\lambda \in ]0,+\infty[\text{,}\) notée \(\mathcal P(\lambda)\) : \(\mathbb{P}_X=\sum_{k=0}^{+\infty}\frac{\lambda^k}{k!}e^{-\lambda}\delta_k\) ;
Rappelons qu'une v.a.r. \(X\) admet une densité si, et seulement si la loi \(\mathbb{P}_X\) est absolument continue (autrement dit, pour tout \(A\in \mathcal A\) tel que \(|A|=0\text{,}\) on a \(\mathbb{P}_X(A)=0\)). Voici quelques exemples de lois discrètes:
Exemple 1.3.
Notons \(\delta_a\text{,}\) la mesure de Dirac en \(a\text{.}\) Voici quelques exemples de lois discrètes :
Loi uniforme sur \([a,b]\text{,}\) avec \(a \lt b\text{,}\) notée \(\mathcal U([a,b])\) : \(\mathbb{P}_X=\frac{1}{b-a}\chi_{[a,b]}(x)\, dx\) ;
Loi exponentielle de paramètre \(\lambda \gt 0\text{,}\) notée \(\mathcal E(\lambda)\) : \(\mathbb{P}_X=\frac{e^{-x/\lambda}}{\lambda}\chi_{]0,+\infty[}(x)\, dx\) ;
Loi normale de paramètres \(m\in \R\) et \(\sigma \gt 0\text{,}\) notée \(\mathcal N(m,\sigma^2)\) : \(\mathbb{P}_X=\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{(x-m)^2}{2\sigma^2}\right)\, dx\) ;
Nous serons amenés par la suite à utiliser fréquemment les notions d'espérance et de variance de v.a.r. Soit \(X\text{,}\) une v.a.r. définie sur \((\Omega,\mathcal A,\mathbb P)\) et à valeurs dans \(\overline{\R}\text{.}\) Si \(X\) est \(\mathbb P\)-intégrable ou à valeurs dans \([0,+\infty]\) \(\mathbb P\)-presque sûrement, l'espérance de \(X\text{,}\) notée \(\mathbb{E}(X)\) est définie par Si \(X\) est telle que \(\mathbb{E}(|X|^2)\lt +\infty\) (on dit alors que \(X\) admet un moment d'ordre 2), la variance de \(X\) est définie par
Définition 1.4. Espérance et variance.
Exemple 1.5.
Dans le cas discret, soit \(\{x_i, \ i\in I\}\) avec \(I\) fini ou dénombrable et \(\varphi\) une fonction à valeurs dans \([0,+\infty]\) ou telle que
Supposons également que \(X\) admet un moment d'ordre 2. On a alors
L'expression de l'espérance utilise le théorème de transfert.
Loi | \(\mathcal B(n,p) \) | \(\mathcal{G}(p) \) | \(\mathcal{P}(\lambda)\) |
---|---|---|---|
Espérance | \(np \) | \(\frac{1}{p} \) | \(\lambda\) |
Variance | \(np(1-p) \) | \(\frac{(1-p)}{p^2} \) | \(\lambda\) |
Nous terminons cette section en rappelant quelques résultats de convergence de suites de v.a.r. que nous serons amenés à utiliser par la suite. Au préalable, rappelons les différentes notions de convergence de suites de v.a.r. Soit \((X_n)_{n\in \N}\text{,}\) une suite de v.a.r. On dit que \((X_n)_{n\in \N}\) converge presque sûrement vers la v.a. \(X\) et l'on écrit \(X_n\xrightarrow[n\to +\infty]{p.s.} X\) s'il existe un ensemble négligeable \(N\) tel que, pour tout \(\omega\notin N\text{,}\) \((X_n(\omega))_{n\in \N}\) converge vers \(X(\omega)\text{,}\) autrement dit On dit que \((X_n)_{n\in \N}\) converge en probabilité vers la v.a. \(X\) et l'on écrit \(X_n\xrightarrow[n\to +\infty]{\mathbb{P}} X\) si pour tout \(\varepsilon \lt 0\text{,}\) on a On dit que \((X_n)_{n\in \N}\) converge dans \(\boldsymbol{L^p}\) vers la v.a. \(X\) et l'on écrit \(X_n\xrightarrow[n\to +\infty]{L^p} X\) si On dit que \((X_n)_{n\in \N}\) converge en loi vers la v.a. \(X\) et l'on écrit \(X_n\xrightarrow[n\to +\infty]{\mathcal{L}} X\) si pour toute fonction \(f:\R\to \R\) continue et bornée, on a La convergence presque sûre et la convergence \(L^p\) (\(p\geq 1\)) impliquent la convergence en probabilité, qui implique elle-même la convergence en loi. La convergence en loi est donc la plus faible des convergences ci-dessus.
Définition 1.6. Convergence de v.a.r..
Lien entre les notions de CV.
Exemple 1.7.
Soit \(X\text{,}\) une v.a.r. de loi uniforme sur \([0,1]\) et \(X_n=\chi_{[0,1/n]}(X)\text{.}\) Si \(X(\omega)\neq 0\text{,}\) on a \(\lim_{n\to +\infty}X_n(\omega)=0\text{.}\) Or, \(\mathbb{P}(X\neq 0)=1\) car \(X\) suit une loi uniforme sur \([0,1]\text{.}\) Par conséquent, \(X_n\xrightarrow[n\to +\infty]{p.s.} 0\text{.}\)
-
Soit \(X_n\text{,}\) une v.a.r. de loi \(\mathbb{P}_{X_n}=\frac12 \delta_{1/n}+\frac{1}{2}\delta_{n/(n+1)}\text{.}\) Alors, pour tout fonction \(f\) continue et bornée sur \(\R\text{,}\)
\begin{equation*} \mathbb{E}(f(X_n))=\frac{1}{2}f\left(\frac{1}{n}\right)+\frac{1}{2}f\left(\frac{n}{n+1}\right)\xrightarrow[n\to +\infty]{}\frac{1}{2}f(0)+\frac{1}{2}f(1), \end{equation*}où \(X\) est une v.a.r. de loi de Bernoulli de paramètre \(p=1/2\text{.}\) Par conséquent, \(X_n\xrightarrow[n\to +\infty]{\mathcal{L}} X\text{.}\)
Théorème 1.8. Loi des grands nombres.
Soit une variable aléatoire \(X\) de moi \(p\) tel que \(\mathbb{E}[\mid X\mid]\lt \infty\) . Soit \((X_n)_{n\in \N^*}\) une suite de v.a.r. i.i.d. (autrement dit, indépendantes et identiquement distribuées ou encore indépendantes et de même loi). Alors la moyenne empirique converge vers l'espérance
Preuve.
Admis
Théorème 1.9. Théorème centrale limite.
Soit une variable aléatoire \(X\) de moi \(p\) tel que \(\mathbb{E}[\mid X\mid^2]\lt \infty\) . Soit \((X_n)_{n\in \N^*}\) une suite de v.a.r. i.i.d. On note la variance de \(X\)
alors
Preuve.
Admis
Subsection 1.1.2 Estimateur statistique
La notion d'estimateur statistique est utile pour calculer numériquement les paramètres d'une loi de probabilité à partir d'échantillons. Considérons une loi de probabilité \(\mathscr{L}_\theta\) dépendant d'un paramètre \(\theta\) (nombre ou vecteur). En général, on dispose d'observations, c'est-à-dire de réalisations de cette loi \(\mathscr{L}_\theta\) et on se pose la question d'estimer le paramètre \(\theta\) de \(\mathscr{L}_\theta\) à partir de réalisations d'échantillons de cette loi.
Définition 1.10. \(n\)-échantillon, observation, estimateur.
Soit \(n\in \N^*\text{.}\)
Un \(n\)-échantillon d'un loi \(\mathscr{L}_\theta\) est une famille \((X_k)_{1\leq k\leq n}\) de variables aléatoires indépendantes et de même loi de probabilité \(\mathscr{L}_\theta\text{.}\)
Une observation \((x_1,\dots,x_n)\) est une réalisation du \(n\)-échantillon \((X_1,\dots,X_n)\text{.}\)
Un estimateur de \(\theta\) est une variable aléatoire \(\hat{\theta}_n\) de la forme \(F_n(X_1,...,X_n)\) où \(F_n:\R^n\to \R\text{.}\) Une estimation est la valeur de l’estimateur correspondant à une réalisation de l’échantillon.
Prenons l’exemple d’un référendum où les électeurs ne peuvent que répondre par 'oui' ou 'non'. Choisissons \(n=1000\) personnes et considérons pour \(i\in \llbracket 1,n\rrbracket\) la v.a.r. \(X_i\) égale à 1 si la ième personne déclare savoir ce qu’elle ira voter et vouloir voter 'oui' et 0 sinon (si elle déclare ne pas savoir ou ne pas envisager de voter, on écarte cette réponse de la présente analyse). Considérons un 1000-échantillon \(X_1\text{,}\) \dots, \(X_{1000}\) d’une loi de Bernoulli \(\mathcal B(1,\theta)\text{.}\) On considère que l’opinion est en faveur du “oui” si et seulement si \(\theta\geq 1/2\text{.}\) On est alors confronté au problème d’estimer la valeur du paramètre \(\theta\text{.}\) Dans ce cas, il est raisonnable d'utiliser la loi des grands nombres Théorème 1.8, assurant que
Par conséquent, \(\hat{\theta}_n:= (X_1+...+X_n)/n\) est un estimateur du paramètre \(\theta\) et une estimation de \(\theta\) est donc \((x_1+\dots+x_n)/n\text{,}\) où \(x_i\) est la réalisation de \(X_i\text{.}\) Un estimateur \(\hat{\theta}_n\) pour le paramètre \(\theta\) est dit convergeant (resp. consistant) si \(\hat{\theta}_n \xrightarrow{\mathcal{L}} \theta\) (resp. \(\hat{\theta}_n \xrightarrow{p.s.} \theta\)) par rapport à la loi de probabilité \(\mathscr{L}_{\theta}\) lorsque \(n\rightarrow +\infty\text{.}\) Le biais de l'estimateur \(\hat{\theta}_n\) est défini par S’il est nul, on dit que \(\hat{\theta}_n\) est un estimateur sans biais. Soit \(X\) une v.a.r. d'espérance \(\mathbb{E}(X)\) et de variance finie \(\operatorname{Var}(X)\text{.}\) Pour tout réel strictement positif \(\varepsilon\text{,}\) on a
Définition 1.11. Estimateur consistant.
Définition 1.12. Biais d'un estimateur.
Lemme 1.13. Inégalité de Bienaymé-Tchebychev.
Soit \(X\text{,}\) une v.a.r. d'espérance \(m\) et de variance \(\sigma^2\) avec \(\sigma\in \R_+^*\text{.}\) Soit \((X_1,\dots,X_n)\text{,}\) un \(n\)-échantillon de \(X\text{.}\) La moyenne empirique \(\hat{\theta}_n:= (X_1+...+X_n)/n\) est un estimateur sans biais et convergeant de \(m\text{.}\) En effet, on vérifie aisément que \(\mathbb{E}( \hat{\theta}_n)=m\) et \(\operatorname{Var}( \overline{X}_n)=\sigma^2/n\to 0\) si \(n\to +\infty\text{.}\) En utilisant le théorème de la limite centrale Théorème 1.9, on peut de plus démontrer que \(\hat{\theta}_n\) converge en loi vers une v.a.r. de loi \(\mathcal{N}(0,\sigma^2)\text{.}\)
Définition 1.15. Erreur quadratique.
L'erreur quadratique associée à l'estimateur \(\hat{\theta}_n\) de \(\theta\) est définie par