Probabilités
chapitre :

Introduction

La théorie des probabilités a pour objectif de décrire, d'analyser et d'interpréter les phénomènes, physiques ou abstraits, marqués par l'incertitude. Initialement motivée par l'étude des jeux de hasard, les jeux de dés et de cartes principalement, c'est à partir du XVIIème siècle que les questions liées au hasard ont fait l'objet d'une réflexion systématique, entre autres par Blaise Pascal, Pierre de Fermat, Charles Huygens, Jacques Bernoulli, Pierre-Simon Laplace, Joseph-Louis Lagrange, Henry-Léon Lebesgue, Leonhard Euler, Carl Friedrich Gauss, etc. Mais c'est incontestablement le mathématicien russe Andreï Nikolaïevitch Kolmogorov qui en a fourni le socle théorique moderne au premier tiers du XXème siècle, en s'appuyant sur la théorie de la mesure de Borel-Lebesgue.

Depuis, la théorie des probabilités a largement débordé du cadre des mathématiques. Elle est omniprésente dans la plupart des domaines scientifiques : informatique, biologie, médecine, sociologie, économie, finance, climatologie, chimie, physique quantique, algorithmique, traitement du signal, théorie de l'information, codage, cryptographie, intelligence ar­ti­fi­ciel­le, complexité, approximation, etc.

Elle est utilisée dans le milieu de la finance ou des assurances pour modéliser les risques. Les analystes estiment la probabilité d'événements tels que les variations de taux de change, les crises économiques ou les performances des marchés boursiers. Cette modélisation probabiliste est censée aider à prendre des décisions éclairées (mais aussi à spéculer, cf. crise des subprimes.)

Dans le domaine de la santé, elle intervient dans l'analyse statistique des essais cliniques. Les chercheurs évaluent la probabilité que l'efficacité d'un nouveau médicament n'est pas due au hasard mais bien à un effet réel. Cela permet de garantir la validité des résultats et d'orienter les décisions médicales basées sur des preuves solides (faute de quoi, les conséquences peuvent être désastreuses, cf. covid et hydroxychloroquine.)

En sociologie, la théorie des probabilités trouve des applications dans l'étude des comportements sociaux et des phénomènes complexes. Les sondages d'opinion, par exemple, utilisent des méthodes probabilistes pour extrapoler les préférences d'une population à partir d'un échantillon représentatif. Cela permet de tirer des conclusions probabilistes sur les tendances et les opinions générales d'une société (ou manipuler l'opinion en les détournant, cf. sondages sur les sujets sensibles immigrations, peines plancher, etc. ).

Dans le domaine de l'environnement, les modèles probabilistes sont utilisés pour évaluer les risques liés aux changements climatiques, aux catastrophes naturelles et aux émissions de polluants. On essaie d'estimer la probabilité d'événements extrêmes tels que les tempêtes, les inondations ou les sécheresses (ou disqualifier ces estimations en confondant volontairement ou non météo et climat…).

En ingénierie, les probabilités sont employées pour évaluer la fiabilité des systèmes complexes. Par exemple, dans la conception de structures, les ingénieurs peuvent utiliser des modèles probabilistes pour estimer la probabilité de défaillance d'un composant en fonction de divers facteurs tels que la charge, la durée de vie et les matériaux utilisés (et qui guident les opérations de maintenance de ces systèmes, cf. effondrement du pont Morandi à Gênes en août 2019).

En informatique, elles permettent de générer des nombres pseudo-premiers dans la conception de protocoles de chiffrement, d'optimiser les méthodes de compression de données avec ou sans pertes d'information, de concevoir des méthodes de codage d'un signal pour le protéger des erreurs qu'il peut subir durant une transmission, de gérer des systèmes complexes, de créer des systèmes d'apprentissage automatique en IA, etc.

L'axiomatisation de la théorie des probabilités par Kolmogorov est essentiellement motivée par la nécessité de fournir un cadre rigoureux pour l'étude de phénomènes continus, c'est-à-dire pour lesquels la variété des résultats observés est infinie et non-dénombrable. Dans le cadre discret, c'est-à-dire quand le nombre d'issues possibles est au plus dénombrable, la théorie s'avère plus simple. L'informatique est par essence plus encline à étudier des phénomènes discrets que des phénomènes continus, ce qui explique les limitations drastiques de ce chapitre, mais il ne faut pas en déduire pour autant que l'informatique n'est pas concernée par les modèles continus, loin de là. L'analyse des algorithmes stochastiques, l'apprentissage automatique, l'optimisation, la cryptographie, le traitement du signal ou les réseaux de neurones, entre autres, font appel aux probabilités continues.

Nous avons tous une approche naïve fréquentiste des probabilités quand les issues possibles sont en nombre fini — le comportement d'un lancer de dés, d'une pièce de monnaie, les résultats d'une course de chevaux, etc. — et c'est la combinatoire qui fournit une bonne partie des outils nécessaires au calcul des probabilités. C'est cette approche que nous avons mise en œuvre précédemment sans outillage particulier pour étudier le problème du paradoxe des anniversaires. Dans ce chapitre, nous allons nous aventurer (un peu) plus loin dans ce domaine.

Comme de coutume dans ce cours, nous commençons par proposer un problème dont la résolution permettra de justifier le développement d'un nouvel arsenal :

Une épidémie touche une personne à risque sur 5 000 et s'avère mortelle dans 60% des cas. Un test a été mis au point pour détecter la maladie. Sur un patient malade le test est positif dans 99,8% des cas et sur un patient sain il est négatif dans 99% des cas. Un traitement expérimental permet de soigner cette maladie dans 80% des cas, mais tue un patient sain dans 10% des cas.

Une campagne de dépistage de cette maladie est lancée et un million de personnes sont testées. Le médecin annonce à un patient que le résultat de son test est positif et lui prescrit ce traitement. Doit-il l'accepter ?

Vocabulaire

Nous allons formaliser ce que nous entendons par expérience aléatoire et définir un modèle probabiliste pour étudier une telle expérience. Trois éléments sont constitutifs et caractéristiques d'un modèle probabiliste, nous en donnons pour commencer une description incomplète et in­for­mel­le que nous préciserons dans la suite :

Un évènement est donc une partie de l'univers des possibles regroupant certaines issues de l'expérience. Un modèle abstrait décrivant une expérience aléatoire est un triplet \((\Omega,{\mathscr T},\prob)\) qui constitue son espace probabilisé et permet d'en faire l'étude théorique.
Il faut noter dès à présent qu'il est tout à fait possible de définir des modèles différents d'une même expérience aléatoire.

Expérience aléatoire et univers des possibles

On qualifie d'expérience aléatoire toute expérience dont l'issue dépend du hasard, au sens informel. À l'opposé d'un algorithme, dont l'une des caractéristiques est le déterminisme et en particulier la reproductibilité — toute exécution de l'algorithme doit fournir exactement la même sortie pour la même entrée —, une expérience aléatoire fournit toujours un résultat imprévisible, toutes conditions de l'expérience égales par ailleurs.

Pour modéliser une expérience aléatoire, on lui associe un ensemble \(\Omega\) dont les éléments permettent d'identifier les différents résultats de cette expérience. Par exemple \begin{equation} \label{eq:lancerde} \Omega:=\{1,2,3,4,5,6\} \end{equation} pour l'expérience qui consiste à relever la valeur d'un dé après un lancer, \[\Omega:=\{p,f\}\quad\text{ou encore}\quad\Omega:=\{0,1\}\] pour la face apparente d'une pièce de monnaie jetée à terre, et \[\Omega:={\color{orange}\{(x,y)\in\R^2\mid x^2+y^2\leq r\}}\] s'il s'agit d'observer la position d'une fléchette lancée sur une cible circulaire, le point d'impact de la fléchette étant codé par un couple \((x,y)\) du plan euclidien et la cible par le disque de centre \((0,0)\) et de rayon \(r\).

L'ensemble \(\Omega\) des éléments identifiant les résultats d'une expérience aléatoire est appelé univers des possibles et ses éléments \(\omega\) sont qualifiés d'issues.

L'univers \(\Omega\) est parfois appelé champ ou espace des possibles. Une issue \(\omega\in\Omega\) est parfois appelée éventualité ou réalisation. L'univers \(\Omega\) fait avant tout office de support abstrait pour identifier les issues de l'expérience, à la manière d'un dictionnaire Python, c'est l'espace des clés et les valeurs associées à ces clés codent le résultat de l'expérience, ce que nous observons. Il ne reflète donc pas nécessairement directement le résultat de l'expérience, même si parfois la confusion peut être faite, comme pour un lancer de dés (voir \((\ref{eq:lancerde})\) plus haut).

Les valeurs identifiant les issues d'une expérience et qui constituent l'univers des possibles \(\Omega\) sont dans une large mesure arbitraires, au sens où elles ne sont pas intrinsèques à l'expérience. Généralement \(\Omega\) est choisi pour être simple et économique, si l'on s'intéresse au résultat d'un lancer de dé, il est inutile de coder les issues en incluant l'orientation et la position du dé sur le tapis une fois immobilisé. On pourrait définir l'espace des possibles \(\Omega=\{p,f,t\}\) pour le lancer d'une pièce de monnaie avec une troisième valeur \(t\) si l'on voulait tenir compte de la possibilité (rare !) où la pièce pourrait tomber sur la tranche.
Proposez un univers des possibles \(\Omega\) pour les expériences aléatoires suivantes :

Tribu des évènements

Dans le cadre d'une expérience aléatoire, un évènement, au sens informel, est généralement décrit par un prédicat dont l'interprétation est faite sur l'univers des possibles \(\Omega\). Par exemple, pour un lancer de dé, la valeur du dé est inférieure ou égale à \(2\) est un évènement qui se traduit par le prédicat \(\omega\leq 2\) en équipant l'univers \(\Omega:=\{1,2,3,4,5,6\}\) de la relation d'ordre naturel \(\leq\). C'est l'axiome de sélection qui nous fournit l'existence de cet évènement vu cette fois comme une partie de \(\Omega\) : \begin{equation} \label{eq:even} \{\omega\in\Omega\such \omega\leq 2\} \end{equation} à savoir, la paire \(\{1,2\}\) contenant les deux issues \(1\) et \(2\). En théorie des probabilités, on traduit des énoncés informels en prédicats mathématiques \(P(\omega)\) sur l'univers des possibles \(\Omega,\) définissant alors des éléments de \({\mathscr P}(\Omega)\).

Soit \(\Omega\) l'univers des possibles d'une expérience aléatoire. On appelle évènement toute partie de \(\Omega\).

Par extension, le prédicat qui définit un évènement, au sens formel à présent, est lui aussi qualifié d'évènement. Une partie \(A\) de \(\Omega\) réduite à une unique issue \(\omega\), i.e. \(A=\{\omega\}\) est appelée évènement élémentaire, sinon elle est appelée évènement composite. La partie \(\varnothing\) est l'évènement impossible et l'univers tout entier \(\Omega\) est l'évènement certain. Deux évènements \(A\) et \(B\) sont dits incompatibles s'ils sont disjoints, i.e. \(A\cap B=\varnothing\). Si \(A\) est un évènement et \(\omega\in A\), on dit que l'issue \(\omega\) réalise l'évènement \(A\).

Les opérations logiques sur les prédicats sont en concordance avec les opérations ensemblistes sur les parties de \(\Omega\) qu'ils définissent grâce à l'axiome de sélection. En notant \(P_X\) le prédicat associé à la partie \(X\) de \(\Omega\) qu'il définit, on a les concordances suivantes : \begin{align*} P_A\wedge P_B\ &\longleftrightarrow\ A\cap B \\ P_A\vee P_B\ &\longleftrightarrow\ A\cup B \\ \neg P_A\ &\longleftrightarrow\ \smash{\overline{A}}\\ P_A\then P_B\ &\longleftrightarrow\ A\subseteq B \\ P_A\oplus P_B\ &\longleftrightarrow\ A\symdif B \end{align*}

En théorie des probabilités, l'univers \(\Omega\) étant l'ensemble de référence, la partie complémentaire d'une partie \(A\) de \(\Omega\), à savoir \(\Omega\setminus A\), est simplement notée \(\overline{A}\) sans confusion possible.
Maintenant que nous avons défini ce qu'est un évènement, revenons sur la dimension arbitraire de la modélisation d'une expérience aléatoire. Toute personne qui a tenté de simuler informatiquement l'expérience consistant à jeter un dé et à relever la valeur de la face supérieure une fois celui-ci immobilisé, a déjà défini un univers différent de \(\Omega=\{1,2,3,4,5,6\}\) qui nous sert d'exemple depuis le début du chapitre.

Les langages de programmation fournissent généralement dans leur panoplie de fonctions prédéfinies, une fonction random qui renvoie un float (l'alter ego informatique d'un nombre rationnel) dans l'intervalle ouvert à droite \([0,1[\) au hasard*(*) Nous verrons plus loin quel sens donner à cette expression. Comment faire alors pour coder l'expérience du dé ? Classiquement, on partitionne cet intervalle en \(6\) parts égales \[ \Omega_1:=\left[0,\frac{1}{6}\right[,\ \ \Omega_2:=\left[ \frac{1}{6},\frac{2}{6}\right[,\ \ \Omega_3:=\left[ \frac{2}{6},\frac{3}{6}\right[, \ \ \Omega_4:=\left[ \frac{3}{6},\frac{4}{6}\right[,\ \ \Omega_5:=\left[ \frac{4}{6},\frac{5}{6}\right[,\ \ \Omega_6:=\left[\frac{5}{6},1\right[. \] et si la valeur renvoyée par la fonction random appartient à l'intervalle \(\Omega_k\), on considère que la face du dé obtenue est \(k\). Autrement dit, l'univers des possibles n'est plus \(\{1,2,3,4,5,6\}\) mais l'intervalle continu \([0,1[\) de \(\R\) et les évènements élémentaires \(\{i\}\) sont ici remplacés par les évènements \(\Omega_i\).

Pour définir la probabilité d'un évènement, c'est principalement l'approche fréquentiste d'une expérience qui nous guide. On associe une probabilité à un évènement que dans la mesure où l'expérience qui l'a engendré a été reproduite un très grand nombre de fois — dans des conditions identiques et indépendamment les unes des autres — et que l'on a pu déterminer empiriquement la fréquence de cet évènement. On sait par expérience que le lancer d'un dé non pipé ne privilégie aucune des \(6\) faces et c'est pour cette raison que l'on définit empiriquement la probabilité d'obtenir une valeur inférieure ou égale à \(2\) à un lancer de dé par le quotient du cardinal de l'ensemble des issues réalisant l'évènement le résultat est inférieur ou égal à 2 et du cardinal de l'univers \(\Omega\)⁥: \[ \frac{\#\{1,2\}}{\#\Omega}=\frac{2}{6}=\frac{1}{3}=0,\!\underline{3}. \] Cette approche empirique justifie que la probabilité d'un évènement soit une valeur comprise entre \(0\) et \(1\) puisque le cardinal d'une partie d'un ensemble fini \(E\) est minoré par \(0\) et ma­jo­ré par le cardinal de \(E\).

Même si nous n'aborderons pas ces questions ici, on peut noter que si la théorie des probabilités ne s'appuyait que sur une approche fréquentiste, on ne pourrait pas donner de sens à un énoncé comme Il y a 10% de chances que dans les 30 prochaines années, le tombolo reliant Hyères à la presqu'île de Giens soit englouti, cette expérience n'ayant jamais eu lieu.

Il est tentant de prendre systématiquement en considération tous les évènements liés à une expérience aléatoire, autrement dit toutes les parties de l'univers \(\Omega\). Ce sera toujours possible dans le cadre discret qui est le sujet principal de ce chapitre, mais impossible dès que l'ensemble \(\Omega\) est continu, comme l'ensemble des nombres réels \(\R\) par exemple, et que l'on souhaite que la mesure de probabilité respecte un certain nombre d'exigences naturelles. Pour franchir cet obstacle éminemment théorique et que nous n'investiguerons pas plus avant, il n'est pas question pour autant de renoncer à ces exigences. La solution est à chercher du côté des parties de \(\Omega\) que l'on peut mesurer ou non.

Si l'on veut construire une mesure des parties de \(\R\), il est raisonnable de lui imposer quel­ques contraintes : la mesure d'un intervalle fermé \([a,b]\) devrait être sa longueur \(b-a\) (idem pour sa version semi-ouverte ou ouverte), la mesure d'une réunion dénombrable d'intervalles deux-à-deux disjoints devrait être la somme de leurs longueurs et enfin la mesure d'une partie de \(\R\) devrait être invariante par translation (en faisant glisser une partie de \(\R\) sur la droite réelle, sa mesure ne devrait pas changer). Malheureusement une telle fonction n'existe pas.

Pour ne pas trop laisser le lecteur curieux dans le flou artistique, disons qu'en axiomatisant les mathématiques, on a gagné en rigueur (c'était l'objectif !) mais les axiomes qui permettent de coder les objets intéressants permettent parfois de forger des artefacts que l'on ne peut pas ignorer si l'on veut maintenir la cohérence de la théorie. Dans le cadre de la théorie des ensembles, l'axiome du choix non-dénombrable permet de prouver l'existence de parties de \(\R\) que l'on ne peut pas mesurer avec une fonction qui satisfait les conditions évoquées ci-dessus (la mesure de Lebesgue). L'ensemble des parties de \(\R\), dont l'existence est assurée par l'axiome des parties abrite en effet des monstres que certains aventuriers*(*) cf. ensemble de Vitali. se sont efforcés de débusquer. Heureusement pour les informaticiens, en pratique, on ne les rencontre jamais. Les parties de \(\R\) qui pourront être mesurées formeront la tribu de Lebesgue avec laquelle nous travaillerons implicitement dans le cadre continu.

Si l'ensemble \(\sset(\Omega)\) tout entier s'avère en général trop riche pour que l'on puisse l'équiper d'une mesure de probabilité qui convienne, le sous-ensemble de \(\sset(\Omega)\) à considérer devra néanmoins satisfaire toutes les propriétés en adéquation immédiate avec les interprétations naturelles des évènements et de leurs probabilités. Dans l'expérience du lancer de dé, la négation de l'évènement la valeur du dé est pair est l'évènement la valeur du dé est impaire. Ces deux évènements sont associés à deux parties complémentaires de \(\Omega\), si l'on peut en mesurer une, il semble raisonnable d'imposer de pouvoir mesurer l'autre. C'est également vrai pour l'intersection ou la réunion de deux évènements puisqu'elles sont liées respectivement à la conjonction et la disjonction des prédicats correspondant. Par exemple, la valeur est paire et inférieure à 5 est la conjonction des prédicats la valeur est paire et la valeur est inférieure à 5.

Le sous-ensemble \(\mathscr A\) de \(\sset(\Omega)\) des évènements retenus doit donc être, a minima, stable pour les opérations ensemblistes de complémentation, de réunion et d'intersection, c'est-à-dire que le complémentaire d'un évènement, la réunion de deux évènements et l'intersection de deux évènements quelconques de \(\mathscr A\) doivent appartenir eux aussi à l'ensemble \(\mathscr A\) considéré.

Un ensemble \(\mathscr A\) de parties de \(\Omega\) est appelé algèbre de Boole s'il con­tient \(\Omega\) et la partie \(\varnothing\), et est stable par complémentation, réunion et in­ter­sec­tion.
Montrez que les conditions que doit satisfaire une algèbre de Boole dans cette définition sont redondantes.
Si \(\mathscr A\) contient \(\Omega\), par complémentation, elle contient nécessairement la partie complémentaire \(\varnothing\). Considérons \(A\) et \(B\) deux éléments de l'algèbre de Boole \({\mathscr A}\). Comme \({\mathscr A}\) est stable par complémentation, on a \(\overline{A}\in{\mathscr A}\) et \(\overline{B}\in{\mathscr A}\). D'autre part \({\mathscr A}\) est stable pour la réunion, donc \(\overline{A}\cup\overline{B}\in{\mathscr A}\) et on en déduit en appliquant de nouveau la stabilité par complémentation que \(\overline{\overline{A}\cup\overline{B}}\in{\mathscr A}\), soit \(A\cap B\in{\mathscr A}\) en appliquant les lois de De Morgan. Autrement dit la stabilité de \({\mathscr A}\) pour l'intersection se déduit de la stabilité de \({\mathscr A}\) pour la complémentation et la réunion. On pourrait également se contenter de la complémentation et de l'intersection, la réunion se déduisant alors de l'autre loi de De Morgan.

Bien sûr, en réitérant les propriétés de stabilité autant de fois que nécessaire, on déduit immédiatement que la réunion finie et l'intersection finie d'éléments de l'algèbre de Boole \({\mathscr A}\) appartient à \({\mathscr A}\) et à première vue, on tient l'ensemble des parties de \(\Omega\) qui semble satisfaire nos exi­gen­ces.

Considérons à présent l'expérience aléatoire qui consiste à lancer une pièce de monnaie indéfiniment. Il n'est pas difficile de modéliser l'univers des possibles, c'est tout simplement l'ensemble des suites à valeurs dans \(\{p,f\}\), i.e. \(\Omega:=\{p,f\}^{\N^*}\) (par commodité, on commence la numérotation à \(1\) plutôt que \(0\)). Les évènements décrits par des prédicats sur \(\Omega\) basés sur un nombre fini de lancers sont des évènements qu'il faut considérer dans le cadre de cette expérience, par exemple pour tout entier naturel non-nul \(n\), l'évènement \[A_n:=\{\omega\in\Omega\such\omega_n\neq p\}\] codant Le \(n\)-ème lancer n'est pas tombé sur pile. Qu'en est-il des propriétés que l'on pour­rait étudier sur une suite infinie de lancers, comme aucun lancer n'est tombé sur pile par exemple ? Ce dernier évènement est clairement l'intersection des évènements \(A_n\) puisqu'il s'agit de la conjonction des prédicats correspondant, mais il y en a une infinité. Pour que le modèle soit cohérent, il faut donc inclure les intersections dénombrables d'évènements ou par complémentation, les réunions dénombrables d'évènements.

Un ensemble \(\tribu\) de parties de \(\Omega\) est appelé tribu s'il contient la partie vide, est stable pour la complémentation et pour l'intersection dénombrable.
Exprimez formellement ces trois conditions en logique des prédicats. Déduisez de la propriété d'intersection dénombrable la propriété d'intersection finie.
Les trois propriétés s'expriment respectivement par
  1. \(\varnothing\in\tribu\).
  2. \(\forall A\in\parts{\Omega}\ \ (A\in\tribu)\then(\overline{A}\in\tribu)\).
  3. \(\forall (A_i)_{i\in\N}\in\parts{\Omega}^{\N}\ \ \big((\forall i\in\N\ A_i\in\tribu)\then\displaystyle\bigcap_{i\in\N}A_i\in\tribu\big)\).

Si \((A_i)_{i\in I}\) est une famille finie de cardinal \(k\) d'évènements de la tribu, on peut sans restreindre la généralité considérer que \(I=\ab{1}{k}\) et définir les évènements \[ B_j:=\begin{cases} A_j&\text{si}\ j\in\ab{1}{k},\\ \Omega&\text{si}\ j>k. \end{cases} \] L'ensemble \(\Omega\) est l'élément neutre pour l'intersection, c'est-à-dire \(\forall A\in\parts{\Omega} \ \ \Omega\cap A=A\), il suffit donc d'appliquer la stabilité de l'intersection dénombrable à la famille \((B_n)_{n\in\N}\) : \begin{align*} \bigcap_{i=1}^kA_i &=\bigcap_{j=1}^kB_j\\ &=\bigcap_{j=1}^kB_j\cap\bigcap_{j>n}\Omega\\ &=\bigcap_{n\in\N}B_n \end{align*}

Vérifiez que \(\{\varnothing,\Omega\}\) est une tribu sur \(\Omega\) (c'est la tribu grossière). Vérifiez que \(\sset(\Omega)\) est une tribu sur \(\Omega\) (c'est la tribu discrète).
Pour \(\{\varnothing, \Omega\}\), les deux premières propriétés d'une tribu sont évidentes, cet ensemble contient \(\varnothing\) et pour tout \(A \in \{\varnothing, \Omega\}\), son complémentaire \(\overline{A} \in \{\varnothing, \Omega\}\) puisque \(\overline{\varnothing} = \Omega\) et \(\overline{\Omega} = \varnothing\). Pour finir, considérons une famille dénombrable \((A_n)_{n\in\N}\) d'éléments de \(\{\varnothing, \Omega\}\) et \(A\) son intersection~: \[ A:=\bigcap_{n\in\N}A_n=\{x\mid\forall n\in\N\ x\in A_n\} \] Deux cas se présentent, il existe un entier \(k\) tel que \(A_k=\varnothing\) ou tous les \(A_k\) sont égaux à \(\Omega\). Dans le premier cas, montrons que \(A=\varnothing\) par l'absurde. Soit \(x\in A\), donc par définition il appartient à tous les \(A_k\) et en particulier à \(\varnothing\) ce qui est faux. Dans l'autre cas, une simple récurrence sur le prédicat \(\bigcap_{k=1}^{n}A_k=\Omega\) montre que l'intersection est égale à \(\Omega\). Ainsi, \(\{\varnothing, \Omega\}\) est bien une tribu.

L'ensemble \(\parts{\Omega}\) contient \(\varnothing\) et le complémentaire \(\overline{A}\) de toute partie \(A \in \parts{\Omega}\). Si \((A_n)_{n \in \mathbb{N}}\) est une famille dénombrable d'éléments de \(\parts{\Omega}\), alors une simple récurrence sur le prédicat \(\bigcap_{k=1}^n A_k\in\parts{\Omega}\) montre que leur intersection dénombrable \(\bigcap_{n \in \mathbb{N}} A_n \in \parts{\Omega}\). Ainsi, \(\parts{\Omega}\) est une tribu.

Une tribu est stable par réunion dénombrable.
Par hypothèse, elle contient l'ensemble vide, est stable par complémentation et par intersection dénombrable. On doit montrer que pour toute famille dénombrable \((A_n)_{n\in\N}\) de parties de \(\tribu\), \[\bigcup_{n\in\N}A_n \in \tribu.\] Comme elle est stable par complémentation, les évènements de la famille \((\overline{A_n})_{n\in\N}\) appartiennent à \(\tribu\) ainsi que leur intersection. Par stabilité de l'intersection dénombrable, on déduit \[ \bigcap_{n\in\N}\overline{A_n}\in\tribu. \] Grâce aux lois de De Morgan on obtient \[ \bigcap_{n\in\N}\overline{A_n} = \overline{\left(\bigcup_{n\in\N}A_n\right)}. \] Et en appliquant une nouvelle fois la stabilité par complémentation, \[ \bigcup_{n\in\N}A_n\in\tribu. \]

On montre facilement que l'intersection d'une famille quelconque de tribus définies sur un même univers \(\Omega\) est une tribu. On peut alors définir la tribu engendrée par une partie \(A\subseteq\sset(\Omega)\) qui est la plus petite tribu qui contient \(A\), c'est-à-dire l'intersection de toutes les tribus qui contiennent \(A\) et que l'on note \(\sigma(A)\) (il en existe au moins une puisque la tribu discrète \(\sset(\Omega)\) contient toutes les autres). Ainsi, la simple connaissance d'un ensemble \(A\) d'évènements de \(\sset(\Omega)\) dont on veut calculer la probabilité suffit à déterminer la tribu à considérer pour cette expérience. Par exemple, si le seul évènement intéressant pour un lancer de dé est que la valeur obtenue soit paire, i.e. \(A=\{\{2,4,6\}\}\), la tribu engendrée par \(A\) est la tribu \begin{equation*} \sigma(A)=\{\{1,3,5\},\{2,4,6\},\varnothing,\Omega\} \end{equation*} et sans même en faire la construction effective comme on l'a fait pour illustrer cet exemple, on sait que la tribu engendrée contient tous les autres évènements intéressants, complémentaires, réunions, intersections, etc.

La vision par le haut de la tribu engendrée est suffisante pour le mathématicien, qui peut se contenter de prouver qu'elle existe, comme nous venons de le faire ici. Elle l'est beaucoup moins pour l'informaticien s'il devait construire la tribu engendrée par une partie \(A\) de \(\Omega\). Cette construction se ferait plutôt par le bas, comme on le fait à la main dans les exercices de travaux dirigés.

Soit \(\tribu\) une tribu définie sur un univers \(\Omega\). On dit qu'une famille \((A_i)_{i\in I}\) d'évènements de \(\tribu\) forme un système complet d'évènements si et seulement si les évènements \(A_i\) sont deux-à-deux incompatibles et que leur réunion est l'univers \(\Omega\) :
  1. \(\forall(i,j)\in I\times I\quad (i\neq j)\then (A_i\cap A_j=\varnothing)\)
  2. \(\displaystyle \bigsqcup_{i\in I} A_i=\Omega\).
En théorie des ensembles, la première condition s'exprime littéralement par les évènements \(A_i\) sont deux-à-deux disjoints, déjà reformulée ici en deux-à-deux incompatibles. On dit également que les évènements \(A_i\) sont mutuellement exclusifs, ce qui est (peut-être) plus explicite pour exprimer que la réalisation de l'un quelconque de ces évènements exclut la possibilité de réalisation de n'importe quel autre.

Par conséquent, une famille d'évènements de \(\tribu\) formant une partition de \(\Omega\) constitue un système complet d'évènements. Elle s'en distingue par la contrainte \(\forall i\in I\ A_i\neq\varnothing\).

Points à retenir dans cette section :

Soit \(\Omega\) un univers au plus dénombrable. Démontrez que la tribu engendrée par les évènements élémentaires de \(\Omega\) est la tribu discrète \(\sset(\Omega)\).
Si \(\Omega=\{\omega_1,\ldots,\omega_n\}\) est fini, une partie de \(A\subseteq\Omega\) est finie et s'écrit \(A=\{\omega_{i_1},\ldots,\omega_{i_r}\}\) et par conséquent \(A=\bigcup_{j=1}^r\{\omega_{i_j}\}\) qui est une réunion d'évènements élémentaires de \(\Omega\).

Supposons à présent que \(\Omega=\{\omega_i\such i\in\N\}\) soit dénombrable et notons \(\tribu\) la tribu engendrée par la famille \(\{\{\omega_i\}\such i\in\N\}\) des évènements élémentaires. Soit \(A\) une partie quelconque de l'univers \(\Omega\), montrons qu'elle appartient à \(\tribu\). Comme \(A\) est une partie d'un ensemble dénombrable, elle est au plus dénombrable, on peut donc écrire \(A=\{\omega_{i_j}\such j\in J\}\) puis \[A=\bigsqcup_{j\in J}\{\omega_{i_j}\}\] avec un ensemble d'indexation \(J\) au plus dénombrable. On en déduit que \(A\in\tribu\) par stabilité de réunions finies ou dé­nom­brab­les (cf. corollaire)

Dans le cas où l'univers \(\Omega=\R\), la tribu considérée sera celle de Lebesgue. Pour un informaticien qui ne manipule par essence que des objets constructibles, toute partie de \(\R\) que l'on peut construire avec des opérations explicites, réunion, intersection, compléments, d'éléments simples comme les intervalles, fait partie de cette tribu, autrement dit tous les objets qu'il aura à manipuler seront mesurables.

Mesure de probabilité

C'est très naturellement une fonction qui va servir d'outil de quantification de l'éventualité d'un évènement. Les propriétés mathématiques qu'elle doit satisfaire sont la transposition formelle des propriétés empiriques que nous exigeons dans notre conception intuitive. Par exemple, la probabilité que deux évènements se réalisent simultanément devrait être inférieure à la probabilité de la réalisation de chacun des deux évènements. Si l'on répète l'expérience consistant à lancer une pièce de monnaie, la proportion d'issues pile devrait être de plus en plus proche de la proportion d'issues face, sans quoi on soupçonnerait que la pièce est truquée, etc.

La définition (parachutée) d'une mesure de probabilité ci-dessous est une synthèse obtenue après un long processus de construction puis de décantation.

Soit \(\tribu\) une tribu définie sur un univers \(\Omega\). On appelle mesure de probabilité sur \(\tribu\), toute application \(\prob:\tribu\rightarrow[0,1]\) telle que :
  1. L'univers \(\Omega\) a une masse unitaire : \(\prob(\Omega)=1\).
  2. La mesure \(\prob\) est \(\sigma\)-additive, i.e. pour toute famille \((A_i)_{i\in I}\) au plus dénombrable d'évènements deux-à-deux incompatibles : \begin{equation}\label{eq:sigmaadd} \prob\left(\bigsqcup_{i\in I}A_i\right)=\sum_{i\in I}\prob(A_i). \end{equation}
Soit \(\prob\) une mesure de probabilité sur une tribu \(\tribu\) définie sur un univers \(\Omega\). Le triplet \((\Omega,\tribu,\prob)\) est appelé espace probabilisé. Si l'univers \(\Omega\) est au plus dénombrable, l'espace probabilisé est dit discret, dans le cas contraire il est dit continu.

Il manque manifestement dans la définition d'une probabilité, des conditions élémentaires qu'elle doit satisfaire, comme par exemple le fait que \(\prob(\varnothing)=0\) ou que le complémentaire \(\overline{A}\) d'un évènement \(A\) doit avoir pour probabilité \begin{align} \label{eq:probcomp} \prob(\overline{A})=1-\prob(A). \end{align} En effet, la probabilité d'un évènement qui n'arrive jamais se doit d'être nulle et si vous avez 10% de (mal)chance de manquer votre bus, il vous en reste 90% de pouvoir assister à mon cours le matin. Si toutes les propriétés que nous allons énumérer plus loin ne sont pas énoncées dans la définition, c'est parce qu'elles sont la conséquence des assertions \(a\) et \(b\) dans la définition et que l'on tente autant que possible de définir des objets sans être redondant, cela évite du travail inutile.

Soit \((\Omega,\tribu,\prob)\) un espace probabilisé et \((A,B)\in\tribu^2\), alors \begin{align} \tag{\(P_1\)}\label{eq:prop1} &\prob(\varnothing)=0&&\qquad\qquad\qquad\\ \tag{\(P_2\)} &\forall A\in\tribu\quad \prob(\overline{A})=1-\prob(A)\\ \tag{\(P_3\)} \label{eq:ProbAincludeB} &\forall (A,B)\in\tribu^2\quad A\subseteq B\ \then\ \prob(B)=\prob(A)+\prob(B\setminus A)\\ \label{eq:prop4}\tag{\(P_4\)} &\forall (A,B)\in\tribu^2\quad \prob(A\cup B)+\prob(A\cap B)=\prob(A)+\prob(B) \end{align}

NB. La propriété \((\ref{eq:prop4})\) est appelée propriété d'inclusion-exclusion.

Soit \((\Omega,\tribu,\prob)\) un espace probabilité et \((A,B)\in\tribu^2\), alors \begin{equation} \label{eq:probinclusion} A\subseteq B\then \prob(A)\leq\prob(B). \end{equation}

Soit \((\Omega,\tribu,\prob)\) un espace probabilité et \((A_i)_{i\in I}\) une famille au plus dénombrable d'éléments de \(\tribu\). Alors \begin{equation} \label{eq:soussigmaadd} \prob\left(\bigcup_{i=1}^\infty A_i\right) \leq \sum_{i=1}^\infty\prob(A_i). \end{equation}
Démontrez les propriétés \((P_1)\) à \((P_4)\).
(\(P_1\)) Les évènements \(\Omega\) et \(\varnothing\) sont incompatibles et d'après \((\ref{eq:sigmaadd})\), \begin{align*} 1&=\prob(\Omega)\\ &=\prob(\Omega\sqcup \varnothing)\\ &=\prob(\Omega)+\prob(\varnothing)\\ &=1+\prob(\varnothing)\\ \text{et finalement}\ \ \prob(\varnothing)&=0. \end{align*} \((P_2)\) Si \(A\in\tribu\) et que l'on applique \((\ref{eq:sigmaadd})\) à la paire d'évènements incompatibles \(\{A,\overline{A}\}\), on a \(\prob(\Omega)=\prob(A\sqcup\overline{A})=\prob(A)+\prob(\overline{A})\) mais \(\prob(\Omega)=1\), on en déduit que \[\forall A\in\tribu\ \ \prob(\overline{A})=1-\prob(A).\] \((P_3)\) On vérifie aisément que si \(A\subseteq B\) alors \(A\) et \(B\setminus A\) sont incompatibles et \(A\sqcup (B\setminus A)=B\). En appliquant \((\ref{eq:sigmaadd})\) à la paire \(\{A,B\setminus A\}\) on a \[\prob(B)=\prob(A\sqcup (B\setminus A))=\prob(A)+\prob(B\setminus A).\] \((P_4)\) On a \(A\cap B\subseteq A\) et \(A\cap B\subseteq B\), donc d'après le résultat précédent, \begin{align*} \prob(A)&=\prob(A\cap B)+\prob(A\setminus(A\cap B))\\ \prob(B)&=\prob(A\cap B)+\prob(B\setminus(A\cap B)) \end{align*} En additionnant les termes, on en déduit que \[\prob(A)+\prob(B)=\prob(A\cap B)+{\color{orange}\prob(A\cap B)+\prob(A\setminus(A\cap B))+\prob(B\setminus(A\cap B))}\] Mais les évènements \(A\cap B\), \(A\setminus(A\cap B)\) et \(B\setminus(A\cap B)\) sont deux-à-deux incompatibles et leur réunion est égale à \(A\cup B\), donc d'après \((\ref{eq:sigmaadd})\) cette dernière égalité permet de conclure puisque \[{\color{orange}\prob(A\cap B) + \prob(A\setminus(A\cap B)) + \prob(B\setminus(A\cap B))}=\prob(A\cup B).\]
Démontrez la propriété de monotonie d'une mesure de probabilité \(\prob\).
Démontrez la propriété de sous \(\sigma\)-additivité d'une mesure de probabilité \(\prob\).

On pourrait penser que si \(A\) est strictement inclus dans \(B\) alors l'inégalité \((\ref{eq:probinclusion})\) est stricte, mais c'est faux en général, particulièrement sur les univers continus. On peut déjà s'en convaincre sur une simple expérience comme le lancer d'une pièce de monnaie, en ajoutant à l'univers \(\Omega=\{p,f\}\) la valeur \(t\) (la tranche) et en attribuant à cet évènement élémentaire la probabilité nulle, on a \(\{p,f\}\subset\{p,f,t\}\) et pourtant \(\prob(\{p,f\})=\prob(\{p,f,t\})=1\).

Considérons l'expérience qui consiste à lancer un dé à \(6\) faces. On se donne classiquement pour univers des possibles \(\Omega:=\{1,2,3,4,5,6\}\). Si l'on veut définir la probabilité de chacun des \(6\) évènements élémentaires \(\{1\}, \{2\}, \ldots, \{6\}\), dans un premier temps, il faut nécessairement équiper \(\Omega\) de la tribu discrète \(\tribu=\sset(\Omega)\) (cf. exercice) qui est la plus petite tribu contenant ces \(6\) évènements. Il est facile alors de vérifier que l'existence des probabilités \(\prob(\{\omega_i\})\) pour les \(6\) singletons \(\{i\}\) fixe mécaniquement celle de tous les autres évènements \(A\) de la tribu \(\tribu\) par \(\sigma\)-additivité \((\ref{eq:sigmaadd})\) de \(\prob\) : \begin{equation} \label{eq:desunif} \forall A\in\sset(\Omega)\quad \prob(A)=\sum_{i\in A}\prob(\{i\}). \end{equation} Comme les évènements \(\{i\}\) forment une partition de \(\Omega\), ceci n'est possible que si \[\sum_{i=1}^6\prob(\{i\})=1.\] Si le dé n'est pas pipé, la probabilité qui cadre avec l'expérience est la probabilité dite uniforme ou équiprobabilité, c'est-à-dire telle que \[\forall i\in\Omega\quad \prob(\{i\}):=\frac{1}{\#\Omega}=\frac{1}{6}\] résultat à nouveau obtenu par \(\sigma\)-additivité. Dans ce cas l'identité \((\ref{eq:desunif})\) devient \[\forall A\in\sset(\Omega)\quad \prob(A)= \frac{\#A}{\#\Omega}.\] Cette construction de la probabilité uniforme est générique pour tout univers \(\Omega\) fini.

Soit \(n\in\N\) et \(\Omega:=\{\omega_1,\ldots,\omega_n\}\). Rédigez la construction de la probabilité uniforme sur \(\Omega\).

Considérons à présent l'expérience aléatoire qui consiste à lancer une fléchette dans une cible circulaire en précisant comment nous envisageons cette expérience. On suppose que la fléchette atteint toujours la cible et que c'est le hasard qui guide le lancer*(*) Il ne s'agit ni de Luke Humphries ni de Lu­ke Littler !, on voudrait donc que, et nous allons mettre cette phrase en exergue :

n'importe quel point du disque puisse être atteint avec la même probabilité.

Telle qu'elle est énoncée ici informellement, cette condition ne peut pas être satisfaite en théorie des probabilités. Nous avons déjà vu dans les exemples introductifs, qu'un modèle pertinent pour l'univers des possibles peut être le disque unité (on a normalisé le rayon) : \[\Omega:=\{(x,y)\in\R^2\such x^2+y^2\leq 1\}.\] Le fait que cet espace soit infini pose quelques défis conceptuels\(^\sharp\)(\(\sharp\)) Le fait que cet infini ne soit pas dé­nomb­rab­le en pose encore plus. qui n'apparaissent pas dans l'approche fréquentiste d'une expérience sur un ensemble fini d'issues. Par exemple, il n'est possible de définir une probabilité uniforme sur \(\Omega\), au sens où chaque évènement élémentaire \(\{\omega\}\) a la même probabilité que pour un univers \(\Omega\) fini. Nous allons le démontrer par l'absurde. Supposons que l'on puisse attribuer la même probabilité \(p>0\) à tout évènement élémentaire \(\{\omega\}\), i.e. \begin{equation} \forall\omega\in\Omega\ \ \prob(\{\omega\})=p. \end{equation} Si \(\Omega\) est infini, on peut en extraire une famille dénombrable \((\{\omega_n\})_{n\in\N}\) d'évènements élémentaires qui sont par construction deux-à-deux incompatibles. Dans ce cas, la \(\sigma\)-ad­di­ti­vi­té impose \begin{align*} \prob\left(\bigsqcup_{n\in\N}\{\omega_n\}\right) &=\sum_{n\in\N}\prob(\{\omega_n\})\\ &=\lim_{n\rightarrow\infty}\sum_{i=0}^n\prob(\{\omega_i\})\\ &=\lim_{n\rightarrow\infty}np\\ &=+\infty \end{align*} ce qui est absurde puisqu'une probabilité est majorée par la valeur \(1\).

Revenons à notre fléchette. Celle-ci tombe toujours sur un point \(F:=(x,y)\) de la cible et pourtant l'évènement élémentaire \(\{F\}\) a nécessairement une probabilité nulle. En effet, sans même définir la tribu \(\tribu\) que l'on pourrait considérer sur l'espace \(\Omega\), il est légitime d'exiger que la probabilité \(\prob\) se comporte comme on le souhaite intuitivement, à savoir que la probabilité que la fléchette tombe dans une zone particulière de la cible soit tout simplement*(*) C'est, sans le savoir, la mesure de Lebesgue qui entre ici en jeu. le rapport de la surface de cette zone sur la surface totale de la cible (ici \(2\pi\), la cible étant de rayon \(1\)). Dans ce cas, si l'on considère un disque \(D_{\varepsilon}\) centré en ce point \(F=(x,y)\) de rayon \(\sqrt{\varepsilon}\), la probabilité que la fléchette tombe dans \(D_{\varepsilon}\) doit donc satisfaire \[\prob(D_\varepsilon)=\frac{2\pi(\sqrt{\varepsilon})^2}{2\pi}=\varepsilon.\] Or \(\{F\}\subseteq D\), ce qui entraîne d'après \((\ref{eq:probinclusion})\) que \[\prob(\{F\})\leq \varepsilon.\] Cette inégalité devant être satisfaite pour n'importe quel disque \(D_{\varepsilon}\) centré en \(F\), autrement dit pour toute valeur du rayon \(\varepsilon\), on en déduit que \[ \forall\varepsilon > 0\quad 0\leq\prob(\{F\})\leq \varepsilon \] et finalement que \(\prob(\{F\})=0\).

Tout ceci nous amène à considérer qu'il peut exister des évènements de probabilité nul­le sans qu'ils soient impossibles pour autant, ce qui justifie la définition sui­van­te :

Soit \((\Omega,\tribu,\prob)\) un espace probabilisé. Un évènement \(A\in\tribu\) est dit presque certain (ou presque sûr) si \(\prob(A)=1\) et presque impossible si \(\prob(A)=0.\)
On comprend à présent pourquoi un énoncé informel comme tirer un nombre entier au hasard n'a pas de sens en théorie des probabilités, puisque ce que nous exprimons informellement par au hasard se formalise par une fonction de probabilité uniforme, qui n'existe pas sur un ensemble infini.

Le lecteur attentif aura noté que nous avons évoqué les langages de programmation qui disposent d'une fonction random qui renvoie un nombre au hasard entre \(0\) et \(1\), alors que nous venons d'affirmer que cela n'avait pas de sens. En réalité, la fonction renvoie un float qui est codé sur un nombre fini de bits, on peut donc définir une probabilité uniforme.

Mesure de probabilité sur un univers discret

On restreint l'univers \(\Omega\) à un ensemble au plus dénombrable. Comme nous l'avons évoqué plus haut dans le cas fini, on peut associer à chaque issue possible sa probabilité et en déduire celles de tous les évènements de la tribu discrète \(\sset(\Omega)\). C'est une fonction de masse qui se charge de fixer la probabilité de chacune des issues possibles :

On appelle fonction de masse définie sur un ensemble \(\Omega\), toute application \(f:\Omega\rg[0,1]\) telle que \begin{equation} \label{eq:fmasse} \sum_{\omega\in\Omega}f(\omega)=1. \end{equation}

Dans le cas où \(\Omega\) est fini, il n'y a aucun danger à considérer la somme dans \((\ref{eq:fmasse})\) puisque le nombre de termes est fini. En revanche, lorsque \(\Omega\) est infini, il faut être plus prudent. Dès que l'on souhaite prolonger une somme indéfiniment, la situation se gâte. Les propriétés d'associativité et de commutativité ne sont plus nécessairement conservées quand la suite contient des termes positifs et des termes négatifs, par conséquent l'ordre dans lequel les termes sont sommés peut affecter le résultat. Ici, s'agissant d'une application à valeur dans \([0,1]\) et donc positive, on peut sommer les termes dans l'ordre de son choix. L'univers \(\Omega\) étant infini dénombrable, on peut indexer les issues et écrire \(\Omega=\{\omega_i\such i\in\N\}\) et sommer dans l'ordre naturel de l'indexation. Par con­sé­quent on a \begin{align*} \sum_{\omega\in\Omega}f(\omega)&:= \lim_{n\rg\infty}\sum_{i=0}^nf(\omega_i)=1. \end{align*}

Soit \(\Omega\) un univers au plus dénombrable, \(\tribu\) la tribu discrète et \(f\) une fonction de masse définie sur \(\Omega\). Si on définit la probabilité \(\prob(\{\omega\})\) de chaque évènement élémentaire \(\{\omega\}\) par \(f(\omega)\), alors \begin{equation} \forall A\in\tribu\quad \prob(A)=\sum_{\omega\in A}f(\omega) \end{equation} et \(\prob\) est appelée la mesure de probabilité associée à la fonction de masse \(f\).
Les évènements élémentaires \(\{\omega\}\) forment une partition dénombrable de l'évènement \(A\) et a \(\sigma\)-additivité permet de conclure.
On appelle probabilité uniforme sur un espace fini \(\Omega\) muni de la tribu discrète, la probabilité associée à la fonction de masse constante égale à \(|\Omega|^{-1}\).
Étant donné une suite \((u_n)_{n\in\N}\) de réels, on appelle série de terme général \(u_n\) la suite \((S_n)_{n\in\N}\) des sommes partielles des \(u_i\) définie par \[ S_n:=\sum_{i=0}^nu_i. \] Souvent cette série est notée \(\sum u_n\). La limite \(\color{#88F}\ell\) de cette somme partielle, quand elle existe, i.e. quand la série \(\sum u_n\) est convergente : \begin{equation} \label{eq:suiteconv} \exists {\color{#88F}\ell}\in\R\ \forall\varepsilon\in\R_+^*\ \exists N\in\N\ \forall n\in\N\ \ (n\geq N)\then( |S_n-\ell|<\varepsilon), \end{equation} ce que l'on résume par \(\displaystyle\lim_{n\rg\infty}S_n={\color{#88F}\ell}\), est appelée somme de la série et notée \[{\color{#88F}\sum_{i=0}^\infty u_i}.\] Dans le cas contraire la série est divergente. Attention, la divergence d'une suite ne se fait pas nécessairement vers \(\pm\infty\), la suite alternée \(+1,-1,+1,-1,\ldots\) est divergente.

On montre qu'une série de terme général \(u_n\geq 0\) converge si et seulement si la suite \(\sum u_n\) est majorée. Une série \(\sum u_n\) est dite absolument convergente si la série \(\sum |u_n|\) est convergente.

Une série absolument convergente est toujours convergente, mais la réciproque est fausse en général. Cela justifie la définition d'une série conditionnellement convergente, qui est une série convergente mais qui n'est pas absolument convergente, c'est le cas par exemple de la suite harmonique alternée de terme général \(\frac{(-1)^n}{n}\) qui converge vers \(-\ln(2)\) alors que la série harmonique diverge vers \(+\infty\).

Quand une série est absolument convergente, la commutativité est conservée, on peut permuter les termes comme on le souhaite, toutes les séries permutées convergent vers la même limite. En revanche pour les séries conditionnellement convergentes, le spectaculaire théorème de réarrangement de Riemann affirme qu'on peut toujours déterminer une permutation des termes de la suite \((u_n)_{n\in\N}\) de manière à ce que la série de ces termes permutés converge vers la limite de son choix, ou encore qu'elle diverge vers \(\pm\infty\) !

Notons pour conclure que la notion de série est l'une des formalisations possibles quand on souhaite sommer indéfiniment des termes, d'autres formalismes existent, comme celui des familles sommables. Pour un informaticien qui n'a d'autre choix que d'approximer une somme infinie à l'aide d'une boucle, la notion de série est suffisante.

Probabilités conditionnelles

Formule de Bayes

Il est courant dans le cadre des expériences alétoires de s'intéresser à la probabilité d'un évènement \(A\) sachant qu'un évènement \(B\) a eu lieu, si j'ai une crevaison sur la route, je n'arriverais probablement pas à l'heure à mon rendez-vous. Avec une vision fréquentiste des probabilités, si l'on note \(N_X\) le nombre d'occurrences d'un évènement \(X\) en répétant \(N\) fois une même expérience aléatoire, la fréquence de réalisation d'un évènement \(A\) parmi tous ceux qui ont vu la réalisation d'un évènement \(B\) est bien sûr \begin{equation*} \frac{N_{A\cap B}}{N_B}=\frac{N_{A\cap B}}{N}\times\frac{N}{N_B}. \end{equation*} Ceci justifie la définition de la probabilité conditionnelle de l'évènement \(A\) sachant que l'évènement \(B\) s'est réalisé :
Soit \((\Omega,\tribu,\prob)\) un espace probabilisé et \(B\in\tribu\) tel que \(\prob(B)>0\). Soit \(A\in\tribu\), on appelle probabilité conditionnelle de \(A\) sachant \(B\) la probabilité \begin{equation} \label{eq:probcond} \prob(A\mid B):=\frac{\prob(A\cap B)}{\prob(B)}. \end{equation} Les probabilités \(\prob(A)\) et \(\prob(A\such B)\) sont appelées respectivement probabilité a priori de \(A\) et probabilité a posteriori de \(A\) relativement à \(B\). L'application \(\prob_B:\tribu\rightarrow[0,1]\) définie par \(\prob_B(A):=\prob(A\such B)\) est une mesure de probabilité appelée mesure de probabilité conditionnelle sachant \(B\).
Si l'on dispose d'une partition de l'univers \(\Omega\), on peut en quelque sorte décomposer la probabilité d'un évènement \(A\) suivant les éléments de cette partition :
Soit \((\Omega,\tribu,\prob)\) un espace probabilisé, \((B_i)_{i\in I}\) un système complet d'évènements au plus dénombrable et \(A\in\tribu\). Alors \begin{equation} \label{eq:loiprobtotale} \prob(A):=\sum_{i\in I}\prob(A\mid B_i)\,\prob(B_i). \end{equation}
Remarquons que si la famille d'évènements \((B_i)_{i\in I}\) est au plus dénombrable, on peut toujours supposer que \(I=\ab{1}{n}\) dans le cas fini et \(I=\N\) dans le cas dénombrable. Comme \((B_i)_{i\in I}\) est un système complet d'évènements de \(\Omega\), on peut écrire \begin{align*} A=A\cap\Omega&=A\cap\bigsqcup_{i\in I}B_i =\bigsqcup_{i\in I}(A\cap B_i) \end{align*} On en déduit que \begin{align*} \prob(A)&=\prob(\bigsqcup_{i\in I}(A\cap B_i))\\ &=\sum_{i\in I}\prob(A\cap B_i)\quad\text{(\(\sigma\)-additivité de \(\prob\))}\\ &=\sum_{i\in I}\prob(A\mid B_i)\,\prob(B_i)\quad\text{(d'après (\ref{eq:probcond}))} \end{align*}

La loi de probabilité totale est souvent utilisée avec une partition de l'univers \(\Omega\) constituée par un évènement \(B\) non-vide et son complémentaire \(\overline{B}\) : \begin{align} \label{eq:probtotcomp} \prob(A) &=\prob(A\mid B)\,\prob(B)+\prob(A\mid\overline{B})\,\prob(\overline{B})\\ \notag &=\prob(A\mid B)\,\prob(B)+\prob(A\mid\overline{B})(1-\prob(B)) \end{align}

Soit \((\Omega,\tribu,\prob)\) un espace probabilisé, \(A\in\tribu\) et \(B\in\tribu\) satisfaisant \(\prob(A)>0\) et \(\prob(B)>0\). Alors \begin{equation} \prob(A\mid B):=\frac{\prob(B\mid A)\,\prob(A)}{\prob(B)}. \end{equation}
Il suffit d'appliquer \((\ref{eq:probcond})\) à \(\prob(B\mid A)\).
Soit \((\Omega,\tribu,\prob)\) un espace probabilisé, \(B\in\tribu\) et \((A_i)_{i\in I}\in\tribu\) une partition de \(\Omega\) tels que \(\prob(B)>0\) et \(\forall i\in I\ \ \prob(A_i)>0\). Alors \begin{equation} \forall i\in I\quad \prob(A_i\mid B)=\frac{\prob(B\mid A_i)\,\prob(A_i)}{ \displaystyle\sum_{j\in I}\prob(A\mid A_j)\,\prob(A_j)} \end{equation}
C'est la conséquence directe de la loi de Bayes suivie de la loi de la probabilité totale : \begin{align*} \prob(A_i\mid B) &= \frac{\prob(B\mid A_i)\,\prob(A_i)}{\prob(B)}\\ &= \frac{\prob(B\mid A_i)\,\prob(A_i)}{\displaystyle\sum_{j\in I}\prob(B\mid A_j)\,\prob(A_j)} \end{align*}
Deux sacs contiennent des boules rouges et bleues. Le premier contient \(2\) rouges et \(3\) bleus et le second \(3\) rouges et \(4\) bleues. L'expérience consiste à tirer une boule au hasard dans le premier sac pour la placer dans le second puis d'extraire une boule au hasard du second. On veut calculer la probabilité que cette boule soit bleue.

La modélisation de ce problème demande un peu de réflexion. On ne peut pas se contenter de la simple observation de la couleur rouge ou bleue de la boule tirée dans le second sac, la partie de l'expérience consistant à tirer une première boule du premier sac serait ignorée, alors qu'elle joue évidemment un rôle dans la répartition des boules dans le second sac. Nous allons en présenter plusieurs.

(1) La première modélisation consiste à considérer \(\Omega:=\{r,b\}^2\) où \(r\) et \(b\) codent respectivement les couleurs rouge et bleue et \(\tribu={\mathscr P}(\Omega)\) est la tribu discrète. La première projection \(x\) d'un couple \((x,y)\) de \(\Omega\) code la couleur de la boule extraite du premier sac, et la seconde projection \(y\) celle de la boule extraite du second sac. Ainsi, le couple \((r,b)\) code l'évènement la boule tirée dans le premier sac est rouge et celle tirée dans le second sac est bleue.

On considère les évènements complémentaires \(B_1\) et \(R_1\) désignant respectivement La boule tirée dans le 1er sac est bleue, La boule tirée dans le 1er sac est rouge, i.e. \(R_1=\overline{B_1}\). On fait de même avec \(B_2\) et \(R_2\) pour la boule tirée du 2ème sac. On cherche donc à calculer la probabilité \(\prob(B_2)\). Notons que \(B_1=\{(b,r),(b,b)\}\) et \(R_1=\overline{B_1}=\{(r,r),(r,b)\}\). Puisque \(B_1\) et \(R_1\) for­ment une partition de \(\Omega\), on peut appliquer la loi de la probabilité totale \((\ref{eq:loiprobtotale})\) à la famille \(\{B_1,R_1\}\) : \begin{align*} \prob(B_2) &=\prob(B_2\mid B_1)\,\prob(B_1)+\prob(B_2\mid R_1)\,\prob(R_1)\\ &=\prob(B_2\mid B_1)\,\prob(B_1)+\prob(B_2\mid R_1)\,(1-\prob(B_1)) \end{align*} La probabilité \(\prob(B_1)\) de tirer une boule bleue dans le premier sac est \(\frac{3}{5}\), on en déduit \begin{align*} \prob(B_2)&=\frac{3}{5}{\color{#88F}\prob(B_2\mid B_1)}+\frac{2}{5}{\color{red}\prob(B_2\mid R_1)}. \end{align*} Les deux probabilités conditionnelles sont faciles à calculer, l'hypothèse en tirant la boule au hasard dans le sac signifiant qu'il s'agit de la probabilité uniforme sur un ensemble fini. Pour \(\prob(B_2\mid B_1)\), le deuxième sac contient \(3\) boules rouges et \(4+1=5\) bleues et pour \(\prob(B_2\mid R_1)\), \(3+1=4\) boules rouges et \(4\) bleues  : \begin{equation*} {\color{#88F}\prob(B_2\mid B_1)}=\frac{5}{8}\quad\text{et}\quad{\color{red}\prob(B_2\mid R_1)}=\frac{4}{8}. \end{equation*} On a finalement \[\prob(B_2)=\frac{3}{5}\times{\color{#88F}\frac{5}{8}}+\frac{2}{5}\times{\color{red}\frac{4}{8}}=\frac{23}{40}.\]

Ce modèle masque que l'expérience est une combinaison de deux expériences plus simples con­sis­tant à tirer une boule dans un sac dont les probabilités ont été intégrées directement dans les calculs de probabilités conditionnelles. Un modèle plus détaillé est également possible comme nous allons le voir.

(2) Cette fois on numérote l'ensemble des boules rouges, \(r_1\) à \(r_5\) et l'ensemble des boules bleues \(b_1\) à \(b_7\). Les contenus des deux sacs avant le prélèvement peuvent être codé respectivement par les ensembles \(X:=\{r_1, r_2, b_1, b_2, b_3\}\) et \(Y:=\{r_3, r_4, r_5, b_4, b_5, b_6, b_7\}\). Si on désigne par \(x\) la boule retirée du premier sac et \(y\) celle retirée du second sac après y avoir rangé \(x\), l'univers \(\Omega\) peut être décrit par l'ensemble des évènements élémentaires suivants : \begin{align} \label{eq:modprob1} \Omega:=\bigsqcup_{x\in X}\left(\{x\}\times (Y\cup\{x\})\right) \end{align} où la famille \((\{x\}\times (Y\cup\{x\}))_{x\in X}\) constitue une partition de \(\Omega\) et permet donc d'utiliser la formule de sommation pour obtenir que \(\#\Omega=\#X\times(\#Y+1)=40\). Tous ces évènements élémentaires sont équiprobables, on a donc \(\forall \omega\in\Omega\ \prob(\omega)=\frac{1}{40}\).

Par hypothèse, on a l'équiprobabilité pour l'expérience consistant à tirer une boule du premier sac, donc \[\prob(\underbrace{x=r_1}_A)=\prob(x=r_2)=\prob(x=b_1)=\prob(x=b_2)=\prob(x=b_3)=\frac{1}{5}.\] Observons plus précisément le lien entre ces évènements décrits par des prédicats et les parties de \(\Omega\) qu'ils définissent. Par exemple \begin{align*} A:=\{\omega=(x,y)\in\Omega\mid x={\color{red}r_1}\}=\{({\color{red}r_1},r_1),({\color{red}r_1},r_3),({\color{red}r_1},r_4),({\color{red}r_1},r_5),({\color{red}r_1},b_4),({\color{red}r_1},b_5),({\color{red}r_1},b_6),({\color{red}r_1},b_7)\}. \end{align*} L'évènement \(A\) étant de cardinal \(8\) on retrouve bien \[\prob(A)=\frac{\#A}{\#\Omega}=\frac{8}{40}=\frac{1}{5}.\]

Reprenons les notations \(B_1\), \(R_1\), \(B_2\) et \(R_2\) du premier modèle pour désigner respectivement les évènements on tire une boule bleue du 1er sac, on tire une boule rouge du 1er sac, on tire une boule bleue du 2ème sac, on tire une boule rouge du 2ème sac : \begin{align*} B_1=\big\{(b_1,b_1),&(b_1,r_3),(b_1,r_4),(b_1,r_5),(b_1,b_4),(b_1,b_5),(b_1,b_6),\\ &(b_1,b_7),(b_2,b_2),(b_2,r_3),(b_2,r_4),(b_2,r_5),(b_2,b_4),(b_2,b_5),(b_2,b_6),\\ &(b_2,b_7),(b_3,b_3),(b_3,r_3),(b_3,r_4),(b_3,r_5),(b_3,b_4),(b_3,b_5),(b_3,b_6),(b_3,b_7)\big\}\\ R_1=\big\{(r_1,r_1),&(r_1,r_3),(r_1,r_4),(r_1,r_5),(r_1,b_4),(r_1,b_5),(r_1,b_6),(r_1,b_7),\\ &(r_2,r_2),(r_2,r_3),(r_2,r_4),(r_2,r_5),(r_2,b_4),(r_2,b_5),(r_2,b_6),(r_2,b_7)\big\}\\ B_2=\big\{(b_1,b_1),&(b_1,b_4),(b_1,b_5),(b_1,b_6),(b_1,b_7),(b_2,b_2),(b_2,b_4),\\ &(b_2,b_5),(b_2,b_6),(b_2,b_7),(b_3,b_3),(b_3,b_4),(b_3,b_5),(b_3,b_6),\\ &(b_3,b_7),(r_1,b_4),(r_1,b_5),(r_1,b_6),(r_1,b_7),(r_2,b_4),(r_2,b_5),(r_2,b_6),(r_2,b_7)\big\}\\ R_2=\big\{(b_1,r_3),&(b_1,r_4),(b_1,r_5),(b_2,r_3),(b_2,r_4),(b_2,r_5),(b_3,r_3),(b_3,r_4),\\ &(b_3,r_5),(r_1,r_1),(r_1,r_3),(r_1,r_4),(r_1,r_5),(r_2,r_2),(r_2,r_3),(r_2,r_4),(r_2,r_5)\big\}\\ \end{align*} Et on en déduit les probabilités : \begin{align*} \prob(B_1)&=\frac{\#B_1}{\#\Omega}=\frac{24}{40}=\frac{3}{5}\\ \prob(R_1)&=\frac{\#R_1}{\#\Omega}=\frac{16}{40}=\frac{2}{5}\\ \prob(B_2)&=\frac{\#B_2}{\#\Omega}=\frac{23}{40}\\ \prob(R_2)&=\frac{\#R_2}{\#\Omega}=\frac{17}{40} \end{align*}

(3) Dans la lignée du (2), nous aurions pu définir plus simplement l'univers des possibles par \[\Omega:={\color{#FA4}X}{\color{red}\;\times\;}({\color{#88F}Y\cup X})\] puisque la première boule est choisie dans \(X\) et la deuxième dans \(Y\) auquel on a rajouté une boule de \(X\). En procédant de la sorte, \(\#\Omega=\#X\times\#(X\cup Y)=5\times(7+5)=60\) et l'univers contiendrait \(20\) évènements élémentaires de plus que dans la précédente modélisation. Ce n'est pas surprenant puisque ce sont précisément ceux que l'on n'observe jamais, comme par exemple l'évènement \(\{(r_1,r_2)\}\) puisque si l'on a tiré la boule \(r_1\) du premier sac, la boule \(r_2\) est restée dans le premier sac et ne pourra donc pas être extraite du second. Dans ce cas, il faudrait que la probabilité de ces \(20\) évènements élémentaires soit nulle pour assurer la cohérence du modèle.

Manifestement le premier modèle évite l'approche purement combinatoire, il est plus économique, lisible et efficace. Il faut par conséquent être conscient que pour une même expérience aléatoire, on peut définir des espaces probabilisés très différents, charge à celui qui fait la modélisation de trouver un modèle pertinent.

Soit \((\Omega,\tribu,\prob)\) un espace probabilisé et \(S\in\tribu\) tel que \(\prob(S)>0\). Alors \begin{equation} \label{eq:AmidB} \prob_S(A \mid B) = \prob(A \mid B \cap S). \end{equation}
Par définition, on a d'une part \begin{equation*} \prob_S(A \mid B) = \frac{\prob_S(A \cap B)}{\prob_S(B)}=\frac{\prob(A \cap B \mid S)}{\prob(B\such S)} \end{equation*} et d'autre part \begin{equation*} \prob(A \cap B \mid S) = \frac{\prob(A \cap B \cap S)}{\prob(S)} \quad\text{et}\quad \prob_S(B) = \prob(B \mid S) = \frac{\prob(B \cap S)}{\prob(S)}. \end{equation*} En substituant, on obtient : \begin{equation*} \prob_S(A \mid B) = \frac{\prob(A \cap B \cap S)}{\prob(B \cap S)} =\prob(A \mid B \cap S). \end{equation*}
Soit \((\Omega,\tribu,\prob)\) un espace probabilisé et \(S\in\tribu\) tel que \(\prob(S) > 0\). Soit \((B_i)_{i\in I}\) un système complet au plus dénombrable d'évènements de \(\Omega\). Démontrez la loi de probabilité totale pour la probabilité conditionnelle \(\prob_S\) : \begin{equation} \label{eq:probcondtotale} \forall A\in\tribu\quad \prob_S(A) = \sum_{i\in I} \prob_S(A \such B_i)\,\prob_S(B_i). \end{equation}
Par définition de la probabilité conditionnelle, \begin{equation} \label{eq:start} \prob_S(A) = \frac{\prob(A \cap S)}{\prob(S)} \end{equation} Puisque \((B_i)_{i\in I}\) est un système complet d'évènements de \(\Omega\), les évènements \((A \cap S)\cap B_i\) sont deux-à-deux disjoints et forment un système complets d'évènements de \(A\cap S\) et ainsi \[ A \cap S = \bigsqcup_{i\in I} (A \cap S)\cap B_i. \] Par \(\sigma\)-additivité de \(\prob\), commutativité et associativité de \(\cap\), on a \begin{equation} \prob(A \cap S) = \sum_{i\in I} \prob(A \cap (B_i \cap S)) \end{equation} En substituant dans \((\ref{eq:start})\) : \begin{equation} \prob_S(A) = \frac{1}{\prob(S)}\sum_{i\in I} {\color{orange}\prob(A \cap (B_i \cap S))} \end{equation} La définition de la probabilité conditionnelle nous donne pour tout \(i\in I\) : \begin{align*} {\color{orange}\prob(A \cap (B_i \cap S))} = \prob(A \such B_i\cap S)\,\prob(B_i\cap S) \end{align*} Mais aussi \(\prob(B_i\cap S) = \prob(B_i\such S)\,\prob(S)=\prob_S(B_i)\,\prob(S)\), donc \begin{align*} \prob_S(A) &= \frac{1}{\prob(S)}\sum_{i\in I} \prob(A \such B_i\cap S)\,\prob_S(B_i)\,\prob(S)\\ &=\sum_{i\in I} \prob(A \such B_i\cap S)\,\prob_S(B_i)\\ &=\sum_{i\in I} \prob_S(A \such B_i)\,\prob_S(B_i)\quad\text{d'après (\ref{eq:AmidB})} \end{align*}

Résolution du problème introductif

On rappelle les données du problème :

Une épidémie touche une personne à risque sur 5 000 et s'avère mortelle dans 60% des cas. Un test a été mis au point pour détecter la maladie. Sur un patient malade le test est positif dans 99,8% des cas et sur un patient sain il est négatif dans 99% des cas. Un traitement expérimental permet de soigner cette maladie dans 80% des cas, mais tue un patient sain dans 10% des cas.

Une campagne de dépistage de cette maladie est lancée et un million de personnes sont testées. Le médecin annonce à un patient que le résultat de son test est positif et lui prescrit ce traitement. Doit-il l'accepter ?

Notations et données.

Nous employons la terminologie de l'épidémiologie. Les données du problème sont les suivantes :
  1. Taux d'incidence : proportion de nouveaux cas dans la population à risque : \(0,\!02\%\).
  2. Sensibilité du test : probabilité qu'il soit positif sur un sujet malade : \(99,\!8\%\).
  3. Spécificité du test : probabilité qu'il soit négatif sur un sujet sain : \(99\%\).

Il y a donc \(1-99,\!8\%=0,\!2\%\) de faux négatifs et \(1-99\%=1\%\) de faux positifs. L'expérience consiste ici à tester un patient qui peut être sain ou malade (\(s/m\)) avec un résultat qui peut-être positif ou négatif (\(+/-\)). On peut par exemple coder les résultats de l'expérience par \(\Omega:=\{s,m\}\times\{+,-\}\), soit \[\Omega=\{(s,+),\,(s,-),\,(m,+),\,(m,-)\}.\]

On considère, comme toujours quand l'univers \(\Omega\) est fini, la tribu discrète \(\tribu={\mathscr P}({\Omega})\). On définit les évènements suivants : L'énoncé fournit les probabilités suivantes : \begin{align*} \prob(M) &= 0,\!0002 & \prob(\overline{M}) &= 1-0,\!0002=0,\!9998\\ \prob(\oplus\such M) &= 0,\!998 & \prob(\ominus\such M) &= 1-0,\!998=0,\!002\\ \prob(\ominus\such\overline{M}) &= 0,\!99 & \prob(\oplus\such\overline{M}) &= 1-0,\!99=0,\!01 \end{align*}

Probabilité que le patient soit malade.

Nous cherchons à calculer \(\prob(M \such \oplus)\), la probabilité d'être malade sachant que le test est positif. La loi de Bayes nous donne : \begin{equation} \label{eq:bayessol} \prob(M\such \oplus)=\frac{\prob(\oplus\such M)\,\prob(M)}{\prob(\oplus)}. \end{equation} Seule la probabilité \(\prob(\oplus)\) n'est pas donnée dans l'énoncé, on l'obtient grâce à la loi de la probabilité totale puisque les évènements \(\overline{M}\) et \(M\) forment une partition de \(\Omega\) : \begin{align*} \prob(\oplus) &= \prob(\oplus\such M)\, \prob(M) + \prob(\oplus\such \overline{M}) \, \prob(\overline{M})\\ &=0,\!998\cdot0,\!0002 + 0,\!01\cdot0,\!9998 \\ &=0,\!0100988. \end{align*} On conclut en substituant les valeurs dans \((\ref{eq:bayessol})\) : \begin{equation*} \prob(M\such \oplus) ={\color{#88F}\prob_\oplus(M)}=\frac{0,\!998\cdot0,\!0002}{0,\!0100988} \simeq 0,\!02 \end{equation*} La probabilité que le patient soit réellement malade, sachant que le test est positif, n'est donc que de \(2\%\) environ !

L'arbre ci-dessous explicite la situation en répartissant une population d'un million d'individus testés en fonction des évènements complémentaires. On observe que \(\color{red}9998\) sont déclarés malades alors qu'ils ne le sont pas, il y a donc au total environ \(\color{red}9998+200=10198\) malades déclarés mais seuls \(200\) d'entre eux le sont réellement, soit \(200/10198\simeq 2\%\) conformément aux calculs menés.

Comparaison des risques.

La comparaison des risques se faisant dans le cas où le test est positif, nous allons opérer avec la probabilité conditionnelle \(\prob_\oplus\) définie par \[ \prob_\oplus(A)=\prob(A\such \oplus). \] On définit les évènements Calculons les risques selon le choix du patient : NB. Pour ne pas alourdir les écritures nous n'avons pas défini les évènements la maladie est mortelle, le traitement guérit un patient malade le traitement tue un patient qui n'est pas malade et les avons intégrés directement dans les calculs.

On conclut qu'il est préférable de ne pas prendre le traitement, ce qui n'était pas intuitif à la lecture de l'énoncé.

Évènements indépendants

Soit \((\Omega,\tribu,\prob)\) un espace probabilisé. Deux évènements \(A\) et \(B\) sont dits indépendants si et seulement si \begin{equation} \label{eq:independance} \prob(A\cap B)=\prob(A)\,\prob(B). \end{equation}

L'indépendance de deux évènements est relative à la probabilité considérée, deux évènements peuvent donc être indépendants pour une probabilité \(\prob_1\) et ne pas l'être pour une pro­ba­bi­li­té \(\prob_2\). Le concept d'indépendance se généralise à une famille \((A_i)_{i\in I}\) d'évènements, de deux manières : les évènements \(A_i\) sont dits globalement indépendants (ou plus simplement indépendants) si et seulement si pour toute sous-famille finie \(J\) de \(I\) \begin{equation*} \prob\left(\bigcap_{i\in J}A_i\right)=\prod_{i\in J}\prob(A_i), \end{equation*} ou encore deux-à-deux indépendants si et seulement si \[\forall(i,j)\in I^2\ \ (i\neq j)\then\prob(A_i\cap A_j)=\prob(A_i)\,\prob(A_j).\]

Intuitivement, nous concevons plutôt l'indépendance entre deux évènements \(A\) et \(B\) à travers l'égalité \(\prob(A\mid B)=\prob(A)\), autrement dit, \(A\) et \(B\) sont indépendants car la connaissance de \(B\) ne change rien à l'éventualité de l'évènement \(A\). Nous pourrions définir l'indépendance à travers cette égalité, mais cela créerait d'une part une asymétrie entre les évènements \(A\) et \(B\) et d'autre part, cela n'aurait de sens que si \(\prob(B)>0\). A contrario, tel qu'il est défini en \((\ref{eq:independance})\), le concept peut parfois paraître déroutant ou contre-intuitif. Par exemple, un évènement \(A\) de probabilité \(0\) ou \(1\) est indépendant de lui-même puis­que \(\prob(A\cap A)=\prob(A)\).
Démontrer que si les évènements d'une famille \((A_i)_{i\in I}\) sont globalement indépendants, alors ils sont deux-à-deux indépendants.
Considérons une famille de \(n\geq 2\) enfants. Si on s'intéresse au genre (binaire) des enfants, il y a bien sûr \(2^n\) combinaisons et on suppose qu'elles sont équiprobables. Observons les deux évènements suivants : \begin{align*} A&:\ \textit{“la famille a des enfants des \(2\) sexes”}.\\ B&:\ \textit{“la famille a au plus une fille”}. \end{align*}
  1. Vérifiez l'indépendance ou non de ces évènements pour \(n=3\) et \(n=4\).
  2. Calculez \(\prob(A)\), \(\prob(B)\) et \(\prob(A\cap B)\) pour \(n\) quelconque et calculez les valeurs de \(n\) pour lesquelles les deux évènements sont indépendants.
1. On choisit comme univers \(\Omega:=\{G,F\}^n\) équipé de la probabilité uniforme : \begin{equation*} \forall \omega\in\Omega\quad \prob(\omega)=\frac{1}{2^n}. \end{equation*} Calculons directement les probabilités nécessaires dans le cas général. On constate aisément que l'évènement \(A\) est le complémentaire de l'évènement tous les enfants de la familles sont du même sexe correspondant à la paire \(\{(G,\ldots,G),(F,\ldots,F)\}\) dont la probabilité est donc \(\prob(A)=1-\frac{2}{2^n}\). L'évènement \(B\) est la partie contenant le \(n\)-uplet \((G,\ldots,G)\) et les \(n\)-uplets dont une seule projection est égale à \(F\), donc de cardinal \(n+1\) et de probabilité \(\frac{n+1}{2^n}\). L'évènement \(A\cap B\) est clairement l'évènement \(B\) privé de l'évènement élémentaire \((G,\ldots,G)\) et donc de cardinal \(n\) ayant pour probabilité \(\frac{n}{2^n}\). On a donc \begin{align*} \prob(A)&=\frac{2^n-2}{2^n}\\ \prob(B)&=\frac{n+1}{2^n}\\ \prob(A\cap B)&=\frac{n}{2^n} \end{align*} Pour \(n=3\) on a \(\prob(A)=\frac{3}{4}\), \(\prob(B)=\frac{1}{2}\) et \(\prob(A\cap B)=\frac{3}{8}\), par conséquent \(\prob(A)\,\prob(B)=\prob(A\cap B)\) et les deux évènements sont indépendants. En revanche, pour \(n=4\), on obtient \(\prob(A)\,\prob(B)=\frac{7}{8}\frac{5}{16}=\frac{35}{128}\) mais \(\prob(A\cap B)=\frac{1}{4}\).

2. On doit résoudre l'équation d'inconnue \(n\) suivante : \begin{align*} \frac{(2^n-2)(n+1)}{2^{2n}}&=\frac{n}{2^{n}}\\ \text{donc}\quad (2^n-2)(n+1)&=n2^n\\ \text{puis}\quad 2^{n-1}-n-1=0\\ \text{et finalement}\quad 2^{n-1}=n+1. \end{align*} Cette dernière égalité n'est satisfaite que pour \(n=3\) et l'indépendance de ces deux évènements n'est due qu'à une coïncidence numérique.

[Problème de Monty Hall] Ce problème est inspiré d'un jeu télévisé américain. Trois portes closes cachent chacune un lot, une Cadillac pour l'une d'elles et une chèvre derrière les deux autres. Le joueur gagne le lot derrière la porte qu'il aura choisie à l'issue du protocole suivant*(*) on suppose qu'il vise la Cadillac :-) : il fait une première proposition à Monty Hall, l'animateur, qui seul connaît la répartition des lots. Celui-ci ouvre systématiquement une porte cachant une chèvre, qu'il choisit au hasard si le joueur a désigné celle qui cache la Cadillac. Le joueur peut alors confirmer son choix initial ou en changer avant que l'animateur n'ouvre la porte dévoilant le lot gagné. Le joueur a-t-il intérêt à changer de porte ou non après que l'animateur a dévoilé une chèvre ?
Ce problème est devenu célèbre car la réponse n'a rien d'intuitif, y compris pour des mathématiciens aguerris en théorie des probabilités. À première vue, modifier son choix initial n'a aucune d'incidence sur la probabilité de gagner la Cadillac. Pourtant en le faisant, la probabilité de gagner la Cadillac double.

Explication informelle. Il est clair qu'en l'absence de toute information, le joueur a une chance sur trois de choisir la bonne porte. La stratégie consistant à ne jamais modifier son choix après que l'animateur a ouvert une porte revient à considérer que le jeu est terminé dès le choix initial, la probabilité de trouver la Cadillac est donc \(\frac{1}{3}\). En revanche si le joueur choisit de changer de porte systématiquement, trois situations sont possibles suivant son choix initial :

  1. Il avait choisi la bonne porte et perd en changeant pour la mauvaise;
  2. Il avait choisi l'une des \(2\) mauvaises portes et gagne en changeant pour la bonne;
  3. Il avait choisi l'autre des \(2\) mauvaises portes et gagne en changeant pour la bonne.
Il a donc deux fois plus de chances de gagner la Cadillac avec la stratégie consistant à modifier son choix systématiquement.

Une autre façon d'envisager le problème rend le résultat beaucoup plus intuitif. Sans rien changer au jeu, le joueur considère qu'il désigne, non pas une porte derrière laquelle il pense trouver la Cadillac, mais une porte qui cache une chèvre. En ouvrant l'autre porte cachant la 2ème chèvre, l'animateur indique indirectement au joueur la porte qu'il doit finalement choisir.

Formalisation. Commençons par mettre en évidence les évènements qui nous intéressent avant de définir l'univers \(\Omega\). Les portes sont numérotées de \(1\) à \(3\) et on suppose que le joueur a choisi la première porte, ce qui ne restreint pas la généralité de l'exposé, la Cadillac pouvant initialement être derrière n'importe quelle porte et le choix du joueur étant guidé par le hasard uniquement. Notons \(V_i\) l'évènement la Cadillac est derrière la porte \(i\) dont la probabilité est par construction \[\forall i\in\{1,2,3\}\quad {\color{#88F}\prob(V_i)=\frac{1}{3}}\] et \(M_i\) l'évènement Monty ouvre la porte \(i\). Si l'on interprète le couple \((V_i,M_j)\) comme l'évènement La Cadillac est derrière la porte \(i\) et Monty ouvre la porte \(j\), on peut définir l'univers \(\Omega\) par l'ensemble des issues possibles, au nombre de \(4\) : \[\Omega:=\{(V_1,M_2),(V_1,M_3),(V_2,M_3),(V_3,M_2)\}.\] Puisque le joueur est supposé avoir choisi la porte \(1\) et que l'on s'intéresse aux issues qui le font gagner s'il change systématiquement de choix, on doit calculer la probabilité conditionnelle \begin{equation} {\color{orange}\prob(V_3\mid M_2)}. \end{equation} La Cadillac étant nécessairement derrière l'une des trois portes et ne pouvant être derrière deux portes à la fois, les trois évènements \begin{align*} V_1&=\{(V_1,M_2),(V_1,M_3)\},\\ V_2&=\{(V_2,M_3)\},\\ V_3&=\{(V_3,M_2)\} \end{align*} forment une partition de \(\Omega\), ce qui nous permet d'appliquer la loi des probabilités totales : \begin{equation} \label{eq:MH} \forall j\in\{1,2,3\}\quad \prob(M_j)=\sum_{i=1}^3\prob(M_j\mid V_i)\prob(V_i). \end{equation} La loi de Bayes nous donne \begin{align*} {\color{orange}\prob(V_3\mid M_2)} &=\frac{\prob(M_2\mid V_3)\,{\color{#88F}\prob(V_3)}}{\prob(M_2)}\\ &=\frac{\prob(M_2\mid V_3)\,{\color{#88F}\prob(V_3)}}{\prob(M_2\mid V_1)\,{\color{#88F}\prob(V_1)}+\prob(M_2\mid V_2)\,{\color{#88F}\prob(V_2)}+\prob(M_2\mid V_3)\,{\color{#88F}\prob(V_3)}}\quad\text{d'après (\ref{eq:MH})}. \end{align*} Il est clair que \(\prob(M_2\mid V_3)=1\) puisque Monty sait que la Cadillac est derrière la porte \(3\) et n'ouvre jamais la porte choisie par le joueur, ici la porte numéro \(1\), il ouvre donc nécessairement la deuxième porte. On a \(\prob(M_2\mid V_1)=\frac{1}{2}\) puisque dans ce cas le joueur a choisi la porte cachant la Cadillac et Marty a choisi au hasard l'une des deux autres. On a finalement \(\prob(M_2\mid V_2)=0\) puisque Marty n'ouvre jamais la porte derrière laquelle se cache la Cadillac. On obtient donc \[{\color{orange}\prob(V_3\mid M_2)}=\frac{1.{\color{#88F}\frac{1}{3}}}{\frac{1}{2}.{\color{#88F}\frac{1}{3}}+0.{\color{#88F}\frac{1}{3}}+1.{\color{#88F}\frac{1}{3}}}=\frac{2}{3}\]

Trois prisonniers politiques apprennent que l'un d'entre eux sera libéré le lendemain et que les deux autres seront exécutés. Il est interdit au gardien de dire à un prisonnier son sort. En revanche, il peut indiquer secrètement à un prisonnier qui le demande un prisonnier condamné à mort (il indique l'un des deux condamnés au hasard si le demandeur est celui qui sera libéré). Quelle est la probabilité que le prisonnier à qui le gardien a donné l'indication soit exécuté ?

L'indépendance deux-à-deux d'une famille d'évènements n'entraîne pas nécessairement l'indépendance globale. Il nous faut évidemment au moins trois évènements pour construire un contre-exemple. Considérons les \(4\) nombres à trois chiffres binaires \[000,011,101,110.\] On tire au hasard l'un de ces nombres (donc la probabilité est uniforme) et on considère les trois évènements \((U_i)_{i\in\{1,2,3\}}\) où \(U_i\) code le \(i\)-ème chiffre du nombre est un \(1\). Le modèle n'est pas difficile à établir, on considère \(\Omega=\{000,011,101,110\}\) et la probabilité uniforme. On vérifie aisément que \begin{align*} \prob(U_1)&=\prob(U_2)=\prob(U_3)=\frac{1}{2}.\\ \prob(U_1\cap U_2)&= \prob(U_1\cap U_3) = \prob(U_2\cap U_3)= \frac{1}{4}. \end{align*} par conséquent les évènements \(U_i\) sont deux-à-deux indépendants. En revanche ils ne sont pas globalement indépendants : \[\prob(U_1\cap U_2\cap U_3)=0\quad\text{mais}\quad \prob(U_1)\,\prob(U_2)\,\prob(U_3)=\left(\frac{1}{2}\right)^3=\frac{1}{8}. \]

[Paradoxe des 2 enfants]. Dans une famille, il y a deux enfants dont l'un est un garçon. Quelle est la probabilité que l'autre soit un garçon ?
La tentation est grande d'affirmer que l'autre enfant a autant de chances d'être une fille qu'un garçon et donc que la probabilité qu'il soit un garçon est de \(\frac{1}{2}\), ce qui est faux. Ce paradoxe n'est qu'apparent. Tel qu'il est posé, ce problème fait appel à des hypothèses tacites qu'il est préférable d'expliciter afin de le modéliser correctement. On suppose d'une part qu'à chaque nouvelle naissance, il y a équirépartition entre les filles et les garçons, d'autre part que le sexe d'un nouvel enfant est indépendant de celui de ses frères et sœurs dans la fratrie. Nous détaillerons les calculs en guise d'entrainement.

On définit l'univers \(\Omega\) comme l'ensemble des couples \((x,y)\in\{F,G\}^2\), \(x\) désignant le premier enfant, \(y\) le second. On cherche à calculer la probabilité de l'évènement \(E\) suivant :

Les deux enfants d'une fratrie sont des garçons sachant que la fratrie comporte au moins un garçon.

Il est clair que les \(4\) évènements élémentaires \((G,G),(G,F),(F,G),(F,F)\) sont équiprobables, on a donc \begin{equation} \forall(a,b)\in\{F,G\}^2\quad \prob\big((x,y)=(a,b)\big)=\frac{1}{4}. \end{equation} Notons que par souci de simplicité, on s'est contenté d'écrire le prédicat pour décrire l'évènement, en toute rigueur il aurait fallu écrire \(\prob(\{(x,y)\in\Omega\mid(x,y)=(a,b)\})\). On veut donc calculer \begin{align*} \prob\big((x,y)=(G,G)\mid (x=G)\vee(y=G)\big)&= \frac{\prob\big((x,y)=(G,G)\big)}{\prob\big((x=G)\vee(y=G)\big)} \end{align*} Nous venons de voir que le numérateur est égal à \(\frac{1}{4}\), reste à calculer le dénominateur de cette fraction. D'après la propriété d'inclusion-exclusion \((\ref{eq:prop4})\) on a \begin{align*} \prob\big((x=G)\vee(y=G)\big) &=\prob(x=G)+\prob(y=G)-\prob\big((x=G)\wedge(y=G)\big)\\ &=\prob\big(\{(G,G),(G,F)\}\big)+\prob\big(\{(G,G),(F,G)\}\big)- \prob\big(\{(G,G)\}\big)\\ &=\frac{2}{4}+\frac{2}{4}-\frac{1}{4}\\ &=\frac{3}{4} \end{align*} Par conséquent \[\prob(E)=\frac{\frac{1}{4}}{\frac{3}{4}}=\frac{1}{3}.\]

Montrez que si \((A_i)_{i\in\ab{1}{n}}\) est une famille d'évènements globalement indépendants, alors les évènements de toute famille \((B_i)_{i\in\ab{1}{n}}\) tels que \(\forall i\in\ab{1}{n}\ B_i\in\{A_i,\overline{A_i}\}\) sont globalement indépendants.
Soit \(C\) un événement tel que \(P(C ) > 0\). Deux événements \(A\) et \(B\) sont dits évènements indépendants conditionnellement à \(C\) sous \(\prob\) si \begin{equation} \prob(A \cap B \mid C ) = \prob(A \mid C )\,\prob(B \mid C ) \end{equation} Plus généralement, une famille d’événements \((A_i)_{i\in I}\) est indépendante conditionnellement à \(C\) sous \(\prob\) si \begin{equation} \prob(\bigcap_{j\in J} A_j\mid C) = \prod_{j\in J}\prob(A_i \mid C ) \end{equation} pour toute partie finie \(J\) de \(I\).
Dans une usine, la production de souris sans fil est réalisée par deux machines \(S_1\) et \(S_2\) qui en produisent respectivement \(400\) et \(600\) quotidiennement. La machine \(S_1\) produit \(2\%\) de pièces défectueuses et la machine \(S_2\) en produit \(3\%\). Quelle est la probabilité pour qu’une souris défectueuse ait été fabriqué par la machine \(S_1\) ?
On considère les évènements suivants : On a immédiatement \begin{align*} \prob(D \mid S_1) &= \frac{2}{100}, & \prob(D \mid S_2) = \frac{3}{100}. \end{align*} La production de ces deux machines nous permet de calculer \begin{align*} \prob(S_1) &= \frac{400}{400 + 600} = \frac{40}{100}, & \prob(S_2) &= \frac{600}{400 + 600} = \frac{60}{100}. \end{align*}

Nous cherchons à calculer \(\prob(S_1 \mid D)\), la probabilité qu'une souris défectueuse ait été produite par la machine \(S_1\). La formule de Bayes nous donne \[ \prob(S_1 \mid D) = \frac{\prob(D \mid S_1) \prob(S_1)}{\prob(D)}, \] où \(\prob(D)\) est la probabilité qu'une souris soit défectueuse. On la calcule à l'aide de la loi de la probabilité totale appliquée à la partition \(\{S_1,\S_2\}\) de l'univers (cf. \((\ref{eq:probtotcomp})\)) : \begin{align*} \prob(D) &= \prob(D \mid S_1)\;\prob(S_1) + \prob(D \mid S_2)\;\prob(S_2)\\ &= (0,02)(0,4) + (0,03)(0,6) = 0,008 + 0,018 = 0,026. \end{align*} On peut enfin calculer \(\prob(S_1 \mid D)\) : \[ \prob(S_1 \mid D) = \frac{(0,02)(0,4)}{0,026} = \frac{0,008}{0,026} \approx 0,3077. \] La probabilité qu'une souris défectueuse ait été fabriquée par la machine \(S_1\) est d’environ \(30,77\%\).

Variables aléatoires

Introduction

Un jeu d'argent consiste à lancer un dé pour gagner \(10\)€ si le dé tombe sur la valeur \(6\) et perdre la valeur du dé en euros sinon. On s'intéresse aux gains possibles du joueur, par exemple à la probabilité qu'il gagne \(4\)€, ou encore à la somme qu'il peut espérer gagner (ou perdre) s'il joue plusieurs fois. Dans un tel contexte, ce qui nous intéresse n'est lié qu'indirectement aux résultats de l'expérience menée, ici les gains liés aux valeurs du dé. Modéliser cette expérience en considérant pour univers \(\Omega\) les valeurs entières des gains liés aux résultats du dé est envisageable mais cela détacherait le modèle de l'expérience réellement menée et le rendrait artificiel.

Dans le même ordre d'idée, la somme des valeurs obtenues en lançant deux dés à \(6\) faces n'est liée à l'expérience qu'indirectement, l'espace des possibles \(\Omega:=\ab{1}{6}^2\) code manifestement mieux les issues possibles de l'expérience que l'ensemble \(\ab{2}{12}\) des différentes sommes possibles, que l'on obtiendraient plutôt à l'aide de la fonction \(S:\Omega\rightarrow\R\) définie par \(S(\omega)=\omega_1+\omega_2\) si \(\omega=(\omega_1,\omega_2)\) est une issue de l'expérience.

Il est donc préférable de construire un pont entre les issues de l'expérience aléatoire telle qu'elle est menée et les quantités qui en dépendent et qui nous intéressent en termes de probabilité. Ce pont est obtenu très naturellement à l'aide d'une application \(X:\Omega\,\rg\, E\) où l'ensemble \(E\) décrit ces quantités. Ce serait, par exemple l'ensemble des nombres réels \(E:=\R\) pour les jeux de dés que nous venons d'évoquer.

Soit \((\Omega,\tribu,\prob)\) un espace probabilisé et \(E\) un ensemble. On appelle variable aléatoire à valeur dans \(E\) toute application mesurable \(X:\Omega\,\rg\, E\). Si \(X(\Omega)\) est au plus dénombrable, \(X\) est dite discrète, dans le cas contraire elle est dite continue.
Nous utiliserons les alias classiques v.a. pour désigner une variable aléatoire et v.a.d. quand elle est discrète. Le vocabulaire employé n'est pas très heureux, l'application \(X\) est fixée par la modélisation de l'expérience et n'a donc rien d'une variable et n'a rien d'aléatoire non plus. D'autre part, nous n'avons pas défini ce qu'est une fonction mesurable. Cela signifie simplement que l'espace \(E\) est lui aussi muni d'une tribu \(\mathscr E\) et que l'image réciproque \(X^{-1}(A)\) de tout élément \(A\) de cette tribu \(\mathscr E\) est un élément de la tribu \(\tribu\), ce qui assure que l'on peut en calculer la probabilité \(\prob(X^{-1}(A))\). Nous laisserons les questions de mesurabilité des v.a. \(X\) aux mathématiciens. Dans ce cours, elles seront toujours mesurables et nous n'aurons pas à nous en préoccuper.

Toutes les parties \(A\subseteq{\mathscr P}(E)\) que nous considérerons dans la suite seront donc supposées mesurables, par conséquent nous pourrons toujours calculer la probabilité \(\prob(X^{-1}(A))\) notée plus simplement \(\prob(X\in A)\) ou \(\prob(X=a)\) pour un singleton \(A=\{a\}\). Les évènements de la tribu \(\tribu\) de l'espace probabilisé \((\Omega,\tribu,\prob)\) seront ainsi définis implicitement à l'aide de la v.a. \(X\). Considérons par exemple l'évènement la somme des valeurs des deux dés est paire pour l'expérience consistant à jeter deux dés à \(6\) faces et à calculer leur somme. On pose \(\Omega:=\ab{1}{6}^2\), \(\tribu={\mathscr P}(\Omega)\) et on considère la probabilité uniforme \(\prob\) sur \(\Omega\). On définit alors la v.a. \(S:\Omega\rightarrow\R\) par \(S(\omega)=\omega_1+\omega_2\) où \(\omega=(\omega_1,\omega_2)\) et on décrit cet évènement par \(S(\omega)\) est pair.

Soit \((\Omega,\tribu,\prob)\) un espace probabilisé et \(X\) une v.a. définie sur \(\Omega\) et à valeur dans un espace \(E\). La fonction \(\prob_X:\sset(E)\rg[0,1]\) définie par \begin{equation} \prob_X(A):=\prob(X\in A) \end{equation} pour toute partie mesurable \(A\in\sset(E)\) est une mesure de probabilité définie sur \(E\) appelée loi de la variable aléatoire \(X\).

Dans ce cas, on déduit la fonction de masse \(f_X:E\rightarrow[0,1]\) de la v.a. \(X\) a posteriori en posant \(f_X(x):=\prob(X=x)\).

À première vue, on pourrait penser que cette nouvelle notion complique encore la théorie, c'est tout le contraire. Très souvent dans les problèmes que nous rencontrerons, ce sera la loi d'une v.a. qui sera au centre des questions, le passage retour par l'univers \(\Omega\) via l'image réciproque \(X^{-1}(A)\) de la partie \(A\) \[\prob(X^{-1}(A))=\prob(\{\omega\in\Omega\such X(\omega)\in A\}\] n'est là que pour justifier les écritures. Par conséquent, l'espace probabilisé \((\Omega,\tribu,\prob)\) sera souvent ignoré dans les problèmes et leur résolution, les calculs étant réalisés concrètement avec la loi de probabilité \(\prob_X\) définie sur \(E\).

Si \(E\) est un ensemble continu, \(\R\) par exemple, la loi \(\prob_X\) n'en reste pas moins discrète. En effet, seuls les éléments du sous-ensemble discret \(X(\Omega)\subset E\) disposent d'une mesure de probabilité non-nulle.

Quelques lois discrètes usuelles

Loi uniforme

Nous l'avons rencontrée à maintes reprises depuis le début de ce cours, on ne fait que résumer ce que nous avons déjà étudié.

On appelle loi uniforme, la loi d'une v.a. \(X\) à valeur dans un ensemble \(\{x_1,x_2,\ldots,x_n\}\) de fonction de masse \(f_X\) définie par⁥: \begin{equation} \forall i\in\ab{1}{n}\quad f_X(x_i)=\frac{1}{n}. \end{equation} On écrit \(X\sim\text{Uniforme}(x_1,\ldots,x_n)\).

Loi de Bernoulli

La loi de Bernoulli apparaît dès que l'on modélise une expérience dont l'issue est binaire, le résultat pile ou face du lancer d'une pièce, la réussite ou non à un examen, trouver ou non une boule d'une couleur donnée dans une urne contenant des boules de deux couleurs différentes*,(*) Même si on comprend implicitement cet énoncé, il est ambigu. Les boules sont-elles de deux couleurs différentes chacune, ou sont-elles unies et il en existe de deux cou­leurs dans l'ur­ne ? le test de fonctionnement d'un produit possiblement défectueux, la réussite ou l'échec d'une connexion réseau, le résultat positif ou négatif d'un test médical, etc.

Il est clair que l'on peut coder ces différentes expériences avec une v.a. \(X:\Omega\,\rg\,\{0,1\}\). Les deux évènements élémentaires \(\{X=0\}\) et \(\{X=1\}\) sont appelés succès et échec res­pec­ti­ve­ment.

Soit \(p\in[0,1]\). On appelle loi de Bernoulli de paramètre \(p\), la loi d'une v.a. \(X\) à valeur dans \(\{0,1\}\) de fonction de masse \(f_X\) définie par \begin{equation} f_X(1)=p\quad\text{et}\quad f_X(0)=1-p. \end{equation} On écrit \(X\sim\text{Bern}(p)\).

Bien sûr, on peut remplacer l'ensemble \(\{0,1\}\) par n'importe quelle paire de valeurs pour plus de lisibilité, par exemple \(\{p,f\}\) pour le lancer d'une pièce de monnaie.

Si \(p=\frac{1}{2}\), alors la loi de Bernoulli est la loi uniforme définie sur \(\Omega=\{0,1\}\).

Loi binomiale

Un examen est constitué de \(n\) qcm proposant toutes \(r\) réponses dont une seule est correcte. Un étudiant qui n'a pas travaillé son cours de probabilité a pour stratégie de cocher au hasard l'une des \(r\) cases de chacune des questions. Sans le savoir, il répète \(n\) fois et de manière indépendante une épreuve de Bernoulli de même paramètre \(p=\frac{1}{r}\), qui est la probabilité uniforme modélisant le tirage au hasard d'une des \(r\) cases.

L'univers modélisant cette expérience est \(\Omega:=\{0,1\}^n\), chaque terme \(\omega_i\) du \(n\)-uplet binaire \(\omega=(\omega_1,\ldots,\omega_n)\) codant si oui ou non (1 ou 0 respectivement) il a coché la bonne réponse à la \(i\)-ème question. Les \(n\) v.a. \(X_i:\Omega\rg\{0,1\}\) sont tout simplement les \(n\) projections \(\text{pr}_i\) et le nombre de bonnes réponses à l'examen est décrit par la v.a. \(S:\Omega\rg\ab{0}{n}\) définie par la somme des v.a. \(X_i\) : \begin{align*} \forall\omega\in\Omega\quad S(\omega) :=\sum_{i=1}^{n}X_i(\omega) = \sum_{i=1}^{n}\omega_i. \end{align*}

Reste à calculer la fonction de masse de la v.a. \(S\), soit \(f_S(k)\) pour tout \(k\in\ab{0}{n}\), c'est-à-dire la probabilité de cocher exactement \(k\) bonnes réponses sur les \(n\) questions. Les issues \(\omega\) réalisant cet évènement sont les \(n\)-uplets binaires de poids \(k\) et les évènements élémentaires \(\{\omega\}\) associés sont équiprobables. En effet, il faut cocher \(k\) bonnes réponses et par conséquent \(n-k\) mauvaises et les \(n\) expériences individuelles étant indépendantes, l'ordre dans lequel elles sont menées n'a pas d'importance. Tout évènement de poids \(k\) a donc la même probabilité que l'évènement élémentaire \begin{equation} \label{eq:issuerangee} \{(\underbrace{1,1,\ldots,1}_{k},\underbrace{0,0,\ldots,0}_{n-k})\}. \end{equation} où les \(k\) premières réponses sont justes et les \(n-k\) dernières sont fausses. La probabilité de cocher une bonne réponse est \(p\) et par complémentarité, la probabilité de cocher une mauvaise réponse est \(1-p\). Les \(n\) évènements consistant à cocher une case d'un des \(n\) qcm étant deux-à-deux indépendants, la probabilité de l'évènement élémentaire en \((\ref{eq:issuerangee})\) est par conséquent \begin{equation*} p^k(1-p)^{n-k}. \end{equation*} Reste à dénombrer combien il y a de \(n\)-uplets binaires de poids \(p\). Ce problème a été traité maintes fois dans le chapitre Combinatoire, cela revient à déterminer le nombre de parties à \(k\) éléments dans un ensemble de \(n\) éléments, donné par le coefficient binomial \(\binom{n}{k}\) : \begin{equation} f_X(k)=\binom{n}{k}p^k(1-p)^{n-k}. \end{equation}

Soit \(p\in[0,1]\) et \(n\in\N\). On appelle loi binomiale de paramètres \((n,p)\), la loi de la v.a. \(X\) à valeur dans \(\ab{0}{n}\) de fonction de masse \(f_X\) définie par \begin{align*} \forall k\in\ab{0}{n}\quad f_X(k)=\binom{n}{k}p^k(1-p)^{n-k}. \end{align*} On écrit \(X\sim\text{Binom}(n,p)\).

Par exemple, pour une épreuve de \(n=10\) questions comportant \(r=4\) choix, pour laquelle \(p=\frac{1}{4}\), la probabilité de répondre correctement à \(k=3\) questions est \[ \binom{10}{3}\left(\frac{1}{4}\right)^3\left(\frac{3}{4}\right)^7\approx 25\%. \]

Paramètres \(n\) et \(p\) de la loi binomiale : \(n=\;\) \(p=\;\) .
Fonction de masse de la loi binomiale en %.
Distribution de la loi binomiale.
On reprend les mêmes hypothèses sur le qcm, à savoir \(n\) questions avec une seule bonne réponse sur \(r\) réponses possibles par question. Supposons qu'un point soit attribué à chaque bonne réponse. Comment calculer la note que peut espérer l'étudiant qui coche une case au hasard dans chaque question ?

Loi de Poisson

Si un phénomène se produit à un rythme moyen de \(\lambda\) occurrences par intervalle donné — par exemple, le nombre d'appels téléphoniques en 1h dans un centre d'appel, le nombre de paquets perdus par seconde dans une transmission internet, le nombre de dos d'âne sur 1 km de route, ou le nombre de pixels morts sur une surface d'écran — la loi de Poisson modélise la probabilité du nombre d'occurrences \(k\) de ce phénomène dans un tel intervalle donné.

Cette loi est adaptée quand les conditions suivantes sont respectées :

L'espérance d'une v.a. qui suit une loi de Poisson est par construction le nombre moyen d'occurrences \(\lambda\) du phénomène dans un intervalle donné.

On appelle loi de Poisson de paramètre \(\lambda\in\R_+^*\) la loi de la v.a. \(X\) à valeur dans \(\N\) de fonction de masse \(f_X\) définie par \begin{align*} \forall k\in\N\quad f_X(k)=\frac{\lambda^k}{k!}e^{-\lambda}. \end{align*} On écrit \(X\sim\text{Poisson}(\lambda)\).
Paramètre \(\lambda\) de la loi de Poisson : \(\lambda=\;\) .
Premières valeurs de la fonction de masse de la loi de Poisson en %.
Distribution partielle de la loi de Poisson.

Loi géométrique

Elle apparaît quand on répète des épreuves de Bernoulli indépendantes et de même paramètre \(p\) jusqu'à ce que l'on obtienne un succès. La loi géométrique est celle de la v.a. \(X\) définie comme le nombre d'épreuves réalisées pour ce faire.

Le calcul n'est pas très compliqué, réussir à la \(k\)-ème tentative implique que les \(k-1\) tentatives précédentes se sont soldées par des échecs, les épreuves individuelles étant deux-à-deux indépendantes, la probabilité globale est donc le produit des probabilités de chacune d'entre elles : \[(1-p)^{k-1}p.\]

L'espace \(\Omega\) est celui des suites binaires, i.e. \(\Omega:=\{0,1\}^{\N^*}\). Pour tout \(i\in\N^*\), la v.a. \(X_i\) associée à la \(i\)-ème épreuve de Bernoulli de paramètre \(p\), est la \(i\)-ème projection. On a \(X(\Omega)=\N^*\) et \(X\) est définie par \[ X(\omega)=\min\{k\in\N^*\such \omega_k=1\}. \]

Soit \(p\in[0,1]\). On appelle loi géométrique de paramètre \(p\), la loi de la v.a. \(X\) à valeur dans \(\N^*\) de fonction de masse \(f_X\) définie par \begin{align*} \forall k\in\N^*\quad f_X(k)=(1-p)^{k-1}p. \end{align*} On écrit \(X\sim{\mathscr G}(p)\).
Paramètre \(p\) de la loi géométrique : \(p=\;\) .
Premières valeurs de la fonction de masse de la loi géométrique en %.
Distribution partielle de la loi géométrique.

Le lemme suivant exprime que la loi géométrique est sans mémoire, ce qui s'oppose à l'intuition. Le probabilité de succès d'une épreuve de Bernoulli à l'étape \(k\) n'est pas conditionnée par l'échec des épreuves aux étapes précédentes. Plus concrètement, si vous jouez le \(13\) au loto parce que c'est le seul numéro qui n'est pas sorti aux \(299\) tirages précédents, vous n'aurez pas plus de chance de le voir sortir au \(300\)-ème tirage.

Soit \(X\) une v.a. suivant une loi géométrique. Alors \begin{equation} \forall k\in\N^*\quad\prob(X=n+k\such X > n)=\prob(X=k). \end{equation}
On applique la définition de la probabilité conditionnelle : \begin{align*} \prob(X=n+k\such X >n) =\frac{\prob((X=n+k)\cap(X >n))}{\prob(X>n)} =\frac{\prob(X=n+k)}{\prob(X>n)} \end{align*} La loi géométrique nous donne \(\prob(X=n+k)=(1-p)^{n-k+1}p\) et \(\prob(X>n)=(1-p)^n\), donc \begin{align*} \prob(X=n+k\such X >n) =\frac{(1-p)^{n-k+1}p}{(1-p)^n} =(1-p)^{k-1}p &=\prob(X=k) \end{align*}
En 2005, l'Italie a été le théâtre d'une véritable frénésie autour du numéro 53 de la loterie de Venise*(*) Le loto italien con­sis­te à tirer \(5\) nu­mé­ros entre 1 et 90.. Ce numéro n'était pas sorti depuis le 10 mai 2003, soit durant 182 tirages consécutifs. Cette situation a conduit de nombreux italiens à parier massivement sur le 53 pensant qu'il devait rattraper son retard. Cette croyance a poussé certains joueurs à contracter des dettes importantes, à hypothéquer leurs biens, voire à commettre des actes désespérés. Le gouvernement italien a tenté de calmer le jeu, ce qui n'a pas empêché la population de miser massivement, puisque la cagnotte a atteint un total estimé à 4,5 milliards d'euros. Le numéro 53 est finalement sorti le 9 février 2005.

Loi hypergéométrique

C'est la version sans remise de la loi binomiale. L'expérience consiste à tirer \(n\) billets de tombola dans un panier comptant \(N\geq n\) billets dont \(K\) sont gagnants. On veut con­naît­re la probabilité d'avoir tiré \(k\) billets gagnants parmi les \(n\) extraits du sac.

C'est encore une fois le dénombrement qui fournit la réponse. On peut coder une issue de l'expérience comme une partie à \(n\) éléments d'un ensemble à \(N\) éléments. Parmi ces issues, il faut dénombrer celles qui contiennent exactement \(k\) billets gagnants. On peut constituer \(\binom{N}{n}\) parties de \(n\) éléments dans un ensemble de cardinal \(N\) et pour constituer une partie de \(n\) éléments dont \(k\) sont gagnants, il faut en choisir \(k\) parmi les \(K\) gagnants et \(n-k\) parmi les \(N-K\) qui ne le sont pas, il y a donc \[ \binom{K}{k}\,\binom{N-K}{n-k} \] issues contenant exactement \(k\) billets gagnants.

Soit \((N,K,n)\in\N^3\), tels que \(n\leq N\) et \(K\leq N\). On appelle loi hypergéométrique de paramètres \((N,K,n)\), la loi de la v.a. \(X\) de fonction de masse \(f_X\) définie par \begin{align*} \forall k\in\ab{0}{K}\quad f_X(k)=\frac{\binom{K}{k}\,\binom{N-K}{n-k}}{\binom{N}{n}} \end{align*} On écrit \(X\sim{\mathscr H}(N,K,n)\).
Paramètres \(N\), \(K\) et \(p\) de la loi hypergéométrique : \(N=\;\) \(K=\;\) \(n=\;\)
Fonction de masse de la loi hypergéométrique en %.
Distribution de la loi hypergéométrique.

Cette loi intervient dans le contrôle qualité pour déterminer le nombre de produits défectueux dans un échantillon prélevé dans un lot. En biologie quand on compte le nombre de gènes spécifiques dans un sous-échantillon d’un génome. Dans un jeu de cartes pour calculer la probabilité d'obtenir un certain nombre de cartes d'une couleur spécifique lors de la distribution (ce que nous avons déjà étudié en combinatoire).

Vérifiez que l'on peut approximer la loi hypergéométrique avec la loi binomiale si l'échantillon \(k\) est très petit comparativement à la population \(N\).

Espérance, variance, écart type

Espérance d'une v.a.

Supposons que l'on répète \(n\) fois une expérience dont le résultat est une valeur numérique, par exemple la température mesurée dans l'amphi W-300#(#) Rien à voir avec un péplum moderne relatant la batail­le des Ther­mo­py­les. La toponymie toulonnaise des bâtiments est bien plus prosaïque, il s'agit de sa con­te­nan­ce :-/ arrondie au degré Celcius le plus proche. On note \(x_i\) la valeur de la \(i\)-ème mesure et \(n(x)\) le nombre d'occurences de la valeur \(x\in E\) où \(E\) désigne l'ensemble de valeurs possibles (par exemple \(E=\ab{-70}{80}\) en anticipant à peine les problèmes de changement climatique). La moyenne des valeurs obtenues est bien sûr \[\frac{1}{n}\sum_{i=1}^nx_i=\sum_{x\in E}{\color{orange}\frac{n(x)}{n}}x.\]

On modélise cette expérience par une famille \((X_i)_{i\in\ab{1}{n}}\) de v.a. discrètes indépendantes, toutes de même fonction de masse \(f\). On peut légitimement s'attendre à ce que pour chaque valeur \(x\in E\), le ratio \(n(x)/n\) soit proche de la probabilité \(\color{orange}f(x)\) si \(n\) est suffisamment grand et donc que la somme \[ \sum_{x\in E}xf(x) \] approxime correctement cette moyenne.

Si l'ensemble \(E\) est dénombrable, il faut de nouveau prendre des précautions pour donner un sens à cette somme puisque les valeurs \(x\in E\) peuvent être négatives (cf. rappels) et s'assurer au préalable que la série est absolument convergente, c'est-à-dire que la somme des valeurs absolues des termes \(xf(x)\) quand \(x\) décrit \(E\) converge.

Soit \(X\) une v.a.d. à valeur dans \(\R\) et \(f_X\) sa fonction de masse. Si \begin{equation*} \sum_{x \in X(\Omega)}|x|\,f(x) < +\infty, \end{equation*} alors on peut définir l'espérance de \(X\) : \begin{equation} \esp(X):=\sum_{x \in X(\Omega)}x\,f(x). \end{equation}

L'espérance n'est donc qu'une moyenne de valeurs pondérées par les probabilités des évènements associés à ces valeurs. Par exemple, si en lançant un dé, le joueur gagne autant d'euros que le résultat, son espérance de gain avec un dé non pipé, donc pour la loi de probabilité uniforme est : \[ \frac{1}{6}(1+2+3+4+5+6)=\frac{21}{6}=3,\!5\text{€} \]

Revenons sur cet exercice. Nous avons vu que la probabilité d'obtenir \(k\) bonnes réponses sur \(n\) qcm comportant toutes une seule bonne réponse sur les \(4\) proposées est donné par la loi binomiale de paramètre \(p=\frac{1}{4}\) : \begin{align*} \forall k\in\ab{0}{n}\quad f_X(k)=\binom{n}{k}p^k(1-p)^{n-k}. \end{align*} Comme nous avons supposé que sa note correspond au nombre de bonnes réponses \(k\), son espérance est donc \[\esp(X)=\sum_{k=0}^n k\,\binom{n}{k}p^k(1-p)^{n-k}.\]

Et la formule du pion et la formule du binôme de Newton nous permettent de mener à bien ce calcul : \begin{align*} \esp(X)&=\sum_{k=0}^n {\color{#88F}k \binom{n}{k}} p^k (1-p)^{n-k} \\ &= \sum_{k=1}^n {\color{#88F}n \binom{n-1}{k-1}}\, p^k\, (1-p)^{n-k}\quad({\color{#88F}\text{formule du pion}})\\ &= n \sum_{j=0}^{n-1} \binom{n-1}{j}\, p^{j{\color{orange}+1}}\, (1-p)^{n-1-j}\quad(\text{factorisation par \(n\) et réindexation}\ j\,\lf\, k-1) \\ &= n{\,\color{orange} p} {\color{red}\sum_{j=0}^{n-1} \binom{n-1}{j} p^j (1-p)^{n-1-j}} \\ &= n\, p\, {\color{red}(p + (1-p))^{n-1}}\quad({\color{red}\text{formule du binôme de Newton}}) \\ &= n\, p. \end{align*} Donc, pour reprendre les conditions de l'exercice, un étudiant qui tente sa chance au hasard sur un qcm de 10 questions avec 4 réponses possibles dont une seule est bonne, peut espérer une note de \(10\times\frac{1}{4}=2,\!5\) sur \(10\). C'est ce qui explique pourquoi les mauvaises réponses sont pénalisées, l'espérance d'avoir une note positive sans avoir fourni le moindre effort doit être nulle :-)

Les fonctions numériques sont souvent exprimées comme des combinaisons (addition, produit, composition, etc.) de fonctions plus simples, il est donc naturel d'étudier le comportement des opérations que l'on peut faire sur une v.a. à valeur dans \(R\).

Soit \(X\) et \(Y\) deux v.a. à valeurs dans \(\R\), \(a\in\R\) et \(b\in\R\) des constantes. Alors
Une fonction \(\varphi:\R\,\rg\,\R\) est dite convexe si et seulement si \begin{equation} \forall x\in\R\ \exists a\in\R\ \forall y\in\R\quad \varphi(y)\geq\varphi(x)+a(y-x). \end{equation} Si l'inégalité est stricte pour \(x\neq y\), elle est dite strictement convexe.

Concrètement, une fonction est convexe si tous les points d'une corde (en rouge dans la figure) tracée sur sa courbe représentative (en bleu), sont au-dessus de ceux de la courbe, ou encore que la courbe est au-dessus de n'importe laquelle de ses tangentes (en pointillés).

Courbe représentative d'une fonction convexe, une tangente et une corde.

L'inégalité suivante est particulièrement utile en calcul des probabilités.

Soit \(X\) une v.a. à valeur dans \(R\) qui admet une espérance et \(\varphi:\R\,\rg\,\R\) une fonction convexe. Alors \begin{equation} \esp(\varphi(X))\geq\esp(X). \end{equation} Si \(\varphi\) est strictement convexe, alors il y a égalité si et seulement si \(X\) est constante.

Variance et écart type d'une v.a.

La valeur moyenne d'une série réduit drastiquement la quantité d'information initialement contenue dans cette série et s'avère souvent très insuffisante pour décrire le comportement d'une v.a. Dire que la température est agréable dans une pièce parce qu'il y fait 20°C en moyenne peut cacher une réalité nettement moins agréable, si la température de l'air est à 40°C dans la moitié supérieure de la pièce et à 0°C dans la moitié inférieure… Si les étudiant.e.s qui suivent cet enseignement ont une note moyenne de 10, cela peut cacher des situations bien différentes. Aux extrêmes opposés, chaque étudiant.e de la promotion a pu avoir la note 10 ou alors la moitié des étudiant.e.s a eu la note 0 et l'autre moitié la note 20, ce qui n'a évidemment pas la même signification.

On cherche donc à mesurer la dispersion des notes autour de la moyenne. Pour cela, on calcule l'écart moyen entre les notes et la moyenne. On préfère définir l'écart d'une note à la note moyenne comme le carré de leur différence plutôt que la valeur absolue de leur différence, car ainsi défini, l'écart est plus facile à manipuler et possède des propriétés plus intéressantes du point de vue calculatoire. La moyenne de ces écarts constitue ce que l'on appelle la variance de la v.a. :

Soit \(X\) une v.a. admettant une espérance \(\esp(X)\). On appelle variance de la v.a. \(X\) l'espérance de la v.a. \((X-\esp(X))^2\), c'est-à-dire \begin{equation} \text{Var}(X):=\esp\left((X-\esp(X))^2\right). \end{equation}

Notons qu'en calculant le carré de la différence, l'influence d'une valeur qui s'écarte de la moyenne n'est pas proportionnelle à cet écart. L'interprétation de cette dispersion n'est pas toujours aisée, et on lui préfère souvent sa racine carré que l'on peut plus facilement mettre en perspective par rapport à la valeur moy­en­ne :

Soit \(X\) une v.a. admettant une espérance \(\esp(X)\). On appelle écart type de la v.a. \(X\) la racine carré de sa variance : \begin{equation} \sigma(X):=\sqrt{\text{Var}(X)}=\sqrt{\esp\big((X-\esp(X))^2\big)}. \end{equation}
Ni la variance, ni l'écart type ne sont linéaires, en particulier la variance d'une somme n'est pas la somme des variances.

Encore une inégalité bien utile qui permet de contrôler la probabilité d'un écart par rapport à la valeur moyenne d'une v.a.

Soit \(X\) une v.a. admettant une espérance, alors \begin{equation} \forall a\in\R_+^*\quad \prob(|X-\esp(X)|\geq a)\leq \frac{\text{Var(X)}}{a^2}. \end{equation}

Travaux pratiques

En séance - sujet 1

Écrivez une fonction Python MontyHall(n) qui simule \(n\) parties du jeu de Monty Hall. La fonction doit renvoyer le couple des probabilités estimées de gagner la Cadillac en suivant respectivement la stratégie qui consiste à ne jamais changer de porte et celle qui consiste à en changer systématiquement.

En séance - sujet 2

Une fourmi marche le long des côtés d’un triangle équilatéral direct*(*) Le parcours des sommets \(ABC\) sur sa représentation se fait dans le sens inverse des ai­guil­les d'une mon­tre. \(ABC\). Lorsqu'elle atteint un sommet, elle se dirige vers le prochain en suivant le sens direct avec une probabilité de \(\frac{3}{4}\). Sa position initiale, sur l'un des trois sommets, est décidée de manière aléatoire et équiprobable.

Écrivez une fonction Python Codec(x) qui calcule à la fois les deux fonctions \(f:\{A,B,C\}\rightarrow\{0,1,2\}\) et sa réciproque \(f^{-1}\), où la fonction \(f\) est définie par \(f(A)=0,\ f(B)=1\) et \(f(C)=2\).

Exemples :

Codec("A")
0
>>> Codec(2)
"C"

Indication : testez le type du paramètre x pour décider si la fonction calcule \(f\) ou \(f^{-1}\) et utilisez les fonctions ord et chr.

Écrivez une fonction Python Init() sans paramètre et qui renvoie l'un des 3 sommets tiré au hasard.
Écrivez une fonction Python Prochain(P) qui renvoie le prochain sommet où se trouvera la fourmi si elle est sur le sommet P en parcourant le triangle dans le sens direct ou indirect suivant la probabilité indiquée dans l'énoncé.
Écrivez une fonction Python Chemin(P,n) qui construit un chemin aléatoire (selon la probabilité fixée dans le sujet) de longueur \(n\) en partant du sommet P et renvoie la chaîne de caractères de longueur \(n\) contenant les sommets successifs traversés par la fourmi sur ce chemin. La chaîne renvoyée pour \(n=0\) est la chaîne vide et P pour \(n=1\).
On note \(S_n\) l'évènement le \(n\)ème sommet rencontré par la fourmi est \(S\) pour tout sommet \(S\) du triangle \(A,B,C\). Écrivez une fonction Estimation(n) qui renvoie un triplet (PA,PB,PC) qui donne une estimation empirique des \(3\) probabilités \(\prob(A_n)\), \(\prob(B_n)\) et \(\prob(C_n)\). Que remarquez-vous ?

Hors séance

Simulez graphiquement le parcours de la fourmi en utilisant la bibliothèque pocketgl fournie durant les TP de l'UE11.
Simulez graphiquement les lois de probabilités discrètes du cours en utilisant la bibliothèque pocketgl fournie durant les TP de l'UE11.
Écrivez une fonction Python Tribu(A,n) qui renvoie la tribu engendrée par une partie \(A\) de \(\parts{\ab{1}{n}}\). Par exemple
Tribu({{1,2}},3)
{{},{1,2},{3},{1,2,3}}