Introduction
La théorie des probabilités a pour objectif de décrire, d'analyser et d'interpréter les phénomènes, physiques ou abstraits, marqués par l'incertitude. Initialement motivée par l'étude des jeux de hasard, les jeux de dés et de cartes principalement, c'est à partir du XVIIème siècle que les questions liées au hasard ont fait l'objet d'une réflexion systématique, entre autres par Blaise Pascal, Pierre de Fermat, Charles Huygens, Jacques Bernoulli, Pierre-Simon Laplace, Joseph-Louis Lagrange, Henry-Léon Lebesgue, Leonhard Euler, Carl Friedrich Gauss, etc. Mais c'est incontestablement le mathématicien russe Andreï Nikolaïevitch Kolmogorov qui en a fourni le socle théorique moderne au premier tiers du XXème siècle, en s'appuyant sur la théorie de la mesure de Borel-Lebesgue. Depuis, la théorie des probabilités a largement débordé du cadre des mathématiques. Elle est omniprésente dans la plupart des domaines scientifiques : informatique, biologie, médecine, sociologie, économie, finance, climatologie, chimie, physique quantique, algorithmique, traitement du signal, théorie de l'information, codage, cryptographie, intelligence artificielle, complexité, approximation, etc.Elle est utilisée dans le milieu de la finance ou des assurances pour modéliser les risques. Les analystes estiment la probabilité d'événements tels que les variations de taux de change, les crises économiques ou les performances des marchés boursiers. Cette modélisation probabiliste est censée aider à prendre des décisions éclairées (mais aussi à spéculer, cf. crise des subprimes.)
Dans le domaine de la santé, elle intervient dans l'analyse statistique des essais cliniques. Les chercheurs évaluent la probabilité que l'efficacité d'un nouveau médicament n'est pas due au hasard mais bien à un effet réel. Cela permet de garantir la validité des résultats et d'orienter les décisions médicales basées sur des preuves solides (faute de quoi, les conséquences peuvent être désastreuses, cf. covid et hydroxychloroquine.)En sociologie, la théorie des probabilités trouve des applications dans l'étude des comportements sociaux et des phénomènes complexes. Les sondages d'opinion, par exemple, utilisent des méthodes probabilistes pour extrapoler les préférences d'une population à partir d'un échantillon représentatif. Cela permet de tirer des conclusions probabilistes sur les tendances et les opinions générales d'une société (ou manipuler l'opinion en les détournant, cf. sondages sur les sujets sensibles immigrations, peines plancher, etc. ).
Dans le domaine de l'environnement, les modèles probabilistes sont utilisés pour évaluer les risques liés aux changements climatiques, aux catastrophes naturelles et aux émissions de polluants. On essaie d'estimer la probabilité d'événements extrêmes tels que les tempêtes, les inondations ou les sécheresses (ou disqualifier ces estimations en confondant volontairement ou non météo et climat…).
En ingénierie, les probabilités sont employées pour évaluer la fiabilité des systèmes complexes. Par exemple, dans la conception de structures, les ingénieurs peuvent utiliser des modèles probabilistes pour estimer la probabilité de défaillance d'un composant en fonction de divers facteurs tels que la charge, la durée de vie et les matériaux utilisés (et qui guident les opérations de maintenance de ces systèmes, cf. effondrement du pont Morandi à Gênes en août 2019).
En informatique, elles permettent de générer des nombres pseudo-premiers dans la conception de protocoles de chiffrement, d'optimiser les méthodes de compression de données avec ou sans pertes d'information, de concevoir des méthodes de codage d'un signal pour le protéger des erreurs qu'il peut subir durant une transmission, de gérer des systèmes complexes, de créer des systèmes d'apprentissage automatique en IA, etc.
L'axiomatisation de la théorie des probabilités par Kolmogorov est essentiellement motivée par la nécessité de fournir un cadre rigoureux pour l'étude de phénomènes continus, c'est-à-dire pour lesquels la variété des résultats observés est infinie et non-dénombrable. Dans le cadre discret, c'est-à-dire quand le nombre d'issues possibles est au plus dénombrable, la théorie s'avère plus simple. L'informatique est par essence plus encline à étudier des phénomènes discrets que des phénomènes continus, ce qui explique les limitations drastiques de ce chapitre, mais il ne faut pas en déduire pour autant que l'informatique n'est pas concernée par les modèles continus, loin de là. L'analyse des algorithmes stochastiques, l'apprentissage automatique, l'optimisation, la cryptographie, le traitement du signal ou les réseaux de neurones, entre autres, font appel aux probabilités continues.
Nous avons tous une approche naïve fréquentiste des probabilités quand les issues possibles sont en nombre fini — le comportement d'un lancer de dés, d'une pièce de monnaie, les résultats d'une course de chevaux, etc. — et c'est la combinatoire qui fournit une bonne partie des outils nécessaires au calcul des probabilités. C'est cette approche que nous avons mise en œuvre précédemment sans outillage particulier pour étudier le problème du paradoxe des anniversaires. Dans ce chapitre, nous allons nous aventurer (un peu) plus loin dans ce domaine.
Comme de coutume dans ce cours, nous commençons par proposer un problème dont la résolution permettra de justifier le développement d'un nouvel arsenal :
Une épidémie touche une personne à risque sur 5 000 et s'avère mortelle dans 60% des cas. Un test a été mis au point pour détecter la maladie. Sur un patient malade le test est positif dans 99,8% des cas et sur un patient sain il est négatif dans 99% des cas. Un traitement expérimental permet de soigner cette maladie dans 80% des cas, mais tue un patient sain dans 10% des cas.
Une campagne de dépistage de cette maladie est lancée et un million de personnes sont testées. Le médecin annonce à un patient que le résultat de son test est positif et lui prescrit ce traitement. Doit-il l'accepter ?
Vocabulaire
Nous allons formaliser ce que nous entendons par expérience aléatoire et définir un modèle probabiliste pour étudier une telle expérience. Trois éléments sont constitutifs et caractéristiques d'un modèle probabiliste, nous en donnons pour commencer une description incomplète et informelle que nous préciserons dans la suite :
Expérience aléatoire et univers des possibles
On qualifie d'expérience aléatoire toute expérience dont l'issue dépend du hasard, au sens informel. À l'opposé d'un algorithme, dont l'une des caractéristiques est le déterminisme et en particulier la reproductibilité — toute exécution de l'algorithme doit fournir exactement la même sortie pour la même entrée —, une expérience aléatoire fournit toujours un résultat imprévisible, toutes conditions de l'expérience égales par ailleurs.
Pour modéliser une expérience aléatoire, on lui associe un ensemble \(\Omega\) dont les éléments permettent d'identifier les différents résultats de cette expérience. Par exemple \begin{equation} \label{eq:lancerde} \Omega:=\{1,2,3,4,5,6\} \end{equation} pour l'expérience qui consiste à relever la valeur d'un dé après un lancer, \[\Omega:=\{p,f\}\quad\text{ou encore}\quad\Omega:=\{0,1\}\] pour la face apparente d'une pièce de monnaie jetée à terre, et \[\Omega:={\color{orange}\{(x,y)\in\R^2\mid x^2+y^2\leq r\}}\] s'il s'agit d'observer la position d'une fléchette lancée sur une cible circulaire, le point d'impact de la fléchette étant codé par un couple \((x,y)\) du plan euclidien et la cible par le disque de centre \((0,0)\) et de rayon \(r\).
L'univers \(\Omega\) est parfois appelé champ ou espace des possibles. Une issue \(\omega\in\Omega\) est parfois appelée éventualité ou réalisation. L'univers \(\Omega\) fait avant tout office de support abstrait pour identifier les issues de l'expérience, à la manière d'un dictionnaire Python, c'est l'espace des clés et les valeurs associées à ces clés codent le résultat de l'expérience, ce que nous observons. Il ne reflète donc pas nécessairement directement le résultat de l'expérience, même si parfois la confusion peut être faite, comme pour un lancer de dés (voir \((\ref{eq:lancerde})\) plus haut).
Tribu des évènements
Dans le cadre d'une expérience aléatoire, un évènement, au sens informel, est généralement décrit par un prédicat dont l'interprétation est faite sur l'univers des possibles \(\Omega\). Par exemple, pour un lancer de dé, la valeur du dé est inférieure ou égale à \(2\) est un évènement qui se traduit par le prédicat \(\omega\leq 2\) en équipant l'univers \(\Omega:=\{1,2,3,4,5,6\}\) de la relation d'ordre naturel \(\leq\). C'est l'axiome de sélection qui nous fournit l'existence de cet évènement vu cette fois comme une partie de \(\Omega\) : \begin{equation} \label{eq:even} \{\omega\in\Omega\such \omega\leq 2\} \end{equation} à savoir, la paire \(\{1,2\}\) contenant les deux issues \(1\) et \(2\). En théorie des probabilités, on traduit des énoncés informels en prédicats mathématiques \(P(\omega)\) sur l'univers des possibles \(\Omega,\) définissant alors des éléments de \({\mathscr P}(\Omega)\).
Par extension, le prédicat qui définit un évènement, au sens formel à présent, est lui aussi qualifié d'évènement. Une partie \(A\) de \(\Omega\) réduite à une unique issue \(\omega\), i.e. \(A=\{\omega\}\) est appelée évènement élémentaire, sinon elle est appelée évènement composite. La partie \(\varnothing\) est l'évènement impossible et l'univers tout entier \(\Omega\) est l'évènement certain. Deux évènements \(A\) et \(B\) sont dits incompatibles s'ils sont disjoints, i.e. \(A\cap B=\varnothing\). Si \(A\) est un évènement et \(\omega\in A\), on dit que l'issue \(\omega\) réalise l'évènement \(A\).
Les opérations logiques sur les prédicats sont en concordance avec les opérations ensemblistes sur les parties de \(\Omega\) qu'ils définissent grâce à l'axiome de sélection. En notant \(P_X\) le prédicat associé à la partie \(X\) de \(\Omega\) qu'il définit, on a les concordances suivantes : \begin{align*} P_A\wedge P_B\ &\longleftrightarrow\ A\cap B \\ P_A\vee P_B\ &\longleftrightarrow\ A\cup B \\ \neg P_A\ &\longleftrightarrow\ \smash{\overline{A}}\\ P_A\then P_B\ &\longleftrightarrow\ A\subseteq B \\ P_A\oplus P_B\ &\longleftrightarrow\ A\symdif B \end{align*}
Les langages de programmation fournissent généralement dans leur panoplie de fonctions prédéfinies, une fonction random qui renvoie un float (l'alter ego informatique d'un nombre rationnel) dans l'intervalle ouvert à droite \([0,1[\) au hasard*(*) Nous verrons plus loin quel sens donner à cette expression. Comment faire alors pour coder l'expérience du dé ? Classiquement, on partitionne cet intervalle en \(6\) parts égales \[ \Omega_1:=\left[0,\frac{1}{6}\right[,\ \ \Omega_2:=\left[ \frac{1}{6},\frac{2}{6}\right[,\ \ \Omega_3:=\left[ \frac{2}{6},\frac{3}{6}\right[, \ \ \Omega_4:=\left[ \frac{3}{6},\frac{4}{6}\right[,\ \ \Omega_5:=\left[ \frac{4}{6},\frac{5}{6}\right[,\ \ \Omega_6:=\left[\frac{5}{6},1\right[. \] et si la valeur renvoyée par la fonction random appartient à l'intervalle \(\Omega_k\), on considère que la face du dé obtenue est \(k\). Autrement dit, l'univers des possibles n'est plus \(\{1,2,3,4,5,6\}\) mais l'intervalle continu \([0,1[\) de \(\R\) et les évènements élémentaires \(\{i\}\) sont ici remplacés par les évènements \(\Omega_i\).
Pour définir la probabilité d'un évènement, c'est principalement l'approche fréquentiste d'une expérience qui nous guide. On associe une probabilité à un évènement que dans la mesure où l'expérience qui l'a engendré a été reproduite un très grand nombre de fois — dans des conditions identiques et indépendamment les unes des autres — et que l'on a pu déterminer empiriquement la fréquence de cet évènement. On sait par expérience que le lancer d'un dé non pipé ne privilégie aucune des \(6\) faces et c'est pour cette raison que l'on définit empiriquement la probabilité d'obtenir une valeur inférieure ou égale à \(2\) à un lancer de dé par le quotient du cardinal de l'ensemble des issues réalisant l'évènement le résultat est inférieur ou égal à 2 et du cardinal de l'univers \(\Omega\): \[ \frac{\#\{1,2\}}{\#\Omega}=\frac{2}{6}=\frac{1}{3}=0,\!\underline{3}. \] Cette approche empirique justifie que la probabilité d'un évènement soit une valeur comprise entre \(0\) et \(1\) puisque le cardinal d'une partie d'un ensemble fini \(E\) est minoré par \(0\) et majoré par le cardinal de \(E\).
Il est tentant de prendre systématiquement en considération tous les évènements liés à une expérience aléatoire, autrement dit toutes les parties de l'univers \(\Omega\). Ce sera toujours possible dans le cadre discret qui est le sujet principal de ce chapitre, mais impossible dès que l'ensemble \(\Omega\) est continu, comme l'ensemble des nombres réels \(\R\) par exemple, et que l'on souhaite que la mesure de probabilité respecte un certain nombre d'exigences naturelles. Pour franchir cet obstacle éminemment théorique et que nous n'investiguerons pas plus avant, il n'est pas question pour autant de renoncer à ces exigences. La solution est à chercher du côté des parties de \(\Omega\) que l'on peut mesurer ou non.
Pour ne pas trop laisser le lecteur curieux dans le flou artistique, disons qu'en axiomatisant les mathématiques, on a gagné en rigueur (c'était l'objectif !) mais les axiomes qui permettent de coder les objets intéressants permettent parfois de forger des artefacts que l'on ne peut pas ignorer si l'on veut maintenir la cohérence de la théorie. Dans le cadre de la théorie des ensembles, l'axiome du choix non-dénombrable permet de prouver l'existence de parties de \(\R\) que l'on ne peut pas mesurer avec une fonction qui satisfait les conditions évoquées ci-dessus (la mesure de Lebesgue). L'ensemble des parties de \(\R\), dont l'existence est assurée par l'axiome des parties abrite en effet des monstres que certains aventuriers*(*) cf. ensemble de Vitali. se sont efforcés de débusquer. Heureusement pour les informaticiens, en pratique, on ne les rencontre jamais. Les parties de \(\R\) qui pourront être mesurées formeront la tribu de Lebesgue avec laquelle nous travaillerons implicitement dans le cadre continu.
Si l'ensemble \(\sset(\Omega)\) tout entier s'avère en général trop riche pour que l'on puisse l'équiper d'une mesure de probabilité qui convienne, le sous-ensemble de \(\sset(\Omega)\) à considérer devra néanmoins satisfaire toutes les propriétés en adéquation immédiate avec les interprétations naturelles des évènements et de leurs probabilités. Dans l'expérience du lancer de dé, la négation de l'évènement la valeur du dé est pair est l'évènement la valeur du dé est impaire. Ces deux évènements sont associés à deux parties complémentaires de \(\Omega\), si l'on peut en mesurer une, il semble raisonnable d'imposer de pouvoir mesurer l'autre. C'est également vrai pour l'intersection ou la réunion de deux évènements puisqu'elles sont liées respectivement à la conjonction et la disjonction des prédicats correspondant. Par exemple, la valeur est paire et inférieure à 5 est la conjonction des prédicats la valeur est paire et la valeur est inférieure à 5.
Le sous-ensemble \(\mathscr A\) de \(\sset(\Omega)\) des évènements retenus doit donc être, a minima, stable pour les opérations ensemblistes de complémentation, de réunion et d'intersection, c'est-à-dire que le complémentaire d'un évènement, la réunion de deux évènements et l'intersection de deux évènements quelconques de \(\mathscr A\) doivent appartenir eux aussi à l'ensemble \(\mathscr A\) considéré.
Bien sûr, en réitérant les propriétés de stabilité autant de fois que nécessaire, on déduit immédiatement que la réunion finie et l'intersection finie d'éléments de l'algèbre de Boole \({\mathscr A}\) appartient à \({\mathscr A}\) et à première vue, on tient l'ensemble des parties de \(\Omega\) qui semble satisfaire nos exigences.
Considérons à présent l'expérience aléatoire qui consiste à lancer une pièce de monnaie indéfiniment. Il n'est pas difficile de modéliser l'univers des possibles, c'est tout simplement l'ensemble des suites à valeurs dans \(\{p,f\}\), i.e. \(\Omega:=\{p,f\}^{\N^*}\) (par commodité, on commence la numérotation à \(1\) plutôt que \(0\)). Les évènements décrits par des prédicats sur \(\Omega\) basés sur un nombre fini de lancers sont des évènements qu'il faut considérer dans le cadre de cette expérience, par exemple pour tout entier naturel non-nul \(n\), l'évènement \[A_n:=\{\omega\in\Omega\such\omega_n\neq p\}\] codant Le \(n\)-ème lancer n'est pas tombé sur pile. Qu'en est-il des propriétés que l'on pourrait étudier sur une suite infinie de lancers, comme aucun lancer n'est tombé sur pile par exemple ? Ce dernier évènement est clairement l'intersection des évènements \(A_n\) puisqu'il s'agit de la conjonction des prédicats correspondant, mais il y en a une infinité. Pour que le modèle soit cohérent, il faut donc inclure les intersections dénombrables d'évènements ou par complémentation, les réunions dénombrables d'évènements.
Si \((A_i)_{i\in I}\) est une famille finie de cardinal \(k\) d'évènements de la tribu, on peut sans restreindre la généralité considérer que \(I=\ab{1}{k}\) et définir les évènements \[ B_j:=\begin{cases} A_j&\text{si}\ j\in\ab{1}{k},\\ \Omega&\text{si}\ j>k. \end{cases} \] L'ensemble \(\Omega\) est l'élément neutre pour l'intersection, c'est-à-dire \(\forall A\in\parts{\Omega} \ \ \Omega\cap A=A\), il suffit donc d'appliquer la stabilité de l'intersection dénombrable à la famille \((B_n)_{n\in\N}\) : \begin{align*} \bigcap_{i=1}^kA_i &=\bigcap_{j=1}^kB_j\\ &=\bigcap_{j=1}^kB_j\cap\bigcap_{j>n}\Omega\\ &=\bigcap_{n\in\N}B_n \end{align*}
L'ensemble \(\parts{\Omega}\) contient \(\varnothing\) et le complémentaire \(\overline{A}\) de toute partie \(A \in \parts{\Omega}\). Si \((A_n)_{n \in \mathbb{N}}\) est une famille dénombrable d'éléments de \(\parts{\Omega}\), alors une simple récurrence sur le prédicat \(\bigcap_{k=1}^n A_k\in\parts{\Omega}\) montre que leur intersection dénombrable \(\bigcap_{n \in \mathbb{N}} A_n \in \parts{\Omega}\). Ainsi, \(\parts{\Omega}\) est une tribu.
On montre facilement que l'intersection d'une famille quelconque de tribus définies sur un même univers \(\Omega\) est une tribu. On peut alors définir la tribu engendrée par une partie \(A\subseteq\sset(\Omega)\) qui est la plus petite tribu qui contient \(A\), c'est-à-dire l'intersection de toutes les tribus qui contiennent \(A\) et que l'on note \(\sigma(A)\) (il en existe au moins une puisque la tribu discrète \(\sset(\Omega)\) contient toutes les autres). Ainsi, la simple connaissance d'un ensemble \(A\) d'évènements de \(\sset(\Omega)\) dont on veut calculer la probabilité suffit à déterminer la tribu à considérer pour cette expérience. Par exemple, si le seul évènement intéressant pour un lancer de dé est que la valeur obtenue soit paire, i.e. \(A=\{\{2,4,6\}\}\), la tribu engendrée par \(A\) est la tribu \begin{equation*} \sigma(A)=\{\{1,3,5\},\{2,4,6\},\varnothing,\Omega\} \end{equation*} et sans même en faire la construction effective comme on l'a fait pour illustrer cet exemple, on sait que la tribu engendrée contient tous les autres évènements intéressants, complémentaires, réunions, intersections, etc.
Par conséquent, une famille d'évènements de \(\tribu\) formant une partition de \(\Omega\) constitue un système complet d'évènements. Elle s'en distingue par la contrainte \(\forall i\in I\ A_i\neq\varnothing\).
Points à retenir dans cette section :
Supposons à présent que \(\Omega=\{\omega_i\such i\in\N\}\) soit dénombrable et notons \(\tribu\) la tribu engendrée par la famille \(\{\{\omega_i\}\such i\in\N\}\) des évènements élémentaires. Soit \(A\) une partie quelconque de l'univers \(\Omega\), montrons qu'elle appartient à \(\tribu\). Comme \(A\) est une partie d'un ensemble dénombrable, elle est au plus dénombrable, on peut donc écrire \(A=\{\omega_{i_j}\such j\in J\}\) puis \[A=\bigsqcup_{j\in J}\{\omega_{i_j}\}\] avec un ensemble d'indexation \(J\) au plus dénombrable. On en déduit que \(A\in\tribu\) par stabilité de réunions finies ou dénombrables (cf. corollaire)
Dans le cas où l'univers \(\Omega=\R\), la tribu considérée sera celle de Lebesgue. Pour un informaticien qui ne manipule par essence que des objets constructibles, toute partie de \(\R\) que l'on peut construire avec des opérations explicites, réunion, intersection, compléments, d'éléments simples comme les intervalles, fait partie de cette tribu, autrement dit tous les objets qu'il aura à manipuler seront mesurables.
Mesure de probabilité
C'est très naturellement une fonction qui va servir d'outil de quantification de l'éventualité d'un évènement. Les propriétés mathématiques qu'elle doit satisfaire sont la transposition formelle des propriétés empiriques que nous exigeons dans notre conception intuitive. Par exemple, la probabilité que deux évènements se réalisent simultanément devrait être inférieure à la probabilité de la réalisation de chacun des deux évènements. Si l'on répète l'expérience consistant à lancer une pièce de monnaie, la proportion d'issues pile devrait être de plus en plus proche de la proportion d'issues face, sans quoi on soupçonnerait que la pièce est truquée, etc.
La définition (parachutée) d'une mesure de probabilité ci-dessous est une synthèse obtenue après un long processus de construction puis de décantation.
Il manque manifestement dans la définition d'une probabilité, des conditions élémentaires qu'elle doit satisfaire, comme par exemple le fait que \(\prob(\varnothing)=0\) ou que le complémentaire \(\overline{A}\) d'un évènement \(A\) doit avoir pour probabilité \begin{align} \label{eq:probcomp} \prob(\overline{A})=1-\prob(A). \end{align} En effet, la probabilité d'un évènement qui n'arrive jamais se doit d'être nulle et si vous avez 10% de (mal)chance de manquer votre bus, il vous en reste 90% de pouvoir assister à mon cours le matin. Si toutes les propriétés que nous allons énumérer plus loin ne sont pas énoncées dans la définition, c'est parce qu'elles sont la conséquence des assertions \(a\) et \(b\) dans la définition et que l'on tente autant que possible de définir des objets sans être redondant, cela évite du travail inutile.
NB. La propriété \((\ref{eq:prop4})\) est appelée propriété d'inclusion-exclusion.
Considérons l'expérience qui consiste à lancer un dé à \(6\) faces. On se donne classiquement pour univers des possibles \(\Omega:=\{1,2,3,4,5,6\}\). Si l'on veut définir la probabilité de chacun des \(6\) évènements élémentaires \(\{1\}, \{2\}, \ldots, \{6\}\), dans un premier temps, il faut nécessairement équiper \(\Omega\) de la tribu discrète \(\tribu=\sset(\Omega)\) (cf. exercice) qui est la plus petite tribu contenant ces \(6\) évènements. Il est facile alors de vérifier que l'existence des probabilités \(\prob(\{\omega_i\})\) pour les \(6\) singletons \(\{i\}\) fixe mécaniquement celle de tous les autres évènements \(A\) de la tribu \(\tribu\) par \(\sigma\)-additivité \((\ref{eq:sigmaadd})\) de \(\prob\) : \begin{equation} \label{eq:desunif} \forall A\in\sset(\Omega)\quad \prob(A)=\sum_{i\in A}\prob(\{i\}). \end{equation} Comme les évènements \(\{i\}\) forment une partition de \(\Omega\), ceci n'est possible que si \[\sum_{i=1}^6\prob(\{i\})=1.\] Si le dé n'est pas pipé, la probabilité qui cadre avec l'expérience est la probabilité dite uniforme ou équiprobabilité, c'est-à-dire telle que \[\forall i\in\Omega\quad \prob(\{i\}):=\frac{1}{\#\Omega}=\frac{1}{6}\] résultat à nouveau obtenu par \(\sigma\)-additivité. Dans ce cas l'identité \((\ref{eq:desunif})\) devient \[\forall A\in\sset(\Omega)\quad \prob(A)= \frac{\#A}{\#\Omega}.\] Cette construction de la probabilité uniforme est générique pour tout univers \(\Omega\) fini.
Considérons à présent l'expérience aléatoire qui consiste à lancer une fléchette dans une cible circulaire en précisant comment nous envisageons cette expérience. On suppose que la fléchette atteint toujours la cible et que c'est le hasard qui guide le lancer*(*) Il ne s'agit ni de Luke Humphries ni de Luke Littler !, on voudrait donc que, et nous allons mettre cette phrase en exergue :
Telle qu'elle est énoncée ici informellement, cette condition ne peut pas être satisfaite en théorie des probabilités. Nous avons déjà vu dans les exemples introductifs, qu'un modèle pertinent pour l'univers des possibles peut être le disque unité (on a normalisé le rayon) : \[\Omega:=\{(x,y)\in\R^2\such x^2+y^2\leq 1\}.\] Le fait que cet espace soit infini pose quelques défis conceptuels\(^\sharp\)(\(\sharp\)) Le fait que cet infini ne soit pas dénombrable en pose encore plus. qui n'apparaissent pas dans l'approche fréquentiste d'une expérience sur un ensemble fini d'issues. Par exemple, il n'est possible de définir une probabilité uniforme sur \(\Omega\), au sens où chaque évènement élémentaire \(\{\omega\}\) a la même probabilité que pour un univers \(\Omega\) fini. Nous allons le démontrer par l'absurde. Supposons que l'on puisse attribuer la même probabilité \(p>0\) à tout évènement élémentaire \(\{\omega\}\), i.e. \begin{equation} \forall\omega\in\Omega\ \ \prob(\{\omega\})=p. \end{equation} Si \(\Omega\) est infini, on peut en extraire une famille dénombrable \((\{\omega_n\})_{n\in\N}\) d'évènements élémentaires qui sont par construction deux-à-deux incompatibles. Dans ce cas, la \(\sigma\)-additivité impose \begin{align*} \prob\left(\bigsqcup_{n\in\N}\{\omega_n\}\right) &=\sum_{n\in\N}\prob(\{\omega_n\})\\ &=\lim_{n\rightarrow\infty}\sum_{i=0}^n\prob(\{\omega_i\})\\ &=\lim_{n\rightarrow\infty}np\\ &=+\infty \end{align*} ce qui est absurde puisqu'une probabilité est majorée par la valeur \(1\).
Revenons à notre fléchette. Celle-ci tombe toujours sur un point \(F:=(x,y)\) de la cible et pourtant l'évènement élémentaire \(\{F\}\) a nécessairement une probabilité nulle. En effet, sans même définir la tribu \(\tribu\) que l'on pourrait considérer sur l'espace \(\Omega\), il est légitime d'exiger que la probabilité \(\prob\) se comporte comme on le souhaite intuitivement, à savoir que la probabilité que la fléchette tombe dans une zone particulière de la cible soit tout simplement*(*) C'est, sans le savoir, la mesure de Lebesgue qui entre ici en jeu. le rapport de la surface de cette zone sur la surface totale de la cible (ici \(2\pi\), la cible étant de rayon \(1\)). Dans ce cas, si l'on considère un disque \(D_{\varepsilon}\) centré en ce point \(F=(x,y)\) de rayon \(\sqrt{\varepsilon}\), la probabilité que la fléchette tombe dans \(D_{\varepsilon}\) doit donc satisfaire \[\prob(D_\varepsilon)=\frac{2\pi(\sqrt{\varepsilon})^2}{2\pi}=\varepsilon.\] Or \(\{F\}\subseteq D\), ce qui entraîne d'après \((\ref{eq:probinclusion})\) que \[\prob(\{F\})\leq \varepsilon.\] Cette inégalité devant être satisfaite pour n'importe quel disque \(D_{\varepsilon}\) centré en \(F\), autrement dit pour toute valeur du rayon \(\varepsilon\), on en déduit que \[ \forall\varepsilon > 0\quad 0\leq\prob(\{F\})\leq \varepsilon \] et finalement que \(\prob(\{F\})=0\).
Tout ceci nous amène à considérer qu'il peut exister des évènements de probabilité nulle sans qu'ils soient impossibles pour autant, ce qui justifie la définition suivante :
Mesure de probabilité sur un univers discret
On restreint l'univers \(\Omega\) à un ensemble au plus dénombrable. Comme nous l'avons évoqué plus haut dans le cas fini, on peut associer à chaque issue possible sa probabilité et en déduire celles de tous les évènements de la tribu discrète \(\sset(\Omega)\). C'est une fonction de masse qui se charge de fixer la probabilité de chacune des issues possibles :
Dans le cas où \(\Omega\) est fini, il n'y a aucun danger à considérer la somme dans \((\ref{eq:fmasse})\) puisque le nombre de termes est fini. En revanche, lorsque \(\Omega\) est infini, il faut être plus prudent. Dès que l'on souhaite prolonger une somme indéfiniment, la situation se gâte. Les propriétés d'associativité et de commutativité ne sont plus nécessairement conservées quand la suite contient des termes positifs et des termes négatifs, par conséquent l'ordre dans lequel les termes sont sommés peut affecter le résultat. Ici, s'agissant d'une application à valeur dans \([0,1]\) et donc positive, on peut sommer les termes dans l'ordre de son choix. L'univers \(\Omega\) étant infini dénombrable, on peut indexer les issues et écrire \(\Omega=\{\omega_i\such i\in\N\}\) et sommer dans l'ordre naturel de l'indexation. Par conséquent on a \begin{align*} \sum_{\omega\in\Omega}f(\omega)&:= \lim_{n\rg\infty}\sum_{i=0}^nf(\omega_i)=1. \end{align*}
On montre qu'une série de terme général \(u_n\geq 0\) converge si et seulement si la suite \(\sum u_n\) est majorée. Une série \(\sum u_n\) est dite absolument convergente si la série \(\sum |u_n|\) est convergente.
Une série absolument convergente est toujours convergente, mais la réciproque est fausse en général. Cela justifie la définition d'une série conditionnellement convergente, qui est une série convergente mais qui n'est pas absolument convergente, c'est le cas par exemple de la suite harmonique alternée de terme général \(\frac{(-1)^n}{n}\) qui converge vers \(-\ln(2)\) alors que la série harmonique diverge vers \(+\infty\).
Quand une série est absolument convergente, la commutativité est conservée, on peut permuter les termes comme on le souhaite, toutes les séries permutées convergent vers la même limite. En revanche pour les séries conditionnellement convergentes, le spectaculaire théorème de réarrangement de Riemann affirme qu'on peut toujours déterminer une permutation des termes de la suite \((u_n)_{n\in\N}\) de manière à ce que la série de ces termes permutés converge vers la limite de son choix, ou encore qu'elle diverge vers \(\pm\infty\) !
Notons pour conclure que la notion de série est l'une des formalisations possibles quand on souhaite sommer indéfiniment des termes, d'autres formalismes existent, comme celui des familles sommables. Pour un informaticien qui n'a d'autre choix que d'approximer une somme infinie à l'aide d'une boucle, la notion de série est suffisante.Probabilités conditionnelles
Formule de Bayes
Il est courant dans le cadre des expériences alétoires de s'intéresser à la probabilité d'un évènement \(A\) sachant qu'un évènement \(B\) a eu lieu, si j'ai une crevaison sur la route, je n'arriverais probablement pas à l'heure à mon rendez-vous. Avec une vision fréquentiste des probabilités, si l'on note \(N_X\) le nombre d'occurrences d'un évènement \(X\) en répétant \(N\) fois une même expérience aléatoire, la fréquence de réalisation d'un évènement \(A\) parmi tous ceux qui ont vu la réalisation d'un évènement \(B\) est bien sûr \begin{equation*} \frac{N_{A\cap B}}{N_B}=\frac{N_{A\cap B}}{N}\times\frac{N}{N_B}. \end{equation*} Ceci justifie la définition de la probabilité conditionnelle de l'évènement \(A\) sachant que l'évènement \(B\) s'est réalisé :La loi de probabilité totale est souvent utilisée avec une partition de l'univers \(\Omega\) constituée par un évènement \(B\) non-vide et son complémentaire \(\overline{B}\) : \begin{align} \label{eq:probtotcomp} \prob(A) &=\prob(A\mid B)\,\prob(B)+\prob(A\mid\overline{B})\,\prob(\overline{B})\\ \notag &=\prob(A\mid B)\,\prob(B)+\prob(A\mid\overline{B})(1-\prob(B)) \end{align}
La modélisation de ce problème demande un peu de réflexion. On ne peut pas se contenter de la simple observation de la couleur rouge ou bleue de la boule tirée dans le second sac, la partie de l'expérience consistant à tirer une première boule du premier sac serait ignorée, alors qu'elle joue évidemment un rôle dans la répartition des boules dans le second sac. Nous allons en présenter plusieurs.
(1) La première modélisation consiste à considérer \(\Omega:=\{r,b\}^2\) où \(r\) et \(b\) codent respectivement les couleurs rouge et bleue et \(\tribu={\mathscr P}(\Omega)\) est la tribu discrète. La première projection \(x\) d'un couple \((x,y)\) de \(\Omega\) code la couleur de la boule extraite du premier sac, et la seconde projection \(y\) celle de la boule extraite du second sac. Ainsi, le couple \((r,b)\) code l'évènement la boule tirée dans le premier sac est rouge et celle tirée dans le second sac est bleue.
On considère les évènements complémentaires \(B_1\) et \(R_1\) désignant respectivement La boule tirée dans le 1er sac est bleue, La boule tirée dans le 1er sac est rouge, i.e. \(R_1=\overline{B_1}\). On fait de même avec \(B_2\) et \(R_2\) pour la boule tirée du 2ème sac. On cherche donc à calculer la probabilité \(\prob(B_2)\). Notons que \(B_1=\{(b,r),(b,b)\}\) et \(R_1=\overline{B_1}=\{(r,r),(r,b)\}\). Puisque \(B_1\) et \(R_1\) forment une partition de \(\Omega\), on peut appliquer la loi de la probabilité totale \((\ref{eq:loiprobtotale})\) à la famille \(\{B_1,R_1\}\) : \begin{align*} \prob(B_2) &=\prob(B_2\mid B_1)\,\prob(B_1)+\prob(B_2\mid R_1)\,\prob(R_1)\\ &=\prob(B_2\mid B_1)\,\prob(B_1)+\prob(B_2\mid R_1)\,(1-\prob(B_1)) \end{align*} La probabilité \(\prob(B_1)\) de tirer une boule bleue dans le premier sac est \(\frac{3}{5}\), on en déduit \begin{align*} \prob(B_2)&=\frac{3}{5}{\color{#88F}\prob(B_2\mid B_1)}+\frac{2}{5}{\color{red}\prob(B_2\mid R_1)}. \end{align*} Les deux probabilités conditionnelles sont faciles à calculer, l'hypothèse en tirant la boule au hasard dans le sac signifiant qu'il s'agit de la probabilité uniforme sur un ensemble fini. Pour \(\prob(B_2\mid B_1)\), le deuxième sac contient \(3\) boules rouges et \(4+1=5\) bleues et pour \(\prob(B_2\mid R_1)\), \(3+1=4\) boules rouges et \(4\) bleues : \begin{equation*} {\color{#88F}\prob(B_2\mid B_1)}=\frac{5}{8}\quad\text{et}\quad{\color{red}\prob(B_2\mid R_1)}=\frac{4}{8}. \end{equation*} On a finalement \[\prob(B_2)=\frac{3}{5}\times{\color{#88F}\frac{5}{8}}+\frac{2}{5}\times{\color{red}\frac{4}{8}}=\frac{23}{40}.\]
Ce modèle masque que l'expérience est une combinaison de deux expériences plus simples consistant à tirer une boule dans un sac dont les probabilités ont été intégrées directement dans les calculs de probabilités conditionnelles. Un modèle plus détaillé est également possible comme nous allons le voir.
(2) Cette fois on numérote l'ensemble des boules rouges, \(r_1\) à \(r_5\) et l'ensemble des boules bleues \(b_1\) à \(b_7\). Les contenus des deux sacs avant le prélèvement peuvent être codé respectivement par les ensembles \(X:=\{r_1, r_2, b_1, b_2, b_3\}\) et \(Y:=\{r_3, r_4, r_5, b_4, b_5, b_6, b_7\}\). Si on désigne par \(x\) la boule retirée du premier sac et \(y\) celle retirée du second sac après y avoir rangé \(x\), l'univers \(\Omega\) peut être décrit par l'ensemble des évènements élémentaires suivants : \begin{align} \label{eq:modprob1} \Omega:=\bigsqcup_{x\in X}\left(\{x\}\times (Y\cup\{x\})\right) \end{align} où la famille \((\{x\}\times (Y\cup\{x\}))_{x\in X}\) constitue une partition de \(\Omega\) et permet donc d'utiliser la formule de sommation pour obtenir que \(\#\Omega=\#X\times(\#Y+1)=40\). Tous ces évènements élémentaires sont équiprobables, on a donc \(\forall \omega\in\Omega\ \prob(\omega)=\frac{1}{40}\).
Par hypothèse, on a l'équiprobabilité pour l'expérience consistant à tirer une boule du premier sac, donc \[\prob(\underbrace{x=r_1}_A)=\prob(x=r_2)=\prob(x=b_1)=\prob(x=b_2)=\prob(x=b_3)=\frac{1}{5}.\] Observons plus précisément le lien entre ces évènements décrits par des prédicats et les parties de \(\Omega\) qu'ils définissent. Par exemple \begin{align*} A:=\{\omega=(x,y)\in\Omega\mid x={\color{red}r_1}\}=\{({\color{red}r_1},r_1),({\color{red}r_1},r_3),({\color{red}r_1},r_4),({\color{red}r_1},r_5),({\color{red}r_1},b_4),({\color{red}r_1},b_5),({\color{red}r_1},b_6),({\color{red}r_1},b_7)\}. \end{align*} L'évènement \(A\) étant de cardinal \(8\) on retrouve bien \[\prob(A)=\frac{\#A}{\#\Omega}=\frac{8}{40}=\frac{1}{5}.\]
Reprenons les notations \(B_1\), \(R_1\), \(B_2\) et \(R_2\) du premier modèle pour désigner respectivement les évènements on tire une boule bleue du 1er sac, on tire une boule rouge du 1er sac, on tire une boule bleue du 2ème sac, on tire une boule rouge du 2ème sac : \begin{align*} B_1=\big\{(b_1,b_1),&(b_1,r_3),(b_1,r_4),(b_1,r_5),(b_1,b_4),(b_1,b_5),(b_1,b_6),\\ &(b_1,b_7),(b_2,b_2),(b_2,r_3),(b_2,r_4),(b_2,r_5),(b_2,b_4),(b_2,b_5),(b_2,b_6),\\ &(b_2,b_7),(b_3,b_3),(b_3,r_3),(b_3,r_4),(b_3,r_5),(b_3,b_4),(b_3,b_5),(b_3,b_6),(b_3,b_7)\big\}\\ R_1=\big\{(r_1,r_1),&(r_1,r_3),(r_1,r_4),(r_1,r_5),(r_1,b_4),(r_1,b_5),(r_1,b_6),(r_1,b_7),\\ &(r_2,r_2),(r_2,r_3),(r_2,r_4),(r_2,r_5),(r_2,b_4),(r_2,b_5),(r_2,b_6),(r_2,b_7)\big\}\\ B_2=\big\{(b_1,b_1),&(b_1,b_4),(b_1,b_5),(b_1,b_6),(b_1,b_7),(b_2,b_2),(b_2,b_4),\\ &(b_2,b_5),(b_2,b_6),(b_2,b_7),(b_3,b_3),(b_3,b_4),(b_3,b_5),(b_3,b_6),\\ &(b_3,b_7),(r_1,b_4),(r_1,b_5),(r_1,b_6),(r_1,b_7),(r_2,b_4),(r_2,b_5),(r_2,b_6),(r_2,b_7)\big\}\\ R_2=\big\{(b_1,r_3),&(b_1,r_4),(b_1,r_5),(b_2,r_3),(b_2,r_4),(b_2,r_5),(b_3,r_3),(b_3,r_4),\\ &(b_3,r_5),(r_1,r_1),(r_1,r_3),(r_1,r_4),(r_1,r_5),(r_2,r_2),(r_2,r_3),(r_2,r_4),(r_2,r_5)\big\}\\ \end{align*} Et on en déduit les probabilités : \begin{align*} \prob(B_1)&=\frac{\#B_1}{\#\Omega}=\frac{24}{40}=\frac{3}{5}\\ \prob(R_1)&=\frac{\#R_1}{\#\Omega}=\frac{16}{40}=\frac{2}{5}\\ \prob(B_2)&=\frac{\#B_2}{\#\Omega}=\frac{23}{40}\\ \prob(R_2)&=\frac{\#R_2}{\#\Omega}=\frac{17}{40} \end{align*}
(3) Dans la lignée du (2), nous aurions pu définir plus simplement l'univers des possibles par \[\Omega:={\color{#FA4}X}{\color{red}\;\times\;}({\color{#88F}Y\cup X})\] puisque la première boule est choisie dans \(X\) et la deuxième dans \(Y\) auquel on a rajouté une boule de \(X\). En procédant de la sorte, \(\#\Omega=\#X\times\#(X\cup Y)=5\times(7+5)=60\) et l'univers contiendrait \(20\) évènements élémentaires de plus que dans la précédente modélisation. Ce n'est pas surprenant puisque ce sont précisément ceux que l'on n'observe jamais, comme par exemple l'évènement \(\{(r_1,r_2)\}\) puisque si l'on a tiré la boule \(r_1\) du premier sac, la boule \(r_2\) est restée dans le premier sac et ne pourra donc pas être extraite du second. Dans ce cas, il faudrait que la probabilité de ces \(20\) évènements élémentaires soit nulle pour assurer la cohérence du modèle.
Manifestement le premier modèle évite l'approche purement combinatoire, il est plus économique, lisible et efficace. Il faut par conséquent être conscient que pour une même expérience aléatoire, on peut définir des espaces probabilisés très différents, charge à celui qui fait la modélisation de trouver un modèle pertinent.
Résolution du problème introductif
On rappelle les données du problème :Une épidémie touche une personne à risque sur 5 000 et s'avère mortelle dans 60% des cas. Un test a été mis au point pour détecter la maladie. Sur un patient malade le test est positif dans 99,8% des cas et sur un patient sain il est négatif dans 99% des cas. Un traitement expérimental permet de soigner cette maladie dans 80% des cas, mais tue un patient sain dans 10% des cas.
Une campagne de dépistage de cette maladie est lancée et un million de personnes sont testées. Le médecin annonce à un patient que le résultat de son test est positif et lui prescrit ce traitement. Doit-il l'accepter ?
Notations et données.
Nous employons la terminologie de l'épidémiologie. Les données du problème sont les suivantes :Il y a donc \(1-99,\!8\%=0,\!2\%\) de faux négatifs et \(1-99\%=1\%\) de faux positifs. L'expérience consiste ici à tester un patient qui peut être sain ou malade (\(s/m\)) avec un résultat qui peut-être positif ou négatif (\(+/-\)). On peut par exemple coder les résultats de l'expérience par \(\Omega:=\{s,m\}\times\{+,-\}\), soit \[\Omega=\{(s,+),\,(s,-),\,(m,+),\,(m,-)\}.\]
On considère, comme toujours quand l'univers \(\Omega\) est fini, la tribu discrète \(\tribu={\mathscr P}({\Omega})\). On définit les évènements suivants :Probabilité que le patient soit malade.
Nous cherchons à calculer \(\prob(M \such \oplus)\), la probabilité d'être malade sachant que le test est positif. La loi de Bayes nous donne : \begin{equation} \label{eq:bayessol} \prob(M\such \oplus)=\frac{\prob(\oplus\such M)\,\prob(M)}{\prob(\oplus)}. \end{equation} Seule la probabilité \(\prob(\oplus)\) n'est pas donnée dans l'énoncé, on l'obtient grâce à la loi de la probabilité totale puisque les évènements \(\overline{M}\) et \(M\) forment une partition de \(\Omega\) : \begin{align*} \prob(\oplus) &= \prob(\oplus\such M)\, \prob(M) + \prob(\oplus\such \overline{M}) \, \prob(\overline{M})\\ &=0,\!998\cdot0,\!0002 + 0,\!01\cdot0,\!9998 \\ &=0,\!0100988. \end{align*} On conclut en substituant les valeurs dans \((\ref{eq:bayessol})\) : \begin{equation*} \prob(M\such \oplus) ={\color{#88F}\prob_\oplus(M)}=\frac{0,\!998\cdot0,\!0002}{0,\!0100988} \simeq 0,\!02 \end{equation*} La probabilité que le patient soit réellement malade, sachant que le test est positif, n'est donc que de \(2\%\) environ ! L'arbre ci-dessous explicite la situation en répartissant une population d'un million d'individus testés en fonction des évènements complémentaires. On observe que \(\color{red}9998\) sont déclarés malades alors qu'ils ne le sont pas, il y a donc au total environ \(\color{red}9998+200=10198\) malades déclarés mais seuls \(200\) d'entre eux le sont réellement, soit \(200/10198\simeq 2\%\) conformément aux calculs menés.Comparaison des risques.
La comparaison des risques se faisant dans le cas où le test est positif, nous allons opérer avec la probabilité conditionnelle \(\prob_\oplus\) définie par \[ \prob_\oplus(A)=\prob(A\such \oplus). \] On définit les évènementsOn conclut qu'il est préférable de ne pas prendre le traitement, ce qui n'était pas intuitif à la lecture de l'énoncé.
Évènements indépendants
L'indépendance de deux évènements est relative à la probabilité considérée, deux évènements peuvent donc être indépendants pour une probabilité \(\prob_1\) et ne pas l'être pour une probabilité \(\prob_2\). Le concept d'indépendance se généralise à une famille \((A_i)_{i\in I}\) d'évènements, de deux manières : les évènements \(A_i\) sont dits globalement indépendants (ou plus simplement indépendants) si et seulement si pour toute sous-famille finie \(J\) de \(I\) \begin{equation*} \prob\left(\bigcap_{i\in J}A_i\right)=\prod_{i\in J}\prob(A_i), \end{equation*} ou encore deux-à-deux indépendants si et seulement si \[\forall(i,j)\in I^2\ \ (i\neq j)\then\prob(A_i\cap A_j)=\prob(A_i)\,\prob(A_j).\]
2. On doit résoudre l'équation d'inconnue \(n\) suivante : \begin{align*} \frac{(2^n-2)(n+1)}{2^{2n}}&=\frac{n}{2^{n}}\\ \text{donc}\quad (2^n-2)(n+1)&=n2^n\\ \text{puis}\quad 2^{n-1}-n-1=0\\ \text{et finalement}\quad 2^{n-1}=n+1. \end{align*} Cette dernière égalité n'est satisfaite que pour \(n=3\) et l'indépendance de ces deux évènements n'est due qu'à une coïncidence numérique.
Explication informelle. Il est clair qu'en l'absence de toute information, le joueur a une chance sur trois de choisir la bonne porte. La stratégie consistant à ne jamais modifier son choix après que l'animateur a ouvert une porte revient à considérer que le jeu est terminé dès le choix initial, la probabilité de trouver la Cadillac est donc \(\frac{1}{3}\). En revanche si le joueur choisit de changer de porte systématiquement, trois situations sont possibles suivant son choix initial :
Une autre façon d'envisager le problème rend le résultat beaucoup plus intuitif. Sans rien changer au jeu, le joueur considère qu'il désigne, non pas une porte derrière laquelle il pense trouver la Cadillac, mais une porte qui cache une chèvre. En ouvrant l'autre porte cachant la 2ème chèvre, l'animateur indique indirectement au joueur la porte qu'il doit finalement choisir.
Formalisation. Commençons par mettre en évidence les évènements qui nous intéressent avant de définir l'univers \(\Omega\). Les portes sont numérotées de \(1\) à \(3\) et on suppose que le joueur a choisi la première porte, ce qui ne restreint pas la généralité de l'exposé, la Cadillac pouvant initialement être derrière n'importe quelle porte et le choix du joueur étant guidé par le hasard uniquement. Notons \(V_i\) l'évènement la Cadillac est derrière la porte \(i\) dont la probabilité est par construction \[\forall i\in\{1,2,3\}\quad {\color{#88F}\prob(V_i)=\frac{1}{3}}\] et \(M_i\) l'évènement Monty ouvre la porte \(i\). Si l'on interprète le couple \((V_i,M_j)\) comme l'évènement La Cadillac est derrière la porte \(i\) et Monty ouvre la porte \(j\), on peut définir l'univers \(\Omega\) par l'ensemble des issues possibles, au nombre de \(4\) : \[\Omega:=\{(V_1,M_2),(V_1,M_3),(V_2,M_3),(V_3,M_2)\}.\] Puisque le joueur est supposé avoir choisi la porte \(1\) et que l'on s'intéresse aux issues qui le font gagner s'il change systématiquement de choix, on doit calculer la probabilité conditionnelle \begin{equation} {\color{orange}\prob(V_3\mid M_2)}. \end{equation} La Cadillac étant nécessairement derrière l'une des trois portes et ne pouvant être derrière deux portes à la fois, les trois évènements \begin{align*} V_1&=\{(V_1,M_2),(V_1,M_3)\},\\ V_2&=\{(V_2,M_3)\},\\ V_3&=\{(V_3,M_2)\} \end{align*} forment une partition de \(\Omega\), ce qui nous permet d'appliquer la loi des probabilités totales : \begin{equation} \label{eq:MH} \forall j\in\{1,2,3\}\quad \prob(M_j)=\sum_{i=1}^3\prob(M_j\mid V_i)\prob(V_i). \end{equation} La loi de Bayes nous donne \begin{align*} {\color{orange}\prob(V_3\mid M_2)} &=\frac{\prob(M_2\mid V_3)\,{\color{#88F}\prob(V_3)}}{\prob(M_2)}\\ &=\frac{\prob(M_2\mid V_3)\,{\color{#88F}\prob(V_3)}}{\prob(M_2\mid V_1)\,{\color{#88F}\prob(V_1)}+\prob(M_2\mid V_2)\,{\color{#88F}\prob(V_2)}+\prob(M_2\mid V_3)\,{\color{#88F}\prob(V_3)}}\quad\text{d'après (\ref{eq:MH})}. \end{align*} Il est clair que \(\prob(M_2\mid V_3)=1\) puisque Monty sait que la Cadillac est derrière la porte \(3\) et n'ouvre jamais la porte choisie par le joueur, ici la porte numéro \(1\), il ouvre donc nécessairement la deuxième porte. On a \(\prob(M_2\mid V_1)=\frac{1}{2}\) puisque dans ce cas le joueur a choisi la porte cachant la Cadillac et Marty a choisi au hasard l'une des deux autres. On a finalement \(\prob(M_2\mid V_2)=0\) puisque Marty n'ouvre jamais la porte derrière laquelle se cache la Cadillac. On obtient donc \[{\color{orange}\prob(V_3\mid M_2)}=\frac{1.{\color{#88F}\frac{1}{3}}}{\frac{1}{2}.{\color{#88F}\frac{1}{3}}+0.{\color{#88F}\frac{1}{3}}+1.{\color{#88F}\frac{1}{3}}}=\frac{2}{3}\]
L'indépendance deux-à-deux d'une famille d'évènements n'entraîne pas nécessairement l'indépendance globale. Il nous faut évidemment au moins trois évènements pour construire un contre-exemple. Considérons les \(4\) nombres à trois chiffres binaires \[000,011,101,110.\] On tire au hasard l'un de ces nombres (donc la probabilité est uniforme) et on considère les trois évènements \((U_i)_{i\in\{1,2,3\}}\) où \(U_i\) code le \(i\)-ème chiffre du nombre est un \(1\). Le modèle n'est pas difficile à établir, on considère \(\Omega=\{000,011,101,110\}\) et la probabilité uniforme. On vérifie aisément que \begin{align*} \prob(U_1)&=\prob(U_2)=\prob(U_3)=\frac{1}{2}.\\ \prob(U_1\cap U_2)&= \prob(U_1\cap U_3) = \prob(U_2\cap U_3)= \frac{1}{4}. \end{align*} par conséquent les évènements \(U_i\) sont deux-à-deux indépendants. En revanche ils ne sont pas globalement indépendants : \[\prob(U_1\cap U_2\cap U_3)=0\quad\text{mais}\quad \prob(U_1)\,\prob(U_2)\,\prob(U_3)=\left(\frac{1}{2}\right)^3=\frac{1}{8}. \]
On définit l'univers \(\Omega\) comme l'ensemble des couples \((x,y)\in\{F,G\}^2\), \(x\) désignant le premier enfant, \(y\) le second. On cherche à calculer la probabilité de l'évènement \(E\) suivant :
Les deux enfants d'une fratrie sont des garçons sachant que la fratrie comporte au moins un garçon.
Il est clair que les \(4\) évènements élémentaires \((G,G),(G,F),(F,G),(F,F)\) sont équiprobables, on a donc \begin{equation} \forall(a,b)\in\{F,G\}^2\quad \prob\big((x,y)=(a,b)\big)=\frac{1}{4}. \end{equation} Notons que par souci de simplicité, on s'est contenté d'écrire le prédicat pour décrire l'évènement, en toute rigueur il aurait fallu écrire \(\prob(\{(x,y)\in\Omega\mid(x,y)=(a,b)\})\). On veut donc calculer \begin{align*} \prob\big((x,y)=(G,G)\mid (x=G)\vee(y=G)\big)&= \frac{\prob\big((x,y)=(G,G)\big)}{\prob\big((x=G)\vee(y=G)\big)} \end{align*} Nous venons de voir que le numérateur est égal à \(\frac{1}{4}\), reste à calculer le dénominateur de cette fraction. D'après la propriété d'inclusion-exclusion \((\ref{eq:prop4})\) on a \begin{align*} \prob\big((x=G)\vee(y=G)\big) &=\prob(x=G)+\prob(y=G)-\prob\big((x=G)\wedge(y=G)\big)\\ &=\prob\big(\{(G,G),(G,F)\}\big)+\prob\big(\{(G,G),(F,G)\}\big)- \prob\big(\{(G,G)\}\big)\\ &=\frac{2}{4}+\frac{2}{4}-\frac{1}{4}\\ &=\frac{3}{4} \end{align*} Par conséquent \[\prob(E)=\frac{\frac{1}{4}}{\frac{3}{4}}=\frac{1}{3}.\]
Nous cherchons à calculer \(\prob(S_1 \mid D)\), la probabilité qu'une souris défectueuse ait été produite par la machine \(S_1\). La formule de Bayes nous donne \[ \prob(S_1 \mid D) = \frac{\prob(D \mid S_1) \prob(S_1)}{\prob(D)}, \] où \(\prob(D)\) est la probabilité qu'une souris soit défectueuse. On la calcule à l'aide de la loi de la probabilité totale appliquée à la partition \(\{S_1,\S_2\}\) de l'univers (cf. \((\ref{eq:probtotcomp})\)) : \begin{align*} \prob(D) &= \prob(D \mid S_1)\;\prob(S_1) + \prob(D \mid S_2)\;\prob(S_2)\\ &= (0,02)(0,4) + (0,03)(0,6) = 0,008 + 0,018 = 0,026. \end{align*} On peut enfin calculer \(\prob(S_1 \mid D)\) : \[ \prob(S_1 \mid D) = \frac{(0,02)(0,4)}{0,026} = \frac{0,008}{0,026} \approx 0,3077. \] La probabilité qu'une souris défectueuse ait été fabriquée par la machine \(S_1\) est d’environ \(30,77\%\).
Variables aléatoires
Introduction
Un jeu d'argent consiste à lancer un dé pour gagner \(10\)€ si le dé tombe sur la valeur \(6\) et perdre la valeur du dé en euros sinon. On s'intéresse aux gains possibles du joueur, par exemple à la probabilité qu'il gagne \(4\)€, ou encore à la somme qu'il peut espérer gagner (ou perdre) s'il joue plusieurs fois. Dans un tel contexte, ce qui nous intéresse n'est lié qu'indirectement aux résultats de l'expérience menée, ici les gains liés aux valeurs du dé. Modéliser cette expérience en considérant pour univers \(\Omega\) les valeurs entières des gains liés aux résultats du dé est envisageable mais cela détacherait le modèle de l'expérience réellement menée et le rendrait artificiel.Dans le même ordre d'idée, la somme des valeurs obtenues en lançant deux dés à \(6\) faces n'est liée à l'expérience qu'indirectement, l'espace des possibles \(\Omega:=\ab{1}{6}^2\) code manifestement mieux les issues possibles de l'expérience que l'ensemble \(\ab{2}{12}\) des différentes sommes possibles, que l'on obtiendraient plutôt à l'aide de la fonction \(S:\Omega\rightarrow\R\) définie par \(S(\omega)=\omega_1+\omega_2\) si \(\omega=(\omega_1,\omega_2)\) est une issue de l'expérience.
Il est donc préférable de construire un pont entre les issues de l'expérience aléatoire telle qu'elle est menée et les quantités qui en dépendent et qui nous intéressent en termes de probabilité. Ce pont est obtenu très naturellement à l'aide d'une application \(X:\Omega\,\rg\, E\) où l'ensemble \(E\) décrit ces quantités. Ce serait, par exemple l'ensemble des nombres réels \(E:=\R\) pour les jeux de dés que nous venons d'évoquer.
Toutes les parties \(A\subseteq{\mathscr P}(E)\) que nous considérerons dans la suite seront donc supposées mesurables, par conséquent nous pourrons toujours calculer la probabilité \(\prob(X^{-1}(A))\) notée plus simplement \(\prob(X\in A)\) ou \(\prob(X=a)\) pour un singleton \(A=\{a\}\). Les évènements de la tribu \(\tribu\) de l'espace probabilisé \((\Omega,\tribu,\prob)\) seront ainsi définis implicitement à l'aide de la v.a. \(X\). Considérons par exemple l'évènement la somme des valeurs des deux dés est paire pour l'expérience consistant à jeter deux dés à \(6\) faces et à calculer leur somme. On pose \(\Omega:=\ab{1}{6}^2\), \(\tribu={\mathscr P}(\Omega)\) et on considère la probabilité uniforme \(\prob\) sur \(\Omega\). On définit alors la v.a. \(S:\Omega\rightarrow\R\) par \(S(\omega)=\omega_1+\omega_2\) où \(\omega=(\omega_1,\omega_2)\) et on décrit cet évènement par \(S(\omega)\) est pair.
Dans ce cas, on déduit la fonction de masse \(f_X:E\rightarrow[0,1]\) de la v.a. \(X\) a posteriori en posant \(f_X(x):=\prob(X=x)\).
À première vue, on pourrait penser que cette nouvelle notion complique encore la théorie, c'est tout le contraire. Très souvent dans les problèmes que nous rencontrerons, ce sera la loi d'une v.a. qui sera au centre des questions, le passage retour par l'univers \(\Omega\) via l'image réciproque \(X^{-1}(A)\) de la partie \(A\) \[\prob(X^{-1}(A))=\prob(\{\omega\in\Omega\such X(\omega)\in A\}\] n'est là que pour justifier les écritures. Par conséquent, l'espace probabilisé \((\Omega,\tribu,\prob)\) sera souvent ignoré dans les problèmes et leur résolution, les calculs étant réalisés concrètement avec la loi de probabilité \(\prob_X\) définie sur \(E\).
Quelques lois discrètes usuelles
Loi uniforme
Nous l'avons rencontrée à maintes reprises depuis le début de ce cours, on ne fait que résumer ce que nous avons déjà étudié.
Loi de Bernoulli
La loi de Bernoulli apparaît dès que l'on modélise une expérience dont l'issue est binaire, le résultat pile ou face du lancer d'une pièce, la réussite ou non à un examen, trouver ou non une boule d'une couleur donnée dans une urne contenant des boules de deux couleurs différentes*,(*) Même si on comprend implicitement cet énoncé, il est ambigu. Les boules sont-elles de deux couleurs différentes chacune, ou sont-elles unies et il en existe de deux couleurs dans l'urne ? le test de fonctionnement d'un produit possiblement défectueux, la réussite ou l'échec d'une connexion réseau, le résultat positif ou négatif d'un test médical, etc.Il est clair que l'on peut coder ces différentes expériences avec une v.a. \(X:\Omega\,\rg\,\{0,1\}\). Les deux évènements élémentaires \(\{X=0\}\) et \(\{X=1\}\) sont appelés succès et échec respectivement.
Bien sûr, on peut remplacer l'ensemble \(\{0,1\}\) par n'importe quelle paire de valeurs pour plus de lisibilité, par exemple \(\{p,f\}\) pour le lancer d'une pièce de monnaie.
Si \(p=\frac{1}{2}\), alors la loi de Bernoulli est la loi uniforme définie sur \(\Omega=\{0,1\}\).
Loi binomiale
Un examen est constitué de \(n\) qcm proposant toutes \(r\) réponses dont une seule est correcte. Un étudiant qui n'a pas travaillé son cours de probabilité a pour stratégie de cocher au hasard l'une des \(r\) cases de chacune des questions. Sans le savoir, il répète \(n\) fois et de manière indépendante une épreuve de Bernoulli de même paramètre \(p=\frac{1}{r}\), qui est la probabilité uniforme modélisant le tirage au hasard d'une des \(r\) cases.
L'univers modélisant cette expérience est \(\Omega:=\{0,1\}^n\), chaque terme \(\omega_i\) du \(n\)-uplet binaire \(\omega=(\omega_1,\ldots,\omega_n)\) codant si oui ou non (1 ou 0 respectivement) il a coché la bonne réponse à la \(i\)-ème question. Les \(n\) v.a. \(X_i:\Omega\rg\{0,1\}\) sont tout simplement les \(n\) projections \(\text{pr}_i\) et le nombre de bonnes réponses à l'examen est décrit par la v.a. \(S:\Omega\rg\ab{0}{n}\) définie par la somme des v.a. \(X_i\) : \begin{align*} \forall\omega\in\Omega\quad S(\omega) :=\sum_{i=1}^{n}X_i(\omega) = \sum_{i=1}^{n}\omega_i. \end{align*}
Reste à calculer la fonction de masse de la v.a. \(S\), soit \(f_S(k)\) pour tout \(k\in\ab{0}{n}\), c'est-à-dire la probabilité de cocher exactement \(k\) bonnes réponses sur les \(n\) questions. Les issues \(\omega\) réalisant cet évènement sont les \(n\)-uplets binaires de poids \(k\) et les évènements élémentaires \(\{\omega\}\) associés sont équiprobables. En effet, il faut cocher \(k\) bonnes réponses et par conséquent \(n-k\) mauvaises et les \(n\) expériences individuelles étant indépendantes, l'ordre dans lequel elles sont menées n'a pas d'importance. Tout évènement de poids \(k\) a donc la même probabilité que l'évènement élémentaire \begin{equation} \label{eq:issuerangee} \{(\underbrace{1,1,\ldots,1}_{k},\underbrace{0,0,\ldots,0}_{n-k})\}. \end{equation} où les \(k\) premières réponses sont justes et les \(n-k\) dernières sont fausses. La probabilité de cocher une bonne réponse est \(p\) et par complémentarité, la probabilité de cocher une mauvaise réponse est \(1-p\). Les \(n\) évènements consistant à cocher une case d'un des \(n\) qcm étant deux-à-deux indépendants, la probabilité de l'évènement élémentaire en \((\ref{eq:issuerangee})\) est par conséquent \begin{equation*} p^k(1-p)^{n-k}. \end{equation*} Reste à dénombrer combien il y a de \(n\)-uplets binaires de poids \(p\). Ce problème a été traité maintes fois dans le chapitre Combinatoire, cela revient à déterminer le nombre de parties à \(k\) éléments dans un ensemble de \(n\) éléments, donné par le coefficient binomial \(\binom{n}{k}\) : \begin{equation} f_X(k)=\binom{n}{k}p^k(1-p)^{n-k}. \end{equation}
Par exemple, pour une épreuve de \(n=10\) questions comportant \(r=4\) choix, pour laquelle \(p=\frac{1}{4}\), la probabilité de répondre correctement à \(k=3\) questions est \[ \binom{10}{3}\left(\frac{1}{4}\right)^3\left(\frac{3}{4}\right)^7\approx 25\%. \]