Mathématiques pour l'informatique - CHAPITRE 6'. Probabilités continues

Comment modéliser l'observation de l'expérience aléatoire un oiseau se pose sur un cable électrique tendu entre deux poteaux, si l'on suppose qu'il ne privilégie aucune position sur ce cable ? On aimerait pouvoir exprimer qu'on tire au hasard un nombre \(x\) dans l'intervalle \([0,1]\subset\R\) codant respectivement la position de l'oiseau sur le segment de cable, chaque position \(x\) ayant la même probabilité ? Nous avons vu que c'est impossible parce que \(X(\Omega)=[0,1]\) est un ensemble infini et non-dénombrable, les évènements élémentaires \(\{x\}\) sont nécessairement de masse nulle.

Considérons une loi de probabilité discrète, par exemple la loi binomiale de paramètres \((n,p)\) et traçons l'histogramme de sa fonction de masse ainsi que la courbe affine par morceaux qui passe par le milieu de chacun de ses segments supérieurs. Observons l'évolution de ce graphique quand on fait croître \(n\) en gardant la touche ↑ de votre clavier enfoncée pour \(n\) :

Nous savons que la loi de probabilité d'une v.a. discrète \(X\) est entièrement caractérisée par une fonction de masse \(f_X\) qui doit satisfaire \begin{equation} \label{eq:somega} \sum_{x\in X(\Omega)}f_X(x)=1. \end{equation} Cette identité se traduit sur l'histogramme par la somme des aires des rectangles = 1. En passant progressivement du discret au continu, comme nous venons de le faire ci-dessus, ces rectangles, de plus en plus étroits, deviennent des segments verticaux de surface nulle à la limite, illustrant que la probabilité d'un évènement élémentaire \(\{x\}\) dans un espace continu est nécessairement nulle.

La courbe affine par morceaux relie les points de coordonnées \(M_{-}:=(0,0)\) puis les points \( M_k := (k + \frac{1}{2}, p_k)\) pour \(k\in\ab{0}{n}, \) et enfin le point \(M_{+}:=(n+1,0)\). si l'on translate la courbe de \(-\frac{1}{2}\), sa surface reste évidemment identique, mais les translatés \(T_k=(k,p_k)\) des \(M_k\) coïncident cette fois avec les angles supérieurs gauche des rectangles constituant l'histogramme. Chaque trapèze sous la courbe formé par les segments successifs de cette courbe affine par morceaux a pour surface celle d'un rectangle plus ou moins celle d'un triangle rectangle selon que la courbe est croissante (\(p_{k+1} \gt p_k\)) ou non (\(p_{k+1} \lt p_k\)). On vérifie alors aisément que \begin{align*} A &=\frac{p_0}{2}+\frac{p_n}{2} + \sum_{k=0}^{n-1}\left({\color{olive}p_k} +{\color{purple}\frac{(p_{k+1}-p_k)}{2}}\right)\\ &=\frac{p_0}{2}+\frac{p_n}{2} + \sum_{k=0}^{n-1}{\color{olive}p_k} + \sum_{k=0}^{n-1} \left({\color{purple}\frac{p_{k+1}}{2}-\frac{p_k}{2}}\right)\\ &=\frac{p_0}{2}+\frac{p_n}{2} + \left(\sum_{k=0}^{n-1}{\color{olive}p_k}\right) + \left(-\frac{p_0}{2}+\frac{p_n}{2}\right)\\ &= \sum_{k=0}^np_k\\ &=1. \end{align*}

Observons une portion de la courbe entre deux abscisses distinctes \(a \lt b\) à la limite. Si les rectangles de cette portion sont de largeur nulle et donc de surface totale nulle, la surface sous la courbe entre \(a\) et \(b\) n'est pas nulle pour autant ! L'apparente incohérence est simplement due au fait qu'en passant du discret au continu, il faut changer d'instrument de mesure : pour récupérer l'eau sur la surface du sol trempé d'un couloir, le rateau \(\Sigma\) ne fait pas l'affaire, il ne récolte rien, en revanche la raclette \(\int\) fonctionne très bien.

Si l'égalité \((\ref{eq:somega})\) n'est plus conservée à la limite, on peut néanmoins définir la probabilité de l'évènement \(\{\omega\in\Omega\such a\leqslant X(\omega)\leqslant b\}\) comme la surface sous la courbe délimitée par l'axe des abscisses et les droites d'équations \(x=a\) et \(x=b\) : \begin{equation*} \def\d#1{\text{d}{#1}}\prob(a\leqslant X\leqslant b)={\color{steelblue}\int_a^bf_X(x)\d{x}}. \end{equation*}

Densité de probabilité

L'intégrale ici s'entend pour la mesure de Lebesgue qui a le bon goût de coïncider avec celle que nous utilisons au quotidien quand nous mesurons la longueur d'un pantalon, la surface d'une pièce ou le volume d'une piscine. L'outil intégral parvient à combler les trous entre les valeurs discrètes pour agréger une infinité de quantités de limites nulles, ce qui est inaccessible à l'outil somme discrète qui doit se contenter d'additionner des valeurs nulles pour obtenir une valeur nulle.

Le passage au continu permet de considérer des fonctions de densité qui ne sont pas nécessairement bornées par la valeur \(1\), puisque \(f(x)>1\) n'empêche pas l'égalité \((\ref{eq:densite1})\) d'être satisfaite. Par conséquent la valeur \(f_X(x)\) n'est pas une probabilité, contrairement au cas discret.

Le premier exemple de loi de densité de probabilité est précisément la loi de densité uniforme qui généralise la loi de probabilité uniforme discrète. On considère un intervalle \([a,b]\) et on veut que la probabilité d'un sous-intervalle \([c,d]\) soit proportionnelle à sa longueur \(d-c\). On considère donc une fonction de densité constante — deux intervalles quelconques de même longueur ont même probabilité — autrement dit : \begin{equation*} \exists \lambda\in\R^+\ \forall x\in[a,b]\quad f(x)=\lambda. \end{equation*} La condition \((\ref{eq:densite1})\) nous permet d'écrire \begin{equation*} \int_{a}^{b}\lambda\,\d{x}=1\ \then\ \lambda\,[x]_a^b=1. \end{equation*} Et donc \(\lambda(b-a)=1\), autrement dit \(\lambda=\frac{1}{b-a}\). Finalement la densité de probabilité uniforme est définie par \begin{equation} f(x):=\begin{cases} \frac{1}{b-a}&\text{si}\ x\in[a,b],\\ 0&\text{sinon}. \end{cases} \end{equation} Ce que l'on exprime plus simplement à l'aide de la fonction indicatrice de l'intervalle \([a,b]\) : \begin{equation} f(x):=\frac{1}{b-a}\indic{[a,b]}(x). \end{equation} La courbe représentative de la densité de probabilité uniforme est un plateau de largeur \(b-a\) de hauteur \(\frac{1}{b-a}\) :

On peut à présent formaliser notre problème d'oiseau sur un cable. Plutôt que d'exprimer la probabilité d'une position, il suffit de s'en tenir à un intervalle autour de cette position, ce qui n'est pas très gênant puisqu'on peut le rendre aussi petit que l'on souhaite. On peut aussi déplacer un curseur \(x\) et s'intéresser à la probabilité que l'oiseau se pose entre \(a\) et \(x\), donc dans l'intervalle \([a,x]\) :

On retrouve les mêmes notions de moyenne, écart type, etc. pour une v.a. continue.

Soit \(X\) une v.a. de fonction de densité \(f_X\). On dit que \(X\) possède une espérance \(\esp(X)\) si l'intégrale \(\int_{\R}|x|f_X(x)\d{x}\) est finie, et dans ce cas \begin{equation} \esp(X):=\int_{\R}x\,f_X(x)\d{x}. \end{equation}

Fonctions de densité

Loi uniforme

La densité uniforme, comme nous l'avons vu, joue un rôle central en théorie des probabilités. Elle intervient concrètement dès que l'on souhaitée informellement de tirer une valeur au hasard, pour modéliser une erreur de mesure quand on a une précision limitée, pour générer des clefs dans les protocoles cryptographiques, pour modéliser le temps d'arrivée d'un bus qui circule à intervalle régulier, etc.

Soit \((a,b)\in\R^2\) avec \(a \lt b\). On appelle loi uniforme de paramètre \([a,b]\), la loi d'une v.a. \(X\) à valeur dans \([a,b]\) de fonction de densité \begin{equation} f_X(x)=\frac{1}{b-a}\indic{[a,b]}(x). \end{equation} On écrit \(X\sim{\mathscr U}(a,b)\).

loi exponentielle

La loi exponentielle peut être vue comme limite de la loi de distribution géométrique, elle décrit formellement le temps d'attente entre deux évènements imprévisibles, une panne électrique, la durée de vie d'une ampoule, le temps entre deux tempêtes, le temps d'attente avant un nouveau client à un guichet, le temps d'attente entre deux appels à un centre téléphonique, etc.

Soit \(\lambda\in\R^+\). On appelle loi exponentielle de paramètre \(\lambda\), la loi d'une v.a. \(X\) à valeur dans \(\R\) de fonction de densité \begin{equation} f_X(x)=\lambda e^{-\lambda\,x}\indic{[0,+\infty[}(x). \end{equation} On écrit \(X\sim{\mathscr E}(\lambda)\).

Comme nous l'avions évoqué plus haut, la fonction de densité \(f_X\) n'est pas une probabilité. La fonction de densité exponentielle est clairement décroissante et son maximum \(\lambda\) est atteint en \(x=0\). Par conséquent \({\color{red}f_X(0)} > {\color{yellow}1}\) dès que \(\lambda > 1\).

loi normale

La loi normale est certainement la loi de densité la plus importante, à la fois pour des raisons théoriques et pratiques. Le théorème central limite, que nous n'étudierons pas en 1ère année, dit en substance que la moyenne d'un grand nombre de variables aléatoires indépendantes et de même loi suit une loi normale, quelle que soit la loi suivie par ces variables. Autrement dit, si l'on répète assez longtemps une expérience de même nature, peu importe sa loi de densité ou loi discrète, son comportement moyen suit asymptotiquement la loi normale.

La courbe représentative de la loi normale est la très célèbre courbe en cloche, ou gaussienne pour les intimes. On peut montrer qu'elle est la limite de la loi binomiale discrète, c'est exactement ce que nous avons visualisé lors de l'expérience réalisée en introduction de cette section.

Soit \(\lambda\in\R^+\). On appelle loi normale de paramètres \((\mu,\sigma^2)\), la loi d'une v.a. \(X\) à valeur dans \(\R\) de fonction de densité \begin{equation} f_X(x)=\frac{1}{\sigma\sqrt{2\pi}}\exp(-\frac{(x-\mu)^2}{2\sigma^2}). \end{equation} On écrit \(X\sim{\mathscr N}(\mu,\sigma^2)\).

On montre aisément que la moyenne et l'écart-type d'une v.a. qui suit une loi normale de paramètres \((\mu,\sigma^2)\) sont respectivement \(\mu\) et \(\sigma\). Autrement dit \(\sigma^2\) est la variance.

Loi conjointe, loi marginale, probabilité conditionnelle

Les notions de lois conjointes et marginales se généralisent dans le cas où les v.a. \(X\) et \(Y\) sont continues, la fonction de masse est remplacée par une loi densité de probabilité conjointe \(f_{X,Y}\) qui doit satisfaire : \begin{equation} \int_{\R^2}f_{X,Y}(x,y)\;\d{x}\,\d{y} = 1 \end{equation} Et on a alors \begin{equation} \prob(a\leqslant X\leqslant b,c\leqslant Y\leqslant d)=\int_{a}^{b}\!\!\!\int_{c}^{d}f_{X,Y}\;\d{x}\,\d{y}. \end{equation}

On retrouve les lois marginales : \begin{align*} f_X(x)&=\int_{-\infty}^{+\infty}f_{X,Y}(x,y)\,\d{y},\\ f_Y(y)&=\int_{-\infty}^{+\infty}f_{X,Y}(x,y)\,\d{x}. \end{align*}

Si \(f_X(x) \gt 0\), la densité conditionnelle de \(Y\) sachant \(X=x\) et la densité conditionnelle de \(X\) sachant \(Y=y\) respectivement par \begin{align*} f_{Y|X}(y|x)&= \frac{f_{X,Y}(x,y)}{f_X(x)},\\ f_{X|Y}(x|y)&= \frac{f_{X,Y}(x,y)}{f_Y(x)}. \end{align*}

Dans le cas où les v.a. \(X\) et \(Y\) sont discrètes, on peut écrire \[ \prob(X=x\such Y=y)=\frac{f_{X,Y}(x,y)}{f_Y(y)} \] ce que l'on ne peut pas transposer directement dans le cas continu puisque la probabilité d'un évènement élémentaire \(\prob(Y=y)\) est toujours nulle. On passe alors par la loi de densité de \(X\) pour calculer la probabilité d'un évènement \(A\) : \begin{equation*} \prob(A\such Y=y):=\int_Af_{X|Y}(x|y)\,\d{x}. \end{equation*} et on peut alors calculer \begin{equation} \prob(A) =\int_{-\infty}^{+\infty}\!\!\!\prob(A\such Y=y)f_Y(y)\,\d{y} =\int_{-\infty}^{+\infty}\!\!\!\int_Af_{X|Y}(x|y)\,f_Y(y)\;\d{x}\,\d{y}. \end{equation}

Application à la galette des rois

Problème

On se propose d'étudier la probabilité de couper une fève dans une galette des rois circulaire coupée en parts égales. Une modélisation fidèle à l'expérience réelle serait particulièrement ardue, on en donnera une version simplifiée.

Une vraie fève en forme de haricot devrait être modélisée par un volume correspondant. Il faudrait alors étudier le secteur délimité par les deux tangentes à sa projection dans le plan de la galette, ce qui dépend à la fois de la distance de la fève au centre, mais également de l'orientation de la fève dans l'espace. Il faudrait également intégrer l'imprécision de la coupe, en effet, il est difficile de faire partir la pointe du couteau du centre réel* au sens de \(\R\) et de couper le long d'une droite du plan euclidien.

Modélisation géométrique

On suppose que la galette et la fève sont des disques de rayons respectifs \(1\) et \(r\in\;]0,\frac{1}{2}]\). On place un repère orthonormé de manière à ce que la galette soit centrée en \(O=(0,0)\) et que le centre \(F=(x,0)\) de la fève soit situé sur l'axe des abscisses à distance \(x\) de \(O\).

On cherche donc à calculer la probabilité de rencontrer la fève en coupant la galette en \(p\geqslant 2\) parts égales, chaque coupe traçant un rayon du disque. Pour rencontrer la fève, le couteau doit donc couper le secteur circulaire \(S\) délimité par le centre \(O\) de la galette et les deux rayons tangents à la fève. On note \(\theta(x)\) l'angle de l'arc formé par ces deux tangentes à la fève.

L'animation ci-dessous illustre le rôle des différentes variables impliquées dans la résolution de ce problème et les résultats des calculs menés plus loin sont résumés sous le graphique :

Calcul de la probabilité

Une tangente à la fève passant par \(O\) est perpendiculaire au rayon \([FT]\) de la fève où \(T\) est le point tangent. Le triangle \(OTF\) est donc rectangle en \(T\). Il a pour hypothénuse \(x\) et le côté opposé à l'angle \(\frac{\theta(x)}{2}\) a pour longueur \(r=x\sin\left(\theta(x)/2\right)\), d'où \begin{equation} \boxed{\theta(x)=2\,\arcsin\left(r/x\right)} \end{equation}

Pour ne pas couper la fève à coup sûr, le secteur rouge d'angle \(\theta(x)\) doit être inscrit dans celui formé par une part de galette d'angle \(2\pi/p\). Il faut donc que \(2\arcsin\left(r/x\right) \lt 2\pi/p\), ce qui entraîne \(x\gt r / \sin\left(\pi/p\right)\). On pose \begin{equation} \label{eq:dmin} \boxed{d=r/\sin\left(\pi/p\right)} \end{equation} Pour que l'évènement couper la fève ne soit pas certain, il est donc nécessaire que \(x \gt d\).

L'expérience consiste donc à jeter au hasard une fève de rayon \(r\) dans la galette de rayon \(1\), puis à couper la galette au hasard en \(p\) parts égales. On définit la variable aléatoire \(X:\Omega\;\rg\;[0,1-r]\) par \(X(\omega)=x\). Une fois la position \(x\) de la fève fixée, c'est l'angle que fait le couteau qui détermine si la coupe ou l'une des \(p-1\) autres, traverse ou non le secteur \(\color{red}S\). Ainsi, la probabilité de l'évènement couper la fève sachant \(x\) est égale au rapport des longueurs des arcs formant le secteur et la part : \begin{equation*} \frac{\color{red}\theta(x)}{\color{lightgreen}2\left(\pi/p\right)}. \end{equation*} On a donc \begin{equation} \prob(C\such x > d, X=x)=\frac{p\,\arcsin\left(r/x\right)}{\pi}. \end{equation} Nous avons vu précédemment que \(\prob(C\such X\leqslant d)=1\), par conséquent \begin{equation} \boxed{\prob(C\such X=x)=\indic{[0,d]}(x)+\left(\frac{p\,\arcsin\left(r/x\right)}{\pi}\right)\indic{[d,1-r]}(x)} \end{equation}

Jeter la fève au hasard signifie que son centre \(F\) se retrouve sur un rayon du disque modélisant la galette, à une distance \(x\) du centre \(O\) comprise entre \(0\) et \(1-r\). La probabilité de trouver \(F\) dans une zone arbitraire du disque de rayon \(1-r\) ne dépend manifestement que de la surface de cette zone et pas de la zone elle même. D'autre part, la probabilité que \(F\) soit à une distance \(x\) du centre \(O\) est proportionnelle à la circonférence du cercle de rayon \(x\). Ainsi la loi de densité de la v.a. \(X\) satisfait : \begin{equation*} f_X(x)\;\propto\; 2\,\pi\,x. \end{equation*} Pour qu'elle soit de densité totale \(1\) sur le disque de rayon \(1-r\), il faut déterminer le coefficient \(\lambda\in\R\) tel que \(f_X(x)=2\lambda\,\pi r\) et \begin{equation*} \int_{a}^{b}f_X(x)\d{x}=1. \end{equation*} On calcule \begin{align*} \int_{0}^{1-r}2\,\lambda\,\pi x\,\d{x} =2\,\pi\,\lambda\int_{0}^{1-r}x\,\d{x} =2\,\pi\,\lambda\left[\frac{x^2}{2}\right]_{0}^{1-r} =\pi\,\lambda\,(1-r)^2. \end{align*} Il faut donc que \begin{equation*} \lambda=\frac{1}{\pi(1-r)^2} \end{equation*} On a finalement pour fonction de densité \begin{equation} \boxed{f_X(x)=\frac{2x}{(1-r)^2}} \end{equation}

Pour calculer la probabilité de couper la fève, il ne reste plus qu'à intégrer \(\prob(C\such X=x)\) par rapport à la loi \(f_X\) de densité de la v.a. \(X\) : \begin{align*} \prob(C) &= \int_0^{1-r} P(C \mid X = x) f_X(x)\,\d{x}\\ &= \int_0^{1-r} \left( \indic{[0,d]}(x) + \left( \frac{p\,\arcsin(r/x)}{\pi} \right) \indic{[d,1-r]}(x) \right) \frac{2x}{(1-r)^2}\,\d{x}\\ &= {\color{olive}\int_0^{d} \frac{2x}{(1-r)^2}\,\d{x}} + {\color{steelblue}\int_d^{1-r} \frac{p \arcsin(r / x)}{\pi} \frac{2x}{(1-r)^2}\,\d{x}} \end{align*}

Calculons ces deux intégrales séparement  : \begin{align*} {\color{olive}\int_0^{d} \frac{2x}{(1-r)^2}\,\d{x}} &= \frac{2}{(1-r)^2} \int_0^{d} x\,\d{x} = \frac{d^2}{(1-r)^2}. \end{align*} Et \begin{align*} {\color{steelblue}\int_d^{1-r} \frac{p \arcsin(r / x)}{\pi} \frac{2x}{(1-r)^2}\,\d{x}} &= \frac{2p}{\pi(1-r)^2} \int_d^{1-r} x \arcsin(r/x)\,\d{x} \end{align*} On peut alors conclure que \begin{equation*} \boxed{\prob(C)= \frac{1}{(1-r)^2} \left( d^2 + \frac{2p}{\pi} \int_d^{1-r} x \arcsin(r/x)\,\d{x} \right)} \end{equation*} L'intégrale ci-dessus n'admet pas facilement de forme explicite, il faut donc l'approximer.

Écrivez une fonction Python Integrale(f,a,b,n) qui approxime l'intégrale \begin{equation*} \int_{a}^{b}f(x)\d{x} \end{equation*} en calculant la somme des surfaces des \(n\) rectangles de même largeur \(\d{x}:=\frac{b-a}{n}\) et de hauteur \(f(a+\d{x}(i+\frac{1}{2}))\) pour \(i\in\ab{0}{n-1}\).

L'adaptation en script Python est quasi immédiate :

def Integrale(f,a,b,n):
    aire = 0
    dx = (b - a) / n
    for i in range(n):
        aire += dx * f(a + dx * (i + 0.5))
    return aire

Introduction aux probabilités continues

Du discret au continu

Introduction