Logique des prédicats, théorie des ensembles

Introduction à la théorie des ensembles

La médiathèque

Vous devez développer un moteur de recherche pour une médiathèque numérique. Un usager souhaite trouver tous les documents de la médiathèque qui parlent de robot(s) ou de chat(s), mais qui ne mentionnent pas l'intelligence artificielle. Le corpus^* Ce corpus n'a rien de réaliste. Il a été réduit ici à une poignée d'entrées afin de pouvoir être analysé à la main et de comprendre les mécanismes que nous mettrons en œuvre pour répondre à cette question. La réalité pour ce type de recherche serait plus proche de dizaines de milliers voire de millions de documents. de cette médiathèque est le suivant :

\( d_1 \) : Le chat mécanique
\( d_2 \) : Robots et intelligence artificielle
\( d_3 \) : Chiens et Chats en bande dessinée
\( d_4 \) : Intelligence artificielle et animaux
\( d_5 \) : Robots domestiques
\( d_6 \) : L’intelligence artificielle expliquée aux enfants

Avant même de concevoir un algorithme capable de répondre automatiquement à cette requête, et plus généralement à toute requête de ce type, on cherche à répondre à cette question :

Comment traduire avec précision la requête de l’usager, de manière à pouvoir automatiser la recherche des documents qui la satisfont ?

Nous reviendrons sur cette question à la fin de chapitre en proposant une formalisation rigoureuse et complète de ce problème une fois étudiés les nouveaux concepts introduits : ensembles et prédicats.

Démonstrations

Une théorie mathématique est un ensemble d'affirmations, les assertions ou propositions vraies. Une assertion peut être admise, auquel cas on parle d'axiome ou de postulat — c'est incontournable, on ne peut pas créer une théorie ex nihilo, — ou être obtenue à partir d'assertions préétablies, dont les axiomes, et d'un ensemble de règles de déduction logique (comme le modus ponens par exemple).

Une fois fixés les axiomes et les règles déductives, une théorie mathématique est parfaitement déterminée, faire des mathématiques ne consiste qu'à explorer l'arbre des déductions possibles dans cette théorie si l'on restreint la discipline à un simple jeu de construction formel. Cependant, à l’image du jeu d’échecs où, malgré des règles parfaitement définies, la pratique humaine ne se limite pas à explorer mécaniquement tous les coups possibles, mais fait appel à l’intuition, à la créativité et à la stratégie. Les mathématiciens ne se contentent pas d’appliquer systématiquement les règles, ils inventent de nouvelles méthodes, formulent des conjectures, et choisissent des directions prometteuses, ce qui dépasse largement la simple exploration automatique de l’arbre des démonstrations.

En complément de la logique propositionnelle, on enrichit le langage mathématique de symboles spécifiques à la théorie en précisant leur syntaxe et comment ils s'articulent avec la logique propositionnelle. Plus précisément, le langage de la logique des prédicats va nous permettre de construire de nouvelles propositions. Ce langage n'entre donc pas en concurrence avec celui de la logique propositionnelle, il l'englobe.

Cette vision formaliste ne doit pas faire perdre de vue que les mathématiques seraient impraticables ou pour le moins considérablement entravées si l'on s'interdisait l'usage de la langue naturelle pour s'exprimer. Autrement dit, faire des mathématiques ne peut pas se résumer à la construction d'énoncés formels qui respectent une syntaxe stricte, à la manière d'un langage de programmation. Parler d'un entier naturel \(n\) pair n'est pas moins rigoureux que d'écrire \(n\in\N\) et que \(n\) satisfait la proposition suivante \begin{equation} \label{eq:entierpair} \exists k\ \ (k\in\N) \wedge (n={\color{#FF8}2}k). \end{equation} La proposition \((\ref{eq:entierpair})\) — si elle est incompréhensible du lecteur à ce stade, elle ne devrait plus l'être à la fin du chapitre —, est en revanche bien plus efficace s'il faut démontrer que le carré d'un entier pair est pair. En effet, si \(n\) est pair, on dispose d'après \((\ref{eq:entierpair})\) d'un entier naturel \(k\) tel que \(n=2k.\) On démontre alors que les trois implications suivantes sont vraies grâce aux propriétés des opérations en arithmétique : \begin{align*} \boxed{n={\color{#FF8}2}k}\ &\then\ n^2=({\color{#FF8}2}k)^2 \quad&&\text{(on élève au carré)}\\ n^2=({\color{#FF8}2}k)^2\ &\then\ n^2=4k^2\quad&&(\text{car}\ (ab)^2=a^2b^2)\\ n^2=4k^2\ &\then\ \boxed{n^2={\color{#FF8}2}(2k^2)}\quad&&\text{(on met \(2\) en facteur)}. \end{align*} Et la transitivité de l'implication nous donne \begin{equation} \label{eq:endproof} (n={\color{#FF8}2}k)\ \then\ (n^2={\color{#FF8}2}(\underbrace{2k^2}_K)). \end{equation} En supposant que \(n=2k\) et après quelques déductions logiques, on a pu construire l'entier \(K:=2k^2\) tel que \(n^2=2K\), prouvant ainsi grâce à la règle du modus ponens appliquée à l'implication \((\ref{eq:endproof})\), que si \(n\) est pair, son carré l'est aussi.

Le langage mathématique est un outil extrêmement puissant pour exprimer des concepts et les manipuler en les objectivants, mais en aucun cas les mathématiques ne sauraient être réduites à un langage. Les langages naturels permettent d'écrire des chefs d'œuvre de la littérature, mais ne sont que des moyens d'exprimer la pensée.

Il est intéressant de noter que sur le terrain du langage, la mathématique et l'informatique font en quelque sorte chemin inverse. La nécessité d'un cadre rigoureux pour raisonner a contraint les mathématiciens à s'éloigner de la langue naturelle en développant un langage de plus en plus formel et astreignant, alors que les informaticiens cherchent au contraire à développer des langages de programmation de plus en plus proches de la langue naturelle. Un langage de programmation est en quelque sorte un langage mathématique idéalisé, ne serait-ce que du point de vue lexical et syntaxique, les codeurs en font la douloureuse expérience au quotidien, la moindre erreur est immédiatement sanctionnée.

On rappelle la définition introduite au chapitre précédent :

Une séquence de déductions logiques permettant d'établir de nouvelles assertions à partir d'assertions déjà acquises — initialement les axiomes — s'appelle une démonstration ou une preuve.

Une nouvelle assertion obtenue par déduction est appelée théorème, ou lemme si le résultat est une étape importante pour l'obtention d'un théorème, ou parfois proposition* au sens de cette définition et non pas d'une formule de la logique propositionnelle., ou encore corollaire lorsqu'il s'agit d'une conséquence directe d'un théorème. Stricto sensu, chaque proposition intermédiaire obtenue dans une démonstration constitue un théorème, mais nous ne mettons en évidence que celles qui nous paraissent importantes, les autres restent dans l'anonymat.

Le rôle premier d'une démonstration est de valider une proposition. Elle agit comme un processus de certification qui n'explique pas nécessairement pourquoi cette proposition est vraie, mais comment. En général, on débute par la compréhension du résultat, même parcellaire, puis on tente de le valider formellement, rarement l'inverse. Parfois, l'explication est transposable en preuve, en particulier quand il s'agit d'un processus constructif.

Ce processus formel de certification peut être abscons. Il est donc essentiel, de trouver des arguments, même informels, pour comprendre pourquoi une proposition est vraie. De la même manière, un algorithme s'adresse à un être humain et explicite comment obtenir un résultat, alors que le code exécutable qui le réalise n'est plus qu'une succession d'instructions parfaitement obscures. Le lecteur peut s'en convaincre en lisant le code exécutable de n'importe quel programme compilé.

Version géométrique du théorème de Pythagore.

Les deux grand carrés à gauche et à droite dans la figure ci-dessus ont des côtés de même longueur \(A+B.\) On recompose le premier carré en déplaçant les \(4\) triangles rouges qu'il contient de manière à former deux rectangles de côtés de mesure \(A\) et \(B\). On en déduit que les aires bleues à gauche et à droite sont égales, ce qui nous permet d'obtenir le fameux théorème de Pythagore :

Le carré de l'hypothénuse \(\color{#08F}H\) d'un triangle rectangle \(ABH\) est égal à la somme des carrés des autres côtés \(\color{#08F}A\) et \(\color{#08F}B\) : \[{\color{#08F}H^2}={\color{#08F}A^2+B^2}.\]

On considère un triangle \(ABC\) rectangle en \(B\) de côtés \([AB]\), \([BC]\) et d'hypothénuse \([BC]\). On rappelle que si \(\overrightarrow{u}\) et \(\overrightarrow{v}\) sont deux vecteurs du plan on a \[\overrightarrow{u}\cdot\overrightarrow{v}=\Vert\,\overrightarrow{u}\,\Vert\,\Vert\,\overrightarrow{v}\,\Vert\,\cos(\widehat{\overrightarrow{u},\overrightarrow{v}})\] où \(\cdot\) désigne le produit scalaire. On en déduit que \(\overrightarrow{u}\cdot\overrightarrow{u}=\Vert\,\overrightarrow{u}\,\Vert^2\) puisque \(\cos(\widehat{\overrightarrow{u},\overrightarrow{u}})=1\). On calcule alors \begin{align*} BC^2&=\Vert\,\overrightarrow{BC}\,\Vert^2\\ &=\Vert\,\overrightarrow{BA} + \overrightarrow{AC}\,\Vert^2\quad(\text{Chasles})\\ &=\Vert\,\overrightarrow{AC}-\overrightarrow{AB}\,\Vert^2\\ &=(\overrightarrow{AC}-\overrightarrow{AB})\cdot(\overrightarrow{AC}-\overrightarrow{AB})\\ &=\overrightarrow{AC}\cdot\overrightarrow{AC}-2\,\overrightarrow{AB}\cdot\overrightarrow{AC}+\overrightarrow{AB}\cdot\overrightarrow{AB}\quad(\text{Bilinéarité de \(\cdot\)})\\ &=\Vert\,\overrightarrow{AC}\,\Vert^2-2\,\overrightarrow{AB}\cdot\overrightarrow{AC}+\Vert\,\overrightarrow{AB}\,\Vert^2 \\ &=\Vert\,\overrightarrow{AC}\,\Vert^2+\Vert\,\overrightarrow{AB}\,\Vert^2 -2\,\Vert\,\overrightarrow{AB}\,\Vert\,\,\Vert\,\overrightarrow{AC}\,\Vert\,\,\underbrace{\cos(\widehat{\overrightarrow{AB},\overrightarrow{AC}})}_{0} \end{align*} Et finalement \(BC^2=AC^2+AB^2\) car \(\overrightarrow{AB}\perp\overrightarrow{AC}\).

La démonstration géométrique dans la figure ci-dessus est informelle mais justifie de manière compréhensible le résultat. Une preuve formelle utiliserait, par exemple, les outils de la géométrie cartésienne comme les vecteurs et le produit scalaire pour établir le résultat de manière algébrique (déplier la preuve sous le théorème).

Nous avons déjà mentionné trois méthodes communes qui sont utilisées pour faire une démonstration :

Par modus ponens. Si \(P\) et \(Q\) sont deux propositions telles que \(P\) est vraie et \(P\Rightarrow Q\) est vraie, on en déduit que la proposition \(Q\) est vraie ;
Par modus tollens (contraposition). Si \(P\) et \(Q\) sont deux propositions telles que \(P\Rightarrow Q\) est vraie et que \(\neg Q\) est vraie, on en déduit que la proposition \(\neg P\) est vraie ;
Par l'absurde. Pour démontrer qu'une proposition \(P\) est vraie, on suppose que la proposition \(\neg P\) est vraie, i.e. \(\neg P\) est un nouvel axiome de la théorie, puis on cherche une proposition \(Q\) telle que la proposition \(Q\wedge \neg Q\) est vraie, prouvant ainsi que cette théorie est contradictoire d'après le tiers exclu ce qui invalide la nouvelle théorie et disqualifie cet axiome.

Nous verrons plus loin dans ce chapitre, puis au chapitre Combinatoire, deux autres méthodes de démonstration⁥:

Par disjonction de cas.
Par récurrence.

La théorie mathématique dans laquelle nous discourons, tout au moins dans ce cours, est une axiomatisation de la théorie des ensembles développée par G. Cantor*Mathématicien allemand de la fin du 19ème siècle. à la fin du 19ème siècle, proposée par les mathématiciens allemands E. Zermelo et A. Fraenkel pour en éliminer les paradoxes. Elle est l'aboutissement de questionnements philosophiques sur la nature du raisonnement et de la construction des ensembles qui ont culminés à la charnière du xix-ème et du xx-ème siècle. Bien entendu, les mathématiciens n'ont pas attendu le xx-ème siècle et cette théorie pour faire des démonstrations. L'apparition de contradictions et de paradoxes, conséquence de manipulations sans contraintes des ensembles infinis, a mis en péril l'édifice mathématique et a nécessité d'en fixer les règles. Pour faire une métaphore routière, conduire sur les routes sans fixer quelques règles de circulation peut aboutir à des accidents.

Cette théorie identifie tous les objets manipulés à des ensembles, nombres, fonctions, relations, vecteurs, etc. Elle fournit un nombre limité d'axiomes et de règles pour justifier leur existence ou pour les construire. Elle n'est pas la théorie des ensembles, au sens défini singulier, bien que nous emploierons souvent cette expression, mais plutôt un codage (au sens informatique du terme) particulier et cohérent des objets qui étaient déjà utilisés en mathématiques. La plupart des axiomes expriment des propriétés qui semblent évidentes pour les ensembles tels que nous les concevons naïvement. Ils précisent dans quel cadre nous pouvons construire de nouveaux ensembles à partir de ceux que nous connaissons déjà.

L'objet de cette théorie n'est pas d'expliquer ce qu'est un ensemble, il s'agit d'un concept, mais d'établir des règles de construction afin d'éviter des paradoxes. Nous ne ferons qu'effleurer ces questions délicates dans ce cours de licence, elles seront à nouveau abordées dans un cours de calculabilité de master d'informatique. Dans la suite nous ne présenterons que les axiomes que nous utilisons intensivement, ils illustrent la démarche qui sous-tend cette théorie et dont la dimension systématique est proche de la théorie des langages en informatique.

Ensembles

Plus prosaïquement, nous concevons un ensemble comme une collection d'objets, comme un regroupement, à la manière d'un sac de billes. Cette vision informelle est non seulement légitime mais indispensable pour élaborer nos raisonnements, il est donc exclu de la sacrifier sur l'autel du formalisme, elle est suffisante pour la licence. C'est celle de Georg Cantor :

On appelle ensemble toute collection \(X\) d'objets définis et discernables. Un tel objet est appelé élément ou membre de \(X\) et on dit que l'objet appartient à \(X\) ou encore que \(X\) contient cet objet.

Les deux mots clés dans cette définition sont les mots définis et discernables. Le premier signifie que l'on doit être en mesure de dire pour tout objet s'il est un élément ou non de l'ensemble \(X.\) Le second signifie que l'on doit être en mesure de distinguer les éléments d'un ensemble. Ces deux conditions expriment qu'un ensemble est entièrement caractérisé par les éléments qu'il contient.

Les conditions définis et discernables font émerger deux relations spécifiques à la théorie des ensembles, respectivement la relation d'appartenance notée \(\in\) et la relation d'égalité notée \(=.\) La proposition \(x\) est un élément de \(X\) est codée par l'expression \begin{equation} x\in X \end{equation} et la proposition \(x\) est égal à \(y\) est codée \begin{equation} x=y \end{equation}

Rien n'empêche un ensemble d'être lui-même l'élément d'un autre ensemble. Si \(x\) et \(y\) satisfont \(x=y\), cela entraîne qu'ils sont synonymes, on peut les substituer dans n'importe quelle expression mathématique sans modifier son interprétation logique.

D'autres symboles spécifiques à la théorie des ensembles sont utilisés, en particulier l'accolade ouvrante \(\{\) et l'accolade fermante \(\}\).

Quand le nombre d'éléments qui caractérisent un ensemble \(X\) est fini — le sens précis de la finitude sera introduit plus tard —, on peut représenter cet ensemble par la liste de ses éléments délimitée par ces deux symboles respectivement. Par exemple : \begin{align} \label{eq:ens4} X=\{1,f,3,x\}. \end{align} dont les éléments sont \(1\), \(f\), \(3\) et \(x.\) Cette écriture d'un ensemble est dite en extension de \(X\).

Les deux symboles \(\{\) et \(\}\) sont chargés de sens, faire l'accolade est synonyme d'embrasser et ceci désigne l'action qui consiste à entourer quelque chose ou quelqu'un avec ses bras, ce que représentent explicitement ces symboles.

Comme un ensemble est entièrement déterminé par ses éléments, les répétitions éventuelles d'un même élément dans l'écriture en extension d'un ensemble sont redondantes, ainsi \[\{a,a,b,a,c\}=\{a,b,c\}.\] Un même identificateur, \(a\) dans notre exemple, ne peut pas décrire des objets différents d'un ensemble, alors que dans une interprétation physique des ensembles, on peut y ranger plusieurs exemplaires d'un même objet, comme trois stylos bic bleus par exemple, mais s'ils sont indistinguables, ils ne sont pas pour autant égaux au sens mathématique. D'autre part, l'ordre dans lequel apparaissent les éléments d'un ensemble n'a aucune importance, par exemple : \[\{a,b,c\}=\{b,a,c\}=\{a,c,b\},\ \text{etc.}\]

Nous utiliserons deux symboles pour l'égalité, le symbole simple \(=\) et le symbole composé \(:=\) qui sont strictement synonymes du point de vue logique. Les deux points qui précèdent l'égalité ont un simple rôle sémantique dans le métalangage mathématique. Ils signifient au lecteur que le terme à gauche est défini par l'objet à droite, généralement une construction mathématique. L'égalité logique qui en découle est alors une conséquence de cette définition. Ainsi on distinguera l'assertion \(3=1+2\) de la définition \(X:=\{a,b,c\}\) qui signifie que \(X\) est l'ensemble constitué des trois objets \(a\), \(b\) et \(c\), faisant alors de \(X=\{a,b,c\}\) une nouvelle assertion. C'est une notation extrêmement commode héritée des concepteurs de langages de programmation comme le Pascal, qui ont eu l'idée inspirée de distinguer l'égalité de l'affectation.

Logique des prédicats

Prédicats

Nous allons étudier la logique des prédicats, dite également logique du premier ordre, dans le cadre de la théorie des ensembles. La démarche est similaire à celle que nous avons présentée pour la logique propositionnelle, nous commençons par étudier sa syntaxe. Contrairement à la logique propositionnelle où les variables ne peuvent prendre leurs valeurs que dans l'ensemble \(\{\top,\bot\}\), les variables de la logique des prédicats peuvent prendre leurs valeurs dans des univers quelconques, en particulier dans des ensembles dans le cadre de la théorie ZF qui nous concerne ici. De manière informelle :

Un prédicat est un énoncé contenant une ou plusieurs variables tel qu'en substituant chaque variable par une valeur choisie dans un ensemble, on obtient une proposition.

À l'instar d'une proposition, un prédicat a également une acception formelle, c'est une formule de la logique des prédicats. Un prédicat à \(q\) variables \(x_1,x_2,\ldots,x_q\) est généralement noté de manière préfixe, c'est-à-dire \(P(x_1,x_2,\ldots,x_q)\) et on dit également que \(P\) est un prédicat \(q\)-aire. Stricto sensu, conformément à la définition ci-dessus, un prédicat contient au moins une variable, sinon il s'agit d'une proposition, mais il est commode de considérer qu'une variable propositionnelle est un prédicat d'arité \(0,\) encapsulant ainsi le langage du calcul propositionnel dans le langage du calcul des prédicats.

La syntaxe des formules de la logique des prédicats hérite de la syntaxe des formules propositionnelles, mais on connecte cette fois des prédicats. Notons que si l'on se limite aux prédicats d'arité \(0\), autrement dit les propositions, on retrouve le langage du calcul propositionnel. Dans le cadre de la théorie ZF on va pouvoir composer des prédicats en enrichissant le lexique avec des ensembles et des symboles spécifiques, pour commencer \(=\), \(\in\), \(\{\) et \(\}\).

Exemples. L'expression \(x\in\{1,2\}\) est un prédicat d'une variable \(x.\) L'expression \(\neg(x\in y)\) est un prédicat à deux variables \(x\) et \(y.\) Ainsi l'expression \((x\in\{1,2\})\wedge(\neg(x\in y))\) est un nouveau prédicat à deux variables \(x\) et \(y.\) On peut, bien sûr, combiner des prédicats (au sens strict) et des propositions comme \((1=2)\then (x\in y)\) qui définit ici un prédicat à deux variables \(x\) et \(y\).

On remplace souvent l'expression \(\neg (x\in X)\) par l'expression \(x\not\in X\) et l'expression \(x\not= y\) par \(\neg(x=y).\)

On conserve la même terminologie que pour la logique propositionnelle quand on fixe la valeur d'une ou plusieurs variables d'un prédicat, il s'agit encore d'une interprétation. Notons que si une seule variable a été interprétée dans un prédicat à \(q\) variables, on dispose alors d'un prédicat à \(q-1\) variables.

Exemples. L'expression \(x\in\{1,2\}\) est un prédicat \(P(x)\) à une variable \(x\) et \(P(4)\) est une proposition qui est interprétée comme fausse. En anticipant sur l'étude de l'arithmétique, l'expression \(n\leqslant 2k\) est un prédicat \(P(n,k)\) à deux variables \(n\) et \(k\) entières, \(P(n,2)\) est le prédicat \(n\leqslant 4\) à une variable \(n\), et \(P(1,2)\) est une proposition interprétée comme vraie, alors que \(P(3,1)\) est une proposition interprétée comme fausse.

Prédicats collectivisants

La théorie des ensembles de Zermelo-Fraenkel (en condensé théorie ZF), distingue deux types de prédicats :

Prédicat collectivisant : c'est un prédicat \(P(x)\) tel que les valeurs de \(x\) pour lesquelles la proposition \(P(x)\) est vraie constituent un ensemble (on peut les collecter) noté \begin{equation} \{x {\color{steelblue}\such} P(x)\}. \end{equation} le symbole \(\color{steelblue}\such\) se lit tel que.
Prédicat non-collectivisant : c'est un prédicat \(P(x)\) tel que les valeurs \(x\) pour lesquelles la proposition \(P(x)\) est vraie ne constituent pas un ensemble.

Les axiomes de la théorie des ensembles élaborée par Zermelo et Fraenkel ont pour objet de fournir une famille de prédicats collectivisants suffisamment riche pour pouvoir coder tous les objets dont les mathématiciens ont besoin, mais en bridant la construction de nouveaux ensembles afin de ne pas créer de monstres générant des paradoxes.

De manière imagée, les axiomes et le langage de cette théorie s'apparentent à un jeu de construction dont les pièces détachées et les règles d'assemblage permettent de construire de nouveaux objets dont on peut étudier les propriétés. Pour valider cette boite de jeu, il fallait être capable de reconstruire*plus précisément coder au sens informatique du terme les objets utilisés depuis des lustres par les mathématiciens et montrer que le prix à payer pour cette restriction de mouvement constituait un gage de sécurité.

A contrario, la théorie ne fournit pas explicitement de prédicats non-collectivisants. Devraient être disqualifiés tous ceux dont les ensembles associés, s'ils existaient, permettraient d'en déduire une contradiction. Cantor ne faisait pas ce distinguo et son principe d'abstraction affirmait que tout prédicat définissait un ensemble, ce que l'on traduirait dans le langage de la théorie ZF, par tout prédicat est collectivisant.

L'application du principe de Cantor, écarté dans la théorie ZF, génère des paradoxes. Le plus célèbre d'entre eux est probablement le paradoxe de Russel * Bertrand Russel était un philosophe et mathématicien anglais et l'un des fondateurs de la logique contemporaine. Il a découvert ce paradoxe en 1901. : considérons le prédicat \(P(x)\) suivant :

\begin{equation} \label{eq:predicatRussel} \neg(x \in x). \end{equation}

Supposons que \(P(x)\) soit collectivisant en \(x.\) On dispose alors de l'ensemble

\begin{equation} \label{eq:Russel} X:=\{x\such \neg(x \in x)\}. \end{equation}

D'après la définition \((\ref{eq:Russel})\) de l'ensemble \(X\), il est clair que si \(X\in X\) alors \(X\) satisfait \(\neg(X\in X)\). En notant \(A\) la proposition \(X\in X\), on vient donc de montrer que \[(A\then\neg A)\equiv (\neg A\vee \neg A)\equiv \neg A.\] Bien sûr, si \(\neg(X \in X)\), alors l'ensemble \(X\) satisfait le prédicat \((\ref{eq:predicatRussel})\) et doit donc appartenir à \(X\), on a donc montré que \[(\neg A\then A)\equiv (A\vee A)\equiv A.\] Dans les deux cas, on a montré que \((A\wedge \neg A)\) ce qui est contradictoire.

La théorie des ensembles avait pour principal objectif de s'assurer que ce nouveau langage mathématique n'aboutirait jamais plus à des contradictions. Malheureusement le logicien autrichien Kurt Gödel a mis fin à cet espoir en démontrant en 1931 que dans toute théorie mathématique suffisamment riche pour coder l'arithmétique, il existe des propositions indécidables, c'est-à-dire qu'il n'existe aucune preuve qu'elles sont vraies ni qu'elles sont fausses dans cette théorie*Ce qui ne signifie pas que ces mêmes propositions exprimées dans une autre théorie des ensembles le resteraient. (dans le cas contraire une proposition est décidable). D'autre part une théorie mathématique ne permet pas de prouver sa propre cohérence, c'est-à-dire qu'elle ne permet pas de prouver qu'elle n'engendre pas des paradoxes.

Il faut également noter que parmi tous les prédicats non-collectivisants de la théorie ZF, tous ne génèrent pas nécessairement des paradoxes, des logiciens travaillent sur d'autres théories des ensembles moins strictes que la théorie ZF pour tenter de déverouiller des questions qui y sont indécidables.

Les conséquences des travaux de Gödel ont un impact tout aussi dévastateur en informatique, c'est ce que vous étudierez dans un cours de calculabilité.

Quantificateurs

Deux nouveaux symboles permettent de construire des propositions à l'aide d'un prédicat \(P(x)\) et des règles syntaxiques pour les composer :

Le quantificateur universel \(\forall\), qui se lit quel que soit ou pour tout, et s'utilise dans l'expression \begin{equation} \label{eq:universel0} \forall x\ {\color{#08F}P(x)} \end{equation} qui code la proposition Pout tout \(x\), la proposition \(P(x)\) est vraie.
Le quantificateur existentiel \(\exists\) qui se lit il existe, et s'utilise dans l'expression \begin{equation} \label{eq:existentiel0} \exists x\ {\color{#F80}P(x)} \end{equation} qui code la proposition Il existe \(x\) tel que la proposition \(P(x)\) est vraie. Notons qu'un tel élément n'est pas nécessairement unique.

En pratique, la variable \(x\) décrit des éléments d'un ensemble fixé \(X\), on utilise alors très souvent les deux expressions raccourcies suivantes : \begin{align} \label{eq:universel} \color{white}\forall x\in X\ \ &{\color{white} Q(x)}\ \ \equiv\ \ \forall x\ {\color{#08F}(x\in X)\then Q(x)},\\ \label{eq:existentiel} \color{white}\exists x\in X\ \ &{\color{white} Q(x)}\ \ \equiv\ \ \exists x\ {\color{#F80}(x\in X)\wedge Q(x)}. \end{align}

La première expression a été construite sur la base de l'expression \((\ref{eq:universel0})\) avec le prédicat \({\color{#08F}(x\in X)\then Q(x)}\), la seconde sur la base de l'expression \((\ref{eq:existentiel0})\) avec le prédicat \({\color{#F80}(x\in X)\wedge Q(x)}\).

Quand un quantificateur précède une variable \(x\), on dit qu'elle est quantifiée ou qu'il s'agit d'une variable liée (sous-entendu à un quantificateur). Dans ce cas, on parle également de variable muette ou anonyme au sens où elle peut être remplacée partout dans l'expression par n'importe quelle autre (qui n'est pas utilisée dans la même expression) sans en changer le sens. On peut s'en convaincre en remplaçant \(x\) par \(y\) dans les deux expressions \((\ref{eq:universel})\) et \((\ref{eq:existentiel}).\) Ces deux expressions sont donc bien des propositions et pas des prédicats. Quand une variable n'est pas quantifiée elle est dite libre. Quand toutes les variables d'une formule de la logique des prédicats sont quantifiées, la formule est dite close.

Pour se convaincre que les expressions à droite des équivalences logiques dans \((\ref{eq:universel})\) et \((\ref{eq:existentiel})\) sont bien des propositions et pas des prédicats, on peut les considérer respectivement comme des conjonctions et des disjonctions de propositions. Ainsi, le quantificateur universel (resp. existentiel) code la conjonction (resp. disjonction) des propositions obtenues pour chacune des instances de la variable quantifiée.

Par exemple \(\color{#FF8}\forall x\in\{a,b,c\}\ P(x)\) résume bien la conjonction des trois propositions \[ P(a)\wedge P(b)\wedge P(c) \] et \(\color{#FF8}\exists x\in\{1,2,3,4\}\ Q(x)\) la disjonction des quatre propositions \[ Q(1)\vee Q(2)\vee Q(3)\vee Q(4). \] Mais tout l'intérêt des écritures \(\forall x\in X\) et \(\exists x\in X\) est de pouvoir s'affranchir de la finitude de \(X\) comme dans l'expression \(\forall x\in\R.\)

Pour démontrer une proposition du type \(\forall x\in X\ \ P(x)\), on se donne un élément \(x\) quelconque de l'ensemble \(X\) et on montre que \(P(x)\) est vraie. Comme \(x\) est quelconque, il symbolise n'importe quel élément de \(X\). Ainsi si la proposition \(P(x)\) est vraie, elle l'est aussi pour tout autre élément de \(X.\)

Pour démontrer une proposition de la forme \(\forall x\in X\ \ P(x)\), on peut également décomposer l'ensemble \(X\) en parties disjointes^*une partition de l'ensemble \(X.\) et faire une démonstration adaptée pour chacune de ces parties. On parle alors de preuve par disjonction de cas, la disjonction portant sur l'appartenance de \(x\) à l'une ou l'autre des parties de \(X\).

Pour démontrer une proposition du type \(\exists x\in X\ \ P(x)\), il faut exhiber un élément particulier \(x\) de l'ensemble \(X\) tel que \(P(x)\) soit vraie, il peut d'ailleurs en exister plusieurs.

Il arrive souvent que l'on ait besoin d'exprimer l'existence d'un objet et que celui-ci est unique. On rajoute alors un point d'exclamation à la suite du quantificateur existentiel pour le signifier. La proposition \(\exists!\, x\in X\ P(x)\) est logiquement équivalente à la proposition \begin{equation} \underbrace{(\exists x\in X\ \ P(x))}_{\text{existence}}\;\wedge\;\underbrace{\Big(\forall x\in X\ \forall y\in X\ \ \big((P(x)\wedge P(y))\Rightarrow (x=y)\big)\Big)}_{\text{unicité}}. \end{equation} Le terme gauche de cette conjonction code l'existence de \(x\) et le terme droit son unicité en exprimant sous forme contraposée que deux éléments distincts \(x\) et \(y\) de l'ensemble \(X\) ne peuvent simultanément satisfaire le prédicat : \[(x\neq y)\then \neg(P(x)\wedge P(y)).\]

La négation des deux expressions \((\ref{eq:universel0})\) et \((\ref{eq:existentiel0})\) est conforme à celle des énoncés correspondants en langue naturelle : \begin{align*} \neg (\forall x\ P(x))&\equiv \exists x\ \neg P(x)\\ \neg (\exists x\ P(x))&\equiv \forall x\ \neg P(x) \end{align*} avec pour déclinaisons sur un ensemble \(X\) \begin{align} \label{eq:negA} \neg ({\color{orange}\forall x\in X\ P(x)})&\equiv {\color{green}\exists x\in X\ \neg P(x)}\\ \label{eq:negE} \neg ({\color{lightblue}\exists x\in X\ P(x)})&\equiv {\color{lightgreen}\forall x\in X\ \neg P(x)} \end{align}

Soit \(X\) est un ensemble et \(P(x)\) un prédicat de la variable \(x\) définie sur \(X.\) Démontrez les équivalences logiques \((\ref{eq:negA})\) et \((\ref{eq:negE})\).

En partant de \((\ref{eq:universel})\), on a  : \begin{align*} \neg(\forall x\in X\ \ P(x))\ &\ \equiv\neg(\forall x\ \ (x\in X)\ \Rightarrow\ P(x))\\ &\ \equiv\neg(\forall x\ \ \neg(x\in X)\ \vee\ P(x))\\ &\ \equiv\exists x\ \ (x\in X)\ \wedge\ \neg P(x)\\ \text{et finalement}\quad \neg(\forall x\in X\ \ \ P(x))&\ \equiv\ \exists x\in X\ \ \neg P(x)\\ \end{align*} De la même manière, en partant de \((\ref{eq:existentiel})\) on obtient : \begin{align*} \neg(\exists x\in X\ \ P(x))\ &\ \equiv \neg(\exists x\ (x\in X)\wedge P(x))\\ &\ \equiv \forall x\ \neg((x\in X)\wedge P(x))\\ &\ \equiv \forall x\ \neg(x\in X)\vee \neg P(x)\\ &\ \equiv \forall x\ (x\in X)\Rightarrow \neg P(x)\\ \text{et finalement}\quad \neg(\exists x\in X\ \ P(x))\ &\ \equiv\ \forall x\in X\ \ \neg P(x)\\ \end{align*}

Illustrons l'équivalence logique \((\ref{eq:negA})\) en langue naturelle en supposant que \(X\) désigne l'ensemble des étudiants qui suivent ce cours de mathématiques et \(P(x)\) le prédicat dont l'interprétation est \(P(x)\) est vrai si et seulement si l'étudiant \(x\) comprend le cours. La négation de la proposition

Tous les étudiants qui suivent ce cours le comprennent

est possiblement Il existe un étudiant qui suit ce cours et ne le comprend pas plutôt que Tous les étudiants qui suivent ce cours ne le comprennent pas qui peut prêter à interprétation, veut-on signifier qu'aucun étudiant ne comprend le cours ou que certains étudiants ne le comprennent pas ? Et l'ambiguïté des langues naturelles ne s'arrête pas là, le mot un induit souvent l'unicité, il est donc préférable d'exprimer la négation par

Il existe au moins un étudiant qui suit ce cours et qui ne le comprend pas

Ainsi, quand on veut démontrer qu'une proposition du type \(\color{orange}\forall x\in X\ \ P(X)\) est fausse, autrement dit que sa négation est vraie, il suffit d'exhiber un élément \(\color{green}x\in X\) tel que \(\color{green}\neg P(x)\), qu'on appelle un contre-exemple.

Passons à l'équivalence logique \((\ref{eq:negE}).\) La négation de la proposition

Il existe un éléphant rose

pourrait être la proposition il n'existe pas d'éléphants roses ou encore tous les éléphants ne sont pas roses, mais cette dernière laisse entendre que certains peuvent l'être mais pas tous ! Mathématiquement, on dirait quel que soit l'éléphant, celui-ci n'est pas rose ce qui s'exprime plus élégamment sous la forme

Aucun éléphant n'est rose.

Le langage mathématique ne peut laisser la place qu'à une unique interprétation. Ces différents énoncés montrent au passage que la variable \(x\) est bien muette, nous ne l'avons jamais mentionnée pour exprimer \((\ref{eq:negA})\) ou \((\ref{eq:negE})\).

La langue française est truffée de chausse-trappes, et il est très facile de faire un faux raisonnement en lui donnant l'apparence de justesse, on parle alors de sophisme (ce que ne manquent jamais de faire les politiciens) ou de paralogisme quand c'est involontaire.

Exemples : Les difficultés commencent quand on manipule des prédicats de plusieurs variables et que l'on quantifie tout ou partie de leurs variables. Par exemple, un prédicat \(P(x,y)\) dont la variable \(x\) a été quantifiée est un prédicat de la variable \(y.\) Considérons le prédicat \(P(x,y)\) défini sur deux variables réelles \(x\) et \(y\) suivant : \[x^2-y= 1\] On peut définir le prédicat \(Q(x)\) de la variable \(x\) suivant \[\exists y\in\R\quad x^2-y= 1\] et la proposition \(\forall x\in\R\ Q(x)\), soit \[\forall x\in\R\ (\exists y\in\R\quad x^2-y = 1)\] que l'on écrit souvent en omettant les parenthèses : \begin{equation}\label{eq:AE} \forall x\in\R\ \exists y\in\R\quad x^2-y = 1. \end{equation} Cette proposition est vraie. En effet, quelle que soit la valeur du nombre réel \(x\), le nombre réel \(y\) défini par \(y:=x^2-1\) satisfait l'équation de la proposition \((\ref{eq:AE}).\) Échangeons à présent les deux quantificateurs et étudions la signification de cette nouvelle proposition : \[\exists y\in\R\ \forall x\in\R\quad x^2-y = 1.\] Replaçons tout d'abord les parenthèses (ce n'est qu'une fois que ces écritures seront familières que l'on pourra s'en dispenser) : \begin{equation}\label{eq:EA} \exists y\in\R\ (\forall x\in\R\quad x^2-y = 1). \end{equation} Cette nouvelle proposition est fausse. Notons \(y_0\) un nombre réel \(y\) tel que tout nombre réel \(x\) satisfait l'égalité de la proposition \((\ref{eq:EA}).\) Si tous les nombres réels \(x\) satisfont l'égalité \((\ref{eq:EA})\) pour \(y:=y_0\), c'est le cas en particulier des nombres réels \(0\) et \(1.\) On peut donc affirmer que : \begin{align*} 0^2-y_0&=1^2-y_0 \end{align*} proposition équivalente à la proposition (prouvez le) : \begin{align*} 0=1 \end{align*} qui est fausse. Nous avons exhibé là un contre-exemple.

Il faut donc prendre garde à l'ordre des quantificateurs et en particulier replacer les parenthèses absentes si l'on doit propager une négation comme \((\ref{eq:negA})\) ou \((\ref{eq:negE})\) pour des prédicats à plusieurs variables.

On dit qu'une fonction \(f:\R\rightarrow\R\) définie sur \(\R\) est simplement continue en un point \({\color{#FF8}x}\in\R\) si la proposition suivante est satisfaite : \begin{equation} \label{eq:continuitesimple} \forall\varepsilon>0\quad\exists\delta>0\quad\forall y\in \R\quad |{\color{#FF8}x}-y|<\delta\Rightarrow |f({\color{#FF8}x})-f(y)|<\varepsilon. \end{equation} Si l'on comprend que \(|x-y|\) désigne la distance de \(x\) à \(y\), cette proposition exprime formellement l'idée que l'on peut toujours cantonner l'image \(f(y)\) dans un rayon arbitraire \(\epsilon\) autour de l'image \(f(x)\), à condition de limiter les déplacements de \(y\) autour de \(x\) dans un rayon \(\delta\) qui dépend du rayon \(\epsilon\) que l'on s'est fixé.

Dessinez le graphe de la fonction \(f\) définie par \(x\mapsto x^2-3\) et illustrez sur ce graphe la continuité ou non-continuité de cette fonction en \(x=2.\) Faites de même avec la fonction définie par \(x\mapsto 2x\) si \(x\leqslant 2\) et \(x\mapsto x\) si \(x > 2.\)

Quelle proposition doit satisfaire une fonction \(f:\R\rightarrow\R\) pour qu'elle soit simplement continue en tout point \(x\in\R\) ?

Une fonction \(f:\R\rightarrow\R\) est uniformément continue sur \(\R\) si elle satisfait la proposition :

\begin{equation} \label{eq:continuiteuniforme} \forall\varepsilon\gt 0\quad\exists\delta \gt 0\quad\forall x\in \R\quad\forall y\in \R\quad |x-y| \lt \delta\Rightarrow |f(x)-f(y)| \lt \varepsilon. \end{equation} Quelle différence remarquez-vous entre la continuité simple et la continuité uniforme ?

Écrivez la négation des deux propositions (\ref{eq:continuitesimple}) et (\ref{eq:continuiteuniforme}).

Soit \(X\) un ensemble et \(P(x)\) et \(Q(x)\) deux prédicats. Écrivez la négation des deux propositions suivantes : \begin{align*} \forall x\in X&\quad P(x)\Rightarrow Q(x),\\ \exists x\in X&\quad P(x)\Rightarrow Q(x). \end{align*}

Autre exemple : Considérons l'énoncé suivant : \(f\) est une application constante de l'ensemble des réels dans lui-même^* Nous ne verrons la définition d'une application qu'au chapitre Relations, applications, mais l'étudiant a déjà été familiarisé avec cet outil mathématique en cours d'analyse. Notons simplement que l'ensemble des applications d'un ensemble \(X\) dans un ensemble \(Y\) est noté \(Y^X\).. On peut l'exprimer plus formellement par l'application \(f\in\R^{\R}\) vérifie la proposition \begin{equation} \label{eq:marmite0} \forall (x_1,x_2)\in\R\times\R\ \ f(x_1)=f(x_2), \end{equation} que l'on condense parfois en \begin{equation*} f\in\R^\R:\quad \forall (x_1,x_2)\in\R\times\R\quad f(x_1)=f(x_2). \end{equation*}

On peut écrire une proposition équivalente à celle de l'énoncé \((\ref{eq:marmite0})\) : \begin{equation} \label{eq:marmite} {\color{#88F}\exists c\in\R}\ \ {\color{orange}\forall x\in\R}\quad f(x)=c. \end{equation}

Attention la proposition \((\ref{eq:marmite})\) n'est pas logiquement équivalente à la proposition \begin{equation} \label{eq:marmite2} {\color{orange}\forall x\in\R}\ \ {\color{#88F}\exists c\in\R}\quad f(x)=c. \end{equation}

La proposition \((\ref{eq:marmite2})\) exprime que tout nombre réel \(x\) admet une image \(c\) dans \(\R\) pour \(f\) qui dépend donc de \(x.\) Il s'agit là d'une tautologie, puisque cette proposition est satisfaite par toute application par définition.

La métaphore suivante devrait aider à le comprendre. Considérons l'expression française Toute marmite a son couvercle. En notant \(M\) l'ensemble des marmites, \(C\) l'ensemble des couvercles et \(P(m,c)\) le prédicat à deux variables dont l'interprétation est \(P(m,c)\) est vrai si et seulement si le couvercle \(c\) est adapté à la marmite \(m\), la proposition suivante a exactement la même structure que celle de la proposition \((\ref{eq:marmite2})\) : \begin{equation*} {\color{orange}\forall m\in M}\ \ {\color{#88F}\exists c\in C}\quad P(m,c). \end{equation*}

Il est évident que le couvercle \(c\) dépend de la marmite \(m\) considérée. En permutant les quantificateurs, la proposition \begin{equation*} {\color{#88F}\exists c\in C}\ \ {\color{orange}\forall m\in M}\quad P(m,c). \end{equation*} exprime qu'il existe un couvercle qui convient à toutes les marmites, ce qui n'est bien sûr pas la même chose.

Axiomes de la théorie ZF

Nous allons à présent introduire la terminologie de base de la théorie des ensembles et définir pas-à-pas les opérations élémentaires sur les ensembles. On commence par l'inclusion.

Certains axiomes peuvent paraître déroutants tant ce qu'ils affirment paraît évident. Leur rôle est précisément d'intégrer ces évidences, ou ces résultats qui nous semblent naturels dans la théorie. Cela sous-entend souvent que l'on ne peut pas établir ces résultats autrement.

L'axiome d'extension

En théorie des ensembles, le symbole d’égalité « = » est un symbole logique primitif dont le rôle est d’exprimer la possibilité de remplacer un terme par un autre dans toute formule sans modifier sa valeur de vérité, mais elle ne dit rien sur ce que signifie, pour des ensembles, d'être égaux. Nous devons donc préciser ce que cette égalité logique représente.

Soit \(X\) et \(Y\) deux ensembles. On dit que \(X\) est inclus dans \(Y\) ou que \(X\) est une partie de \(Y\) ou encore que \(X\) est un sous-ensemble de \(Y\), ce que l'on note \(X\subseteq Y\) ou \(Y\supseteq X\) si et seulement si \begin{equation*} \forall x\quad x\in X\then x\in Y. \end{equation*}

Attention aux confusions possibles à cause des différences d'acception d'un mot en langue naturelle et en mathématiques. En français, l'inclusion est synonyme d'appartenance, alors que l'inclusion \(\subseteq\) et l'appartenance \(\in\) ne signifient pas la même chose en théorie des ensembles.

On note commodément \(X\not\subseteq Y\) plutôt que \(\neg(X\subseteq Y).\) Dans la proposition \(X\) est une partie de \(Y\), il n'y a plus mention de la variable \(x\) présente dans son homologue formalisée \(\forall x\ \ x\in X\then x\in Y\), elle est donc bien muette.

L'axiome d'extension exprime que deux ensembles sont égaux si et seulement s'ils ont exactement les mêmes éléments. Il relie la notion logique d’égalité (pure substitution) à la conception mathématique de l’égalité entre ensembles (égalité des contenus). Il permet ainsi d’interpréter correctement le symbole « \(=\) » dans le cadre de la théorie ZF.

Soit \(X,Y\) deux ensembles. Alors \(X=Y\) si et seulement si \begin{equation} \label{eq:egaliteensembles} (X\subseteq Y)\wedge (Y\subseteq X). \end{equation}

C'est cet axiome que l'on applique quand on veut démontrer que deux ensembles \(X\) et \(Y\) sont égaux, on parle souvent de la double inclusion. Cela consiste à se donner un élément quelconque \(x\in X\) et à démontrer qu'il appartient à l'ensemble \(Y\), puis à démontrer la réciproque.

L'axiome de la paire

Si l'on dispose de deux objets \(a\) et \(b\), l'axiome de la paire assure l'existence de l'ensemble constitué de ces deux objets.

Soit \(a\) et \(b\) deux objets. Le prédicat \((x=a)\vee(x=b)\) est collectivisant en \(x.\) L'ensemble des éléments qui le satisfont est noté \(\{a,b\}\), \[\{a,b\}=\{x\such (x=a)\vee(x=b)\}.\] Il est appelé paire \(\{a,b\}\).

Dans le cas où \(a=b\), la paire \(\{a,b\}\) est réduite à \(\{a\}\), on l'appelle singleton \(a.\) L'axiome de la paire nous permet de considérer un ensemble avec deux objets et c'est grâce à cet axiome et à l'axiome de la réunion plus loin, que l'on peut définir l'écriture en extension d'un ensemble.

L'axiome de sélection

L'axiome de sélection (ou axiome de compréhension ou encore axiome de séparation) est déjà bien connu du lecteur après le cours de mathématiques générales, il est utilisé en permanence. C'est la restriction du principe d'abstraction de Cantor, tout prédicat \(P(x)\) définit un ensemble, à condition que les objets \(x\) qui vérifient \(P(x)\) soient sélectionnés dans un ensemble préexistant :

Soit \(X\) un ensemble et \(P(x)\) un prédicat. Le prédicat \((x\in X)\wedge P(x)\) est collectivisant en \(x.\) L'ensemble des éléments \(x\) de \(X\) tels que \(P(x)\) est vrai est noté \begin{equation} \label{eq:compr} \{x\in X\such P(x)\}. \end{equation}

On peut donc collecter les éléments d'un ensemble \(X\) qui satisfont un prédicat quelconque \(P(x).\) Il est clair qu'il s'agit d'un sous-ensemble de \(X.\) Ainsi, cet axiome est inoffensif, il ne permet pas de créer un ensemble trop gros. L'écriture \((\ref{eq:compr})\) d'un ensemble est dite écriture en compréhension de l'ensemble, ses éléments sont décrits via une propriété qu'ils satisfont. De manière imagée, on peut interpréter \((\ref{eq:compr})\) comme le résultat d'une pêche au filet, \(X\) désigne la zone de pêche et le prédicat \(P(x)\) les caractéristiques du poisson à retenir dans le filet.

Nous verrons une autre écriture très commode des ensembles en compréhension une fois étudié les fonctions.

L'axiome de la réunion

Cet axiome exprime simplement que si l'on dispose de plusieurs ensembles, on peut considérer l'ensemble qui contient tous leurs éléments.

Soit \(Y\) un ensemble. Le prédicat \(\exists X\ (X\in Y)\wedge(x\in X)\) est collectivisant en \(x.\) Il existe donc un ensemble qui contient tous les éléments appartenant aux éléments de \(Y.\) On l'appelle réunion de \(Y\) et on le note \begin{equation}\label{eq:union} \displaystyle\bigcup_{X\in Y}X \end{equation}

Quand l'ensemble \(X=\{A,B\}\) est une paire d'ensembles, sa réunion est notée \(A\cup B.\) C'est grâce à l'axiome de la réunion et à l'axiome de la paire que l'on a pu construire l'ensemble \((\ref{eq:ens4})\), c'est la réunion des paires \(\{1,f\}\) et \(\{3,x\}.\) La réunion de l'ensemble \(\{\{a\},\{a,b,d\},\{a,c\},\{b,d\}\}\) est l'ensemble \(\{a,b,c,d\}.\)

Soit \(X\) un ensemble. L'ensemble \(\{x\in X\such x\not= x\}\) existe et ne dépend pas de \(X.\) On l'appelle l'ensemble vide et on le note \(\varnothing\).

À un ensemble \(X\) on associe l'ensemble \(\varnothing_X:=\{x\in X\such x\not=x\}\) qui formalise l'idée naïve qu'il ne contient aucun élément (aucun élément de l'ensemble \(X\) ne satisfait le prédicat \(x\not=x\)). Nous allons montrer que cet ensemble ne dépend pas de \(X.\) Considérons un autre ensemble \(Y\). D'après l'axiome de la paire, on peut définir la paire \(\{X,Y\}\) puis l'ensemble \(U:=X\cup Y\) d'après l'axiome de réunion. Soit \(P(x)\) le prédicat \(\neg (x=x).\) L'axiome de sélection permet de construire les deux ensembles \(\{x\in X\such P(x)\}\) et \(\{x\in Y\such P(x)\}.\) La proposition \[\forall x\in U\quad x\in X \Rightarrow x\in Y\] est vraie puisque \(x\in X\) est fausse, on a donc montré que \(X\subseteq Y\) et il suffit d'échanger le rôle de \(X\) et \(Y\) pour obtenir \(Y\subseteq X.\) Nous venons donc de démontrer que ces deux ensembles sont égaux (cf. axiome d'extension).

Soit \(P(x)\) un prédicat quelconque. En se souvenant de (\ref{eq:universel}) et (\ref{eq:existentiel}), on comprend pourquoi la proposition \(\forall x\in\varnothing\ P(x)\) est une tautologie qui affirme que tout élément de l'ensemble vide satisfait le prédicat \(P(x)\) (on rappelle que \(\bot\then A\) est toujours vrai) et la proposition \(\exists x\in\varnothing\ P(x)\) est une antilogie qui affirme qu'aucun élément de l'ensemble vide ne satisfait le prédicat \(P(x)\).

Soit \(X\) et \(Y\) deux ensembles. La différence entre les ensembles \(X\) et \(Y\) est l'ensemble \(\{x\in X\such x\not\in Y\}\) noté \(X\setminus Y.\) Si de plus \(Y\subseteq X\), alors \(X\setminus Y\) est appelé complémentaire de \(Y\) dans \(X\).

On note parfois \(\complement_XY\) le complémentaire de \(Y\) dans \(X\) ou encore \(\overline{Y}\) si le contexte discursif établit clairement quel est l'ensemble de référence \(X\).

Exemples : \(X\setminus X=\varnothing\) et \(X\setminus\varnothing=X\) ou encore \(\{a,b\}\setminus\{a\}=\{b\}.\)

Soit \(X\) et \(Y\) deux ensembles. L'intersection des ensembles \(X\) et \(Y\) est l'ensemble \(\{x\in (X\cup Y)\such (x\in X)\wedge (x\in Y)\}.\) On le note \(X\cap Y\).

Deux ensembles \(X\) et \(Y\) dont l'intersection \(X\cap Y=\varnothing\) est vide sont dits disjoints. En particulier l'ensemble vide est disjoint de tout ensemble \(X.\) On note parfois la réunion de deux ensembles disjoints \(A\sqcup B.\) L'intersection d'un ensemble d'ensembles à la manière de la réunion d'un ensemble sera définie au chapitre prochain. La différence symétrique entre deux ensembles \(X\) et \(Y\) est l'ensemble \((X\cup Y)\setminus(X\cap Y)\), on le note \(X\;\Delta\;Y\).

Pour aider à la compréhension, on représente parfois les opérations ensemblistes à l'aide d'un diagramme de Venn.* John Venn était un mathématicien anglais du début du 20-ème siècle Les ensembles sont représentés sous forme de cercles ou de patates qui se chevauchent. Vous pouvez visualiser le résultat des différentes opérations ensemblistes en les survolant ci-dessous :

L'axiome des parties

L'axiome des parties* nettement moins inoffensif que l'axiome de sélection permet de considérer l'ensemble dont les éléments sont tous les sous-ensembles de \(X.\) Nous verrons au chapitre Combinatoire qu'il est considérablement plus grand que \(X\).

Soit \(X\) un ensemble. Le prédicat \(Y\subseteq X\) est collectivisant en \(Y.\) Il existe donc un ensemble noté \(\def\P={\mathscr P}\P(X)\) tel que \begin{equation} \P(X)=\{Y \such Y\subseteq X\} \end{equation} Cet ensemble est appelé ensemble des parties de \(X\).

L'ensemble vide est une partie de tout ensemble \(X\) puisque \(x\in\varnothing\then x\in X\) est une proposition vraie puisque \(x\in\varnothing\) est fausse. Un ensemble est bien sûr inclus dans lui-même, par conséquent l'ensemble des parties d'un ensemble \(X\) contient toujours la partie vide \(\varnothing\) et l'ensemble \(X.\) Par exemple si \(X=\{a,b,c\}\), on a \[\P(X)=\{\varnothing,\{a\},\{b\},\{c\},\{a,b\},\{a,c\},\{b,c\},X\}.\] D'autre part, l'ensemble des parties de l'ensemble vide \(\P(\varnothing)=\{\varnothing\}\) qui n'est pas l'ensemble vide puisqu'il contient l'élément \(\varnothing\).

L'ordre dans lequel nous écrivons les éléments d'un ensemble en extension n'a pas d'importance, la paire \(\{x,y\}\) est donc égale à la paire \(\{y,x\}.\) Comment définir un nouvel objet mathématique similaire à une paire mais pour lequel l'ordre dans lequel on écrit les deux objets a une importance ? On admettra le résultat suivant.

Soit \(x\) et \(y\) deux objets. La paire \(\{\{x\},\{x,y\}\}\) est appelée couple \(x\), \(y\) noté \((x,y).\) Soit \(X\) et \(Y\) deux ensembles. L'ensemble des couples \((x,y)\) tels que \(x\in X\) et \(y\in Y\) existe, on le note \(X\times Y\) et on l'appelle produit cartésien de \(X\) et \(Y.\) Si \(c=(x,y)\), on définit \(\text{pr}_1(c):=x\) et \(\text{pr}_2(c):=y\) appelés première projection et deuxième projection de \(c\) respectivement.

Il est aisé de vérifier que deux couples sont égaux si et seulement si leurs projections respectives sont égales (cf. exercice suivant). Par conséquent on dispose d'un objet mathématique \((x,y)\) qui répond à notre besoin : il contient deux objets \(x\) et \(y\) et l'ordre dans lequel ils apparaissent est important, i.e. \((x,y)\neq(y,x)\). On peut bien sûr imaginer d'autres constructions ensemblistes pour définir un objet similaire. Il faut être conscient qu'il ne s'agit que d'un simple codage et que maintenant que ce nouvel objet élémentaire a intégré notre arsenal, on peut oublier l'échaffaudage qui a permis sa construction.

Un ensemble \(G\) de couples est appelé graphe. On définit respectivement la première et la deuxième projection d'un graphe \(G\) : \begin{align*} \text{pr}_1(G)&:=\{\text{pr}_1(c)\such c\in G\}=\{x\such \exists (x,y)\in G\}\\ \text{pr}_2(G)&:=\{\text{pr}_2(c)\such c\in G\}=\{y\such \exists (x,y)\in G\}. \end{align*}

On peut facilement généraliser la notion de couple à la notion de \(n\)-uplet \((x_1,x_2,\ldots,x_n)\) en posant* Nous verrons au chapitre 3 la définition de l'écriture indicielle \(x_i\) parachutée par endroit depuis le début de ce cours. \begin{equation} (x_1,x_2,\ldots,x_n):=\{\{x_1\},\{x_1,x_2\},\ldots,\{x_1,x_2,\ldots,x_n\}\}. \end{equation} en utilisant inductivement l'axiome de la paire et l'axiome de la réunion puis en définissant le produit cartésien de \(n\) ensembles \(X_1, X_2,\ldots,X_n\) par \begin{equation} X_1\times X_2\times\cdots\times X_n:=\{(x_1,x_2,\ldots,x_n)\such \forall i\in\{1,\ldots,n\}\ x_i\in X_i\}. \end{equation} On définit alors la \(i\)-ème projection \(\text{pr}_i\) pour tout \(i\in\{1,\ldots,n\}\) et un ensemble \(G\) de \(n\)-uplets est qualifié de \(n\)-graphe.

Nous verrons qu'on peut définir les \(n\)-uplets de manière plus simple et plus générale à l'aide des familles d'éléments d'un ensemble, introduites au chapitre consacré aux relations. Il ne faut pas s'étonner que plusieurs constructions d'un objet mathématique puissent coexister. Ne pas perdre de vue que la théorie des ensembles est avant tout une proposition de codage cohérent des outils mathématiques. À l'instar d'un langage de programmation qui nous permet de coder des objets complexes à l'aide de combinaisons d'objets élémentaires parfois différentes, il est possible de coder des outils mathématiques de plusieurs façons.

Si \(x\) et \(y\) désignent deux objets, démontrez que \((x,y)=(x',y')\Rightarrow (x=x')\wedge(y=y').\)

À partir de l'ensemble vide \(\varnothing\), on peut construire inductivement les ensembles ci-dessous en définissant chaque nouvel ensemble à l'aide du précédent \(X\) par la réunion \(X\cup\{X\}\) :

\begin{equation} \begin{matrix} \varnothing & {\color{#FF8}\{\varnothing\}} &{\color{orange}\{\varnothing,{\color{#FF8}\{\varnothing\}}\}} &\{\varnothing,\{\varnothing\},{\color{orange}\{\varnothing,{\color{#FF8}\{\varnothing\}}\}}\} &\cdots\\ \{\,\}& \{0\}&\{0,1\}&\{0,1,2\}&\cdots\\ 0 & 1 & 2 & 3 &\cdots \end{matrix} \end{equation}

Cette ingénieuse construction assure que chaque ensemble est contenu dans le suivant, mimant ainsi grâce à l'inclusion \(\subseteq\) ensembliste l'ordre naturel sur les entiers \(\leqslant.\) On identifie l'ensemble vide à \(0\) et chaque nouvel ensemble construit est identifié au nombre entier suivant (c'est le cardinal de l'ensemble en question). On code ainsi les entiers naturels tels qu'on les connaissait avant la théorie des ensembles les uns après les autres. Ce codage des entiers naturels en théorie des ensembles est dû au mathématicien John Von Neumann. L'axiome de l'infini assure que l'ensemble de tous ces ensembles existe, autrement dit que l'ensemble \(\N\) existe. Nous le retrouverons au chapitre Combinatoire.

L'axiome du choix

Un dernier axiome, et nous achèverons là cette introduction à la théorie des ensembles, l'axiome du choix. Cet axiome nous autorise à extraire un élément de notre choix de chaque ensemble d'une famille d'ensembles pour en faire un ensemble, une sorte de menu à la carte. Cet axiome peut être intégré ou non dans la théorie des ensembles, si c'est le cas elle est appelée théorie zfc.

Soit \((X_i)_{i\in I}\) une famille d'ensembles. Il existe une fonction de choix \begin{equation*} f:I\;\rg\;\bigcup_{i\in I}X_i \end{equation*} telle que \(\forall i\in I\ f(i)\in X_i\).

Exprimez formellement les énoncés suivants ainsi que la négation des propositions qu'ils contiennent :

\(f\) est l'application identité du plan réel dans lui-même.
\(f\) est une application du plan réel dans lui-même qui admet un point fixe.
\(f\) est une application de l'ensemble des réels dans lui-même et l'équation \(f(x)=0\) admet une unique solution.
\(f\) et \(g\) sont des applications de l'ensemble des réels dans lui-même \(f\) n'est pas inférieure à \(g.\)
\(f\) est une application paire de l'ensemble des réels dans lui-même.
\(f\) est une application paire de l'ensemble des réels dans lui-même strictement décroissante.
\((u_n)_{n\in\N}\) est une suite réelle bornée.
\((u_n)_{n\in\N}\) est une suite réelle croissante.
\((u_n)_{n\in\N}\) est une suite réelle constante à partir d'un certain rang.
\((u_n)_{n\in\N}\) est une suite réelle périodique.
\((u_n)_{n\in\N}\) est une suite réelle ultimement périodique.

Comme tous les énoncés en langue naturelle, il peut y avoir des ambiguïtés donnant lieu à des interprétations différentes, et par conséquent à différentes formalisations. Dans chacun des différents énoncés, il est implicite que l'on s'intéresse à un objet appartenant à un ensemble particulier et qui vérifie une certaine propriété.
Dans ce cas, pour le premier énoncé \(f\) est l'application identité du plan réel dans lui-même, on écrirait que \(f\in{(\R\times\R)}^{\R\times\R}\) et que cette application satisfait la proposition \[\forall(x,y)\in\R\times\R\ f((x,y))=(x,y)\] ce que l'on condense parfois en une expression (informelle) \begin{equation*} f\in{(\R\times\R)}^{\R\times\R}:\ \forall(x,y)\in\R\times\R\ f((x,y))=(x,y). \end{equation*} en séparant la donnée de l'énoncé de la propriété qu'elle satisfait.
On a donc avec les abus de langage usuels : \begin{align*} &(1) & f\in{(\R^2)}^{\R^2} :\quad & \forall (x,y)\in\R^2\ \ f(x,y)=(x,y)\\ &(2) & f\in{(\R^2)}^{\R^2} :\quad & \exists (x,y)\in\R^2\ \ f(x,y)=(x,y)\\ &(3) & f\in{\R}^{\R} :\quad & \exists! x\in\R\ \ f(x)=0\\ &(4) & (f,g)\in({\R}^{\R})^2 :\quad & \forall x\in\R\ \ f(x) > g(x)\\ &(5) & f\in{\R}^{\R} :\quad & \forall x\in\R\ \ f(x)=f(-x)\\ &(6) & f\in{\R}^{\R} :\quad & (\forall x\in\R\ \ f(x)=f(-x))\wedge (\forall (x,y)\in\R^2\ \ x \leqslant y \Rightarrow f(x)\leqslant f(y))\\ &(7) & (u_n)_{n\in\N}\in{\R}^{\N} :\quad & \exists B\in\R\ \forall x\in\R\ \ f(x)\leqslant B\\ &(8) & (u_n)_{n\in\N}\in{\R}^{\N} :\quad & \forall (n,m)\in\N^2\ \ n\leqslant m \Rightarrow u_n\leqslant u_m\\ &(9) & (u_n)_{n\in\N}\in{\R}^{\N} :\quad & \exists N\in\N\ \exists c\in\R\ \forall n\in\N\ \ n > N \Rightarrow u_n=c\\ &(10) & (u_n)_{n\in\N}\in{\R}^{\N} :\quad & \exists k\in\N\ \forall n\in\N\ \ u_{n+k}=u_n\\&(10) & (u_n)_{n\in\N}\in{\R}^{\N} :\quad & \exists k\in\N\ \forall n\in\N\ \ u_{n+k}=u_n\\ &(11) & (u_n)_{n\in\N}\in{\R}^{\N} :\quad & \exists k\in\N\ \exists N\in\N\ \forall n\in\N\ \ n\geqslant N\then u_{n+k}=u_n\\ \end{align*}

Comme nous l'avions déjà évoqué dans le chapitre précédent, la structure d'un texte mathématique est une simple alternance de définitions et de théorèmes. Ce cours n'y échappe pas, on a simplement inclus des commentaires au sein de cette litanie pour en saisir les tenants et les aboutissants. À ce stade, il est donc essentiel de comprendre la structuration archétypale d'une définition et d'un théorème.

Pour une définition d'un nouvel objet mathématique, on commence par établir la liste des objets (les ingrédients) qui entrent en jeu dans sa composition que l'on complète souvent par une proposition qui doit être satisfaite par cette construction.

Pour un théorème, on commence par la liste des objets invoqués dans une proposition appelée hypothèse, que ces objets sont supposés satisfaire, puis on fournit la conclusion qui est une nouvelle proposition que ces objets satisfont comme conséquence de l'hypothèse.

Formalisation

Réponse à la question du problème de la médiathèque

On rappelle qu'il s'agit d'étudier comment automatiser la recherche de documents qui satisfont la requête suivante dans une médiathèque : trouver tous les documents qui parlent de robot(s) ou de chat(s)*l’extraction des termes a permis de regrouper les variantes lexicales "robot" / "robots" ou encore "chat" / "chats" sous un même descripteur normalisé., mais qui ne mentionnent pas l'intelligence artificielle.

Le corpus \(\mathscr D\) de cette médiathèque est le suivant :

\( d_1 \) : Le chat mécanique
\( d_2 \) : Robots et intelligence artificielle
\( d_3 \) : Chats et robots en bande dessinée
\( d_4 \) : Intelligence artificielle et animaux
\( d_5 \) : Robot domestique
\( d_6 \) : L’intelligence artificielle expliquée aux enfants

Définition des prédicats

On définit trois prédicats d'une variable \(d\) représentant un document avec les interprétations suivantes :

\( R(d) \) : le document \(d\) contient le mot robot
\( C(d) \) : le document \(d\) contient le mot chat
\( I(d) \) : le document \(d\) contient les termes intelligence artificielle

La requête exprimée par l’usager se traduit par le prédicat \(P(d)\) suivant sur le corpus \({\mathscr D}\) de documents de la médiathèque :

\[ P(d):\equiv(R(d) \vee C(d)) \wedge \neg I(d). \] et le sous-ensemble \({\mathscr D}(P)\) du corpus \({\mathscr D}\) de documents satisfaisant la requête \(P\) est donné par (via l'axiome de sélection) \[ {\mathscr D}(P)=\left\{d\in{\mathscr D}\such (\,R(d) \vee C(d)\,) \wedge \neg I(d)\right\}. \]

Calcul

Le travail à fournir se traduit relève à présent de simples opérations ensemblistes

\(d\)	\(R(d)\)	\(C(d)\)	\(I(d)\)	\(P(d)\)
\( d_1 \)	❌	✅	❌	✅
\( d_2 \)	✅	❌	✅	❌
\( d_3 \)	✅	✅	❌	✅
\( d_4 \)	❌	✅	✅	❌
\( d_5 \)	✅	❌	❌	✅
\( d_6 \)	❌	❌	✅	❌

Interprétation des prédicats

Trois documents correspondent finalement à la requête \(P\) : \[ {\mathscr D}(P)=\{d_1,d_3,d_5\} \]

Perspectives d'automatisation du processus

Bien sûr, on est encore loin de pouvoir réaliser toutes ces opérations automatiquement. Comment sont indexés les termes clefs des documents ? Peut-on traduire automatiquement une requête en langue naturelle sous forme prédicative ? etc.

L’évaluation du prédicat \(P(d)\) sur le corpus \(\mathscr{D}\) repose sur un traitement algorithmique qui peut être schématiquement décomposé en plusieurs étapes :

Indexation du corpus : Cette phase est réalisée au préalable pour tous les documents du corpus qui sont enrichis de descripteurs (les tag) sur lesquels les requêtes vont réellement opérer. Cette opération peut être réalisée manuellement par un professionnel à chaque nouveau document abondant le corpus. Pour des raisons évidentes, ce travail est désormais réalisé automatiquement, en particulier par des algorithmes de traitement des langues naturelles.
Traduction de la requête : Lorsqu’une requête est soumise par l’utilisateur (sous forme textuelle), elle est tout d’abord transformée en une formule logique sur les prédicats correspondant aux descripteurs indexés (par exemple ici : \(P(d) \equiv (R(d) \vee C(d)) \wedge \neg I(d)\)). Cette traduction peut être réalisée manuellement pour des requêtes simples, ou bien automatiquement grâce à un analyseur syntaxique ou un parseur de requêtes, qui identifie les opérateurs logiques (et, ou, non) et les entités lexicales à relier aux tags du système.
Filtrage du corpus : La requête logique ainsi obtenue est ensuite évaluée sur les descripteurs associés à chaque document. Cette étape consiste à appliquer la combinaison booléenne aux tags présents, sans nécessiter de lire à nouveau le contenu complet des documents. Les documents satisfaisant la requête sont alors extraits et restitués à l’utilisateur.

D’un point de vue calculatoire, cette procédure peut s’exprimer de façon élémentaire en Python sous la forme suivante :

  # 1. Indexation du corpus
  index = {
     "d1": {"chat"},
     "d2": {"robot", "intelligence_artificielle"},
     "d3": {"robot", "chat"},
     "d4": {"intelligence_artificielle", "chat"},
     "d5": {"robot"},
     "d6": {"intelligence_artificielle"}
  }

  # 2. Traduction de la requête
  def Predicat(d):
     tags = index[d]
     return ("robot" in tags or "chat" in tags) and ("intelligence_artificielle" not in tags)

  # 3. Filtrage du corpus
  resultats = [d for d in index if P(d)]

  print(resultats)

Le résultat produit ici est :

  ['d1', 'd3', 'd5']

Ce qui correspond exactement à l’ensemble \({\mathscr D}(P)\).

Dans des systèmes de recherche documentaire de grande taille, ces opérations sont optimisées via :

l’utilisation d’index inversés, qui associent à chaque mot-clé la liste des documents où il apparaît ;
des algorithmes booléens permettant une évaluation rapide de la requête sans nécessité de parcourir intégralement tous les documents ;
des arbres de requêtes qui permettent de composer dynamiquement des requêtes complexes.

L’exemple présenté ici illustre une version très simplifiée, mais conceptuellement fidèle aux principes sous-jacents des moteurs de recherche documentaires.

Le Sudoku

Le calcul des prédicats permet de modéliser certains problèmes de manière beaucoup plus concise et expressive que le calcul propositionnel, notamment en évitant la prolifération des variables lorsque les domaines de valeurs sont importants. Revenons sur le jeu du Sudoku introduit dans le chapitre précédent. On rappelle qu'il faut compléter les cases vierges d'une grille de \(9\times 9\) cases avec des valeurs comprises entre 1 et 9 de manière à ce que chacun des \(27\) blocs de \(9\) cases contienne exactement ces \(9\) valeurs, c'est-à-dire :

1 : Chaque ligne doit contenir exactement chacune des 9 valeurs 1 à 9 ;
2 : Chaque colonne doit contenir exactement chacune des 9 valeurs 1 à 9 ;
3 : Chaque région \(3 \times 3\) doit contenir exactement chacune des 9 valeurs 1 à 9.

Les valeurs déjà présentes dans la grille, ont été choisies de manière à ce qu'il n'existe qu'une seule façon de compléter la grille, et le jeu consiste à les trouver. La grille ci-dessous est un exemple de grille à résoudre.

La formalisation du problème du Sudoku se fait avec un langage adapté. Les constantes sont les \(9\) valeurs de l'ensemble \({\mathscr C}:=\{1,2,3,\ldots,9\}\) et on considère des prédicats \(S(l,c,n)\) à trois variables dans l'ensemble \(\def\CC{{\mathscr C}}\CC\) avec l'interprétation suivante :

\(S(l,c,n)\) est vrai si et seulement si la case à la ligne d'indice \(l\) et à la colonne d'indice \(c\) contient la valeur \(n.\)

C'est bien plus économique que la logique propositionnelle avec laquelle il fallait définir une variable propositionnelle pour chaque valeur possible dans chaque case, soit \(9\times 9\times 9=729\) variables.

On traduit le fait que chaque case contient exactement une valeur par les deux propositions suivantes (la première pour exprimer au moins une valeur, la seconde pour au plus une valeur) :

\begin{align*} &{\color{#88F}\forall (l,c)}\in\CC^2\ {\color{orange}\exists n}\in\CC\quad S(l,c,n),\\ &{\color{#88F}\forall (l,c)}\in\CC^2\ {\color{#FF8}\forall(n,n')}\in\CC^2\quad S(l,c,n)\wedge S(l,c,n')\then {\color{#FF8}n=n'}. \end{align*}

La partie des règles R1 et R2 disant que chaque nombre apparaît une seule fois par ligne et par colonne s'exprime respectivement par les deux propositions suivantes :

\begin{align*} &\forall n\in\CC\ \forall l\in\CC\ \forall(c,c')\in\CC^2\quad S(l,c,n)\wedge S(l,c',n)\then c=c',\\ &\forall n\in\CC\ \forall c\in\CC\ \forall (l,l')\in\CC^2\quad S(l,c,n)\wedge S(l,c,n)\then l=l'. \end{align*}

Pour la partie de la règle R3 disant que chaque nombre apparaît au plus une fois par région, c'est un peu plus complexe car les sous-grilles \(3\times 3\) ne sont pas aisément adressables par des indices séparés. On peut régler ce problème de bien des manières. Par exemple en introduisant une fonction auxiliaire \(r:\CC^2\rightarrow\CC\) qui à chaque couple \((l,c)\) associe le numéro de la région où se trouve la case à la ligne \(l\) et à la colonne \(c\), en numérotant les régions de \(1\) à \(9\) dans l'ordre de lecture par exemple. On aurait alors \begin{align*} &\forall (l,l',c,c',n)\in\CC^5\quad S(l,c,n)\wedge S(l',c',n)\wedge r(l,c)=r(l',c')\then (l,c)=(l',c'). \end{align*}

Chacun des \(24\) indices fournis dans la grille au départ se traduit par une instanciation \(S(l,c,n) = V\) pour la valeur \(n\) affectée à la ligne \(l\) et la colonne \(c\), par exemple ici \(S(2,5,2)=V\) ou encore \(S(3,7,5)=V\).

La théorie de la démonstration et l'intelligence artificielle développent des techniques pour répondre à des problèmes de cette nature en formalisant le langage du raisonnement. Le langage Prolog dont la première version est parue en 1972 (et qui est toujours disponible), a été l'un des précurseurs sur la résolution de problèmes logiques en logique des prédicats.

On cherche à placer \(8\) reines sur un échiquier sans qu'elles ne se mettent en échec. En vous inspirant de la formalisation du Sudoku, formalisez le problème des huit reines à l'aide de la logique des prédicats.

Travaux pratiques

Nano tutoriel Python-UNIX à imprimer/lire/conserver.

L'objectif de ces travaux pratiques est de réaliser un script qui lit une grille de Sudoku codée dans un fichier texte et tente de la compléter. Les indices dans la grille sont codés par les caractères 1 à 9 et les cases vides dont les valeurs sont à découvrir sont codées par le symbole point. Cliquez pour télécharger ce fichier exemple dans le répertoire où vous écrirez votre script.

Lecture de fichier. Découpage de chaîne. Ensembles Python

Pour lire le contenu d'un fichier, il faut tout d'abord créer un fichier logique en l'associant à un fichier physique pour une lecture (read). C'est la fonction open qui réalise cette opération. Le nom du fichier et le mode d'accès à ce fichier (ici en lecture) sont codés par des chaînes de caractères. On récupère ensuite très facilement le contenu du fichier en créant la liste des chaînes de caractères constituées par chacune des lignes du fichier, grâce à la méthode readlines(), puis on ferme^*En réalité, on indique au système que l'accès à ce fichier est de nouveau libre. le fichier avec la méthode close(). Testez le script ci-dessous qui demande à l'utilisateur le nom d'un fichier (saisissez le nom du fichier dans lequel vous aurez copié ce script par exemple), et renvoie la liste des chaînes de caractères correspondant aux lignes de votre fichier :

def LireFichier(nom_du_fichier_physique):
    fichier_logique = open(nom_du_fichier_physique,"r")
    liste_des_lignes = fichier_logique.readlines()
    fichier_logique.close()
    return liste_des_lignes

nomfichier = input("Fichier à lire ? ")
lignes = LireFichier(nomfichier)
print(lignes)

Testez ce script sur ce fichier qu'il faut enregistrer dans le même dossier. Le terminal va afficher

 ['une premiere ligne\n', 'une deuxieme ligne\n', 'et enfin une troisieme\n']

Le dernier caractère de chaque chaîne de caractères de la liste est le caractère invisible retour charriot \n puisqu'il est présent à la fin de chaque ligne d'un fichier texte. On peut s'en débarrasser à l'aide de la méthode rstrip(), qui élimine tous les caractères de type espacement à la fin d'une chaîne de caractères. La boucle suivante

for ligne in lignes:
  print(ligne.rstrip())

avec la liste lignes créée précédemment, affichera

une premiere ligne
une deuxieme ligne
et enfin une troisieme

On peut découper une chaîne de caractères chaine suivant un chaîne séparatrice grâce à la méthode chaine.split(sep) qui renvoie la liste des sous-chaînes séparées par cette chaîne séparatrice. Par exemple, l'exécution des instructions

chaine = "maths:en:folie"
print(chaine.split(":"))

affiche la liste

["maths","en","folie"]

Sans paramètre, la chaîne séparatrice pour l'appel chaine.split() est le caractère d'espacement.

En combinant la lecture du fichier, le retrait du retour charriot, le découpage des chaînes et l'écriture en compréhension des listes, la fonction suivante a pour paramètre le nom d'un fichier contenant une grille de Sudoku et renvoie la liste des 9 listes contenant les 9 valeurs de la grille :

def LireGrille(nom_fichier_grille):
    fichier_grille = open(nom_fichier_grille,"r")
    grille = [(ligne.rstrip()).split() for ligne in fichier_grille.readlines()]
    fichier.close()
    return grille

La procédure suivante permet d'afficher une grille en mettant en évidence les 9 régions :

def AfficherGrille(grille):
    for l in range(9):
        if (l > 0) and ((l% 3) == 0):
            print(" ------+-------+------")
        for c in range(9):
            if (c > 0) and ((c % 3)  == 0):
                print(" |", end="")
            print((grille[l][c]).rjust(2), end="")
        print()

La syntaxe des ensembles Python est la même qu'en mathématiques, {a,b} est la paire constituée de a et de b. Malheureusement l'initialisation d'un ensemble \(X\) à l'ensemble vide qui devrait s'écrire naturellement X = {} n'est pas possible car elle est déjà utilisée pour créer un dictionnaire vide, il faut écrire X = set(). On rajoute un élément x à un ensemble X à l'aide de l'appel à la méthode X.add(x). On retire un élément x d'un ensemble X à l'aide de l'appel à la méthode X.discard(x). Les opérations ensemblistes de réunion, d'intersection, de différence, de différence symétrique sont codées respectivement |, &, -, ^ en Python.

Exemple : {a,c} | {a,b,d} est l'ensemble {a,b,c,d} et {a,c} & {a,b,d} est le singleton {a}.

En séance

Vérifiez que la procédure AfficherGrille(grille) affiche la grille fournie comme suit (Elle affichera un . à la place du ? qui ne sert qu'à illustrer la question 4) :

  9 . . | . 7 . | 3 . .
  . 1 5 | . 2 . | . 4 6
  . . 8 | 6 . . | 2 5 .
  ------+-------+------
  4 6 ? | 1 8 2 | . . .
  . 7 9 | . . . | 8 3 .
  . . . | 9 3 7 | . 6 2
  ------+-------+------
  . 3 7 | . . 1 | 5 . .
  1 8 . | . 5 . | 6 9 .
  . . 4 | . 6 . | . . 3

En guise d'introduction à la manipulation des ensembles, on considère les ensembles suivants :

cinema = {"Alice", "Benoît", "Claire", "David"}
sport = {"Benoît", "Bob", "Claire", "Emma", "Farid"}
musique = {"Alice", "Farid", "Tom", "Claire"}

Écrivez les expressions Python qui affichent :

qui participe à au moins une activité ?
qui participe à toutes les activités ?
qui fait du sport mais pas de musique ?
qui fait du sport ou de la musique, mais pas les deux ?
qui fait exactement une activité ?

Pourquoi print((cinema ^ sport) ^ musique) ne répond pas à la question 5 ?

Écrivez une fonction Inconnues(grille) qui renvoie le tuple des coordonnées des cases de la grille passée en paramètre qui ne sont pas des indices.

Écrivez les deux fonctions LibreL(ligne) et LibreC(colonne) qui renvoient respectivement l'ensemble des valeurs encore libres sur la ligne et la colonne. Pour la grille de l'exemple à la ligne d'indice 3 et la colonne d'indice 2 (on numérote à partir de 0) marquée par un point d'interrogation, ces deux fonctions renvoient respectivement les ensembles {3,5,7,9} et {1,2,3,6}.

Écrivez une fonction LibreR(ligne, colonne) qui renvoie l'ensemble des valeurs encore libres dans la région qui contient la case en (ligne,colonne). Pour la même case de coordonnées (3,2) de la question précédente, la fonction renvoie l'ensemble {1,2,3,5,8}. Indication : pour pouvoir parcourir toutes les cases de cette région, partez des coordonnées de celle dans son angle supérieur gauche obtenues à l'aide de divisions euclidiennes.

Écrivez la fonction Libre(ligne, colonne), qui renvoie l'ensemble des valeurs encore libres dans la case de coordonnées (ligne,colonne) à l'aide des trois fonctions précédentes. Pour la grille de l'exemple et la case de coordonnées (3,2), la fonction renvoie l'ensemble \[{\color{#FF8}\{3\}}=\{3,5,7,9\}\cap\{1,2,3,6\}\cap\{1,2,3,5,8\}.\]

Écrivez une fonction MAJ(grille), qui met à jour toutes les cases de coordonnées (ligne,colonne) pour lesquelles la fonction Libre a renvoyé un singleton— signifiant qu'une seule valeur y est possible — en remplaçant la valeur inconnue par celle contenue dans ce singleton. La fonction devra renvoyer un booléen indiquant s'il y a eu ou non une ou des valeurs dévoilées dans la grille.

Compléments hors séance

Écrivez une fonction Completer(grille), qui utilise les fonctions précédentes pour tenter de compléter la grille de Sudoku passée en paramètre et qui recommence tant que de nouvelles valeurs sont dévoilées. Testez votre script sur l'exemple ci-dessus ainsi que celui donné dans le cours.

La procédure de complétion proposée jusqu’ici suppose qu’à chaque itération, au moins une nouvelle case peut être remplie de manière certaine, c’est-à-dire que l'ensemble de ses possibilités est réduit à un seul élément. Cependant, certaines grilles de Sudoku nécessitent d’envisager plusieurs hypothèses successives et de revenir en arrière en cas d’erreur :

  . 2 . | . 7 . | 3 . .
  . . . | . 3 8 | 9 1 .
  . . . | . 5 . | . . .
  ------+-------+------
  . . . | . . . | . . .
  . 3 4 | 5 6 . | . . .
  . . . | . . . | . . .
  ------+-------+------
  . 9 2 | . . . | . . .
  . . . | . 9 7 | 1 . .
  . . . | . . . | . . 3

Testez votre code sur le sudoku ci-dessus. Vérifiez que sur cette grille, pour chacune des cases encore indéterminées, l’ensemble des valeurs possibles contient au moins deux éléments. Expliquez comment l'on pourrait procéder pour poursuivre la résolution de cette grille.