Inférence bayésienne

On nomme inférence bayésienne une démarche d'acquisition de connaissance utilisant la loi de Bayes. Les probabilités n'y sont pas interprétées en tant que fréquences, mais en tant que traduction numérique d'états de connaissance (voir théorème de Cox-Jaynes).

Sommaire

Vers la certitude par l'accumulation

L'inférence bayésienne ne permet jamais d'atteindre la certitude, mais de remettre à jour en permanence le degré de plausibilité de chaque élément considéré.

Notation d'évidence (I. J. Good)

Dans la pratique, quand une probabilité est très proche de 0 ou de 1, il faut observer des éléments considérés eux-mêmes comme très improbables pour la voir se modifier. Pour mieux fixer les choses, on travaille souvent en décibels (dB), avec l'équivalence suivante :

Ev(p) = 10 log10 p/(1-p).

Une probabilité de -40 dB correspond à une probabilité de 10-4, etc. L'intérêt de cette notation, outre qu'elle évite de manier trop de décimales au voisinage de 0 et de 1, est qu'elle permet aussi de présenter la règle de Bayes sous forme additive : il faut le même poids de témoignage (weight of evidence) pour faire passer un événement d'une plausibilité de -40dB (10-4) à -30dB (10-3) que pour le faire passer de -10dB (0,1) à 0dB (0,5), ce qui n'était pas évident en gardant la représentation en probabilités. La table suivante présente quelques équivalences :

Image manquante
Bayes-EvidenceVsProbability-_François-Dominique.png
Probabilité en fonction du weight of evidence
     Probabilité        Evidence (dB)   Evidence (bits)
         0.0001           -40.0           -13.3
         0.0010           -30.0           -10.0
         0.0100           -20.0            -6.6
         0.1000            -9.5            -3.2
         0.2000            -6.0            -2.0
         0.3000            -3.7            -1.2
         0.4000            -1.8            -0.6
         0.5000             0.0             0.0
         0.6000             1.8             0.6
         0.7000             3.7             1.2
         0.8000             6.0             2.0
         0.9000             9.5             3.2
         0.9900            20.0             6.6
         0.9990            30.0            10.0
         0.9999            40.0            13.3
 

Ev est une abréviation pour weight of evidence, parfois traduit (incorrectement) en français par le mot évidence ; un sens plus conforme à la signification du mot anglais d'origine serait encore le mot à mot poids de témoignage.

On découvrit par la suite qu'Alan Turing avait déjà travaillé sur cette question en nommant les quantités correspondantes log-odds dans ses travaux personnels.

Comparaison avec la statistique classique

Différence d'esprit

Une différence entre l'inférence bayésienne et les statistiques classiques, dites aussi fréquentistes, indiquée par Myron Tribus, est que

Les bayésiens font donc le choix de modéliser leurs attentes en début de processus (quitte à réviser ce premier jugement à l'aune de l'expérience au fur et à mesure des observations), tandis que les statisticiens classiques se fixaient a priori une méthode et une hypothèse arbitraires et ne traitaient les données qu'ensuite (ce qui avait tout de même le mérite de bien alléger les calculs).

Quand utiliser l'une ou l'autre ?

Les deux approches se complètent, la statistique étant en général préférable lorsque les informations sont abondantes et d'un faible coût de collecte, la bayésienne dans le cas où elles sont rares et/ou onéreuses à rassembler. En cas de grande abondance de données, les résultats sont généralement les mêmes dans chaque méthode, la bayésienne étant simplement plus coûteuse en calcul. En revanche, la bayésienne permet de traiter des cas où la statistique ne disposerait pas d'assez de données pour qu'on puisse en appliquer les théorèmes limites.

Exemples d'inférence bayésienne : d'où vient ce biscuit ?

Imaginons deux boîtes de biscuits.

On choisit les yeux fermés une boîte au hasard, puis dans cette boîte un biscuit au hasard. Il se trouve être au chocolat. De quelle boîte a-t-il le plus de chances d'être issu, et avec quelle probabilité ? Intuitivement, on se doute que la boîte A a plus de chances d'être la bonne, mais de combien ?

La réponse exacte est donnée par le théorème de Bayes :

Notons HA la proposition « le gâteau vient de la boîte A » et HB la proposition « le gâteau vient de la boîte B ».

Si lorsqu'on a les yeux bandés les boîtes ne se distinguent que par leur nom, nous avons P(HA) = P(HB), et la somme fait 1, puisque nous avons bien choisi une boîte, soit une probabilité de 0,5. pour chaque proposition.

Notons D la phrase « le gâteau est au chocolat ». Connaissant le contenu des boîtes, nous savons que :

Résolution utilisant la notation des probabilités

La formule de Bayes nous donne donc :

\begin{matrix} P(H_A | D) &=& \frac{P(H_A) \cdot P(D | H_A)}{P(H_A) \cdot P(D | H_A) + P(H_B) \cdot P(D | H_B)} \\  \\  \ & =& \frac{0,5 \times 0,75}{0,5 \times 0,75 + 0,5 \times 0,5} \\  \\  \ & =& 0.6 \end{matrix}

Avant de regarder le gâteau, notre probabilité d'avoir choisi la boîte A était P(HA), soit 0,5.

Après l'avoir regardé, nous révisons cette probabilité à P(HA|D), qui est 0.6.

Résolution utilisant la notation weight of evidence

<! Quelqu'un maîtrise-t-il suffisamment TeX pour l'écrire ici ? !>

Références

Enseignement de l'outil

Utilisation de l'outil

Les ouvrages relatifs à l'utilisation sont plus rares pour la raison suivante : on utilise les méthodes bayésiennes là où l'information coûte cher à obtenir (prospection pétrolière, recherche de médicaments...). Ce sont dans les deux cas cités des sociétés privées (pétroliers, laboratoires pharmaceutiques...) qui les financent, et celles-ci n'ont pas vocation à donner à leurs concurrents des informations qui ont coûté cher à leurs actionnaires.

Voir aussi

See also: Inférence bayésienne, Alan Turing, Bayes, Bibliothèque publique d'information, Data mining, Décibel, Intelligence artificielle, Plan d'expérience, Rasoir d'Occam, Théorème de Bayes