Inférence bayésienne
On nomme inférence bayésienne une démarche d'acquisition de connaissance utilisant la loi de Bayes. Les probabilités n'y sont pas interprétées en tant que fréquences, mais en tant que traduction numérique d'états de connaissance (voir théorème de Cox-Jaynes).
| Sommaire |
Vers la certitude par l'accumulation
L'inférence bayésienne ne permet jamais d'atteindre la certitude, mais de remettre à jour en permanence le degré de plausibilité de chaque élément considéré.
Notation d'évidence (I. J. Good)
Dans la pratique, quand une probabilité est très proche de 0 ou de 1, il faut observer des éléments considérés eux-mêmes comme très improbables pour la voir se modifier. Pour mieux fixer les choses, on travaille souvent en décibels (dB), avec l'équivalence suivante :
Ev(p) = 10 log10 p/(1-p).
Une probabilité de -40 dB correspond à une probabilité de 10-4, etc. L'intérêt de cette notation, outre qu'elle évite de manier trop de décimales au voisinage de 0 et de 1, est qu'elle permet aussi de présenter la règle de Bayes sous forme additive : il faut le même poids de témoignage (weight of evidence) pour faire passer un événement d'une plausibilité de -40dB (10-4) à -30dB (10-3) que pour le faire passer de -10dB (0,1) à 0dB (0,5), ce qui n'était pas évident en gardant la représentation en probabilités. La table suivante présente quelques équivalences :
Bayes-EvidenceVsProbability-_François-Dominique.png
Probabilité Evidence (dB) Evidence (bits)
0.0001 -40.0 -13.3
0.0010 -30.0 -10.0
0.0100 -20.0 -6.6
0.1000 -9.5 -3.2
0.2000 -6.0 -2.0
0.3000 -3.7 -1.2
0.4000 -1.8 -0.6
0.5000 0.0 0.0
0.6000 1.8 0.6
0.7000 3.7 1.2
0.8000 6.0 2.0
0.9000 9.5 3.2
0.9900 20.0 6.6
0.9990 30.0 10.0
0.9999 40.0 13.3
Ev est une abréviation pour weight of evidence, parfois traduit (incorrectement) en français par le mot évidence ; un sens plus conforme à la signification du mot anglais d'origine serait encore le mot à mot poids de témoignage.
On découvrit par la suite qu'Alan Turing avait déjà travaillé sur cette question en nommant les quantités correspondantes log-odds dans ses travaux personnels.
Comparaison avec la statistique classique
Différence d'esprit
Une différence entre l'inférence bayésienne et les statistiques classiques, dites aussi fréquentistes, indiquée par Myron Tribus, est que
- les méthodes bayésiennes utilisent des méthodes impersonnelles pour mettre à jour des probabilités personnelles, dites aussi subjectives (une probabilité est en fait toujours subjective, lorsqu'on analyse ses fondements),
- les méthodes statistiques utilisent des méthodes personnelles pour traiter des fréquences impersonnelles.
Les bayésiens font donc le choix de modéliser leurs attentes en début de processus (quitte à réviser ce premier jugement à l'aune de l'expérience au fur et à mesure des observations), tandis que les statisticiens classiques se fixaient a priori une méthode et une hypothèse arbitraires et ne traitaient les données qu'ensuite (ce qui avait tout de même le mérite de bien alléger les calculs).
Quand utiliser l'une ou l'autre ?
Les deux approches se complètent, la statistique étant en général préférable lorsque les informations sont abondantes et d'un faible coût de collecte, la bayésienne dans le cas où elles sont rares et/ou onéreuses à rassembler. En cas de grande abondance de données, les résultats sont généralement les mêmes dans chaque méthode, la bayésienne étant simplement plus coûteuse en calcul. En revanche, la bayésienne permet de traiter des cas où la statistique ne disposerait pas d'assez de données pour qu'on puisse en appliquer les théorèmes limites.
Exemples d'inférence bayésienne : d'où vient ce biscuit ?
Imaginons deux boîtes de biscuits.
- L'une, A, comporte 30 biscuits au chocolat et 10 ordinaires.
- L'autre, B, en comporte 20 de chaque.
On choisit les yeux fermés une boîte au hasard, puis dans cette boîte un biscuit au hasard. Il se trouve être au chocolat. De quelle boîte a-t-il le plus de chances d'être issu, et avec quelle probabilité ? Intuitivement, on se doute que la boîte A a plus de chances d'être la bonne, mais de combien ?
La réponse exacte est donnée par le théorème de Bayes :
Notons HA la proposition « le gâteau vient de la boîte A » et HB la proposition « le gâteau vient de la boîte B ».
Si lorsqu'on a les yeux bandés les boîtes ne se distinguent que par leur nom, nous avons P(HA) = P(HB), et la somme fait 1, puisque nous avons bien choisi une boîte, soit une probabilité de 0,5. pour chaque proposition.
Notons D la phrase « le gâteau est au chocolat ». Connaissant le contenu des boîtes, nous savons que :
- P(D | HA) = 30/40 = 0,75
- P(D | HB) = 20/40 = 0,5.
Résolution utilisant la notation des probabilités
La formule de Bayes nous donne donc :
Avant de regarder le gâteau, notre probabilité d'avoir choisi la boîte A était P(HA), soit 0,5.
Après l'avoir regardé, nous révisons cette probabilité à P(HA|D), qui est 0.6.
Résolution utilisant la notation weight of evidence
<! Quelqu'un maîtrise-t-il suffisamment TeX pour l'écrire ici ? !>
Références
Enseignement de l'outil
- Tribus, Myron (1974) Décisions rationnelles dans l'incertain, trad. de Jacques Pézier, Masson (épuisé, mais lisible à la Bibliothèque publique d'information)
- Robert, C.P. (1992) L'Analyse Statistique Bayésienne. Economica, Paris
- Documentation et programmes à télécharger
- Robert, C.P. (1994). The Bayesian Choice: A Decision Theoretic Motivation. New York: Springer Verlag (première édition, en français : L'Analyse Statistique Bayésienne, Paris: Economica, 1992, mais typographie moins soignée et donc lisibilité moins grande)
- Jaynes, E.T. (1998) Probability Theory : The Logic of Science, consultable gratuitement en PDF sur le Net (en anglais).
Utilisation de l'outil
- David Bellot (2002) Inférence bayésienne en pratique [1]
- Good, I.J. (1963) Speculations Concerning the First Ultraintelligent Machine (voir aussi Intelligence artificielle)
- Travaux de l'ERIS à l'Université de Rouen
Les ouvrages relatifs à l'utilisation sont plus rares pour la raison suivante : on utilise les méthodes bayésiennes là où l'information coûte cher à obtenir (prospection pétrolière, recherche de médicaments...). Ce sont dans les deux cas cités des sociétés privées (pétroliers, laboratoires pharmaceutiques...) qui les financent, et celles-ci n'ont pas vocation à donner à leurs concurrents des informations qui ont coûté cher à leurs actionnaires.
