Exploration de données
L’exploration de données, aussi connue sous les noms fouille de données et data mining, a pour objet l’extraction du savoir implicite à de grandes quantités de données, par des méthodes automatiques ou semi-automatiques.
Ces données peuvent être stockées dans un entrepôt de données (datawarehouse), mais peuvent aussi être récupérées de sources riches comme internet. Lorsque la source n’est pas directement un entrepôt de données, une première phase consiste à rapatrier les données brutes et à les stocker localement sous forme d’une base de données. On structure alors habituellement les données de l’entrepôt sous forme d’un hypercube OLAP. Des algorithmes dits d’intelligence artificielle (il s’agit en fait de détecteurs de corrélations, et de classifieurs automatiques) sont ensuite utilisés pour trouver des schémas intéressants selon des critères fixés au départ.
Différence avec l’approche statistique
La fouille de données a une approche différente des méthodes statistiques classiques, basées sur le test d’une hypothèse fixée a priori. Au contraire, le data mining va tenter de faire émerger des hypothèses à partir des données brutes, hypothèses parfois surprenantes pour l’expérimentateur.
Un exemple souvent cité : si on baisse le prix du Coca-Cola de 5%, on va par exemple en augmenter les ventes de 15%, ce qui était prévisible sans data mining. Mais le data mining révèle de manière inattendue (bien qu’évidente a posteriori) que les ventes de cacachuètes vont augmenter d’une proportion voisine (sans doute suite à l’association d’idées : « Tiens, je vais profiter de cette baisse du Coca pour faire un pot; il me faut donc aussi des cacahuètes »; le data mining ne fait pas d’hypothèse sur le sujet). Si la marge sur le Coca-Cola est relativement faible, et celle sur les cacachuètes importantes, la conclusion s’en tire d’elle-même : baisser le prix du Coca-Cola est un moyen de vendre des cacahuètes. Par le côté quasi déterministe qu’elle présente du comportement du consommateur, cette approche provoque quelques réticences. Mais elle fonctionne, ou du moins elle se vend.
Anecdote
Les premiers essais de fouilles de données se firent historiquement sur des dépouillements de millions de tickets de caisse de supermarché tels que mémorisés par les caisses enregistreuses. À l’origine de la vulgarisation des méthodes et des algorithmes de la fouille de données (en l’occurrence, l’analyse des associations), il y aurait eu la mise en évidence d’une corrélation très forte entre l’achat de couches pour bébés et de bière le samedi aprés-midi. D’autres analyses, en particulier d’indices précurseurs de modification des habitudes d’achat, se montrèrent d’un plus grand intérêt dans la pratique.
