Pages personnelles de Benoît Vaillant

Accueil > Activités de recherche

Activités de recherche

Durant ces dernières années, on assiste à une forte augmentation tant dans le nombre que dans le volume des informations mémorisées dans des bases de données scientifiques, économiques, financières, administratives, médicales, etc. D’importants moyens sont mobilisés pour recueillir et conserver les données dans les entrepôts (Data Warehouse). Les spécialistes estiment que le volume de données stockées par une entreprise double tous les 20 mois. Ainsi, la mise au point de nouvelles techniques informatiques en vue d’exploiter ces données est devenu un thème important pour bon nombre de chercheurs. Le « Knowledge Discovery » (Extraction de Connaissances à partir des Données, de manière abrégée, ECD) et le « Data Mining » (fouille de données) représentent des domaines émergeants essayant de répondre à ces objectifs. A l’image des chercheurs d’or qui doivent transporter, broyer, trier et filtrer de grandes quantités de terre pour extraire le métal précieux, le Data Mining est l’art d’interpréter intelligemment les informations disponibles dans les entrepôts de données pour parvenir à des connaissances opérationnelles.

Les statistiques, l’analyse de données ainsi que l’apprentissage inductif sont des précurseurs de l’ECD, qui se trouve ainsi au confluent de différentes disciplines. Telle qu’elle est définie par Fayyad, elle correspond à l’acquisition de connaissances nouvelles, intelligibles et potentiellement utiles à partir de faits cachés au sein de grandes quantités de données. Techniquement, on cherche surtout à isoler dans les bases de données des traits structuraux (patterns) qui, comme le fait remarquer Piatetsky-Shapiro, doivent être valides, non triviaux, nouveaux, utilisables et les plus compréhensibles ou explicables possible. Le processus d’extraction des connaissances comprend, quelle que soit la matière étudiée, un certain nombre d’étapes, afin de passer des données brutes à l’extraction de motifs (comme les arbres de décision ou les règles d’association).

Nous plaçant dans le cadre particulier de l’extraction de règles d’association, il est fréquent que l’ensemble de règles extraites automatiquement soit colossal. Se pose alors le problème de la validation de ces règles, qui ne font pas toutes sens vis-à-vis d’une problématique donnée. Un utilisateur expert des données n’a donc plus la possibilité de les évaluer une à une et un post-traitement est nécessaire. Une des techniques couramment utilisée est d’avoir recours à des mesures de qualité. Ces dernières évaluent numériquement la qualité d’une règle, ce qui permet d’ordonner ou de filtrer les règles et ainsi de réduire le nombre de règles à évaluer manuellement.