Séminaire de Probabilités et Statistique
lundi 21 mars 2016 à 15:00 - SupAgro - Salle 9/108 coeur d'école
Edwin Diday (Université Paris-Dauphine)
Penser en termes de classes en Science des Données : l'Analyse des Données Symboliques
Un «Data Scientiste» est une personne capable d'extraire des nouvelles connaissances de données massives (« Big Data ») et «Complexes»: tables multiples non structurées, hétérogènes, multi sources (images, textes, signaux,...), variables non appariées etc... En Science des Données, on dispose à la base de tableaux de données où des individus (par exemple, des unités statistiques) sont décrits par des variables quantitatives ou qualitatives. L'Analyse des Données Symboliques (ADS), étend ce type de tableaux au cas où les unités sont des classes d'individus. Ainsi, les classes d'individus d'une population donnée deviennent les unités d'une nouvelle population de plus haut niveau à étudier. Souvent ces classes, sont les unités d'étude désirées par les utilisateurs. Par exemple, pour étudier des maladies porcines, on peut désirer s'intéresser à l'étude des fermes (considérées comme des classes de porcs), qui les élèvent. Afin de prendre en compte la variabilité des individus composant chaque classe, ces classes sont décrites par des intervalles, des distributions, des suites de valeurs numériques ou qualitatives parfois pondérées etc. De cette façon nous obtenons des données appelées « symboliques » car elles ne peuvent pas être traitées comme des nombres. La première étape d'une ADS consiste à construire un « tableau de données symboliques » dont les lignes sont associées à des classes d'individus et des colonnes à des variables « dites symboliques » quand elles prennent des valeurs symboliques. La seconde étape consiste à analyser ce tableau en étendant au moins l'Analyse des données classiques et la fouille de données aux données symboliques. Nous montrons que l'ADS constitue un paradigme ouvrant le champ à un vaste domaine de recherche et d'applications en fournissant des résultats complémentaires à ceux qui sont fournis par les méthodes habituelles appliquées à des données classiques. De plus l'ADS apporte des réponses au challenge du « Big Data » en réduisant et résumant les données massives par des classes. Elle donne aussi des solutions en cas de données « Complexes », en transformant des données non structurées avec des variables non appariées en données structurées avec des variables (symboliques) appariées. Appelée « Symbolic Data Analysis » (SDA), l'Analyse des Données Symboliques connait un succès grandissant avec quatre revues internationales sortant des numéros spéciaux liés à ce thème et un nombre de publications croissant chaque année. Diaoporama