Recherche avancée
Catalogues >> Informatique
Responsable :

Jean-Marc STEYAERT
  


Niveau : Graduate

Langue du cours : Anglais

Période : Printemps

Nombre d'heures : 36

Crédits ECTS : 4
INF582 Big Data management : data mining
L'évolution récente des systèmes de traitement et le développement des infrastructures matérielles -- avec les réseaux -- et logicielles -- avec le Web et le Cloud -- a conduit à repenser fondamentalement l'organisation des systèmes informatiques des entreprises ainsi que la méthodologie de traitement des données. Un nouveau concept -- le Big Data -- s'est peu à peu imposé qui révolutionne la notion de système d'information.
Le traitement de ces données utilise les méthodes classiques de programmation, mais aussi fait appel à de nouveaux concepts comme l'apprentissage et la fouille de données (supervised learning, datamining, text mining, retrieval, etc.).
De plus ces méthodes sont couramment utilisées pour modéliser des phénomènes expérimentaux en physique, biologie, médecine.
Ce cours s'adresse donc à tous les ingénieurs et scientifiques désireux de comprendre les méthodes de recherche d'information dans de grands ensembles de documents, de donner des moyens de caractériser des ensembles à partir d'exemples et de retrouver dans des données celles qui s'approchent le plus de motifs précalculés.
Il constitue un prolongement de INF553 : Data Bases and Big Data Management.
Il développe aussi des méthodes évoquées en BIO552 : Biologie computationnelle.

Dans une première partie, on présente les méthodes algorithmiques de fouille de données dans de très grands fichiers ou ensemble de fichiers : associations fréquentes, objets très corrélés. On montre comment des méthodes probabilistes à base de hachage permettent de produire des algorithmes efficaces quand toutes les solutions déterministes seraient vouées à l'échec. On étudie aussi les algorithmes qui permettent d'extraire de l'information sur des flots de données à haut débit quand il n'est pas possible de tout mémoriser et donc de traiter dynamiquement des données issues de réseaux de communication.
Dans une seconde partie on s'attache à structurer les informations soit en regroupant les données en sous-ensembles homogènes -- clusters ou classements hiérarchiques -- soit en produisant des modèles probabilistes ou non à partir d'exemples -- Modèles de Markov cachés et Support Vector Machines -- qui permettent d'identifier de façon pragmatique des caractéristiques qu'il serait impossible de définir a priori.
On donne des exemples empruntés à l'analyse de documents, des réseaux du Web, des séquences biologiques, du traitement d'images, etc.
Les méthodes développées sont systématiquement évaluées en terme d'efficacité et de conditions d'applicabilité.

Niveau requis : Néant

Modalités d'évaluation : Les étudiants seront évalués sur la base d'exposés effectués pendant les cours et d'un projet de fin de module.

Dernière mise à jour : mardi 2 avril 2013

© Ecole Polytechnique 2014 - Réalisé par Winch Communication