Méthodologie et gestion de bases de données (INFO802_GTRANA)

Objectifs

Devenir Data Scientist est un long chemin qui passera entre autres par un rôle de Data Analyst. Il faudra en effet commencer par établir un cahier des charges de la mission, de réfléchir à quelles données sont pertinentes pour le problème, comment  les obtenir, comment les mettre en forme pour qu’elles soient utilisable et comment les sauvegarder afin de les mettre à disposition pour analyse et visualisation.

Pré-requis

Informatique (L3)

Plan du cours

  1. Définir les objectifs de l'analyse des données
  2. Acquisition des données
  3. Nettoyage des données
    1. Pour des données structurées
    2. Pour des données non structurées
    3. Pour des données issues de flux
  4. Sauvegarde des données
  5. Outils pour le Data Scientist
    1. Hadoop/HDFS/Map Reduce
    2. Spark
    3. Pig vs. Hive
    4. NoSQL

Volume horaire

  • CM : 10.0
  • TD : 5.0

Bibliographie

-       Introducing Data Science, Davy Cielen, Arno D. B. Meysman, and Mohamed Ali

-       Big Data, Nathan Marz and James Warren

-       Hadoop: The Definitive Guide, 4th Edition, Storage and Analysis at Internet Scale

-       Python Data Analysis, Ivan Idris

Diplômes intégrant ce cours

En bref

Crédits ECTS : 2

Forme d'enseignement
Cours magistral

Langue d'enseignement
Français

Contact(s)

UFR, Écoles, Instituts

Lieu(x)

  • Annecy-le-Vieux (74)