Dans le cadre de notre cours de Programmation Parallèle Distribuée, nous devions mettre en œuvre un système de calcul distribué grâce à Hadoop et Spark.
En collaboration avec @michelignax et @mm2cc nous avons choisit de travailler sur un sujet d'actualité, c'est-à-dire les chiffres de la maladie à Corona virus mit à disposition par le Gouvernement Français.
Dans le jeu de données des hospitalisations, nous avons décidé de montrer la différence entre les hommes et les femmes dans les entrées en réanimation et hospitalisations. Grâce à Python, nous créons une tâche pour trier les données et exporter un graphique via ce système distribué.
Pour en savoir plus, sur notre méthode pour mettre en place Hadoop et Spark et puis une conclusion sur cette technique, c'est ici. (Lien pinata.cloud vers notre PDF)