News
You are here : English versionNewsNews

PhD Defense Aymen Jlassi

Dates

on the December 11, 2017

14h00
Location
EPU - 64 avenue Portalis - 37200 TOURS - Salle Lovelace

Optimisation de la gestion des ressources sur une plate-forme informatique du type “Big Data basée sur le logiciel Hadoop

Résumé :
"Cyres-group" est une entreprise spécialisée dans la gestion de gros volumes de données (ou "Big data"). Elle cherche de façon continue à améliorer la qualité des services fournis à ses clients. Elle utilise le logiciel Hadoop qui est l'un des principaux outils "Big Data".
L’entreprise "Cyres-group" cherche à améliorer le temps de réponse de ses grappes Hadoop et la manière dont les ressources sont exploitées dans son centre de données. Les idées sous-jacentes à la réduction du temps de réponse sont de faire en sorte que (i) les travaux soumis se terminent au plus tôt et que (ii) le temps d'attente de chaque utilisateur du système soit réduit.
Nous commençons nos travaux par une étude expérimentale pour identifier avec précision le problème que nous abordons et ainsi, identifier la méthode de résolution que nous proposons. A la fin de cette étape, nous identifions deux axes d'amélioration:
  1. nous décidons d'intervenir pour optimiser l'ordonnancement des travaux sur une plateforme Hadoop. Nous considérons le problème d'ordonnancement d'un ensemble de travaux du type MapReduce sur une plateforme homogène. Nous considérons deux critères d'importance égale: la minimisation de la somme pondérée des dates de fin des travaux et la minimisation de la date de fin du dernier travail.
  2. nous décidons d'évaluer et proposer des outils capables (i) de fournir plus de flexibilité lors de la gestion des ressources dans le centre de données et (ii) d'assurer l'intégration d'Hadoop dans des infrastructures Cloud avec le minimum de perte de performance.
Dans une première étude, nous effectuons une revue de la littérature. À la fin de cette étape, nous remarquons que les modèles mathématiques proposés dans la littérature pour le problème d'ordonnancement ne modélisent pas toutes les caractéristiques d'une plateforme Hadoop. Nous proposons à ce niveau un modèle plus réaliste qui prend en compte les aspects les plus importants tels que la gestion des ressources, la précédence entre les travaux, la gestion du transfert des données et la gestion du réseau. Nous considérons une première modélisation simpliste et nous considérons la minimisation de la date de fin du dernier travail (Cmax) comme critère à optimiser. Nous calculons une borne inférieure à l'aide de la résolution du modèle mathématique avec le solveur CPLEX. Nous proposons une heuristique (LocFirst) et nous l’évaluons. Ensuite, nous faisons évoluer notre modèle et nous considèrerons, comme fonction objective, la somme des deux critères identifiés depuis la première étape : la minimisation de la somme pondérée des dates de fin des travaux (Sum wjCj) et la minimisation du (Cmax). Nous cherchons à minimiser la moyenne pondérée des deux critères, nous calculons une borne inférieure et nous proposons deux heuristiques de résolution. 
Toutes les heuristiques que nous proposons sont évaluées sur deux niveaux: (i) pour des petites instances, nous les évaluons par rapport à la borne inférieure calculée, (ii) pour les moyennes et grandes instances, nous les évaluons par rapport à des algorithmes de la littérature.