Définition
Hadoop est un
framework
open source
qui repose sur
Java
. Hadoop prend en charge le traitement des données volumineuses (
Big Data
)
au sein d'environnements informatiques distribués. Hadoop fait partie
intégrante du projet Apache parrainé par l'Apache Software Foundation
Avantages
-
Coût : Hadoop est open source et utilise du matériel de base rentable qui fournit un modèle rentable, contrairement aux bases de données relationnelles traditionnelles qui nécessitent du matériel coûteux et des processeurs haut de gamme pour traiter le Big Data.
- Évolutivité : Hadoop est un modèle hautement évolutif. Une grande quantité de données est divisée en plusieurs machines peu coûteuses dans un cluster qui est traité en parallèle
- Flexibilité : Hadoop est conçu de manière à pouvoir traiter très efficacement tout
type de jeu de données structuré (données MySql), semi-structuré (XML,
JSON), non structuré (images et vidéos).
Comment ça marche?
Hadoop permet d'exécuter des applications sur des systèmes en cluster dotés de milliers de noeuds impliquant des centaines de téraoctets de données.