Big Data et architectures modernes : Hadoop, Spark, Kafka
4 jours pour data engineers, architectes et DSI : architectures distribuées, écosystème Hadoop, Apache Spark, Apache Kafka. Du concept aux labos pratiques sur cluster cloud.
Pour comprendre, dimensionner et choisir vos architectures data
Le terme "Big Data" est devenu flou. Cette formation vous donne les fondamentaux techniques pour distinguer hype et réalité, dimensionner vos architectures, choisir vos outils en connaissance de cause.
- ✓Maîtrise SQL et Python (ou Scala / Java)
- ✓Notions de Linux et de Git
- ✓Compréhension d'une base de données relationnelle
- →Comprendre les patterns d'architectures distribuées (batch, streaming, lambda, kappa)
- →Manipuler HDFS, MapReduce, et l'écosystème Hadoop
- →Écrire des jobs Spark (batch et streaming) en PySpark
- →Concevoir une chaîne de streaming avec Kafka
4 modules · 4 jours
J1 — Concepts et écosystème Hadoop
Pourquoi distribué, théorème CAP, HDFS, YARN, MapReduce. Écosystème (Hive, HBase, Oozie). Labos sur cluster cloud.
Vous maîtrisez les fondations Hadoop.
J2 — Apache Spark Core et SQL
RDD, DataFrames, Spark SQL, optimisations Catalyst/Tungsten. PySpark. Jobs batch sur cluster.
Vous écrivez des jobs Spark batch.
J3 — Spark Streaming et Structured Streaming
Micro-batch vs continuous, sources/sinks, watermarks, état distribué, jointures streaming. Cas d'usage.
Vous traitez du streaming en Spark.
J4 — Apache Kafka et architecture événementielle
Brokers, topics, partitions, consumers/producers, Kafka Streams, Schema Registry. Patterns d'architecture événementielle.
Vous concevez une chaîne Kafka.
Matdonell K.
Architecte data spécialisé sur les plateformes distribuées. A déployé des stacks Hadoop, Spark et Kafka pour des banques, opérateurs télécom et fintechs en Afrique francophone. Approche : ne pas surdimensionner — Big Data n'est utile qu'à partir d'une certaine volumétrie.
- · Plateforme data — banque digitale (50TB+, Spark + Kafka)
- · Streaming temps réel — opérateur télécom (CDR, fraud detection)
- · Migration legacy → Spark — institution financière
Retours de participants
« J'ai enfin compris pourquoi nos jobs Spark explosaient en mémoire. Le module optimisations vaut de l'or. »
« Le J4 sur Kafka nous a fait gagner 3 mois sur notre projet de streaming. »
« Excellente honnêteté sur les cas où Big Data n'est PAS la solution. Rare et précieux. »
Choisissez votre format
720 000 FCFA (~1 674 CAD)
- · Effectif : 6-10 data engineers
- · Restauration incluse sur 4 jours
- · Cluster cloud (AWS EMR ou GCP Dataproc) fourni
- · Notebooks et code livré
- · Replay 60 jours + canal d'entraide
- · Attestation Wakova
3 800 000 FCFA (~8 837 CAD)
- · Adapté à votre stack cible (AWS, Azure, GCP, on-premise)
- · Possibilité d'utiliser votre propre cluster
- · Pré-diagnostic des cas d'usage
- · 1 session de coaching technique 30 jours après
- · Dégressif au-delà de 2 sessions
Taux indicatif 430 FCFA/CAD (mai 2026)
Prochaines sessions
Les prochaines dates pour cette formation seront annoncées prochainement.
Transmettez-nous vos disponibilités et nous organiserons une session adaptée.
Demander une session — BDA-FND-001Questions fréquentes
Faut-il un cluster physique ?+
Et Snowflake, Databricks ?+
Vraiment besoin de Hadoop en 2026 ?+
Apporter sa machine ?+
Maîtrisez les architectures distribuées modernes.
Inscrivez-vous à la prochaine cohorte ou demandez un intra adapté à votre stack.