BDA-FND-001 · 4 jours · Intermédiaire

Big Data et architectures modernes : Hadoop, Spark, Kafka

4 jours pour data engineers, architectes et DSI : architectures distribuées, écosystème Hadoop, Apache Spark, Apache Kafka. Du concept aux labos pratiques sur cluster cloud.

Réserver une session Voir le programme

· Inter & intra-entreprise· Présentiel et distanciel synchrone· Attestation Wakova

Jours

Théorie + labos sur cluster cloud

Stacks

Hadoop, Spark, Kafka maîtrisés

Cluster

AWS EMR ou équivalent fourni

Patterns

Architecturaux décortiqués

Pour qui

Pour comprendre, dimensionner et choisir vos architectures data

Le terme "Big Data" est devenu flou. Cette formation vous donne les fondamentaux techniques pour distinguer hype et réalité, dimensionner vos architectures, choisir vos outils en connaissance de cause.

Data engineers juniors et confirmés

Vous structurez vos compétences sur l'écosystème distribué

Architectes data et DSI

Vous arbitrez les architectures sur vos projets

Développeurs évoluant vers la data

Vous comprenez les patterns distribués modernes

Consultants data

Vous montez en compétence sur le triptyque Hadoop/Spark/Kafka

Prérequis

✓Maîtrise SQL et Python (ou Scala / Java)
✓Notions de Linux et de Git
✓Compréhension d'une base de données relationnelle

À l'issue, vous saurez

→Comprendre les patterns d'architectures distribuées (batch, streaming, lambda, kappa)
→Manipuler HDFS, MapReduce, et l'écosystème Hadoop
→Écrire des jobs Spark (batch et streaming) en PySpark
→Concevoir une chaîne de streaming avec Kafka

Programme détaillé

4 modules · 4 jours

J1 — Concepts et écosystème Hadoop

Pourquoi distribué, théorème CAP, HDFS, YARN, MapReduce. Écosystème (Hive, HBase, Oozie). Labos sur cluster cloud.

À l'issue

Vous maîtrisez les fondations Hadoop.

J2 — Apache Spark Core et SQL

RDD, DataFrames, Spark SQL, optimisations Catalyst/Tungsten. PySpark. Jobs batch sur cluster.

À l'issue

Vous écrivez des jobs Spark batch.

J3 — Spark Streaming et Structured Streaming

Micro-batch vs continuous, sources/sinks, watermarks, état distribué, jointures streaming. Cas d'usage.

À l'issue

Vous traitez du streaming en Spark.

J4 — Apache Kafka et architecture événementielle

Brokers, topics, partitions, consumers/producers, Kafka Streams, Schema Registry. Patterns d'architecture événementielle.

À l'issue

Vous concevez une chaîne Kafka.

Formateur

Matdonell K.

Architecte Data · Data Engineer senior

10+ ans data · 8 ans Spark/Kafka en prod

Architecte data spécialisé sur les plateformes distribuées. A déployé des stacks Hadoop, Spark et Kafka pour des banques, opérateurs télécom et fintechs en Afrique francophone. Approche : ne pas surdimensionner — Big Data n'est utile qu'à partir d'une certaine volumétrie.

Références projets

· Plateforme data — banque digitale (50TB+, Spark + Kafka)
· Streaming temps réel — opérateur télécom (CDR, fraud detection)
· Migration legacy → Spark — institution financière

Ils nous ont fait confiance

Retours de participants

« J'ai enfin compris pourquoi nos jobs Spark explosaient en mémoire. Le module optimisations vaut de l'or. »

Cédric M.

Data engineer · Fintech

« Le J4 sur Kafka nous a fait gagner 3 mois sur notre projet de streaming. »

Awa S.

Tech lead · Télécom

« Excellente honnêteté sur les cas où Big Data n'est PAS la solution. Rare et précieux. »

Olivier T.

Architecte · Banque

Tarifs & modalités

Choisissez votre format

Inter-entreprises

720 000 FCFA (~1 674 CAD)

HT par apprenant · 4 jours

· Effectif : 6-10 data engineers
· Restauration incluse sur 4 jours
· Cluster cloud (AWS EMR ou GCP Dataproc) fourni
· Notebooks et code livré
· Replay 60 jours + canal d'entraide
· Attestation Wakova

M'inscrire à une session

Intra-entreprise · Recommandé

3 800 000 FCFA (~8 837 CAD)

HT par session · jusqu'à 10 apprenants

· Adapté à votre stack cible (AWS, Azure, GCP, on-premise)
· Possibilité d'utiliser votre propre cluster
· Pré-diagnostic des cas d'usage
· 1 session de coaching technique 30 jours après
· Dégressif au-delà de 2 sessions

Demander un devis intra

Taux indicatif 430 FCFA/CAD (mai 2026)

Calendrier

Prochaines sessions

Les prochaines dates pour cette formation seront annoncées prochainement.

Transmettez-nous vos disponibilités et nous organiserons une session adaptée.

Demander une session — BDA-FND-001

FAQ

Questions fréquentes

Faut-il un cluster physique ?+

Non. Un cluster cloud temporaire (AWS EMR, GCP Dataproc) est fourni par session, ce qui simplifie les labos et reflète les usages réels.

Et Snowflake, Databricks ?+

Mentionnés mais pas approfondis ici. Pour Databricks managé, voir BDA-ENG-004 (Data Engineering pipelines).

Vraiment besoin de Hadoop en 2026 ?+

Question légitime. HDFS recule au profit de S3/GCS/Azure Blob. Mais l'écosystème (Hive, file formats Parquet/ORC) reste fondamental. J1 explique ce qui est obsolète et ce qui survit.

Apporter sa machine ?+

Oui, un laptop standard avec Python 3.10+, Docker, accès SSH. Tous les calculs lourds sont sur le cluster cloud.

Maîtrisez les architectures distribuées modernes.

Inscrivez-vous à la prochaine cohorte ou demandez un intra adapté à votre stack.

Échanger avec un conseiller Nous appeler

720 000 FCFA

HT par apprenant

Réserver

Pour aller plus loin

Formations associées

BDA-ENG-0045 jours·Avancé

Big Data et architectures modernes : Hadoop, Spark, Kafka

Pour comprendre, dimensionner et choisir vos architectures data

4 modules · 4 jours

J1 — Concepts et écosystème Hadoop

J2 — Apache Spark Core et SQL

J3 — Spark Streaming et Structured Streaming

J4 — Apache Kafka et architecture événementielle

Matdonell K.

Retours de participants

Choisissez votre format

720 000 FCFA (~1 674 CAD)

3 800 000 FCFA (~8 837 CAD)

Prochaines sessions

Questions fréquentes

Maîtrisez les architectures distribuées modernes.

Formations associées

Data Engineering : pipelines, Airflow, dbt, Snowflake

Machine Learning appliqué : du POC à la mise en production

AWS fondamentaux : architecture cloud opérationnelle

720 000 FCFA (~1 674 CAD)

3 800 000 FCFA (~8 837 CAD)