Aller au contenu principal
Wakova Platforms Formations
BDA-FND-001 · 4 jours · Intermédiaire

Big Data et architectures modernes : Hadoop, Spark, Kafka

4 jours pour data engineers, architectes et DSI : architectures distribuées, écosystème Hadoop, Apache Spark, Apache Kafka. Du concept aux labos pratiques sur cluster cloud.

· Inter & intra-entreprise· Présentiel et distanciel synchrone· Attestation Wakova
4
Jours
Théorie + labos sur cluster cloud
3
Stacks
Hadoop, Spark, Kafka maîtrisés
1
Cluster
AWS EMR ou équivalent fourni
5
Patterns
Architecturaux décortiqués
Pour qui

Pour comprendre, dimensionner et choisir vos architectures data

Le terme "Big Data" est devenu flou. Cette formation vous donne les fondamentaux techniques pour distinguer hype et réalité, dimensionner vos architectures, choisir vos outils en connaissance de cause.

Data engineers juniors et confirmés
Vous structurez vos compétences sur l'écosystème distribué
Architectes data et DSI
Vous arbitrez les architectures sur vos projets
Développeurs évoluant vers la data
Vous comprenez les patterns distribués modernes
Consultants data
Vous montez en compétence sur le triptyque Hadoop/Spark/Kafka
Prérequis
  • Maîtrise SQL et Python (ou Scala / Java)
  • Notions de Linux et de Git
  • Compréhension d'une base de données relationnelle
À l'issue, vous saurez
  • Comprendre les patterns d'architectures distribuées (batch, streaming, lambda, kappa)
  • Manipuler HDFS, MapReduce, et l'écosystème Hadoop
  • Écrire des jobs Spark (batch et streaming) en PySpark
  • Concevoir une chaîne de streaming avec Kafka
Programme détaillé

4 modules · 4 jours

1

J1 — Concepts et écosystème Hadoop

Pourquoi distribué, théorème CAP, HDFS, YARN, MapReduce. Écosystème (Hive, HBase, Oozie). Labos sur cluster cloud.

À l'issue

Vous maîtrisez les fondations Hadoop.

2

J2 — Apache Spark Core et SQL

RDD, DataFrames, Spark SQL, optimisations Catalyst/Tungsten. PySpark. Jobs batch sur cluster.

À l'issue

Vous écrivez des jobs Spark batch.

3

J3 — Spark Streaming et Structured Streaming

Micro-batch vs continuous, sources/sinks, watermarks, état distribué, jointures streaming. Cas d'usage.

À l'issue

Vous traitez du streaming en Spark.

4

J4 — Apache Kafka et architecture événementielle

Brokers, topics, partitions, consumers/producers, Kafka Streams, Schema Registry. Patterns d'architecture événementielle.

À l'issue

Vous concevez une chaîne Kafka.

Formateur

Matdonell K.

MK
Architecte Data · Data Engineer senior
10+ ans data · 8 ans Spark/Kafka en prod

Architecte data spécialisé sur les plateformes distribuées. A déployé des stacks Hadoop, Spark et Kafka pour des banques, opérateurs télécom et fintechs en Afrique francophone. Approche : ne pas surdimensionner — Big Data n'est utile qu'à partir d'une certaine volumétrie.

Références projets
  • · Plateforme data — banque digitale (50TB+, Spark + Kafka)
  • · Streaming temps réel — opérateur télécom (CDR, fraud detection)
  • · Migration legacy → Spark — institution financière
Ils nous ont fait confiance

Retours de participants

« J'ai enfin compris pourquoi nos jobs Spark explosaient en mémoire. Le module optimisations vaut de l'or. »
Cédric M.
Data engineer · Fintech
« Le J4 sur Kafka nous a fait gagner 3 mois sur notre projet de streaming. »
Awa S.
Tech lead · Télécom
« Excellente honnêteté sur les cas où Big Data n'est PAS la solution. Rare et précieux. »
Olivier T.
Architecte · Banque
Tarifs & modalités

Choisissez votre format

Inter-entreprises

720 000 FCFA (~1 674 CAD)

HT par apprenant · 4 jours
  • · Effectif : 6-10 data engineers
  • · Restauration incluse sur 4 jours
  • · Cluster cloud (AWS EMR ou GCP Dataproc) fourni
  • · Notebooks et code livré
  • · Replay 60 jours + canal d'entraide
  • · Attestation Wakova
M'inscrire à une session
Intra-entreprise · Recommandé

3 800 000 FCFA (~8 837 CAD)

HT par session · jusqu'à 10 apprenants
  • · Adapté à votre stack cible (AWS, Azure, GCP, on-premise)
  • · Possibilité d'utiliser votre propre cluster
  • · Pré-diagnostic des cas d'usage
  • · 1 session de coaching technique 30 jours après
  • · Dégressif au-delà de 2 sessions
Demander un devis intra

Taux indicatif 430 FCFA/CAD (mai 2026)

Calendrier

Prochaines sessions

Les prochaines dates pour cette formation seront annoncées prochainement.

Transmettez-nous vos disponibilités et nous organiserons une session adaptée.

Demander une session — BDA-FND-001
FAQ

Questions fréquentes

Faut-il un cluster physique ?+
Non. Un cluster cloud temporaire (AWS EMR, GCP Dataproc) est fourni par session, ce qui simplifie les labos et reflète les usages réels.
Et Snowflake, Databricks ?+
Mentionnés mais pas approfondis ici. Pour Databricks managé, voir BDA-ENG-004 (Data Engineering pipelines).
Vraiment besoin de Hadoop en 2026 ?+
Question légitime. HDFS recule au profit de S3/GCS/Azure Blob. Mais l'écosystème (Hive, file formats Parquet/ORC) reste fondamental. J1 explique ce qui est obsolète et ce qui survit.
Apporter sa machine ?+
Oui, un laptop standard avec Python 3.10+, Docker, accès SSH. Tous les calculs lourds sont sur le cluster cloud.

Maîtrisez les architectures distribuées modernes.

Inscrivez-vous à la prochaine cohorte ou demandez un intra adapté à votre stack.

720 000 FCFA
HT par apprenant
Réserver