DOSSIER DE COMPÉTENCES

Kabil Ben Amor

Data Engineer — BilTek

5 ans d'expertise  ·  Kafka  ·  Airflow  ·  PySpark  ·  AWS

0
Ans d'expérience
0
Entreprises
0
Projets
0
Étudiants formés
Parcours

5 ans de missions à fort impact data

De la recherche en IA à l'ingénierie des données en production

LICEF / Téluq
2020
Research Assistant Data Science
Deep Learning CNN Python
Emaar
2021 – 2022
Software Engineer Freelancer
Spring Boot Angular AWS
Caplogy
2022 – 2024
Data Engineering Instructor
PySpark Kafka Airflow
Medactis
2024 – auj.
En cours
Software & Data Engineer
Airflow Kafka PostgreSQL
BilTek
2025 – auj.
Data Engineer
Conseil IT Big Data Pipelines
Compétences

Un spectre technique data & cloud maîtrisé

Du pipeline temps réel au machine learning

🔧 Data Engineering
Apache KafkaApache Airflow PySparkETL/ELT Delta LakePandas
☁️ Cloud & Big Data
AWS S3AWS Glue AWS AthenaDatabricks LambdaECS
🗄️ Bases de données
PostgreSQLMongoDB MySQLRedis
⚙️ Backend
PythonJava Spring BootNestJS
🚀 DevOps & Outils
DockerJenkins JMeterSelenium Schema RegistryPostman
🤖 IA & ML
Deep LearningCNN SVMKNN Signal Processing
01 / PIPELINE DE DONNÉES

Des pipelines robustes du Bronze au Gold

Conception et déploiement de pipelines ETL/ELT en production chez Medactis : ingestion d'événements Kafka via Airflow, modélisation Bronze/Silver/Gold sur PostgreSQL avec reconstructions idempotentes, et normalisation/enrichissement automatisés des données médicales.

  • Pipelines Airflow ingérant des événements Kafka temps réel
  • Modélisation Bronze/Silver/Gold avec partitions idempotentes
  • Migration de données lab legacy vers architecture moderne
  • Qualité, normalisation et enrichissement automatisés
  • NestJS APIs pour dashboards d'administration
Apache Kafka Event Streaming Apache Airflow ETL Orchestration PostgreSQL Bronze Layer Silver Layer Gold Layer Delta Lake Analytics Store Time Travel ACID Transactions Pipeline médical — Medactis
02 / BIG DATA & CLOUD

AWS, Spark et Databricks en production

Chez Caplogy, j'ai formé 48 étudiants aux technologies Big Data — Spark batch/streaming, Kafka, Airflow — et à l'architecture Data Lake AWS (S3, Glue, Athena). 87% de taux de réussite à la certification Scrum Master SMC®. Aujourd'hui, j'applique ces savoirs en production chez Medactis et BilTek.

  • Data Lake AWS : S3, Glue, Athena en architecture multi-couche
  • Spark batch et streaming pour le traitement à grande échelle
  • Databricks Fundamentals certifié
  • Containerisation Docker, CI/CD Jenkins
  • Real-Time Streaming : 10 000+ événements/seconde
03 / IA & MACHINE LEARNING

De la recherche académique aux pipelines ML

Issu d'une recherche en deep learning multimodal sur la douleur chronique (+32% de précision), je combine expertise ML et ingénierie data pour construire des pipelines IA robustes — du feature engineering jusqu'au déploiement.

Inputs Hidden 1 Hidden 2 Output
🧠
Multimodal Deep Learning
Recherche LICEF : modèle multimodal CNN/SVM pour l'évaluation de la douleur chronique sur 25 patients. +32% de précision vs baseline.
Real-Time Streaming (10K+ events/sec)
Pipeline Kafka + Spark Structured Streaming avec traitement stateful, watermarks, déduplication et fenêtres glissantes en production.
🔍
Fraud Detection Pipeline
Pipeline de scoring fraude en temps réel : ingestion Kafka, feature engineering Spark, scoring ML et alerting — sinks PostgreSQL + Delta Lake.

Prêt à en savoir plus ?

Toutes mes missions, projets et formations en détail

Voir le CV Complet → ou contactez-moi directement →