Profilbild von Jannis Koch Data Engineer - Cloud | ETL | Event Streaming | Kafka | DevOps aus Stuttgart

Jannis Koch

verfügbar

Letztes Update: 05.10.2023

Data Engineer - Cloud | ETL | Event Streaming | Kafka | DevOps

Abschluss: Computer Science MSc
Stunden-/Tagessatz: anzeigen
Sprachkenntnisse: deutsch (Muttersprache) | englisch (verhandlungssicher) | französisch (gut)

Dateianlagen

Profile-Jannis-Koch-DE_051023.pdf
Profile-Jannis-Koch-EN_051023.pdf

Skills

Kontakt: jannis #AT# jkoch.tech

Ich arbeite als Data Engineer und habe fünf Jahre praktische Erfahrung mit der Entwicklung skalierbarer Datenarchitekturen, sowohl mit Batch als auch real-time Streaming Technologien. 

Mein Ziel ist es stets, Best Practices in der Software-Entwicklung und neuste Technologien einzusetzen, und so zuverlässige und wartbare Lösungen für meine Kunden umzusetzen. Ich arbeite gerne in agilen Projekten und helfe dabei, so früh wie möglich echte Mehrwerte und Business-Ziele zu erreichen.

Schwerpunkte:
  • Python, Java, Scala
  • Spark (Batch / DStreams / Structured Streaming)
  • Kafka (Producer-Consumer API / Kafka Streams / Kafka Connect)
  • Cloud Technologien (terraform, AWS)
  • Container Technologien (docker / kubernetes)
  • Tooling für den gesamten Software Lifecycle (git, CI/CD, Integration Testing, Test-Automatisierung, Logging, Monitoring)

Projekthistorie

01/2023 - bis jetzt
Data Engineer
Versicherung (Versicherungen, >10.000 Mitarbeiter)

Daten verschiedener Quellsysteme werden von Java / Kafka Streams Microservices gelesen, angereichert und für die Anforderungen der Zielsysteme angepasst. Die Daten werden mittels Kafka Connect in die Zielsysteme geladen, beispielsweise über JDBC Konnektoren.
  • Apache Kafka (Kafka Streams, Kafka Connect)
  • Java, Quarkus
  • Red Hat OpenShift
  • Splunk, SignalFX

02/2021 - 11/2022
Data Engineer (Kafka Streams, Spark, AWS)
(Medien und Verlage, 1000-5000 Mitarbeiter)

Kundendaten (Vertragsdaten, Bewegungsdaten) wurden als Stream von mehreren Quellsystemen konsumiert und in ein externes Marketing Tool integriert. Nutzerpräferenzen wurden in Echtzeit berechnet, und erlauben dem CRM Team so die präzise Kundensegmentierung und personalisierte Kommunikation.

  • Apache Kafka (Kafka Streams)
  • Migration von legacy AWS Kinesis System
  • Apache Spark (DStreams API, Structured Streaming)
  • Kubernetes, kustomize
  • CI/CD (Gitlab CI)

05/2020 - 02/2021
Data Engineer (ETL Pipelines, Spark, AWS, Airflow)
(Medien und Verlage, 1000-5000 Mitarbeiter)

Kundendaten wurden aus mehreren Quellsystem mittels zuverlässiger ETL Pipelines integriert, in einem Data Lake gespeichert und aufbereitet und für firmeninterne Abteilungen bereitgestellt, um Reporting und Kunden-Analysen zu ermöglichen. 

  • Umfassende Konzepte für DSGVO / GDPR (Löschung, Beauskunftung)
  • Kubernetes / spark-on-k8s, kustomize
  • Airflow für workload scheduling
  • AWS cloud (S3, RDS), terraform
  • Pyspark
  • CI/CD (Gitlab CI)

11/2019 - 04/2020
Data Engineer (Real-Time Data Integration)
(Banken und Finanzdienstleistungen, 500-1000 Mitarbeiter)

Finanz-Transaktionsdaten wurden mit Apache Kafka integriert: Die Daten wurden als Events von Quellsystemen verarbeitet, beispielsweise als CDC Messages von relationalen Datenbanken). Mittels Kafka Streams Java Microservices werden die Daten verarbeitet und in Zielsysteme geschrieben. Automatisierte Integration Tests überprüfen die Daten direkt in den Zielsystemen.

05/2018 - 11/2019
Data Engineer (Analytics Platform)
(Konsumgüter und Handel, >10.000 Mitarbeiter)

Eine firmeninterne Datenanalyse Plattform wurde betrieben, um Teams die Entwicklung und den Betrieb von Analytischen Datenprodukten zu ermöglichen. Die Plattform stellt eine Abstraktionsschicht für verschiedene Big Data Technologien bereit auf Basis der Hortonworks Data Platform (Hadoop, YARN, Spark, Hive, Oozie). 
  • Architektur der Plattform, beispielsweise Data Lake Struktur, Security Konzepte, Self Service Konzepte
  • Entwicklung von Python tools für den standardisierten Zugang zu HDP Hadoop Ressourcen ( (Hadoop, Hive, Spark, Oozie, Ranger)
  • CI/CD mit Jenkins, SonarQube, Artifactory
  • Architektur und Entwicklung  von Logging Architektur auf Basis von Kafka und Splunk

09/2018 - 06/2019
Data Engineer (Produktivierung von Machine Learning Applikation)
(Konsumgüter und Handel, >10.000 Mitarbeiter)

Eine Machine Learning Applikation wurde entwickelt, die Absatzprognosen in Abhängigkeit zu Preisnachlässen erstellt, um die Preisnachlässe zu definieren, die den Umsatz maxisimiert. Die Vorhersage wurde mit Machine Learning Libraries (Tensorflow, Keras) und historischen Verkaufsdaten umgesetzt. Die Applikation wurde in weitere unternehmensinterne Systeme integriert.

  • Consulting für interne Mitarbeiter zu Software Engineering best practices (CI/CD, Testing, Code Analyse, Deployment Automatisierung, Development Workflows)
  • Apache Spark, Hive, Oozie
  • Keras, Python, Conda, IntelliJ, Git
  • Jenkins, SonarQube, Artifactory

Zertifikate

Certified Developer for Apache Kafka
Confluent
2020

Reisebereitschaft

Weltweit verfügbar
Remote-Projekte bevorzugt, teilweise Vor-Ort Verfügbarkeit ist möglich
Profilbild von Jannis Koch Data Engineer - Cloud | ETL | Event Streaming | Kafka | DevOps aus Stuttgart Data Engineer - Cloud | ETL | Event Streaming | Kafka | DevOps
Registrieren