Schlagwörter
Skills
Ich arbeite als Data Engineer und habe fünf Jahre praktische Erfahrung mit der Entwicklung skalierbarer Datenarchitekturen, sowohl mit Batch als auch real-time Streaming Technologien.
Mein Ziel ist es stets, Best Practices in der Software-Entwicklung und neuste Technologien einzusetzen, und so zuverlässige und wartbare Lösungen für meine Kunden umzusetzen. Ich arbeite gerne in agilen Projekten und helfe dabei, so früh wie möglich echte Mehrwerte und Business-Ziele zu erreichen.
Schwerpunkte:
- Python, Java, Scala
- Spark (Batch / DStreams / Structured Streaming)
- Kafka (Producer-Consumer API / Kafka Streams / Kafka Connect)
- Cloud Technologien (terraform, AWS)
- Container Technologien (docker / kubernetes)
- Tooling für den gesamten Software Lifecycle (git, CI/CD, Integration Testing, Test-Automatisierung, Logging, Monitoring)
Projekthistorie
- Apache Kafka (Kafka Streams, Kafka Connect)
- Java, Quarkus
- Red Hat OpenShift
- Splunk, SignalFX
Kundendaten (Vertragsdaten, Bewegungsdaten) wurden als Stream von mehreren Quellsystemen konsumiert und in ein externes Marketing Tool integriert. Nutzerpräferenzen wurden in Echtzeit berechnet, und erlauben dem CRM Team so die präzise Kundensegmentierung und personalisierte Kommunikation.
- Apache Kafka (Kafka Streams)
- Migration von legacy AWS Kinesis System
- Apache Spark (DStreams API, Structured Streaming)
- Kubernetes, kustomize
- CI/CD (Gitlab CI)
Kundendaten wurden aus mehreren Quellsystem mittels zuverlässiger ETL Pipelines integriert, in einem Data Lake gespeichert und aufbereitet und für firmeninterne Abteilungen bereitgestellt, um Reporting und Kunden-Analysen zu ermöglichen.
- Umfassende Konzepte für DSGVO / GDPR (Löschung, Beauskunftung)
- Kubernetes / spark-on-k8s, kustomize
- Airflow für workload scheduling
- AWS cloud (S3, RDS), terraform
- Pyspark
- CI/CD (Gitlab CI)
- Architektur der Plattform, beispielsweise Data Lake Struktur, Security Konzepte, Self Service Konzepte
- Entwicklung von Python tools für den standardisierten Zugang zu HDP Hadoop Ressourcen ( (Hadoop, Hive, Spark, Oozie, Ranger)
- CI/CD mit Jenkins, SonarQube, Artifactory
- Architektur und Entwicklung von Logging Architektur auf Basis von Kafka und Splunk
Eine Machine Learning Applikation wurde entwickelt, die Absatzprognosen in Abhängigkeit zu Preisnachlässen erstellt, um die Preisnachlässe zu definieren, die den Umsatz maxisimiert. Die Vorhersage wurde mit Machine Learning Libraries (Tensorflow, Keras) und historischen Verkaufsdaten umgesetzt. Die Applikation wurde in weitere unternehmensinterne Systeme integriert.
- Consulting für interne Mitarbeiter zu Software Engineering best practices (CI/CD, Testing, Code Analyse, Deployment Automatisierung, Development Workflows)
- Apache Spark, Hive, Oozie
- Keras, Python, Conda, IntelliJ, Git
- Jenkins, SonarQube, Artifactory