Profilbild von David Hillmann Data Scientist aus Lauterstein

David Hillmann

verfügbar

Letztes Update: 26.11.2023

Data Scientist

Firma: DLT-Innovation GmbH
Abschluss: Economics
Stunden-/Tagessatz: anzeigen
Sprachkenntnisse: deutsch (Muttersprache) | englisch (verhandlungssicher) | französisch (Grundkenntnisse) | tschechisch (Muttersprache)

Dateianlagen

David_Hillmann_Profil_2020_03_LL_long_ger.docx
Coursera-LLM-Certificate_261123.pdf
DavidHillmannResume-25102023_261123.pdf

Skills

Mehrjährige Erfahrung als Data Science Berater
  • Einsatz als externer Berater in Industriekonzernen (u.a. BASF SE, Porsche AG)
  • Methodenberatung
  • Programmierung von Prototypen
  • Programmierung von Data Science / Machine Learning Pipelines
  • Einsatz in internationalen Projektteams, Kommunikation in englischer Sprache
Breite Kenntnisse in Verfahren des maschinellen Lernens und Einsatzerfahrung in industriellem Kontext mit R und Python
  • Supervised Learning:  Tiefe theoretische Kenntnisse in Klassifikations- und Regressionsverfahren mit mehrjähriger Anwendungserfahrung
    • Decision Trees, Random Forests, Gradient Boosted Trees, Support Vector Machines, Deep Learning (ANN, CNN), logistische – und lineare Regressionsverfahren, Ridge Regression, Lasso, Linear Discriminant Analysis, kNN
  • Unsupervised Learning: Sehr gute Anwenderkenntnisse in Clustering/Mustererkennung von strukturierten und unstrukturierten Daten
    • HDBSCAN, OPTICS, k-means, Hierarchisches Clustering
  • Rule based Learning: Gute Anwenderkenntnisse mit Algorithmen für Ableitung von Regeln aus unstrukturierten Daten
    • apriori, eclat, FP-growth
  • Dimensionalitätsreduktion: Praxiserfahrung mit
    • Principal Component Analysis
    • t-SNE
    • UMAP
    • Linear Discriminant Analysis
    • Non-negative matrix factorization
Gute Kenntnisse in Deep Learning Methoden und Anwendung mit TensorFlow & keras
  • Artificial Neural Networks
  • ConvNets
  • RNNs, LSTMs, GRUs
Tiefe Kenntnisse in klassischen statistischen Verfahren und Modellierung
  • Ökonometrische Modelle
  • Zeitreihenmodelle (ARMA, ETS)
     
Mehrjährige Erfahrung in der Entwicklung von Data Science Pipelines, als Proof of Concept und für Einsatz in Produktivsystemen
  • Datenextraktion- und Zusammenführung aus verschiedenen Quellen (HANA; MSSQL)
  • Datenaufbereitung, Datenbereinigung- und Pre-processing für finale Analysen.
  • Post-processing von finalen Ergebnissen (automatisierte Reports, Visualisierung, interaktive Plattformen wie Shiny oder Tableau)


Technische Qualifikationen
(+ Anfänger; ++ Fortgeschritten; +++ gute Kenntnisse; ++++ sehr gute Kenntnisse)

Programmierung
R                                                                                8 Jahre            ++++
Python                                                                       6 Jahre            ++++
Datenbanksprache SQL                                           5 Jahre            +++
Tensorflow (+ keras)                                                 2 Jahre            +++

Datenbanken
SAP HANA                                                                5 Jahre            +++
MSSQL                                                                      3 Jahre            ++



Visualisierung & Reporting
R Shiny                                                                      5 Jahre            ++++
ggplot2 (R)                                                                6 Jahre            +++
R Markdown                                                              6 Jahre            +++
Matplotlib (Python)                                                    4 Jahre            ++

Tableu                                                                        1 Jahre            +
Statistiksoftware
Stata                                                                          8 Jahre            +++
SAS                                                                           5 Jahre            +
SPSS                                                                         6 Jahre            ++

Sonstiges
Git Versionsverwaltung                                             5 Jahre            +++
HTML                                                                         6 Jahre            ++

Excel                                                                         10 Jahre          +++
Excel VBA                                                                 2 Jahre            +


 

Projekthistorie

05/2018 – 03/2019 DAX Unternehmen, Industrie, Inventory Health Forecasting

Ziele & Fragestellungen:
  • Wie gut können Lagerkennzahlen von einzelnen Erzeugnissen prognostiziert werden?
  • Welche Materialien, Produkte oder Produktgruppen haben ein besonders hohes/niedriges Risiko für bestimmte Risikozustände (z.B. Verfallsdatum, zu lange Lagerung)?
  • Welche Faktoren haben einen signigikanten Einfluss auf Lager KPIs?
Rolle:
  • Einsatz als externer Berater und Entwickler (Remote)
  • Selbstständiges Entwickeln und Testen von Machine Learning Methoden (Proof of Concept)
  • Kommunikation von Zwischenergebnissen mit internen IT Kollegen
Methoden/Vorgehen:
  • Testen verschiedener Klassifizierungsverfahren: Random Forests, Gradient Boosted Trees und Support Vector Machines
  • Validierung mit Hilfe von Kreuzvalidierung (nested cross-validation)
  • Hyperparameter-Optimierung mit grid search und bayesianischer Optimierung
Technologien: R (packages: mlr, caret, xgboost, rpart), Python (libraries: sklearn), MSSQL, SAP HANA
Ergebnisse:
  • Lager KPIs können mittels Tree Enseble Methoden sehr zuverlässig prognostiziert werden
  • Einzelne Risikofaktoren können aus eingesetzten Modellen abgeleitet werden
  • ML Pipeline ermöglicht automatisierte Prognose von Risikozuständen und wird als Frühwarnsystem in ein bestehendes Produktivsystem implementiert
 


05/2018 – 10/2018 DAX Unternehmen, Industrie, Inventory Management

Ziele & Fragestellungen:
  • Analyse von Maßnahmen von Planern im Rahmen von Management von Lagerbeständen
  • Können bestimmte Maßnahmen oder Planungsentscheidungen, bspw. zur Reduktion von Beständen oder alternativer Verwendungen von Erzeugnissen, mit einzelnen Materialien, Produkten, Produktgruppen und weiterer Faktoren in Verbindung gebracht werden? Gibt es wiederkehrende Muster?
  • Wie gut können standardisierte Maßnahmen/Planungsentscheidungen, unter Ausnutzung bekannter Muster und Zusammenhänge, korrekt klassifiziert werden?
Rolle:
  • Unterstützung bei Extraktion und Zusammenführung relevanter Datenbanken. -
  • Selbstständiges Entwickeln und Testen von Machine Learning Methoden (Proof of Concept)
  • Kommunikation von Zwischen- und Endergebnissen mit internen IT Kollegen
Methoden/Vorgehen:
  • Testen von Artificial Neural Networks, Random Forests, Gradient Boosted Trees, Support Vector Machines zur Klassifizierung und Evaluierung der Modellperformance mit Kreuzvalidierung
  • Hyperparameter-Optimierung mit bayesianischer Optimierung.
  • Entwicklung einer ML Pipeline, inklusive Datenimport und Datenexport in Datenbanken
Technologien: R (packages: mlr, caret, xgboost), Python (libraries: Tensorflow mit keras, sklearn), MSSQL, SAP HANA
Ergebnisse:
  • Eingesetzte ML Verfahren ermöglichen eine gute Klassifizierung von Maßnahmen
  • ML Pipeline wird in ein bestehendes Produktivsystem implementiert
  • Automatisierte Klassifikationen werden als Handlungsempfehlungen Planern zur Verfügung gestellt
 

07/2016 – 03/2019 DAX Unternehmen, Industrie, Growth Finder (Recommender System Folgeprojekt)

Ziele & Fragestellungen
  • Können Produktempfehlungen durch Einsatz moderner Machine Learning Methoden verbessert werden?
  • Können weitere Kundenfeatures die Modellperformance verbessern?
  • Welche Performance erzielen diese im Vergleich?
  • Wie interpretierbar sind Produktepfehlungen mit verschiedenen Modellen? Wenn möglich, Entwicklung von Erklärungsmethoden und Interpretationen für einzelne Produktempfehlungen
  • Bereitstellung von hinreichend dokumentierten R Paketen für den gesamten Workflow für Produktempfehlungen
Rolle:
  • Einsatz als externer Berater (Methodenberatung) und Entwickler (vor Ort mit Remoteanteilen) zur Unterstützung eines internen Data Science Teams
  • Kommunikation von Zwischenergebnissen mit Fachkollegen und enge Zusammenarbeit und methodische und programmatische Schulung von IT Solutions Kollegen
  • Schulung von internen IT Kollegen um Einsatz der Methoden zu ermöglichen und Know-How Transfer an Fachkollegen
Methoden/ Vorgehen:
  • Einsatz von Machine Learning Algorithmen um Muster und Regeln aus den Warenkörben der Kunden und daraus Empfehlungen für wahrscheinlich benötigte Produkte abzuleiten: Decision Trees, Gradient Boosted Trees, Convolutional Neural Networks
  • Entwicklung einer möglichst automatisierten Pipeline: Datenimport ? Preprocessing ? Modelle ? Postprocessing (Produktempfehlung in aufbereiteter Form)
  • Entwicklung eines R Pakets für alle Pre- und Postprocessing Schritte für alle eingesetzten Algorithmen. Speicher- und Speedeffizienz wesentlicher Modell-, Pre- und Postprocessing Funktionen (Parallelisierbar, Speichereffizienz durch Implementierung von Sparse Matritzen)
  • Weiterentwicklung eines algorithmischen R Pakets basierend auf recommenderlab
Technologien: R, Tensorflow mit keras (R), recommenderlab (R), xgboost (R), rpart (R), Python, SAP HANA, R Markdown
Ergebnisse (on-going):
  • Bereitgestellter Workflow für Produktempfehlungen ermöglicht Training mit großen Datenmengen, welche die Performance wesentlich verbessern
  • Workflow wird von interner IT Abteilung verwendet, um Geschäftseinheiten mit Produktempfehlungen zu versorgen
  • Erfolgreiche Erprobung und positive Resonanz großer interner Geschäftseinheiten
 

07/2017 – 03/2018 DAX Unternehmen, Industrie, Business Process Minining

Ziele & Fragestellungen:
  • Analyse der Zuverlässigkeit von Bestellprozessen (Delivery Reliability, DR) um Ursachen für verspätete Lieferungen zu extrahieren
  • Sind bestimmte, wiederkehrende Muster erkennbar, welche mit einer niedrigen Lieferzuverlässigkeit in Zusammenhang stehen?
  • Kann die Lieferzuverlässigkeit durch Abstellen der in den Regeln entdeckten Faktoren, die mit einer niedrigen DR einhergehen, erhöht werden?
  • Wie hoch wäre die Verbeserungspotenziale der Lieferprozesse bzgl. DR?
  • Welche Faktoren verursachen DR drop in bestimmten Zeiträumen

Rolle:
  • Unterstützung bei der Weiterentwicklung einer bestehenden ML Pipeline (vor Ort mit Remoteanteilen)
  • Zusammenarbeit mit Fachkollegen
  • Kommunikation von Zwischenergebnissen mit Fachkollegen und Business Stakeholdern aus Supply Chain

Methoden/Vorgehen:
  • Machine Learning Algorithmen um aus Mustern Regeln abzuleiten die mit Lieferproblemen verbunden sind
  • Clustering/Gruppierung von ähnlichen Regeln um kontextbezogene Problemfelder strukturiert darzustellen und von Experten analysieren zu können
  • Evaluation verschiedener Clusteringalgorithmen: dbscan, hierarchisches Clustering, k-means mit verschiedenen Distanzmaßen
  • Erweiterung der Data Mining Pipeline um Datenimport und Ergebnisexport in Datenbanken zu automatisieren
  • Erweiterung um potenziell relevante Faktoren zur Regelerzeugung (Feature Engineering)
  • Anwendung von causalTree Algorithmen zur Extraktion von zeitabhängigen Einflussfaktoren
  • Dokumentation des gesamten Workflows
Technologien: R, arules (R), dbscan (R), SAP HANA, SQL, R Shiny, R Markdown, Jupyter
Ergebnisse (on-going):
  • Entwicklung einer Analyse-Pipeline sodass historischen Daten möglichst automatisiert in die Modelle fließen und Regeln für die Expertenevaluation erzeugen
  • Entwicklung einer interaktiven Plattform mit denen Regeln leicht von Domain-Experten analysiert und verwertet werden können
  • Erfolgreiche Anwendung als Pilotprojekt in einem Geschäftsbereich
  • Evaluation des Verfahrens in weiteren Geschäftsbereichen (on-going)
 

03/2015 – 06/2016 DAX Unternehmen, Industrie, Recommender System

Ziele & Fragestellungen:
  • Strukturierung der Kunden: Wie viel Anteil am Gesamtumsatz entfallen auf bestimmte Kunden- bzw. Kundengruppen? Gruppierung der Kunden nach Umsatzpotenzialen und Kaufgewohnheiten
  • Proof of Concept: Können aus historischen Daten statistische Muster bzgl. Kaufgewohnheiten gewonnen werden? Können diese Muster verwendet werden um Produktempfehlungen für Bestandskunden abzuleiten?
  • Wie hoch ist die Erfolgswahrscheinlichkeit, dass Kunden die empfohlenen Produkte benötigen und kaufen?
  • Wie hoch ist das Potenzial aus den Empfehlungen einzuschätzen?


Rolle:
  • Einsatz als externer Berater (Methodenberatung) und Entwickler (vor Ort mit Remoteanteilen)
  • Zusammenarbeit mit Fachkollegen aus den Bereichen Statistik, Data Science
  • Kommunikation von Zwischenergebnissen mit Fachkollegen und enge Zusammenarbeit mit Kollegen vom internen Management Consulting


Methoden/Vorgehen:
  • Deskriptive statistische Analyse von Kunden nach Kundengröße- und Umsatzwichtigkeit
  • Auswahl geeigneter Algorithmen zur Entdeckung von häufig zusammen gekauften Produkten. Anwendung von Assoziationsanalyse (Itemsetmining, Rulemining), Ableitung von Empfehlungen für Bestandskunden, Aufbereitung und Interpretation der Resultate für Marketing und Sales Mitarbeiter (Proof of Concept)
  • Aufbereitung und interaktive Visualisierung von entdeckten Regeln und Produktempfehlung
  • Entwicklung einer Recommender Shiny-App für Testphase im realen Einsatz
Technologien: R, arules + arulesViz (R), ggplot2, SAP HANA, SQL, R Shiny, R Markdown

Ergebnisse:
  • Erzeugte Regeln und abgeleitete Produktempfehlungen werden durch die Sales Force von Geschäftseinheiten in der Praxis validiert.
  • Hohes Potenzial gemessen am erwarteten Deckungsbeitrag bei Absatz der empfohlenen Produkte.
  • Einsatz einer interaktiven App (R Shiny), um Produktempfehlungen zu rationalisieren (Aus welchen Mustern/Regeln entspringt eine Empfehlung?) und zu priorisieren nach Erfolgswahrscheinlichkeit und erwateten Deckungsbeiträgen
  • App wird verwendet um Recommender System bei potentiellen internen Kunden vorzustellen und möglichst im Konzern zu verbreiten
 

06/2014 – 12/2017 DAX Unternehmen, Industrie, Price Outlier Analysis

Ziele & Fragestellungen:
  • Analyse statistischer Ausreisser zur Erfassung von Preisspielräumen von Vertriebmitarbeitern
  • Können mittels statistischer Ausreisseranalysen zu hohe oder zu niedrige Absatzpreise automatisiert erkannt und definiert werden?
  • Welche Faktoren dominieren die Preisgestaltung?
  • Erkennung von Transaktionen bei denen der verhandelte Preis zu niedrig war bzw. nicht durch erkannte Faktoren erklärbar ist
  • Wie hoch wäre das Potenzial bzgl. Deckungsbeiträgen, wenn zu niedrig bepreiste Transaktionen zu einem Preis abgesetzt würden die gem. statistischer Analyse zu rechtfertigen sind?
Rolle:
  • Einsatz als externer Berater und Entwickler (vor Ort mit Remoteanteilen)
  • Zusammenarbeit mit Fachkollegen
  • Kommunikation von Zwischenergebnissen mit Fachkollegen und Business Stakeholdern
Methoden/Vorgehen:
  • Entwicklung eines Pricing-Modells (lineare Modelle mit Interaktionseffekten), um Benchmarks zu erhalten und Preisspielräume zu erkennen
  • Interpretation der Ergebnisse
  • Programmierung einer interaktiven Plattform für Reporting- und Monitoringzwecke im Marketing & Sales

Technologien: R, R Shiny, R Markdown, SAP HANA, SQL, ggplot2

Ergebnisse:
  • Einsatz der Resultate in verschiedenen Geschäftseinheiten zur Ausschöpfung der Zahlungsbereitschaft von Kunden
  • Bereitstellung eines Tools für Vertriebmitarbeiter um Preisspielräume verwerten zu können
 

05/2014 – 11/2014 BASF SE, Benchmarkanalysen Absatzprognosen

Ziele & Fragestellung:
  • Modellbasierte Schätzung von Absatz-Prognosegenauigkeiten für ein verbessertes Benchmarking bestehender Forecastingmethoden (Demand Planning Folgeprojekt)
  • Welche Faktoren begünstigen/verschlechtern signifikant die Prognoseperformance?
Rolle:
  • Einsatz als externer Berater und Entwickler, Zusammenarbeit mit Fachkollegen
  • Selbstständige Durchführung und Erprobung von einschlägigen Methoden aus der Literatur, Präsentation der Ergebnisse
Methoden/Vorgehen:
  • Sichtung der Literatur
  • Auswahl geeigneter Methoden: PCA, lineare Regressionsanalysen
  • Erprobung mit konzerninternen Daten
Technologien: R, ggplot2

Ergebnisse:
  • Prognosegenauigkeit kann mit Hilfe relevanter Faktoren zuverlässig geschätzt werden
  • Benchmarking kann auf Methoden, Geschäftsbereiche und Planer angewandt werden um Over/Underperformer automatisiert zu erkennen und Potenziale für Verbesserungen abzuleiten
 

04/2014 BASF SE, Hierarchical Forecasting

Unterstützung bei der Generierung und Visualisierung hierarchischer Absatzprognosen.
Technologien: R, ggplot2, Excel

11/2013 - 03/2014 BASF SE, Demand Planning
Ziele & Fragestellungen
  • Können Absatzmengen auf Produktebene hinreichend zuverlässig prognostiziert werden?
  • Können Prognosen helfen Lagerhaltungskosten zu senken und eine just-in-time Produktion besser zu ermöglichen?
  • Sind moderne state-of-the-art Prognosemethoden besser als die im Einsatz befindlichen einfachen Verfahren?

Rolle:
  • Einsatz als Berater und Entwickler im Rahmen eines Projektes bei zur Verbesserung der konzerninternen Absatzprognosen

Methoden/Vorgehen:
  • Schätzung von Zeitreihenmodellen mit historischen Daten
  • Durchführung und Validierung statistischer Forecasts mit verschiedenen Zeitreihenmodellen (ARMA, ETS, Croston) und Entwicklung eines R-Pakets zur Automatisierung von Absatzprognosen

Technologien: R, forecast (R package), Excel

Ergebnisse:
  • Entwicklung eines R Pakets zur automatisierten Erzeugung von Absatzprognosen und Visualisierungen
  • Entwicklung von geeigneten Benchmarks um Prognosegenauigkeit zu prüfen und zu verbessern


 

Reisebereitschaft

Weltweit verfügbar
Bayern, Baden-Württemberg und Hessen, A, CH
Verfügbar ab Juli 2020
Profilbild von David Hillmann Data Scientist aus Lauterstein Data Scientist
Registrieren