Data Science

In Daten ruhendes Wissen nutzbar machen.

Unser Leistungsangebot

Data Science ermöglicht die Extraktion von Wissen und Wert aus Daten. So können nicht nur neue Erkenntnisse gewonnen und Entscheidungsprozesse unterstützt, sondern auch bestehende Prozesse optimiert und neue innovative Anwendungen erschlossen werden.

 

Am Fraunhofer ISST werden verschiedene Data Science-Lösungen entwickelt. Dabei erforschen und entwickeln wir KI- bzw. ML-Pipelines (also aneinander gekettete Verarbeitungsschritte) für die Bereiche Gesundheitswesen, Logistik und Datenwirtschaft. Je nach Anwendungsfall können diese auf unterschiedlichen Datenquellen wie Biosignalen (z.B. Messungen mithilfe von EKG oder 3D-Beschleunigungssensoren), Audio, Bildern, Videos, Texten oder auf einer Kombination mehrerer Datenquellen basieren. Dabei unterstützen wir unsere Partner entlang der gesamten Pipeline, von der Vorverarbeitung der (Roh-)Daten bis hin zur Auswahl und dem Training geeigneter Modelle sowie deren Evaluation anhand anwendungsspezifischer Performancekriterien. Ein besonderer Schwerpunkt liegt hierbei auch auf der Definition, Messung und Verbesserung der Datenqualität. Hierfür kombinieren wir verschiedene Technologien und Algorithmen aus den Bereichen Data Profiling, Data Cleaning, Data Validation sowie Data Orchestration, um als Teil des »DataOps« eine ganzheitliche Betrachtung der Datenqualität im Datenlebenszyklus zu ermöglichen.

Abbildung: Datenqualitätskontrolle in Data Lake-Architekturen


Das Leistungsangebot im Kompetenzfeld Data Science umfasst sowohl die Anforderungserhebung und Gap-Analyse zur Identifikation von Verbesserungspotenzialen als auch Architektur- und Prozessentwicklungen bis hin zur Realisierung von Prototypen zur Extraktion von Wissen und Wert aus vorliegenden oder zu erhebenden Daten.

 

Training und Evaluation von Machine Learning (ML)-Modellen

  • Konzeption von ML-basierten Anwendungen.
  • Featureberechnung anhand von Biosignaldaten (z.B. 3D-Beschleunigung, EKG, Audio) aus der Zeit- und Frequenzdomäne.
  • Auswahl aus unterschiedlichen Lernansätzen, z.B. klassische Klassifikationsverfahren, Deep Learning, Assoziationsanalyse, Clustern.
  • Hyperparameteroptimierung, Evaluation anhand anwendungsspezifischer Performanzmetriken.

 

Data Profiling         

  • Automatisierte Ableitung von Metadaten aus relationalen Datenbeständen durch deskriptive Statistiken, Korrelationsanalysen, funktionale Abhängigkeiten oder Clusteranalysen.
  • Automatisierte Ableitung von Metadaten aus nicht-relationalen Datenbeständen durch Dynamic Topic Models (und verwandte Verfahren des Neuro-Linguistische Programmierens), der Erkennung von Concept Drifts, der Erkennung von Outliern mit Isolation Forest-Algorithmen sowie künstlicher Intelligenz (KI).
  • Speicherung und Verwaltung der Metadaten in einem zentralen, microservice-orientierten Data Catalog.
  • Beschreiben, Verwalten und Orchestrieren von Data Engineering-Prozessen.

 

Data Cleaning and Validierung

  • Unterstützung bei der Erkennung von Datenfehlern durch die Identifizierung von Duplikaten, Outliern, Formatverstößen oder Regelverstößen.
  • Ermöglichung einer automatischen Datenvalidierung durch Datenqualitätsregeln auf Basis von Assoziationsanalysen.
  • Verwaltung der identifizierten Fehler in einem entsprechenden Tool und Integration durch offene Schnittstellen (APIs).

 

Data Quality Management

  • Weiterentwicklung bestehender Data Engineering-Prozesse durch die integrative Betrachtung von Datenqualität.
  • Integration von Datenqualität als Komponente in modernen Systemarchitekturen (wie Data Lakes).
  • Entwicklung von Qualitätsmetriken für verschiedene Datensätze und Anwendungsbereiche.
 

Verfügbare Software/Anwendungen

 

Branchen

Data Science trägt in unterschiedlichen Branchen zur Lösung anspruchsvoller Herausforderungen bei. Ob für das Management urbaner Daten, die automatisierte Qualitätskontrolle in der Logistik, die Diagnose von Krankheiten, die Prüfung klinischer Studien im Pharmabereich oder für die Extraktion von Informationen aus Dokumenten, die Möglichkeiten sind lediglich durch die Verfügbarkeit von Daten beschränkt.

 

Hier finden Sie eine Auswahl von freigegebenen Anwendungsbeispielen aus dem Kompetenzfeld »Data Science« der vergangenen Jahre. Sie suchen weitergehende Informationen? Nehmen Sie einfach Kontakt mit uns auf – unsere Ansprechpartner stehen Ihnen gerne für Fragen und Gespräche zur Verfügung.

 

Beispiel 1:

Data Quality Mining (im Rahmen des Boehringer Ingelheim Labs)

Im Projekt »Data Quality Mining« untersuchen wir in Zusammenarbeit mit Boehringer Ingelheim wie sich die Qualitätsanalyse von Stammdaten unterstützen und durch Datenqualitätsregeln langfristig automatisieren lässt. Hierbei kombinieren wir Verfahren der Statistik und des maschinellen Lernens, um den manuellen Aufwand der Qualitätskontrolle zu reduzieren und einen höheren Grad an Datenqualität in den Stammdaten zu erreichen.

 

Beispiel 2:

QU4LITY

Im Projekt »QU4LITY« erforscht das Kompetenzfeld Datenqualität die automatisierte Datenqualitätsanalyse in Produktionsumgebungen. Hierbei nutzen wir die Technologie der International Data Spaces (IDS) und ergänzen sie um geeignete Lösungen für das Profiling kontinuierlicher Datenströme zur Bestimmung der Datenqualität. Wir tragen so zu den Zielen der autonomen Qualität und der Null-Fehler-Fertigung bei.

Projektseite extern

(qu4lity-project.eu)

 

Beispiel 3:

TMvsCovid19

Im Projekt »TMvsCovid19« erforscht das Kompetenzfeld Datenqualität wie inhaltliche Metadaten aus Publikationen zum Thema „Covid19“ abgeleitet und in Form von Trends visualisiert werden können. Wir wollen so die Forschung und bestehende Knowledge Graphen unterstützen schneller auf Trends zu reagieren. Hierfür setzen wir auf die automatisierte Textanalyse unter Einsatz von Dynamic Topic Models aus dem NLP-Bereich.

 

Beispiel 4:

e-Palettenschein

Qualitätsbestimmung von Europoolpaletten

Innerhalb des »e-Palettenscheins« eines Projektes im Rahmen von Silicon Economy, wird das Alter von Paletten anhand von einer App gemachten Fotos mit Recurrent Convolutional Neural Networks bestimmt. Zunächst werden die Paletten erkannt und anschließend ausgewertet. Die Hintergrunderkennung hilft, verschiedene isolierte Attribute (wie die Palettenhelligkeit) besser einzuschätzen.

Projektseite extern

(silicon-economy.com/)

 

Beispiel 5:

Metropole Ruhr

Digitale Modelldestination NRW

Kernziel des Projektes »Metropole Ruhr: Digitale Modelldestination NRW« der Ruhr Tourismus GmbH ist der Aufbau eines Datenhubs für touristischen Daten im Ruhrgebiet. Dazu zählt auch eine zentrale Mediendatenbank, die den bisherigen Speicherort von touristischen Bildern ablösen soll. Die gezielte Suche nach Bildern soll zukünftig u.a. durch automatisch generierte Keywords erleichtert werden. Im Rahmen des Projektes wurden bestehende Modelle zur Objekterkennung auf Bildern weiterentwickelt.

Projektseite intern

 

Beispiel 6:

QuarZ

Services datensouverän nutzen im Quartier der Zukunft

Das Projekt QuarZ – Quartier der Zukunft hat ein Anliegen: Es möchte das Alltagsleben der Bewohnerinnen und Bewohnern verbessern. Zu diesem Zweck werden im Rahmen des Projekts Services beispielsweise aus dem Bereich Smart Home, Smart Invoice, Quartiersnetzwerk und Mobilität, entwickelt. Die im Projekt entstehende Plattform führt die Daten des zunehmend vernetzten urbanen Lebensraums zusammen, verknüpft sie und macht sie damit für zusätzliche smarte Dienstleistungen nutzbar. Zu den Bestandteilen des vernetzten Quartiers gehören unter anderem die Installation von Sensoren für Wetter-, Umwelt- und Citydaten sowie eine Software-Plattform für die Zusammenführung und Nutzung der Daten dieser Sensoren, ergänzt mit Daten aus anderen Quellen. Ein Portal für die Mieter mit Schnittstelle für Smart-Home-Anwendungen macht eine einfache Bedienung der Services aus der Wohnung heraus möglich.

Projektseite intern

 

Beispiel 7:

PCompanion

Mobiles Gesundheitssystem zur Unterstützung von Parkinsonpatienten

Ziel des vom Bundesforschungsministerium geförderten Projektes »PCompanion« ist es, das erste mobile, patientennahe Screening- und Monitoringsystem zur Frühdiagnostik von Parkinsonerkrankungen zu entwickeln. Im Fokus steht dabei die Früherkennung von Störungen des REM-Schlafes und des vegetativen Nervensystems mithilfe eines körpernahen Sensors.

Projektseite extern

(parkinson-companion.de/)

Beispiel 8:

EPItect

Pflegerische Unterstützung epilepsiekranker Menschen durch innovative Ohrsensorik

Ziel des Projekts »EPItect« ist die Entwicklung eines In-Ohr-Sensors, der das Auftreten epileptischer Anfälle anhand der gemessenen Biosignale erkennen kann. Die dokumentierten Daten werden ausgewählten Personen über mobile Endgeräte zur Verfügung gestellt, wodurch bei Bedarf auch das pflegende Umfeld einbezogen werden kann. Im Projekt werden dazu eigens neue Modelle zur Anfallsdetektion auf der Basis maschineller Lernverfahren entwickelt.

Projektseite extern

(epitect.de)

 

Beispiel 9:

MOND

Mobiles, smartes Neuro-Sensorsystem für die Detektion und Dokumentation epileptischer Anfälle im Alltag

Innerhalb des Projektes »MOND« wird ein konzeptioneller Beweis (proof-of-concept) für ein KI-basiertes Sensorsystem zur automatisierten Detektion epileptischer Anfälle im Alltag angestrebt. Die Datenerfassung soll über am Ohr getragene, mobile Sensorik erfolgen, die mit besonderem Fokus auch eine mobile Ableitung eines Elektroenzephalogramms (EEG) ermöglichen soll. Das Projekt baut auf den Ergebnissen des Projektes »EPItect« auf.

Projektseite intern

 

Beispiel 10:

Digitaler Engel

Stärkung der Interaktionsarbeit von Pflegekräften durch den Einsatz digitaler Assistenten

Im Forschungsprojekt »Digitaler Engel« werden Einsatzmöglichkeiten digitaler Assistenten im Bereich der Pflege untersucht. Dafür werden ML-Modelle zur Detektion von Stress bei Pflegekräften basierend auf einem mobilen EKG entwickelt. So sollen Pflegekräfte in ihrer täglichen Arbeit entlastet und langfristig der Beruf der Pflegekraft attraktiver werden.

Projektseite extern

(digitaler-engel.com/)

 

Beispiel 11:

BodyTune

Automatisierte Audioanalyse von Flussgeräuschen der Arteria Carotis

Ziel des Projekts »BodyTune« ist es, durch eine automatisierte Analyse von Körpergeräuschen am Beispiel der Karotisstenose einerseits die Früherkennung dieser Erkrankung und die Versorgung von Risikopatienten zu verbessern, und andererseits eine Individualisierung der Therapie und eine Steigerung der Adhärenz sowie der Inklusion zu erreichen. Dafür werden ML-Modelle entwickelt, welche es erlauben, eine Aussage über den Gesundheitszustand einer Person anhand der Blutflussgeräusche der Arteria Carotis zu treffen.

Projektseite extern

(bodytune.online)

 

 

 

Liste der wissenschaftlichen Publikationen

ALTENDEITERING, Marcel; GUGGENBERGER, Tobias Moritz. Designing Data Quality Tools: Findings from an Action Design Research Project at Boehringer Ingelheim. In: European Conference on Information Systems (ECIS). 2021.

TEBERNUM, Daniel; ALTENDEITERING, Marcel; HOWAR, Falk. DERM: A Reference Model for Data Engineering. In: International Conference on Data Science, Technology and Applications (DATA). 2021.

ALTENDEITERING, Marcel; DÜBLER, Stephan. Scalable Detection of Concept Drift: A Learning Technique Based on Support Vector Machines. Procedia Manufacturing, 2020, 51. Jg., S. 400-407.

AMADORI, Antonello; ALTENDEITERING, Marcel; OTTO, Boris. Challenges of Data Management in Industry 4.0: A Single Case Study of the Material Retrieval Process. In: International Conference on Business Information Systems. Springer, Cham, 2020. S. 379-390.

HENZE, Jasmin; HOUTA, Salima; SURGES, Rainer; KREUZER, Johannes; BISGNI, Pinar. Multimodal Detection of Tonic-Clonic Seizures Based on 3D Acceleration and Heart Rate Data from an In-Ear-Sensor. In: Del Bimbo A. et al. (eds) Pattern Recognition. ICPR International Workshops and Achallenges. ICPR 2021. Lecture Notes in Computer Science, vol 12661. Springer, Cham. 2021. ISBN: 978-3-030-68762-5

BISGIN, Pinar; BURMANN Anja, LENFERS, Tim. REM Sleep Stage Detection of Parkinson’s Disease Patients with RBD. In: International Conference on Business Information Systems. Springer, Cham, 2020. S. 35-45. ISBN: 978-3-030-53337-3

MEISTER, Sven; HOUTA, Salima; BISGIN, Pinar. Mobile Health und digitale Biomarker: Daten als „neues Blut “für die P4-Medizin bei Parkinson und Epilepsie. In: mHealth-Anwendungen für chronisch Kranke. Springer Gabler, Wiesbaden, 2020. S. 213-233. ISBN: 978-3-658-29133-4

HOUTA, Salima; BISGIN, Pinar; DULICH, Pascal. Machine Learning Methods for Detection of Epileptic Seizures with Long-Term Wearable Devices. In: Elev Int Conf EHealth, Telemedicine, Soc Med. 2019. S. 108-13. ISBN: 978-1-61208-688-0

BISGIN, P.; MEISTER, S.; HAUBRICH, C. Erkennen von parkinsonassoziierten Mustern im Schlaf und Neurovegetativum, 64. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS), Dortmund, 2019. Abstract 44.

ALTENDEITERING, Marcel; TOMCZYK, Martin. A Functional Taxonomy of Data Quality Tools: Insights from Science and Practice. 2022. Wirtschaftsinformatik 2022 Proceedings.

ALTENDEITERING, Marcel. Mining data quality rules for data migrations: a case study on material master data. In: International Symposium on Leveraging Applications of Formal Methods. Springer, Cham, 2021. S. 178-191.

SALVI, Rutuja, et al. Vascular Auscultation of Carotid Artery: Towards Biometric Identification and Verification of Individuals. Sensors, 2021, 21. Jg., Nr. 19, S. 6656.

FIEGE, Eric, et al. Automatic Seizure Detection Using the Pulse Transit Time. arXiv preprint arXiv:2107.05894, 2021.