Teilprojekt eines Verbundes

Datenzusammenführung

Förderkennzeichen: 01EQ2404D
Fördersumme: 216.991 EUR
Förderzeitraum: 2025 - 2026
Projektleitung: Prof. Dr.-Ing. Jan Peter Hasenauer
Adresse: Rheinische Friedrich-Wilhelms-Universität Bonn, Mathematisch-Naturwissenschaftliche Fakultät, Fachgruppe Molekulare Biomedizin, LIMES-Institut
Carl-Troll-Str. 31
53115 Bonn

Mit dem Ende der Pandemie gibt es immer mehr Berichte von Patientinnen und Patienten mit Langzeitkomplikationen von COVID-19. Das Krankheitsbild wird zusammengefasst unter den Namen Post-COVID-Syndrom. Dabei kommt es bei den Betroffenen zu unterschiedlichen meist schwer vorherzusagenden Verläufen. Eine frühzeitige Identifizierung der Risikofaktoren, sowie eine Klassifizierung der Symptomverläufe ist daher essentiell für ein näheres Verständnis der Langzeitfolgen und möglicher Behandlungsstrategien. Mit den teils maßgeblichen Unterschieden der Krankheitsverläufe geht auch eine hohe Komplexität der Daten einher. Um diese Komplexität zu beschreiben und Muster zu erkennen, werden bereits Methoden des sogenannten föderierten Lernens verwendet, bei denen die Analyse an den einzelnen Standorten stattfindet, um den Datenschutz zu verbessern. Nur aggregierte Statistiken werden iterativ an einen zentralen Analysten übermittelt. Jedoch werden bisher beim föderierten Lernen vergleichsweise simple Analysen verwendet, die oft nicht skalierbar sind. Aus diesen Gründen werden im interdisziplinären Projekt HALTA Methoden entwickelt, mit denen sich mit künstlicher Intelligenz die Risikofaktoren betroffener Individuen identifizieren, sowie Krankheitsverläufe vorhersagen lassen. Das ermöglicht die Unterstützung von Entscheidungen zur Behandlung der Patienten. Hierbei wird stets die Verschiedenartigkeit der Krankheitsverläufe beachtet und die Skalierbarkeit auf große Datensätze über die sogenannte amortisierende Inferenz, eine neue Methode im Forschungsbereich der künstlichen Intelligenz, gewährleistet. Um diese Analyse zu ermöglichen, wird die Methode der latenten Klassenanalyse mit kontinuierlicher Zeit für föderierte Datensätze entwickelt und föderiertes "Representation Learning" genutzt, um ähnliche Muster im Krankheitsverlauf und Patientengruppen zu erkennen. Für die Analyse werden bereits bestehende (inter-)nationale Datensätze verwendet.