Big Data
Big Data für Dummies – Ein KlinStrucMed-Seminar
Von den vielen Buzzwords, die in jedem längeren Gespräch über die Zukunft der Medizin vorkommen, nimmt Big Data sicherlich einen der Spitzenplätze ein. Dicht gefolgt von Machine Learning und Künstlicher Intelligenz. Auch im gesellschaftlichen Diskurs taucht es immer wieder auf. Aber was ist Big Data eigentlich?
Wie ist Big Data definiert?
Big Data beschreibt wortwörtlich große Datenmengen, die aufgrund ihres schieren Ausmaßes oder ihrer Beschaffenheit nicht herkömmlich analysiert werden können. Charakterisieren kann man dies an den 4 V.
• Volume: Die Menge der Daten.
• Variety: Die Heterogenität der Daten(-quellen), z.B. Text, Bild, Video etc.
• Velocity: Die Geschwindigkeit / Datenrate der Daten.
• Veracity: Die Qualität der Daten.
Dabei bilden die ersten 3 den Grundsatz von Big Data: Viele Daten, in Echtzeit und in verschiedenen Formaten. Die Qualität der Daten wirkt sich auf die Ergebnisse einer Auswertung aus. Zur Auswertung bzw. Verarbeitung eignen sich Verfahren wie Machine Learning (u.a. künstliche neuronale Netzwerke) oder Visualisierungsansätze besonders gut.
With Big Data comes big responsibility?
Big Data wurde besonders im politischen Rahmen ein Begriff durch den Cambridge-Analytica-Skandal während der US-Präsidentschaftswahl und dem Brexit-Votum. (1) Die Beratungsfirma Cambridge-Analytica hatte hierbei gezielt Facebook-Nutzerdaten ausgewertet um u.a. personalisierte Wahlwerbung zu schalten. Der Effekt ist umstritten – die Nachfrage nach diesen Diensten jedoch nicht.
Interessante Beiträge gab es auch auf den Tagungen des ChaosComputerClub (C3). Hier analysierte Daniel Kriesel 2016 zunächst Spiegel Online (2) und 2019 die Deutsche Bahn (3). Beide Vorträge sind sehr unterhaltsam, zeigen aber auch, wie man aus scheinbar trivialen Daten viele Informationen erschließen kann.
Entwicklung in der Medizin
Von Frau Prof. Dr. Yang Li erhielten wir am Beispiel ihrer eigenen Arbeiten einen Einblick in die Nutzungsmöglichkeiten in der Medizin. Seit 2019 leitet sie die Abteilung „Bioinformatik in der Individualisierten Infektionsmedizin“ des CiiM, welches sie zusammen mit Prof. Dr. Markus Cornberg als Co-Direktorin leitet.
Ein Kern ihrer vorherigen Forschungsarbeiten war das Human Functional Genomics Project mit dem Ziel die Variabilität von Immunantworten erklären zu können. (4) Dabei wurde u.a. das Genom von 200 oder 500 gesunden Probanden sequenziert. Zusätzlich wurden noch Blut- und Zellmaterial sowie klinische Parameter erhoben. Verfahren aus dem Bereich der –Omics wurden zur Auswertung genutzt. Die Kennzeichen von Big Data sind damit fast alle erfüllt, es handelt sich um sehr große und komplexe bzw. variable Daten.
Durch diese Verfahren konnte ermittelt werden, welche Cytokine oder Zellpopulationen mehr von Umweltfaktoren oder der Genetik beeinfluss werden und somit die Suszeptibilität für Pathogene modifizieren. (5) (6) (7)
Noch sind Big Data-Ansätze in der Routinediagnostik nicht nutzbar – die spezielle Infrastruktur, die Menge an Daten, ihre Qualität und ihre Aufbereitung stellen Herausforderungen dar, die in den kommenden Jahren überwunden werden müssen. Denn das Ziel – die personalisierte Medizin- bleibt bestehen.
(1) https://netzpolitik.org/2018/cambridge-analytica-was-wir-ueber-das-groesste-datenleck-in-der-geschichte-von-facebook-wissen/
(2) https://www.youtube.com/watch?v=-YpwsdRKt8Q
(3) https://www.youtube.com/watch?v=0rb9CfOvojk
(4) http://www.humanfunctionalgenomics.org/site/
(5) doi: 10.1038/s41590-018-0121-3
(6) doi: 10.1016/j.celrep.2016.10.053
(7)doi: 10.1016/j.cell.2016.10.017