Synthetic Data and the Problematic of Representation
Vortrag von Benjamin Jacobsen (University of York)
10. Juni
- 10.06.2025, 14-16 Uhr
- Zoom: Eine Anmeldung ist nicht erforderlich. Bitte kontaktieren Sie Inga Luchs (inga.luchs@leuphana.de) für die Zoom Zugangsdaten.
- CDC Kolloquium
- Diese Veranstaltung findet auf Englisch statt.
Was passiert, wenn nicht genügend Daten vorhanden sind, um Algorithmen des maschinellen Lernens zu trainieren? Und was passiert, wenn die zum Trainieren algorithmischer Modelle verwendeten Daten bestimmte Datenattribute wie Geschlecht oder ethnische Zugehörigkeit nicht ausreichend repräsentieren? Algorithmen und generative KI-Modelle sind nicht nur immer stärker mit der heutigen Gesellschaft verflochten. Sie sind auch dafür bekannt, dass sie stereotype und kulturell verankerte Darstellungen mit ihrem Output weiter verstärken können. Synthetische Daten sind unter anderem als Antwort auf dieses Problem der Repräsentation in KI-Trainingsdatensätzen entstanden.
Synthetische Daten verkörpern den ausdrücklichen Anspruch, vielfältige Datenpunkte zu generieren, wie beispielsweise Bilder oder Textdaten, die rassifizierte Minderheiten in einem Datensatz aus dem Gesundheitswesen repräsentieren. Dies hat weitreichende, disruptive und ethische Auswirkungen, da synthetische Daten unser Verständnis von seit langem bestehenden Problemen wie Bias, Fairness und algorithmischer Ungerechtigkeit neu zur Verhandlung stellen.
In diesem Vortrag werde ich anhand der Arbeiten von Jacques Derrida und Ramon Amaro die Frage der Repräsentation in synthetischen Daten anhand von zwei Gesichtspunkten untersuchen: Ungleichgewicht und Abwesenheit. Mit anderen Worten: Ich werde auf Fälle eingehen, in denen die Datenverteilung, auf der ein Algorithmus trainiert wird, als verzerrt oder unausgewogen angesehen wird und bestimmte Datenklassen in der Datenverteilung vollständig fehlen. Anhand von Unternehmensdokumenten sowie halbstrukturierten Interviews mit KI-Forscher*innen und Informatiker*innen werde ich die Spannungen aufzeigen, die entstehen, wenn synthetische Daten zur Lösung dieser beiden Probleme – Ungleichgewicht und Abwesenheit – eingesetzt werden, und was dies über die aktuelle Lage im Bereich KI und Ethik aussagt.
Benjamin N. Jacobsen ist Dozent für Soziologie an der University of York sowie Visiting Fellow in Professor Louise Amoores Projekt ‘Algorithmic Societies’ an der Durham University. Seine Forschung beschäftigt sich im Allgemeinen mit den ethisch-politischen Effekten von Daten und Algorithmen des maschinellen Lernens auf Kultur und Gesellschaft. Er hat zahlreiche Publikationen zu der Verschränkung von Algorithmen und alltäglichen Erinnerungspraktiken veröffentlicht. Sein Buch Social Media and the Automatic Production of Memory (gemeinsam verfasst mit Prof. David Beer) erschien 2021 bei Bristol University Press. Benjamin untersucht derzeit die politischen Auswirkungen generativer Modellierung und synthetischer Daten auf die Gesellschaft. Diese Arbeit wurde in Fachzeitschriften wie Big Data & Society und Theory, Culture & Society veröffentlicht.
Rückfragen und Kontakt
Inga Luchs (inga.luchs@leuphana.de)