Was können soziale Netzwerke im Internet über Menschen wissen, die selbst kein Nutzerprofil besitzen, aber Freunde von Mitgliedern sind? Das haben Forscher des Interdisziplinären Zentrums für Wissenschaftliches Rechnen der Universität Heidelberg untersucht. Ihre Arbeiten zeigen, dass sich Informationen aus der Netzwerkstruktur von Mitgliedern auf Nicht-Mitglieder übertragen und mit Hilfe von netzwerkanalytischen Strukturmerkmalen auswerten lassen. Unter bestimmten Voraussetzungen ist es möglich, etwa 40 Prozent der existierenden Freundschaftsbeziehungen zwischen Nicht-Mitgliedern auf der Basis reiner Kontaktdaten korrekt vorherzusagen.
Bereits seit einigen Jahren gehen Wissenschaftler der Frage nach, welche Schlussfolgerungen sich mit Hilfe des Computers aus direkt oder indirekt eingegebenen Daten durch entsprechende Lern- und Vorhersagealgorithmen ziehen lassen. In einem sozialen Netzwerk können auch Angaben wie sexuelle Orientierung oder politische Ausrichtung, die ein Mitglied nicht selbst angegeben hat, mit sehr hoher Präzision „berechnet“ werden, wenn genug Freunde des betreffenden Nutzers die entsprechende Information über sich selbst freigegeben haben. „Sobald bestätigte Freundschaftsbeziehungen bekannt sind, ist die Vorhersage bestimmter unbekannter Eigenschaften keine allzu große Herausforderung mehr für die maschinelle Datenanalyse“, sagt Prof. Dr. Fred Hamprecht, Mitbegründer des Heidelberg Collaboratory for Image Processing (HCI).
Untersuchungen dieser Art beschränken sich bislang jedoch auf Nutzer von sozialen Netzwerken, also auf Personen, die dort über ein Nutzerprofil verfügen – und damit den jeweiligen Datenschutzbedingungen zugestimmt haben. „Nicht-Mitglieder besitzen hingegen keine derartige Vereinbarung. Aus diesem Grund haben wir ihre Anfälligkeit für die automatische Generierung sogenannter Schattenprofile untersucht“, erläutert Prof. Dr. Katharina Zweig, die bis vor kurzem am Interdisziplinären Zentrum für Wissenschaftliches Rechnen (IWR) der Universität Heidelberg tätig war.
In einem sozialen Netzwerk im Internet ist es möglich, unter anderem mit Hilfe einer Funktion zum Auffinden von Bekannten an Informationen über Nicht-Mitglieder zu gelangen. So werden Neumitglieder von Facebook dazu aufgefordert, bei ihrer Registrierung dem Netzwerk ihre kompletten E-Mail-Kontakte zur Verfügung zu stellen – auch Kontakte zu Personen, die selbst nicht Mitglied bei Facebook sind. „Dieses sehr grundlegende Wissen darüber, wer mit wem in einem sozialen Netzwerk bekannt ist, lässt sich mit Informationen darüber verknüpfen, wen Nutzer außerhalb des Netzwerks kennen. Mit dieser Verknüpfung kann dann wiederum ein wesentlicher Teil des Bekanntschaftnetzes zwischen Nicht-Mitgliedern abgeleitet werden“, erläutert Ágnes Horvát, die am IWR forscht.
Zwanzig mal genauer als raten
Für ihre Berechnungen nutzten die Heidelberger Wissenschaftler ein Standard-Verfahren des maschinellen Lernens, aufbauend auf netzwerkanalytischen Strukturmerkmalen. Da die Daten, die für diese Untersuchung benötigt wurden, nicht frei erhältlich sind, haben die Forscher mit einem Testset echter Grunddaten gearbeitet. Die Aufteilung in Mitglieder und Nicht-Mitglieder sollte dabei mit einer möglichst großen Bandbreite von Methoden simuliert werden. Mit der Simulation war es zugleich möglich, die Untersuchungsergebnisse zu validieren. Mit handelsüblichen Computern konnte in nur wenigen Tagen berechnet werden, welche Nicht-Mitglieder mit großer Wahrscheinlichkeit miteinander befreundet sind.
Für die Heidelberger Wissenschaftler war dabei überraschend, dass alle Simulationsansätze qualitativ dasselbe Ergebnis brachten. „Unter realistischen Annahmen darüber, wie viel Prozent einer Bevölkerung Mitglied eines sozialen Netzwerks sind und mit welcher Wahrscheinlichkeit diese ihr E-Mail-Adressbuch hochladen, hat sich gezeigt, dass es mit den Berechnungen möglich war, rund 40 Prozent richtige Vorhersagen über Bekanntschaften zwischen den Nicht-Mitgliedern zu treffen.“ Dies stellt nach Angaben von Dr. Michael Hanselmann vom HCI eine 20-fache Verbesserung gegenüber einfachem Raten dar.
„Unsere Untersuchung hat deutlich gemacht, welches Potenzial soziale Netzwerke besitzen, um Informationen über Nicht-Mitglieder abzuleiten. Die Resultate sind auch deshalb erstaunlich, weil sie auf reinen Kontaktdaten beruhen“, betont Prof. Hamprecht. Viele soziale Netzwerke und Dienstleister verfügen jedoch über weitaus mehr Informationen der Nutzer, etwa Alter, Einkommen, Ausbildung oder Wohnort. Mit der Verwendung solcher Angaben, einer entsprechenden technischen Infrastruktur und weiteren Strukturmerkmalen der Netzwerkanalyse ließe sich – so die Wissenschaftler – die Vorhersagegenauigkeit vermutlich noch deutlich steigern. „Insgesamt zeigt unser Projekt damit auf, dass wir als Gesellschaft eine Vereinbarung dafür finden müssen, inwieweit Informationen genutzt werden dürfen, zu denen es keine Freigabe der betroffenen Personen gibt“, sagt Prof. Zweig. Die Forschungsergebnisse wurden in „PLoS ONE“ veröffentlicht.
Horvát E-Á, Hanselmann M, Hamprecht FA, Zweig KA (2012): One Plus One Makes Three (for Social Networks). PLoS ONE 7(4): e34740. doi:10.1371/journal.pone.0034740.