Hoe uw vrienden op Twitter u uw anonimiteit kunnen ontnemen

Terwijl u op internet surft, houden online adverteerders bij bijna elke site die u bezoekt, verzamel een schat aan informatie over je gewoonten en voorkeuren. Wanneer u een nieuwssite bezoekt, zien zij mogelijk dat u een fan bent van basketbal-, opera- en mysterieversies en selecteert u daarom advertenties die op uw smaak zijn afgestemd.

Adverteerders gebruiken deze informatie om zeer gepersonaliseerde ervaringen te maken, maar ze weten meestal niet precies wie u bent. Ze observeren alleen je digitale spoor, niet je identiteit zelf, en dus zou je kunnen denken dat je een zekere mate van anonimiteit hebt behouden.

Maar in een krant die ik co-auteur met Ansh Shukla, Sharad Goel en Arvind Narayanan, we laten zien dat deze anonieme webbrowser-records in feite vaak kunnen worden gekoppeld aan echte identiteiten.

Om onze aanpak te testen, hebben we gebouwd een website waar mensen hun browsegeschiedenis konden doneren voor de doeleinden van deze studie. We hebben vervolgens geprobeerd te zien of we hun geschiedenis konden koppelen aan hun Twitter-profielen met alleen publiek beschikbare gegevens. Tweeënzeventig procent van de mensen die we probeerden te deanonimiseren, werd correct geïdentificeerd als de topkandidaat in de zoekresultaten en 81-percentages behoorden tot de beste 15-kandidaten.

privacy2 2 8Schermafbeeldingen van de website voor deanimisering.

Dit is, voor zover ons bekend, de grootste demonstratie van deanonimisering tot op heden, omdat het de juiste gebruiker kiest uit honderden miljoenen mogelijke Twitter-gebruikers. Bovendien vereist onze methode alleen dat een persoon klikt op de links die verschijnen in hun feeds van sociale media, niet dat ze een bericht plaatsen - dus zelfs mensen die voorzichtig zijn met wat ze delen op het internet zijn nog steeds kwetsbaar voor deze aanval.


innerlijk abonneren grafisch


Hoe het werkt

Op een hoog niveau is onze aanpak gebaseerd op een eenvoudige observatie. Elke persoon heeft een zeer onderscheidend sociaal netwerk, bestaande uit familie en vrienden van school, werk en verschillende stadia van hun leven. Als gevolg hiervan is de reeks links in uw Facebook- en Twitter-feeds zeer onderscheidend. Als u op deze links klikt, krijgt u een duidelijk signaal in uw browsegeschiedenis.

Door te kijken naar de reeks webpagina's die een persoon heeft bezocht, hebben we vergelijkbare feeds van sociale media kunnen selecteren, met een lijst met kandidaten die waarschijnlijk die webbrowsergeschiedenis hebben gegenereerd. Op deze manier kunnen we iemands werkelijke identiteit koppelen aan de bijna complete reeks links die ze hebben bezocht, inclusief links die nooit op sociale media zijn geplaatst.

Het uitvoeren van deze strategie omvat twee belangrijke uitdagingen. De eerste is theoretisch: hoe kwantificeer je hoe vergelijkbaar een specifieke social-media-feed is met een bepaalde webbrowser-geschiedenis? Een eenvoudige manier is om de fractie links in de browsegeschiedenis te meten die ook in de feed worden weergegeven. Dit werkt in de praktijk redelijk goed, maar het overschat de overeenkomst voor grote feeds, omdat die eenvoudigweg meer links bevatten. In plaats daarvan nemen we een alternatieve benadering. We stellen een gestileerd, probabilistisch model van webbrowser-gedrag, en berekenen dan de waarschijnlijkheid dat een gebruiker met die feed met sociale media de geobserveerde browsegeschiedenis heeft gegenereerd. Dan kiezen we voor de meest waarschijnlijke social media-feed.

De tweede uitdaging bestaat uit het identificeren van de meest vergelijkbare feeds in realtime. Hier gaan we naar Twitter, omdat Twitter-feeds (in tegenstelling tot Facebook) grotendeels openbaar zijn. Hoewel de feeds openbaar zijn, kunnen we niet gewoon een lokale kopie van Twitter maken waarop we onze zoekopdrachten kunnen uitvoeren. In plaats daarvan passen we een reeks technieken toe om de zoekruimte drastisch te verminderen. Vervolgens combineren we caching-technieken met on-demand netwerkcrawls om de feeds van de meest veelbelovende kandidaten samen te stellen. Voor deze beperkte kandidaatset passen we onze gelijkheidsmaat toe om de eindresultaten te produceren. Met een browsegeschiedenis kunnen we dit hele proces doorgaans binnen 60 seconden uitvoeren.

Onze methode is nauwkeuriger voor mensen die actiever door Twitter browsen. Negentig procent van de deelnemers die op 100 of meer links op Twitter hadden geklikt, konden aan hun identiteit worden gekoppeld.

Veel bedrijven hebben de tracking-middelen om een ​​aanval als deze uit te voeren, zelfs zonder de toestemming van de deelnemer. We hebben geprobeerd om elk van onze experimentdeelnemers te deanonymiseren met alleen de delen van hun browsegeschiedenis die zichtbaar waren voor specifieke volgbedrijven (omdat de bedrijven trackers op die pagina's hebben). We ontdekten dat verschillende bedrijven over de middelen beschikten om de deelnemers nauwkeurig te identificeren.

privacy 2 8Andere deanonimiseringsstudies

Verschillende andere onderzoeken hebben publiek toegankelijke footprints gebruikt om gevoelige gegevens te deanonymiseren.

Misschien is de bekendste studie langs deze lijnen uitgevoerd door Latanya Sweeney aan de Harvard University in 2002. Ze ontdekte dat 87 procent van de Amerikanen was uniek herkenbaar gebaseerd op een combinatie van hun postcode, geslacht en geboortedatum. Deze drie kenmerken waren beschikbaar in zowel openbare kiezersregistratiegegevens (die ze kochten voor US $ 20) en anonieme medische gegevens (die wijd verspreid waren, omdat mensen dachten dat de gegevens anoniem waren). Door deze gegevensbronnen te verbinden, vond ze de medische dossiers van de gouverneur van Massachusetts.

In 2006, Netflix heeft een wedstrijd georganiseerd om de kwaliteit van de filmaanbevelingen te verbeteren. Ze publiceerden een geanonimiseerde dataset met filmbeoordelingen van mensen en boden $ 1 miljoen aan het team die hun aanbevelingsalgoritme met 10 procent konden verbeteren. Computer wetenschappers Arvind Narayanan en Vitaly Shmatikov merkte op dat de films die mensen keken erg onderscheidend waren en dat de meeste mensen in de dataset uniek herkenbaar waren op basis van een kleine subset van hun films. Met andere woorden, op basis van Netflix-filmkeuzes en IMDB-recensies, konden de onderzoekers bepalen wie die Netflix-gebruikers daadwerkelijk waren.

Met de opkomst van sociale media delen steeds meer mensen informatie die onschuldig lijkt, maar onthult in feite veel persoonlijke informatie. Een onderzoek onder leiding van Michal Kosinski aan de Universiteit van Cambridge gebruikte Facebook graag mensen voorspellen seksuele geaardheid, politieke opvattingen en persoonlijkheidstrekken.

Een ander team, geleid door Gilbert Wondracek aan de Technische Universiteit van Wenen, bouwde een "deanonymiseringsmachine" die uitvond in welke groepen mensen deel uitmaakten van het sociale netwerk Xing, en gebruikte die om erachter te komen wie ze waren - omdat de groepen waar je deel van bent vaak genoeg zijn om uniek te identificeren u.

Wat je kunt doen

De meeste van deze aanvallen zijn lastig om je tegen te verdedigen, tenzij je stopt met internetten of aan het openbare leven deelneemt.

Zelfs als u stopt met internetten, kunnen bedrijven nog steeds gegevens over u verzamelen. Als verschillende van uw vrienden hun telefooncontacten uploaden naar Facebook en uw nummer staat in alle contactlijsten, kan Facebook voorspellingen over u doen, zelfs als u hun service niet gebruikt.

De beste manier om u te beschermen tegen deanonimiserende algoritmen zoals de onze, is om de set mensen te beperken die toegang hebben tot uw anonieme browsergegevens. Browser-extensies zoals Ghostery blokkeer trackers van derden. Dat betekent dat, hoewel het bedrijf waarvan u de website bezoekt, weet dat u hem bezoekt, de advertentiebedrijven die advertenties op hun pagina weergeven, uw browsegegevens niet kunnen verzamelen en deze op meerdere sites kunnen verzamelen.

Als u een webmaster bent, kunt u uw gebruikers helpen beschermen door ze te laten surfen op uw site via HTTPS. Als u browst met HTTP, kunnen aanvallers uw browsegeschiedenis ophalen door netwerkverkeer te snuiven, waardoor ze deze aanval kunnen uitvoeren. Veel websites zijn al overgeschakeld naar HTTPS; toen we ons deanonymisatie-experiment herhaalden vanuit het perspectief van een sniffer van het netwerkverkeer, kon alleen 31 procent van de deelnemers gedeanonymiseerd worden.

Er is echter heel weinig wat u kunt doen om uzelf te beschermen tegen deanonymiseringsaanvallen in het algemeen, en misschien is de beste manier om iets aan uw verwachtingen aan te passen. Niets is privé in dit digitale tijdperk.

Over de auteur

Jessica Su, Ph.D. Student bij Stanford, Stanford University

Dit artikel is oorspronkelijk gepubliceerd op The Conversation. Lees de originele artikel.

Verwante Boeken

at InnerSelf Market en Amazon