Hoe het Facebook Targeting Model van Cambridge Analytica echt werkteHoe nauwkeurig kunt u online worden geprofileerd? Andrew Krasovitckii / Shutterstock.com

De onderzoeker wiens werk centraal staat in de Facebook-Cambridge Analytica data-analyse en politieke reclame oproer heeft onthuld dat zijn methode ongeveer hetzelfde was Netflix gebruikt om films aan te bevelen.

In een e-mail aan mij, Cambridge University-geleerde Aleksandr Kogan uitgelegd hoe zijn statistische model verwerkt Facebook-gegevens voor Cambridge Analytica. De nauwkeurigheid die hij beweert suggereert dat het net zo goed werkt als gevestigde methoden voor kiezersgerichtheid gebaseerd op demografische gegevens zoals ras, leeftijd en geslacht.

Als dit wordt bevestigd, betekent Kogan's account dat de digitale modellering die Cambridge Analytica gebruikte was nauwelijks de virtuele kristallen bol enkelen hebben beweerd. Toch zijn de cijfers die Kogan biedt laat ook zien wat is - en is niet - eigenlijk mogelijk by combineren van persoonlijke gegevens met machine learning voor politieke doeleinden.

Ten aanzien van één belangrijke publieke bezorgdheid suggereren de cijfers van Kogan dat informatie over de persoonlijkheden van gebruikers of "psychografische"Was slechts een bescheiden onderdeel van hoe het model de burgers aanviel. Het was strikt genomen geen persoonlijkheidsmodel, maar eerder een personaliteit die demografische gegevens, sociale invloeden, persoonlijkheid en al het andere in een grote gecorreleerde bobbel opsloot. Deze benadering van opzadelijkheid, associatie en call-it-persoonlijkheid lijkt een waardevolle campagetool te hebben gecreëerd, zelfs als het verkochte product niet helemaal was zoals het was gefactureerd.


innerlijk abonneren grafisch


De belofte van persoonlijkheidsgerichtheid

In de nasleep van de onthullingen die Cambridge Analytica, adviseurs van Trump, gebruikte gegevens van 50 miljoen Facebook-gebruikers om digitale politieke reclame te richten tijdens de 2016 Amerikaanse presidentsverkiezingen, heeft Facebook miljarden aan beurswaarde verloren, regeringen op beide zijden van de Atlantische Oceaan hebben openstaande onderzoekenen een ontluikende Sociale beweging roept gebruikers op om #DeleteFacebook.

Maar een belangrijke vraag bleef onbeantwoord: was Cambridge Analytica echt in staat campagneboodschappen effectief te richten op burgers op basis van hun persoonlijkheidskenmerken - of zelfs hun "innerlijke demonen, "Zoals een bedrijf klokkenluider beweerde?

Als iemand zou weten wat Cambridge Analytica deed met zijn enorme hoeveelheid Facebook-gegevens, dan zouden het Aleksandr Kogan en Joseph Chancellor zijn. Het was hun start Global Science Research die verzamelde profielinformatie van 270,000 Facebook-gebruikers en tientallen miljoenen van hun vrienden met behulp van een persoonlijkheidstest-app genaamd "thisisyourdigitallife."

Deel van mijn eigen onderzoek focust op begrip machine learning methoden, en mijn aanstaande boek bespreekt hoe digitale bedrijven aanbevelingsmodellen gebruiken om doelgroepen te bouwen. Ik had een idee over hoe het model van Kogan en Chancellor werkte.

Dus ik heb Kogan gemaild om erom te vragen. Kogan is nog steeds een onderzoeker aan de universiteit van Cambridge; zijn medewerker Chancellor werkt nu op Facebook. In een opmerkelijk vertoon van academische beleefdheid antwoordde Kogan.

Zijn reactie vereist wat uitpakken en wat achtergrondinformatie.

Van de Netflix-prijs naar 'psychometrie'

Terug in 2006, toen het nog steeds een dvd-per-mailbedrijf was, bood Netflix een beloning van $ 1 miljoen voor iedereen die een betere manier heeft ontwikkeld om voorspellingen te doen over de rangschikking van gebruikersfilms dan het bedrijf al had. Een verrassende topconcurrent was een onafhankelijke softwareontwikkelaar die het pseudoniem Simon Funk gebruikt, wiens basisbenadering uiteindelijk werd opgenomen in alle inzendingen van de topteams. Funk paste een techniek aan genaamd "singuliere waarden ontbinding, "De beoordelingen van gebruikers van films samenvoegen tot een reeks factoren of componenten - in essentie een reeks afgeleide categorieën, gerangschikt naar belangrijkheid. Als Funk uitgelegd in een blogpost,

"Zo kan een categorie bijvoorbeeld actiefilms voorstellen, met films met veel actie aan de bovenkant en langzame films onderaan, en dienovereenkomstig gebruikers die graag actiefilms aan de bovenkant hebben en mensen die liever slowmovies hebben bij de bodem."

Factoren zijn kunstmatige categorieën, die niet altijd lijken op de categorieën die mensen zouden bedenken. De belangrijkste factor in het vroege Netflix-model van Funk werd gedefinieerd door gebruikers die houden van films als 'Pearl Harbor' en 'The Wedding Planner', terwijl ze ook films als 'Lost in Translation' of 'Eternal Sunshine of the Spotless Mind' haten. Zijn model liet zien hoe machine learning correlaties kan vinden tussen groepen mensen en groepen films, die mensen zelf nooit zouden herkennen.

De algemene aanpak van Funk gebruikte de 50- of 100-belangrijkste factoren voor zowel gebruikers als films om een ​​goede inschatting te maken van hoe elke gebruiker elke film zou waarderen. Deze methode, vaak genoemd reductie van dimensies of matrix-ontbinding, was niet nieuw. Onderzoekers in de politicologie hadden dat aangetoond vergelijkbare technieken met hoofdelijke stemgegevens kon de stemmen van leden van het Congres voorspellen met 90 procent nauwkeurigheid. In de psychologie is de "Grote vijf"Model was ook gebruikt om gedrag te voorspellen door persoonlijkheidsvragen te clusteren, die meestal op dezelfde manier werden beantwoord.

Toch was het model van Funk een grote stap vooruit: het stelde de techniek in staat om goed te werken met enorme datasets, zelfs die met veel ontbrekende gegevens - zoals de Netflix-dataset, waar een typische gebruiker slechts enkele tientallen films uit duizenden schatte in het bedrijf bibliotheek. Meer dan een decennium nadat de Netflix-prijswedstrijd eindigde, SVD-gebaseerde methodenof gerelateerde modellen voor impliciete gegevens, zijn nog steeds de tool bij uitstek voor veel websites om te voorspellen wat gebruikers zullen lezen, bekijken of kopen.

Deze modellen kunnen ook andere dingen voorspellen.

Facebook weet of je een Republikein bent

In 2013 publiceerden Cambridge University-onderzoekers Michal Kosinski, David Stillwell en Thore Graepel een artikel over de voorspellende kracht van Facebook-gegevens, met behulp van informatie verzameld via een online persoonlijkheidstest. Hun eerste analyse was vrijwel identiek aan die van de Netflix-prijs, waarbij SVD werd gebruikt om zowel gebruikers als dingen die ze 'leuk' vonden in de top 100-factoren te categoriseren.

De paper toonde aan dat een factormodel gemaakt met alleen gebruikers 'Facebook' likes 'was 95 procent nauwkeurig om onderscheid te maken tussen zwart en witte respondenten, is 93 procent nauwkeurig in het onderscheiden van mannen en vrouwen, en 88 procent accuraat in het onderscheiden van mensen die geïdentificeerd zijn als homoseksuele mannen van mannen die geïdentificeerd als heteroseksueel. Het zou Republikeinen zelfs 85 procent van de tijd correct kunnen onderscheiden van de Democraten. Het was ook nuttig, hoewel niet zo nauwkeurig, voor voorspellen van scores van gebruikers op de persoonlijkheidstest "Big Five".

Er was publieke verontwaardiging in antwoord; binnen enkele weken had Facebook maakte de voorkeuren van gebruikers privé standaard.

Kogan en Chancellor, destijds onderzoekers van de Cambridge University, begonnen ook met het gebruik van Facebook-gegevens voor verkiezingsdoelen als onderdeel van een samenwerking met het moederbedrijf SCL van Cambridge Analytica. Kogan nodigde Kosinski en Stillwell uit om zich bij zijn project aan te sluiten, maar het was werkte niet. Kosinski vermoedde vermoedelijk dat Kogan en Chancellor dat zouden hebben gedaan reverse-engineered het Facebook "likes" -model voor Cambridge Analytica. Kogan ontkende dit en zei zijn project "bouwde al onze modellen gebruikmakend van onze eigen gegevens, verzameld met behulp van onze eigen software. "

Wat deden Kogan en Chancellor eigenlijk?

Toen ik de ontwikkelingen in het verhaal volgde, werd het duidelijk dat Kogan en Chancellor inderdaad veel van hun eigen gegevens hadden verzameld via de thisisyourdigitallife-app. Ze hadden ongetwijfeld een voorspellend SVD-model kunnen bouwen zoals in Kosinski en Stillwell's gepubliceerde onderzoek.

Dus mailde ik Kogan om te vragen of dat was wat hij had gedaan. Enigszins tot mijn verrassing schreef hij terug.

"We hebben SVD niet echt gebruikt", schreef hij. Hij merkte op dat SVD kan worstelen wanneer sommige gebruikers veel meer "likes" hebben dan anderen. In plaats daarvan legde Kogan uit: "De techniek was iets dat we zelf ontwikkelden ... Het is niet iets dat in het publieke domein is." Zonder op details in te gaan, beschreef Kogan hun methode als "een meerstapsproces comorbiditeit nadering."

Zijn boodschap bevestigde echter dat zijn aanpak inderdaad vergelijkbaar was met die van SVD of andere matrixfactoren, zoals in de Netflix-prijscompetitie en het Facebook-model Kosinki-Stillwell-Graepel. Dimensionaliteitsvermindering van Facebook-gegevens was de kern van zijn model.

Hoe nauwkeurig was het?

Kogan suggereerde dat het exacte model dat gebruikt wordt er niet veel toe doet, maar wat belangrijk is, is de nauwkeurigheid van de voorspellingen. Volgens Kogan was de "correlatie tussen voorspelde en feitelijke scores ... rond [30 procent] voor alle persoonlijkheidsdimensies." Ter vergelijking: de vorige Big Five-scores van een persoon gaan over 70 naar 80 procent nauwkeurig bij het voorspellen van hun scores wanneer ze de test opnieuw afleggen.

De nauwkeurigheidsclaims van Kogan kunnen natuurlijk niet onafhankelijk worden geverifieerd. En iedereen in het midden van zo'n schandalig schandaal kan een stimulans hebben om zijn of haar bijdrage te onderschatten. In zijn uiterlijk op CNN, Legde Kogan aan een steeds ongeloviger Anderson Cooper uit dat de modellen eigenlijk niet zo goed hadden gewerkt.

{youtube}APqU_EJ5d3U{/youtube}

Aleksandr Kogan beantwoordt vragen op CNN.

In feite lijkt de nauwkeurigheid die Kogan claimt een beetje laag, maar aannemelijk. Kosinski, Stillwell en Graepel rapporteerden vergelijkbare of enigszins betere resultaten, evenals verscheidene andere academische studies gebruik van digitale voetafdrukken om persoonlijkheid te voorspellen (hoewel sommige van die studies meer gegevens hadden dan alleen Facebook "likes"). Het is verrassend dat Kogan en Chancellor de moeite zouden gaan doen om hun eigen merkmodel te ontwerpen als standaardoplossingen net zo nauwkeurig zouden zijn.

Belangrijk is echter dat de nauwkeurigheid van het model op persoonlijkheidsscores vergelijkingen van Kogan's resultaten met ander onderzoek mogelijk maakt. Gepubliceerde modellen met een gelijkwaardige nauwkeurigheid bij het voorspellen van de persoonlijkheid zijn allemaal veel nauwkeuriger in het raden van demografische gegevens en politieke variabelen.

Het vergelijkbare Kosinski-Stillwell-Graepel SVD-model was bijvoorbeeld 85 procent accuraat in het raden van partijafhankelijkheid, zelfs zonder andere profielinformatie dan likes te gebruiken. Kogan's model had vergelijkbare of betere nauwkeurigheid. Het toevoegen van zelfs een kleine hoeveelheid informatie over de demografische gegevens van vrienden of gebruikers zou waarschijnlijk deze nauwkeurigheid boven 90 procent verhogen. Gissingen over geslacht, ras, seksuele geaardheid en andere kenmerken zouden waarschijnlijk ook meer dan 90 procent nauwkeurig zijn.

Kritiek is dat deze gissingen vooral goed zouden zijn voor de meest actieve Facebook-gebruikers - de mensen die het model voornamelijk gebruikte om te targeten. Gebruikers met minder activiteit om te analyseren zijn waarschijnlijk niet op Facebook.

Wanneer psychografie meestal demografie is

Als je weet hoe het model is opgebouwd, kun je de ogenschijnlijk tegenstrijdige uitspraken van Cambridge Analytica hierover verklaren rol - of gebrek daaraan - dat persoonlijkheidsprofilering en psychografische gegevens in de modellering werden gespeeld. Ze zijn allemaal technisch consistent met wat Kogan beschrijft.

Een model als Kogan's zou schattingen geven voor elke variabele die beschikbaar is voor elke groep gebruikers. Dat betekent dat het automatisch zou gebeuren schat de Big Five-persoonlijkheidsscores voor elke kiezer. Maar deze persoonlijkheidsscores zijn de uitvoer van het model, niet de invoer. Het enige wat het model weet, is dat bepaalde Facebook-likes en bepaalde gebruikers meestal bij elkaar worden gegroepeerd.

Met dit model kon Cambridge Analytica zeggen dat het mensen identificeerde met een lage openheid voor ervaring en een hoge neuroticisme. Maar hetzelfde model, met precies dezelfde voorspellingen voor elke gebruiker, zou net zo nauwkeurig kunnen beweren dat het minder ontwikkelde oudere Republikeinse mannen identificeert.

Kogan's informatie helpt ook om de verwarring over de vraag of Cambridge Analytica heeft zijn trove feitelijk verwijderd van Facebook-gegevens, wanneer modellen zijn gebouwd op basis van de gegevens lijken nog steeds in omloop te zijninvestering veilig is en u uw kans vergroot op verder worden ontwikkeld.

The ConversationHet hele punt van een dimensiereductiemodel is om de gegevens in eenvoudiger vorm wiskundig weer te geven. Het lijkt alsof Cambridge Analytica een foto met een zeer hoge resolutie heeft gemaakt, het formaat heeft gewijzigd om kleiner te zijn en vervolgens het origineel heeft verwijderd. De foto bestaat nog steeds - en zolang de modellen van Cambridge Analytica bestaan, zijn de gegevens ook effectief.

Over de auteur

Matthew Hindman, universitair hoofddocent Media en Public Affairs, George Washington University

Dit artikel is oorspronkelijk gepubliceerd op The Conversation. Lees de originele artikel.

Verwante Boeken

at InnerSelf Market en Amazon