Hoe Twitter wetenschappers een venster geeft naar menselijk geluk en gezondheid

Sinds de publieke lancering 10 jaren geleden, is Twitter gebruikt als een sociaal netwerkplatform onder vrienden, een instant messaging-service voor smartphonegebruikers en een promotietool voor bedrijven en politici.

Maar het is ook een onschatbare bron van gegevens geweest voor onderzoekers en wetenschappers - zoals ikzelf - die willen bestuderen hoe mensen voelen en functioneren in complexe sociale systemen.

Door tweets te analyseren, hebben we gegevens over de sociale interacties van miljoenen mensen 'in het wild' kunnen observeren en verzamelen, buiten gecontroleerde laboratoriumexperimenten.

Het stelde ons in staat om hulpmiddelen te ontwikkelen voor het bewaken van de collectieve emoties van grote bevolkingsgroepen, vind de gelukkigste plaatsen in de Verenigde Staten en nog veel meer.

Dus hoe werd Twitter nu precies zo'n uniek hulpmiddel voor computationele sociale wetenschappers? En wat heeft het ons toegestaan ​​te ontdekken?


innerlijk abonneren grafisch


Het grootste geschenk van Twitter aan onderzoekers

In juli 15, 2006, Twittr (zoals toen bekend) in het openbaar gelanceerd als een "mobiele service waarmee groepen vrienden willekeurige gedachten rondsturen met SMS." De mogelijkheid om gratis 140-personageteksten te verzenden dreef veel early adopters (waaronder ikzelf) ertoe het platform te gebruiken.

Met de tijd, het aantal gebruikers explodeerde: van 20 miljoen in 2009 tot 200 miljoen in 2012 en 310 miljoen vandaag. In plaats van rechtstreeks met vrienden te communiceren, vertelden gebruikers hun volgers eenvoudig hoe ze zich voelden, reageerden positief of negatief op nieuws, of maakten grapjes.

Voor onderzoekers was het grootste geschenk van Twitter het beschikbaar stellen van grote hoeveelheden open data. Twitter was een van de eerste grote sociale netwerken die gegevenssteekproeven leverde via zogenaamde Application Programming Interfaces (API's), waarmee onderzoekers Twitter kunnen ondervragen voor specifieke soorten tweets (bijvoorbeeld tweets die bepaalde woorden bevatten), evenals informatie over gebruikers .

Dit leidde tot een explosie van onderzoeksprojecten die deze gegevens exploiteerden. Tegenwoordig produceert een Google Scholar-zoekopdracht voor 'Twitter' zes miljoen hits, vergeleken met vijf miljoen voor 'Facebook'. Het verschil is vooral opvallend omdat Facebook grofweg vijf keer zoveel gebruikers als Twitter (en is twee jaar ouder).

Twitter's gulle databeleid heeft ongetwijfeld geleid tot een uitstekende gratis publiciteit voor het bedrijf, omdat interessante wetenschappelijke studies door de reguliere media werden opgepikt.

Geluk en gezondheid bestuderen

Omdat traditionele censusgegevens langzaam en duur zijn om te verzamelen, hebben datafeeds zoals Twitter de potentie om een ​​real-time venster te bieden om veranderingen in grote populaties te zien.

De universiteit van Vermont Computational Story Lab werd opgericht in 2006 en bestudeert problemen op het gebied van toegepaste wiskunde, sociologie en fysica. Sinds 2008 heeft het Story Lab miljarden tweets verzameld via de 'Gardenhose'-feed van Twitter, een API die in willekeurige volgorde een willekeurig voorbeeld van 10 procent van alle openbare tweets streamt.

Ik verbleef drie jaar in het Computational Story Lab en had het geluk dat ik deel uitmaakte van veel interessante onderzoeken met deze gegevens. We hebben bijvoorbeeld een ontwikkeld hedonometer die het geluk van de Twittersphere in real time meet. Door ons te richten op geolokaliseerde tweets die van smartphones zijn verzonden, waren we in staat om kaart de gelukkigste plaatsen in de Verenigde Staten. Misschien niet verrassend, vonden we Hawaii is de gelukkigste staat en wijnbouw Napa de gelukkigste stad voor 2013. 

Een kaart van 13 miljoen geolokaliseerde Amerikaanse tweets van 2013, gekleurd door geluk, met rood wat aangeeft geluk en blauw wat duidt op verdriet. PLOS ONE, auteur verstrektEen kaart van 13 miljoen geolokaliseerde Amerikaanse tweets van 2013, gekleurd door geluk, met rood wat aangeeft geluk en blauw wat duidt op verdriet. PLoS ONE, Auteur verstrekt.Deze onderzoeken hadden diepere toepassingen: het vergelijken van Twitter-woordgebruik met demografische gegevens hielp ons de onderliggende sociaaleconomische patronen in steden te begrijpen. We zouden bijvoorbeeld woordgebruik kunnen koppelen aan gezondheidsfactoren zoals obesitas, dus we hebben een lexicocalorimeter om de "calorische inhoud" van posts op sociale media te meten. Tweets uit een bepaalde regio met vermelding van calorierijk voedsel verhoogden de 'calorische waarde' van die regio, terwijl tweets die inspraakactiviteiten noemden onze meetwaarden verminderden. We vonden dat deze eenvoudige maatregel correleert met andere gezondheids- en welzijnsmetrieken. Met andere woorden, tweets konden ons een momentopname geven van de algehele gezondheid van een stad of regio op een bepaald moment.

Met de rijkdom aan Twitter-gegevens konden we dat ook bekijk de dagelijkse bewegingspatronen van mensen in ongekend detail. Het begrijpen van menselijke mobiliteitspatronen heeft op zijn beurt de capaciteit om ziektemodellering te transformeren en het nieuwe veld te ontsluiten digitale epidemiologie.

Voor andere studies hebben we gekeken of reizigers meer geluk uiten op Twitter dan degenen die thuis blijven (antwoord: ze doen) en zo gelukkige mensen hebben de neiging om bij elkaar te blijven in een sociaal netwerk (nogmaals, ze doen). Inderdaad, positiviteit lijkt in de taal zelf te worden gebakken, in de zin dat we positievere woorden hebben dan negatieve woorden. Dit was niet het geval alleen op Twitter, maar op een verscheidenheid van verschillende media (bijv. Boeken, films en kranten) en talen.

Deze studies - en duizenden anderen zoals hen van over de hele wereld - waren alleen mogelijk dankzij Twitter.

De volgende 10 jaar

Dus wat kunnen we verwachten van Twitter te leren in de komende 10-jaren?

Een aantal van de meest opwindende werkzaamheden bestaat momenteel uit het verbinden van socialemediadata met wiskundige modellen om populatieniveauverschijnselen zoals ziekte-uitbraken te voorspellen. Onderzoekers hebben al enig succes gehad in het vergroten van ziektemodellen met Twitter-gegevens om influenza te voorspellen, met name de FluOutlook platform ontwikkeld door Northeastern University en het Institute for Scientific Interchange.

Toch zijn er nog een aantal uitdagingen. Sociale mediadata lijden aan een zeer lage "signaal-ruisverhouding". Met andere woorden, de tweets die relevant zijn voor een bepaald onderzoek worden vaak overstemd door irrelevante "ruis".

Daarom moeten we ons continu bewust zijn van wat er nagesynchroniseerd is "big data hubris"Bij het ontwikkelen van nieuwe methoden en niet overmoedig te zijn over onze resultaten. Verbonden hiermee zou het doel moeten zijn om interpreteerbare "glass-box" voorspellingen uit deze gegevens te produceren (in tegenstelling tot "Black-box" voorspellingen, waarin het algoritme verborgen of niet duidelijk is).

Social media-gegevens worden vaak (eerlijk) bekritiseerd omdat ze een kleine, niet-representatieve steekproef van de bredere bevolking. Een van de grootste uitdagingen voor onderzoekers is om uit te zoeken hoe dergelijke scheve gegevens in statistische modellen kunnen worden verwerkt. Terwijl meer mensen gebruiken elk jaar sociale media, we moeten blijven proberen de vooroordelen in deze gegevens te begrijpen. De gegevens hebben bijvoorbeeld nog altijd de neiging om jongere personen te oververtegenwoordigen ten koste van oudere populaties.

Pas na het ontwikkelen van betere bias correctiemethoden zullen onderzoekers in staat zijn om vol vertrouwen voorspellingen uit tweets te maken.

Over de auteur

Lewis Mitchell, docent toegepaste wiskunde, Universiteit van Adelaide

Dit artikel is oorspronkelijk gepubliceerd op The Conversation. Lees de originele artikel.

Verwante Boeken

at InnerSelf Market en Amazon