Massagegevens in de vuilnisbak zijn de aartsvijand van big data

: By Shazia Sadiq, de Universiteit van Queensland

Bedankt voor het bezoeken InnerSelf.com, waar er zijn 20,000+ levensveranderende artikelen waarin ‘nieuwe attitudes en nieuwe mogelijkheden’ worden gepromoot. Alle artikelen zijn vertaald naar 30+ talen. Inschrijven aan InnerSelf Magazine, dat wekelijks verschijnt, en Marie T Russell's Daily Inspiration. InnerSelf Magazine verschijnt sinds 1985.

breken

Big data is groot nieuws de laatste tijd. Maar de meeste organisaties hamsteren uiteindelijk enorme hoeveelheden gegevens, waardoor ze achterblijven met een enorme opslagplaats van ongestructureerde - of "donkere" - gegevens waar niemand iets aan heeft.

Gezien de potentiële voordelen van big data, is het van cruciaal belang dat we betere manieren vinden om gegevens te verzamelen, op te slaan en te analyseren om er het beste uit te halen.

Verhalen van big data-successen hebben geleid tot aanzienlijke investeringen in big data-initiatieven. Dit heeft veel organisaties ertoe aangezet om aanzienlijke hoeveelheden externe en interne gegevens te verzamelen in zogenaamdegegevensmeren”. Dit zijn opslagplaatsen die gegevens in elk formaat bevatten, gestructureerd, zoals databases, of ongestructureerd, zoals e-mails of audio en video.

Als gevolg hiervan gaat de groei van de hoeveelheid gegevens die wordt gegenereerd, verzameld en opgeslagen exponentieel door.

Maar volgens een recente IBM-onderzoek, is meer dan 80% van alle data inactief, onbeheerd, vaak ongestructureerd, zonder zinvolle metadata en zelfs onbekend bij de organisatie. Het aandeel van deze dark data zal naar verwachting in 93 2020% bedragen.

Er kan bijvoorbeeld worden verwacht dat gegevens die worden gegenereerd door apparaten aan boord van voertuigen elke seconde 350 MB aan gegevens bereiken. Waar gaan al deze gegevens naartoe en wie gebruikt ze?

Organisaties kunnen ook aanzienlijke interne gegevens genereren. Bijvoorbeeld een recente studie ontdekte dat een bedrijf met 1,500 werknemers ongeveer 2.5 miljoen spreadsheets had, die elk gemiddeld slechts door 12 mensen werden gebruikt.

Bovendien zijn er aanwijzingen voor een verscheidenheid aan ongestructureerde gegevens, zoals documentversies, projectnotities en e-mails, die zijn achtergelaten door organisatorische processen en vervolgens slapend op dataservers blijven staan.

Gebruik het of verlies het

Lessen die zijn getrokken uit jarenlang onderzoek naar het gebruik van informatiesystemen hebben aangetoond dat de veronderstelling dat "meer is beter" ongegrond is als het gaat om gegevens.

Zelfs in traditionele IT-projecten die zorgvuldig opgestelde analyse- en ontwerplevenscycli volgen, is de verkeerde afstemming tussen waargenomen en werkelijke waarde een notoir moeilijk probleem geweest, wat vaak leidde tot een slecht rendement op investering.

In big data-projecten kunnen de gegevens vaak extern worden aangekocht met weinig of geen kennis van de schema's, kwaliteit of verwachte bruikbaarheid. Het risico van het doen van investeringen die niets opleveren, wordt dus aanzienlijk groter.

Het oude adagium van "gebruik het of verlies het" is zeker niet achterhaald en vestigt de aandacht weer op het doel van hoe we big data gebruiken. Organisaties kunnen om verschillende redenen gegevens bewaren, waaronder voorschriften voor het bewaren van gegevens, maar waargenomen toekomstige waarde is meestal de belangrijkste reden.

Hoewel opslag relatief goedkoop is, gezien de hoeveelheid gegevens die wordt geassimileerd, het onderhoud en energieverbruik van datacenters is niet triviaal. Verder zijn er kosten en risico's verbonden aan de beveiliging van dergelijke onbeheerde gegevens.

Het definiëren van het doel is dus van cruciaal belang om ervoor te zorgen dat big data-investeringen gericht zijn op zinvolle problemen, en dat het verzamelen en opslaan van gegevens goed gerechtvaardigd is.

Benaderingen zoals denken over design, die mensen aanmoedigt om creatief oplossingsgericht te denken, blijken zeer succesvol te zijn in echte probleemformulering voor big data.

Wat is Design Thinking?

Indien op de juiste manier toegepast, kan design thinking datawetenschappers uitrusten om wenselijkheid (klantbehoefte) en levensvatbaarheid (bedrijfswaarde) samen te brengen met technologische haalbaarheid, en hen daardoor te begeleiden bij het ontwikkelen van zinvolle oplossingen.

Garbage in, vuilnis buiten

Wanneer de kloof tussen datacreatie en gebruik groter wordt, is de kans groter dat de datakwaliteit afneemt. Dit betekent dat een organisatie veel moeite zal moeten doen om oude gegevens op te schonen als ze deze vandaag nog wil gebruiken.

Volgens de Amerikaanse Chief Data Scientist DJ Patil:

Gegevens zijn erg rommelig en het opruimen van gegevens zal altijd letterlijk 80% van het werk zijn. Met andere woorden, data is het probleem.

Eerder dit jaar schetste een groep wereldwijde opinieleiders uit de database-onderzoeksgemeenschap de grote uitdagingen om waarde te halen uit big data. De kernboodschap was de noodzaak om het vermogen te ontwikkelen om "te begrijpen hoe de kwaliteit van die gegevens van invloed is op de kwaliteit van het inzicht dat we eruit halen".

Het gouden principe "garbage in, garbage out" geldt nog steeds in de context van big data. Zonder wetenschappelijk geloofwaardige kennis die de mogelijkheid biedt om de onderliggende kwaliteitskenmerken van de gegevens efficiënt te evalueren, bestaat er een aanzienlijk risico dat organisaties en overheden grote hoeveelheden gegevens verzamelen. dichtheidsgegevens met een lage waarde, of beleggen in dataproducten met een laag rendement op investering.

Bovendien kan het gebrek aan kennis over de onderliggende gegevens (distributies, semantiek en andere nuances) resulteren in analytische vallen, waar de data-analyse kan leiden tot foutieve en mogelijk gevaarlijke conclusies.

Gegevensverkenning is in opkomst als een veelbelovende benadering om gebruikers met verkennende mogelijkheden in staat te stellen de kwaliteit van de gegevens te onderzoeken en zich bewust te worden van de tekortkomingen van gegevens in termen van hun beoogde gebruik, en dit te doen voordat ze investeren in dure gegevensopschoning en curatietaken.

De zoektocht naar verlichting uit de datavloed zal binnen afzienbare tijd de energie en investeringen van de datagedreven samenleving opslokken. Terwijl er een enorme kracht zit in de schaal van data, zullen organisaties die onbeheerd achterblijven in de afgrond van dark data worden gedreven.

Dit alles onderstreept de groeiende behoefte aan goed opgeleide datawetenschappers die in staat zijn om een goed onderbouwd zakelijk, wetenschappelijk of maatschappelijk doel te verwoorden en dit af te stemmen op de technologische inspanningen voor het verzamelen, opslaan, cureren en analyseren van gegevens.

Over de auteur

Shazia Sadiq, hoogleraar data- en kennistechnologie, De universiteit van Queensland

Dit artikel is oorspronkelijk gepubliceerd op The Conversation. Lees de originele artikel.

Verwante Boeken

at InnerSelf Market en Amazon

breken

Bedankt voor het bezoeken InnerSelf.com, waar er zijn 20,000+ levensveranderende artikelen waarin ‘nieuwe attitudes en nieuwe mogelijkheden’ worden gepromoot. Alle artikelen zijn vertaald naar 30+ talen. Inschrijven aan InnerSelf Magazine, dat wekelijks verschijnt, en Marie T Russell's Daily Inspiration. InnerSelf Magazine verschijnt sinds 1985.

Beschikbare talen

volg InnerSelf op

InnerSelf-auteurs

een vrouw met een scala aan verse groenten voor zich en een avocado in de hand

De radicale daad van het verweven van intuïtief eten en intellect

Lisa Masé

In 1995 schreven voedingstherapeuten Elyse Resch en Evelyn Tribole een van de eerste boeken over het concept van intuïtief eten. Dat boek…

Online privacytrucs blootleggen: hoe websites het delen van gegevens verbergen

Raymond A. Patterson, Universiteit van Calgary et al

Websites verbergen soms hoe breed ze onze persoonlijke informatie delen, en kunnen tot het uiterste gaan om ons in de maling te nemen.

Het meten van het potentieel voor schone technologie in Canada en de Verenigde Staten

Yrjo Koskinen, Universiteit van Calgary et al

De aandelenmarkten signaleren een groeiende kloof tussen Canadese en Amerikaanse bedrijven op het gebied van schone technologie.

Midlife Health Secrets: verder gaan dan de taille

Rob Newton, Edith Cowan Universiteit

Goed nieuws: gezondheid op middelbare leeftijd gaat over meer dan alleen een tailleomvang. Dit is waarom...

Ontbijt- en schoolsucces: de verrassende link onthuld

Andrew J. Martin, UNSW Sydney et al

Uit ons onderzoek blijkt dat het eten van een ongezond ontbijt een vergelijkbaar effect kan hebben op de schooldag van uw kind als helemaal niets eten.

MEEST GELEZEN

Hoe kan een baby tegelijkertijd twee talen leren?

Cameron Morin, ENS de Lyon

Taalverwerving bij kinderen is een van de meest fascinerende kenmerken van de menselijke soort, maar ook een van de moeilijkste...

Eenzaamheid kan dodelijk zijn: Amerikanen van middelbare leeftijd lopen gevaar

Frank J. Infurna, Staatsuniversiteit van Arizona

Amerikanen van middelbare leeftijd zijn eenzamer dan hun Europese tegenhangers. Dat is de belangrijkste bevinding van een recente studie, gepubliceerd in het Amerikaanse…

De verrassende opkomst van Mumpreneurs die China stormenderhand veroveren!

Lisa Xiong, EM Lyon Business School

Hoewel er de afgelopen decennia veel inkt over de economische groei van China is gegoten, worden de bijdragen van Chinese vrouwen vaak minder gewaardeerd...

een hand die een tekening van een hart vasthoudt in de overwinning

De geheimen van genezing van COVID op lange termijn

Vir McCoy

Ik heb veel te veel geld uitgegeven aan artsen, genezers en pillen tijdens mijn reis met het lange Covid-19-virus, tot een punt waarop ik geobsedeerd raakte door de ziekte...

Ecosteden tegen welke prijs? De strijd om inheemse landen

Michelle Mielly, Grenoble École de Management (GEM)

Toen het begrip ‘ecotoerisme’ eind jaren zeventig werd geïntroduceerd, was het bedoeld om ecologisch verantwoord te zijn, natuurbehoud te bevorderen,…

Hoe AI verkiezingen beïnvloedt en wat u kunt doen

Nick Hajli, Universiteit van Loughborough

Desinformatie over verkiezingen: hoe AI-aangedreven bots werken en hoe u uzelf tegen hun invloed kunt beschermen

LAATSTE