Big data is groot nieuws de laatste tijd. Maar de meeste organisaties hamsteren uiteindelijk enorme hoeveelheden gegevens, waardoor ze achterblijven met een enorme opslagplaats van ongestructureerde - of "donkere" - gegevens waar niemand iets aan heeft.

Gezien de potentiële voordelen van big data, is het van cruciaal belang dat we betere manieren vinden om gegevens te verzamelen, op te slaan en te analyseren om er het beste uit te halen.

Verhalen van big data-successen hebben geleid tot aanzienlijke investeringen in big data-initiatieven. Dit heeft veel organisaties ertoe aangezet om aanzienlijke hoeveelheden externe en interne gegevens te verzamelen in zogenaamdegegevensmeren”. Dit zijn opslagplaatsen die gegevens in elk formaat bevatten, gestructureerd, zoals databases, of ongestructureerd, zoals e-mails of audio en video.

Als gevolg hiervan gaat de groei van de hoeveelheid gegevens die wordt gegenereerd, verzameld en opgeslagen exponentieel door.

Maar volgens een recente IBM-onderzoek, is meer dan 80% van alle data inactief, onbeheerd, vaak ongestructureerd, zonder zinvolle metadata en zelfs onbekend bij de organisatie. Het aandeel van deze dark data zal naar verwachting in 93 2020% bedragen.


innerlijk abonneren grafisch


Er kan bijvoorbeeld worden verwacht dat gegevens die worden gegenereerd door apparaten aan boord van voertuigen elke seconde 350 MB aan gegevens bereiken. Waar gaan al deze gegevens naartoe en wie gebruikt ze?

Organisaties kunnen ook aanzienlijke interne gegevens genereren. Bijvoorbeeld een recente studie ontdekte dat een bedrijf met 1,500 werknemers ongeveer 2.5 miljoen spreadsheets had, die elk gemiddeld slechts door 12 mensen werden gebruikt.

Bovendien zijn er aanwijzingen voor een verscheidenheid aan ongestructureerde gegevens, zoals documentversies, projectnotities en e-mails, die zijn achtergelaten door organisatorische processen en vervolgens slapend op dataservers blijven staan.

Gebruik het of verlies het

Lessen die zijn getrokken uit jarenlang onderzoek naar het gebruik van informatiesystemen hebben aangetoond dat de veronderstelling dat "meer is beter" ongegrond is als het gaat om gegevens.

Zelfs in traditionele IT-projecten die zorgvuldig opgestelde analyse- en ontwerplevenscycli volgen, is de verkeerde afstemming tussen waargenomen en werkelijke waarde een notoir moeilijk probleem geweest, wat vaak leidde tot een slecht rendement op investering.

In big data-projecten kunnen de gegevens vaak extern worden aangekocht met weinig of geen kennis van de schema's, kwaliteit of verwachte bruikbaarheid. Het risico van het doen van investeringen die niets opleveren, wordt dus aanzienlijk groter.

Het oude adagium van "gebruik het of verlies het" is zeker niet achterhaald en vestigt de aandacht weer op het doel van hoe we big data gebruiken. Organisaties kunnen om verschillende redenen gegevens bewaren, waaronder voorschriften voor het bewaren van gegevens, maar waargenomen toekomstige waarde is meestal de belangrijkste reden.

Hoewel opslag relatief goedkoop is, gezien de hoeveelheid gegevens die wordt geassimileerd, het onderhoud en energieverbruik van datacenters is niet triviaal. Verder zijn er kosten en risico's verbonden aan de beveiliging van dergelijke onbeheerde gegevens.

Het definiëren van het doel is dus van cruciaal belang om ervoor te zorgen dat big data-investeringen gericht zijn op zinvolle problemen, en dat het verzamelen en opslaan van gegevens goed gerechtvaardigd is.

Benaderingen zoals denken over design, die mensen aanmoedigt om creatief oplossingsgericht te denken, blijken zeer succesvol te zijn in echte probleemformulering voor big data.

Wat is Design Thinking?

Indien op de juiste manier toegepast, kan design thinking datawetenschappers uitrusten om wenselijkheid (klantbehoefte) en levensvatbaarheid (bedrijfswaarde) samen te brengen met technologische haalbaarheid, en hen daardoor te begeleiden bij het ontwikkelen van zinvolle oplossingen.

Garbage in, vuilnis buiten

Wanneer de kloof tussen datacreatie en gebruik groter wordt, is de kans groter dat de datakwaliteit afneemt. Dit betekent dat een organisatie veel moeite zal moeten doen om oude gegevens op te schonen als ze deze vandaag nog wil gebruiken.

Volgens de Amerikaanse Chief Data Scientist DJ Patil:

Gegevens zijn erg rommelig en het opruimen van gegevens zal altijd letterlijk 80% van het werk zijn. Met andere woorden, data is het probleem.

Eerder dit jaar schetste een groep wereldwijde opinieleiders uit de database-onderzoeksgemeenschap de grote uitdagingen om waarde te halen uit big data. De kernboodschap was de noodzaak om het vermogen te ontwikkelen om "te begrijpen hoe de kwaliteit van die gegevens van invloed is op de kwaliteit van het inzicht dat we eruit halen".

Het gouden principe "garbage in, garbage out" geldt nog steeds in de context van big data. Zonder wetenschappelijk geloofwaardige kennis die de mogelijkheid biedt om de onderliggende kwaliteitskenmerken van de gegevens efficiënt te evalueren, bestaat er een aanzienlijk risico dat organisaties en overheden grote hoeveelheden gegevens verzamelen. dichtheidsgegevens met een lage waarde, of beleggen in dataproducten met een laag rendement op investering.

Bovendien kan het gebrek aan kennis over de onderliggende gegevens (distributies, semantiek en andere nuances) resulteren in analytische vallen, waar de data-analyse kan leiden tot foutieve en mogelijk gevaarlijke conclusies.

Gegevensverkenning is in opkomst als een veelbelovende benadering om gebruikers met verkennende mogelijkheden in staat te stellen de kwaliteit van de gegevens te onderzoeken en zich bewust te worden van de tekortkomingen van gegevens in termen van hun beoogde gebruik, en dit te doen voordat ze investeren in dure gegevensopschoning en curatietaken.

De zoektocht naar verlichting uit de datavloed zal binnen afzienbare tijd de energie en investeringen van de datagedreven samenleving opslokken. Terwijl er een enorme kracht zit in de schaal van data, zullen organisaties die onbeheerd achterblijven in de afgrond van dark data worden gedreven.

Dit alles onderstreept de groeiende behoefte aan goed opgeleide datawetenschappers die in staat zijn om een ​​goed onderbouwd zakelijk, wetenschappelijk of maatschappelijk doel te verwoorden en dit af te stemmen op de technologische inspanningen voor het verzamelen, opslaan, cureren en analyseren van gegevens.

The Conversation

Over de auteur

Shazia Sadiq, hoogleraar data- en kennistechnologie, De universiteit van Queensland

Dit artikel is oorspronkelijk gepubliceerd op The Conversation. Lees de originele artikel.

Verwante Boeken

at InnerSelf Market en Amazon