• 12 maart 2021
  • Author: Tech Data

Gestructureerd versus ongestructureerde data

Zowel gestructureerde als ongestructureerde gegevens zijn in potentie enorm waardevol voor uw klant. Maar zonder juiste storage-omgeving is het lastig of zelfs onmogelijk om beide type gegevens ten volle te benutten. Wat zijn eigenlijk de verschillen tussen die twee, en welke specifieke eisen stellen ze aan de storage-oplossing?

Big data is allang geen trend meer, maar voor steeds meer organisaties een cruciale asset. Niet zonder reden. In grote hoeveelheden gegevens liggen waardevolle inzichten verborgen. Bijvoorbeeld over het koopgedrag van klanten in bepaalde regio’s. Over het sentiment rondom een merk op sociale media. Of wat de invloed is van het weer op de verkoop. Dergelijke inzichten kunnen bijvoorbeeld de basis vormen voor betere beslissingen, de klantervaring verrijken, of de verkoopstrategie aanscherpen.

Voor zulke inzichten is het noodzakelijk dat gegevens op het juiste moment, op de juiste plek, in de juiste snelheid, voor de juiste systemen en/of personen beschikbaar zijn. Dat stelt eisen aan de onderliggende storage-omgeving. De precieze eisen hangen weer af van het type data. Een belangrijk onderscheid is daarbij gestructureerde en ongestructureerde gegevens. Wat zijn precies de verschillen?

Gestructureerde gegevens

Gestructureerde data zijn gegevens die voldoen aan een vooraf gedefinieerd datamodel. Dat maakt de data relatief eenvoudig uitleesbaar voor andere systemen en analyseerbaar. De gegevens conformeren aan een strak tabelformaat waarbij de relatie tussen de verschillende rijen en kolommen vastliggen. Voorbeelden van gestructureerde gegevens zijn bijvoorbeeld creditcardgegevens, een SQL-database of een Excel-sheet met gelabelde rijen en kolommen. Ook data uit bijvoorbeeld ERP- en CRM-systemen zijn doorgaans gestructureerd.

Gestructureerde gegevens zijn door hun georganiseerde karakter bovendien razendsnel doorzoekbaar. Ook het toevoegen en bewerken van gegevens aan gestructureerde datasets is om dezelfde reden relatief eenvoudig. Dat maakt deze data in potentie enorm waardevol.

Ongestructureerde gegevens

De gegevens binnen een organisatie zijn grotendeels ongestructureerd. Dit datatype vormt doorgaans het gros van alle gegevens binnen een organisatie. Ruwe schattingen gaan uit van gemiddeld ongeveer 80% van de totale hoeveelheid. Deze data zijn niet opgesteld volgens een vooraf gedefinieerd datamodel. Ongestructureerde gegevens hebben mogelijk hun eigen interne structuur, maar passen niet netjes in een spreadsheet of database.

Dat maakt ze veel lastiger analyseerbaar, aanpasbaar en doorzoekbaar. Toch is het vaak dit datatype waarin de meeste waardevolle inzichten verborgen liggen. Juist ook omdat die inzichten niet direct voor de hand liggen.

Storagevereisten gestructureerde data

Beide datatypen stellen ieder hun eigen eisen aan de onderliggende opslagomgeving. Er is echter ook overlap in de eisen. Zo is snelheid en dataminimalisatie voor beide datatypen welkom, maar de accenten liggen wel degelijk anders. Voor gestructureerde data liggen die op de volgende zaken:

1. Brede ondersteuning databases en workloads

Voor gestructureerde data is het belangrijk dat de storageoplossing overweg kan met een brede reeks workloads. Ondersteuning voor zowel block- als filestorage en support voor verschillende databases en applicaties is dan ook belangrijk. Gestructureerde data vereist bovendien specifieke configuratie en inrichting van de database vooraf. Dat is vaak geen eenvoudige klus. Templates die hierin voorzien zijn dan ook een pre.

2. Ondersteuning voor containers en virtuele omgevingen

Daarnaast zijn workloads steeds vaker containerized via bijvoorbeeld een combinatie van Docker of Kubernetes. Ook DevOps-teams maken hiervan veel gebruik, voor het eenvoudig testen en uitrollen van applicaties. Een moderne oplossing voor gestructureerde data moet dan ook overweg kunnen met veelgebruikte containerformaten en virtuele omgevingen. Ook wanneer uw klant op dit moment hiervan nog geen gebruikmaakt, met het oog op de toekomst.

3. Automatiseringsmogelijkheden

Een ander belangrijk aandachtspunt zijn de automatiseringsmogelijkheden. Denk aan het automatisch verplaatsen van data ‘in rust’ van flashdrives naar minder kostbare traditionele schijven. Dat kan een systeembeheerder veel kostbare tijd schelen.

Dell EMC PowerStore

Dell EMC PowerStore voldoet aan bovengenoemde eisen. De oplossing is gebouwd volgens een volledige containerized architectuur. Het systeem ondersteunt een breed palet databases die eenvoudig en snel zijn in te richten. Ook kan Dell EMC PowerStore-omgevingen voorbereiden op virtuele omgevingen en zijn allerlei veelvoorkomende datamanagementtaken te automatiseren.

Storagevereisten ongestructureerde data

Voor ongestructureerde data ligt het accent op andere eisen:

1. Extreme verwerkingskracht

Het bewerken en analyseren van grote hoeveelheden ongestructureerde data kost extreem veel verwerkingskracht. Hierin moet de storageomgeving dan ook ruimschoots kunnen voorzien.

2. Goede schaalbaarheid en efficiëntie

De hoeveelheid ongestructureerde data groeit volgens experts jaarlijks met zo’n 55 tot 65 procent. Schaalbaarheid is dan ook belangrijk, zowel in opslagcapaciteit als verwerkingskracht. Ook efficiënt gebruik van de beschikbare opslagcapaciteit is belangrijk, zodat de snelle groei van gegevens niet te zwaar drukt op het beschikbare IT-budget.

3. Brede protocol-ondersteuning

Ongestructureerde data komen overal vandaan. Bijvoorbeeld van webpagina’s, sociale media, van IoT-apparaten, of uit de cloud. Daarom is het belangrijk dat de oplossing kan ‘praten’ via allerlei protocollen. Dat verzekert ook dat data kan worden opgeslagen op de plek waar ze nodig zijn: aan de randen, in een datacenter.

Dell EMC PowerScale

Een voorbeeld van een storageoplossing die uitblinkt in bovenstaande zaken is Dell EMC PowerScale. Deze oplossingen ondersteunen tot 15.8 miljoen I/O-operaties per seconde, zijn tot 80% efficiënt en datadeduplicatie en compressie verkleinen de benodigde opslagcapaciteit. Ook ondersteunt het systeem een brede range protocollen, zoals NFS, SMB, HDFS, S3, HTTP en FTP.

Meer weten?

Wilt u meer weten over hoe de storageoplossingen van Dell kunnen bijdragen aan een solide datastrategie bij uw klant? Neem dan contact op met uw contactpersoon bij Tech Data.

Terug naar Mediabibliotheek