Het begrip Big Data wordt dagelijks gebruikt. Je hoeft de krant maar open te slaan of een artikel te lezen en Big Data wordt genoemd. Big Data is overal om ons heen. Maar wat is Big Data nu eigenlijk? Het verzamelen en analyseren van data wordt al heel lang gedaan. Wat is nu zo anders aan Big Data?

Al jaren wordt in ziekenhuizen data verzameld zoals laboratorium uitslagen, bloedwaarden, röntgenfoto’s. Dit kan veel data zijn als het jaren lang wordt verzameld. Het is echter geen Big Data. Deze data is in hoge mate gestructureerd en volledig compleet. Het wordt bovendien opgeslagen in een database. Het wordt dan ook een Big Database genoemd en niet Big Data.

Hetzelfde geldt voor de data van bibliotheken. Zij hebben uitgebreide data opgeslagen over de (multi)media in hun collectie. Dit is zonder meer een big database. Het is echter geen Big Data omdat de data set volledig compleet is en in hoge mate gestructureerd is.

Big Data is een verzameling van data met een grootte van bijvoorbeeld meerdere GB’s (gigabytes:  bytes), TB (terabyte:  bytes), of zelfs meerdere PB’s (petabytes:  bytes). Zulke grote data sets hebben bepaalde kenmerken waardoor het Big Data is of wordt genoemd.

Kenmerken van Big Data

De kenmerken van Big Data zijn de volgende:

1.Grote hoeveelheid data. Bijvoorbeeld: GB’s, TB’s, PB’s;

2.Er kan niet gecontroleerd worden of de data compleet is;

3.Er is geen enkele ordening aanwezig in de data;

4.De data kan op elk moment veranderen.

Data: maar wat nu?

Als je zo’n grote dataset hebt, dan is het analyseren niet zo eenvoudig. De data set is namelijk niet gestructureerd en veelal niet compleet. De analyse van deze data vereist dus een aanpak die past bij dit type data.

Er zijn vele technieken waarmee Big Data kan worden geanalyseerd. De data kan bijvoorbeeld worden  geanalyseerd om voorspellingen te doen over de toekomst of om patronen in beeld te brengen. Dergelijke technieken worden ook wel predictive analytics genoemd. Voorbeelden van statistische analyses voor predictive analytics zijn regressie, beslissingsboom, regels afleiden, neurale netwerken.

Beslissingsbomen bieden de mogelijkheid om voorspellingen te doen op basis van een reeks beslissingen. Een beslisboom wordt veel gebruikt door banken om te bepalen of iemands hypotheek aanvraag wel of niet wordt goedgekeurd.

Regressie is een techniek die sinds 1900 bestaat. Deze techniek biedt de mogelijkheid om een samenhang tussen variabelen te ontdekken. Hiermee kan een onderliggend patroon worden blootgelegd.

Regels afleiden is een techniek die veel wordt toegepast bij het analyseren van Big Data. Regels afleiden kan patronen blootleggen in de data blootleggen op grond waarvan voorspellingen kunnen worden gedaan. Een voorbeeld is het koopgedrag van klanten van een supermarkt. Een voorbeeld is: “als een klant luiers koopt, dan koopt hij babyvoeding en babylotion”. Dergelijke voorspellingen kunnen bijdragen bij het beter richten van een reclamecampagne.

Afgezien van de genoemde technieken zijn er nog veel meer technieken. Deze technieken als wel andere aspecten zoals ethiek, processen van Big Data, software voor Big Data kun je leren in onze cursus over Big Data. De cursus zal worden aangeboden vanaf begin oktober 2019.

Please follow and like us:

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *