Luigi Minnaja descrive i database non relazionali utilizzati dalla tecnologia Big Data

I database non relazionali

Considerando le differenti tipologie di dati che vengono analizzati in ambito Big Data l'architettura di storage, ovvero il formato di memorizzazione, è stato considerevolmente ripensato. Mentre per i dati strutturati le tabelle e i database relazionali erano la scelta ideale quando si vogliono immagazzinare enormi quantitativi di dati non strutturati la scelta ricade sui database non relazionali.

Il concetto alla base di questa architettura di memorizzazione è sostanzialmente che i dati vengono conservati in documenti e non in tabelle. Le informazioni vengono aggregate per ogni oggetto in documenti spesso con associazioni di tipo Key-Value o JSON. Il documento aggregato raccoglie tutti i dati associati all'entità e viene trattato completamente senza l'esigenza di reperire ulteriori informazioni.

Per questo motivo il carico computazionale necessario all'aggregazione dei dati viene evitato avendo un documento completo già ottenuto in un'unica lettura. Non essendoci tabelle non esistono schemi predefiniti quindi i dati possono essere arricchiti successivamente senza rischi per l'integrità degli stessi. L'effetto negativo di questo meccanismo è dato dalla duplicazione delle informazioni anche se al giorno d'oggi il costo per sistemi storage di grandi dimensioni va sempre più diminuendo. L'assenza di uno schema predefinito permette inoltre di scalare orizzontalmente utilizzando sistemi distribuiti senza grandi difficoltà.


<< Big Data 4° parte

Indice Articoli - Luigi Minnaja