P1.B1 – Cosa sono gli Open Data

Gli Open Data sono dati aperti, condivisi su internet, in formato open. Per approfondire il tema almeno per sviluppi principali e su un piano globale, è possibile consultare la pagina di Wikipedia dedicata ai Dati ApertiIn questo post cerchiamo di riassumere gli aspetti principali. Il primo riguarda il rilascio e l’utilizzo dei dati, il secondo invece la loro utilità concreta.

I dati aperti

Per essere considerati “Open Data” i dati devono avere alcune caratteristiche principali. La prima riguarda la loro licenza di utilizzo: chi pubblica dei dati online deve spiegare che tipo di uso se ne può fare (per esempio se possono essere riutilizzabili, magari anche per scopi commerciali). Il dato Open è riutilizzabile per definizione, e viceversa non stiamo parlando di Open Data se i dati in questione non sono legittimamente riutilizzabili. Il secondo aspetto riguarda il formato, che deve rispondere ad alcune catteristiche sia pratiche (ad esempio che i dati possano essere quantomeno facilmente analizzabili tramite un programma di fogli di calcolo – ad esempio Libre Office/Open Office Calc oppure Excel), sia tecnologiche (per esempio sul fronte della pulizia dei dati e della loro qualità). Se una tabella viene pubblicata in formato pdf (che è un formato aperto) non può considerato pienamente Open Data perché il formato non ne permette un facile utilizzo, ma bisogna estrarre i dati e metterli in tabella. Viceversa, se la tabella viene rilasciata in xls (che è un formato proprietario) i dati saranno riutilizzabili ma essendo un formato proprietario, si inclina molto lo status di open data . Per capire cos’è Open Data e cosa non lo è, e soprattutto come si fa Open Data, Tim Berners-Lee, inventore del WWW (World Wide Web) e attualmente alla guida del W3C (il consorzio che sovrintente agli standard del web) ha costruito nel 2006 uno schema che fa capire molto chiaramente quali sono i criteri, basato su un numero di stelle da assegnare progressivamente ai dati, da una a cinque, in base a tutte queste caratteristiche. Ti seguito la tabella di dettaglio (tradotta da me), tratta dalla pagina originale.

 

Disponibili su internet (qualsiasi formato), ma con una licenza aperta per essere Open Data
★★ Disponibili con una struttura di dati “machine-readable” (esempio: Excel invece di un’immagine o di una tabella scansionata)
★★★ Come i dati con due stelle ma con un formato non proprietario (esempio: CSV invece di Excel)
★★★★ Tutti i requisiti precedenti, più l’uso di standard aperti dal W3C (RDF e SPARQL) per l’identificazione, in modo che le persone possano individuare il vostro stuff
★★★★★ Tutti i requisiti precedenti, e in più il link dei dati a dati diversi prodotti da altre persone per fornire un contesto