Lezione 2 – step 2.3 – Il formato dei dati sul web (e non solo)

Con questo tutorial imparerai a capire come distinguere la qualità di pubblicazione dei dati e come orientarti in base al formato nel quale sono diffusi.

Overview

“Open Data” vuol dire semplicemente “dati aperti e riutilizzabili”. Questo significa che il riutilizzo dei dati dev’essere garantito tramite licenze, ma anche che i dati devono essere diffusi in un formato che permetta il loro riutilizzo (su Open Data più info qui).

Intro

Il riutilizzo dei dati è possibile se i dati stesso sono in formati “machine readable”. E’ un concetto molto semplice in realtà e vuol dire che i dati devono poter essere utilizzati tramite le classiche applicazioni di tutti i computer. Ciascuno di noi ha sul proprio computer software come Office Excel o LibreOffice Calc (quest’ultimo è OpenSource), applicazioni che permettono di lavorare su dati raccolti in fogli di calcolo / tabelle di numeri.

I dati machine-readable

Tra i formati più diffusi per le tabelle di dati ci sono certamente xls (Excel) e csv (Comma separated value). Non sono ovviamente gli unici due, ma quando i dati sono organizzati e diffusi in formati analoghi, li potremo aprire e utilizzare tramite programmi dedicati. Ad esempio scaricando il file e aprendolo con Libre Office calc, potremo controllare i dati valore per valore, riga per riga, colonna per colonna. Potremo riorganizzare i dati quando necessario, effettuare somme o medie, filtrarli per categoria, effettuare raggruppamenti con le tabelle pivot, aggiungere colonne e informazioni maggiori (ad esempio sulla popolazione, o sulle coordinate geografiche). Il tutto può essere fatto con estrema facilità perché i dati pubblicati così sono organizzati in righe e colonne, che possono essere modificate e arricchite rapidamente. Nella tabella sottostante è disponibile l’elenco dei formati nei quali è più frequente possibile trovare dati sul web. Soltanto nell’ultimo caso – evindenziato in verde – “Fogli di calcolo e dati strutturati” i dati si possono considerare machine readable. Per i precedenti altri casi è necessario effetuare lo scraping (più info qui)

Tipo Qualità Descrizione
Tabelle in formato immagine (es.: screenshot)
Formati: jpg, png
Pessima Può capitare di trovare pubblicati online dei dati organizzati in tabella. Guardandoli con un briciolo di attenzione in più, ci si accorge che quella tabella in realtà è un’immagine. Questo è il caso peggiore nel quale i dati si trovano, perché non c’è alcun modo di estrarli dall’immagine se non trascrivendoli a mano.
Documenti e testi stampabili. Formati: pdf, doc Scarsa  I dati a volte possono trovarsi all’interno di documenti stampabili molto diffusi, ma anche se la loro struttura è tabellare, hanno spesso formattazioni interne che ne rendono difficile – ma non impossibile – l’esportazione.
Documenti in testo semplice. Formato: txt Insufficiente Quelli in testo semplice sono i documenti digitali più semplici e basici. La loro caratteristica principali è che non prevedono alcuna formattazione. Questo può essere un limite, ma anche un vantaggio: effetuando lo scraping per estrarre i dati, nessuna formattazione influirà sul processo. Il processo di estrazione resta per lo più complesso.
Tabelle strutturate, documenti di testo ben formattati. Formato: html, pdf, txt Mediocre

Alcuni dati vengono pubblicati online in tabelle strutturate. Lo scraping è indispensabile per estrarli, ma attraverso buone pratiche e strumenti opportuni questo processo può essere gestito in maniera non complessa.
Fogli di calcolo, o dati strutturati Formato: xls, csv, ods, xml (…) Buona

 Le tabelle di dati, leggibili tramite fogli di calcolo (Excel, LibreOffice Calc) sono il formato “minimo” perché i dati siano machine readable. Ciò significa che in ciascuno dei formati elencati (ce ne sono molti altri) è possibile consultare i dati tramite un foglio di calcolo ed effettuare operazioni e calcoli di ogni genere. Quindi siamo a cavallo 🙂

I criteri standard sul web per valutare i dati

Per capire cos’è Open Data e cosa non lo è, e soprattutto come si fa Open Data, Tim Berners-Lee, inventore del WWW (World Wide Web) e attualmente alla guida del W3C (il consorzio che sovrintente agli standard del web) ha costruito nel 2006 uno schema che fa capire molto chiaramente quali sono i criteri, basato su un numero di stelle da assegnare progressivamente ai dati, da una a cinque, in base a tutte queste caratteristiche. Di seguito la tabella di dettaglio (tradotta da me), tratta dalla pagina originale.

Disponibili su internet (qualsiasi formato), ma con una licenza aperta per essere Open Data
★★ Disponibili con una struttura di dati “machine-readable” (esempio: Excel invece di un’immagine o di una tabella scansionata)
★★★ Come i dati con due stelle ma con un formato non proprietario (esempio: CSV invece di Excel)
★★★★ Tutti i requisiti precedenti, più l’uso di standard aperti dal W3C (RDF e SPARQL) per l’identificazione, in modo che le persone possano individuare il vostro stuff
★★★★★ Tutti i requisiti precedenti, e in più il link dei dati a dati diversi prodotti da altre persone per fornire un contesto