Parte prima: Uno sguardo al mondo dei dati meteo (parte 1).

Nella prima parte di questo articolo ho cercato d’inquadrare il contesto in cui considerare l’argomento riguardate le caratteristiche e la disponibilità dei dati meteorologici inerenti lo stato dell’atmosfera.
In questa seconda parte vedremo come reperirli e come poter trattare le fonti disponibili per eventuali scopi d’analisi.
In tal senso sia le fonti, sia i tool per tradurli dal formato nativo ad uno più consono all’utilizzo programmato, sono molteplici.
Ciò che riporterò in quest’articolo passa attraverso la mia esperienza e per questo si limiterà (ma vi assicuro che di materiale ve ne è parecchio) a due dei più importanti attori mondiali nel panorma delle scienze dell’atmosfera; lo statunitense NOAA (National Oceanic and Atmospheric Administration) e l’europeo ECWMF (European Centre for Medium-Range Weather Forecasts).

Caratteristiche d’accesso ai dati della galassia NOAA e di ECMWF

Parlando dunque di questi due centri di ricerca, una prima grande distinzione consiste nel tipo di accessibilità ai dati.
Nel caso del NOAA tutto si risolve tramite il protocollo ftp o http (o https in modo analogo), ossia i file di dati li si ottengono con un semplice download.
Se invece si predilige ECMWF, allora è prima necessario registrarsi gratuitamente al portale (Login & registrazione ECMWF)  e così accedere al pannello di selezione dati, da cui procedere col download degli stessi.
Anche nel caso di ECMWF è possibile eseguire il download dati senza l’interfaccia di cui ho appena scritto (ossia eseguire un download programmato), ma in quel caso è necessario scrivere un po’ di codice (Specifiche ECMWF).
Cosa più che fattibile si intende, ma non così comoda.
Inoltre è richiesta una chiave d’attivazione da ottenere (sempre gratuitamente) una volta registati.
Il comodo accesso ai dati del NOAA ha il retroterra di essere caratterizzato da una dispersione delle fonti, specialmente se si è interessati ad un passo di griglia geografica stretta (o strettissima) e se si procede a ritroso nel tempo sino al fatidico 1948.
Un impagabile vantaggio, al di la della facilità d’accesso alle informazioni, consiste nella disponibilità dei dati correnti e di forecast (cosa che ECMWF, come sottolineato la volta passata, fornisce solo a pagamento a chi non fa parte del consorzio, ad esempio gli stati, o enti di ricerca riconosciuti).
ECMWF ha, come sottolineato, un’interfaccia web centralizzata (a cui si accede a vari cataloghi) davvero ben fatta, con anche i dati giornalieri (di più momenti della giornata – i cosiddetti run ) che si spingono sino al 1900. L’utilizzo della sua bellissima console web (immagine 1) è però a gestione manuale e duque il download dati che copra un lungo periodo richiede pazienza.

Immagine 1 – catalogo ERA interim giornaliero a partire dal 1979

Ecmwf1Ecmwf2

La galassia NOAA è costellata di siti da cui poter scaricare i dati e di seguito ne forniamo un elenco che, seppur non esaustivo, copre comunque una fetta importante di risorse.


L’organizzazione nativa dei dati e il concetto di livello isobarico

Su ambedue le piattaforme i dati li si ottengono in formato GRIB (GRIdded Binary), GRIB2 (GRIdded Binary versione 2) e NetCDF (Network Common Data Form).
Si tratta di strutture binarie altamente organizzate. Non entrerò nel merito delle loro caratteristiche  poiché il focus di questo articolo è il loro utilizzo, ma (per chi fosse interessato) i link per poterne eventualmente comprenderne l’articolata struttura sono i seguenti

Come si può notare dalla precedente immagine 1 (console ECMWF, ma ugualmente vale per le fonti NOAA poiché vi è sempre un indice a corredo delle fonti), i dati amosferici sono disponibili per diversi livelli isobarici.
Il livello isobarico altro non è l’insieme della distribuzione emisferica delle quote (altezze) a cui si trova il geopotenziale considerato.
Se prendiamo in esame il livello dei 1000 hPa siamo prossimi al suolo, ma si può arrivare sino all’alta stratosfera con il livello a 1 hPa.
La quota della libera atmosfera, così di sovente utilizzata e proposta con le mappe colore, si piazza attorno ai 5000 metri (500 hPa) a circa la metà della troposfera.
Quindi il livello dei 500 hPa (lo usiamo come esempio ma vale per qualsiasi geopotenziale) non è sempre alla stessa quota e in particolare si troverà a quote più elevate in aree di alta pressione e a quote più basse per aree di bassa pressione.
Per questo, dato un livello di geopotenziale, la quota descriverà la “geometria della superficie isobarica” dell’atmosfera nel momento scelto.
Su quella geometria si può ragionare con gli altri paramteri meteorologici.
Le immagini che seguono (immagine 2) riportano visivamente il concetto ora espresso.
Le mappe sono ai falsi colori. Dunque dato il piano isobarico a 500 hPa, i colori freddi indicano quote inferiori, mentre quelli caldi quote superiori. La rappresentazione 3D della mappa bidimensionale rende bene l’idea della geometria di cui si è parlato.

Immagine n. 2 – piano isobarico di 500 hPa del primo Gennaio 1979 – run delle 00:00

IMG-20171229-WA0001IMG-20171229-WA0002

Lo studio della colonna atmosferica passa dunque attraverso al concetto del livello isobarico. Per questo le fonti dati sono organizzate secondo l’ottica del taglio di geopotenziale e della serie temporale  (run). Per capire bene questo passaggio concentriamoci sul principio del “dove e quando”.

Accedere ai dati

Per i file GRIB,GRIB2 e NetCDF esistono una serie di tool che ne permettono la manipolazione. Si tratta di software di uso gratuito o di librerie che possono essere utilizzare per sviluppare programmi di gestione personalizzati.
La prassi di gran lunga più frequente è l’estrazione e la riorganizzazione dei dati per ridurli ad una foma preferenziale per l’analisi.
La caratterizzazione dei dati passa attraverso il tipo di dato, la quota isobarica, il run e il passo di griglia geografica (ossia il passo in gradi della latitudine e  longitudine della maglia geografica),  nei cui punti di vertice viene restituito il valore della rilevazione.
Di seguito riportiamo un elenco di software studiati per la gestione di questi tipi di file.

Dunque le possibilità non mancano.
Quando si trattano i dati provenienti da fonti differenti (o se preferite da modelli numerici differenti), è necessario, in fase di trasformazione, aver ben presente le specifiche parametrizzazioni utilizzate in fase d’impachettamento dei dati.
Questo perché, come detto, i formati binari sono pensati per “comprimere i dati“, ossia per gestirne una forma che, pur mantenedo l’informazione originale, riduca al minimo lo spazio necessario per conservarli (in tal senso il GRIB2 è un vero gioiello !).
Ad esempio una parametrizzazione tipica consiste nella gestione in termini di offset delle date (quindi si considera uno scarto numerico in termini di ore o minuti), partendo da una data base di riferimento. Oppure il tipo di variabile (inteso come numero di byte) in cui incapsulare il dato medesimo (il che implica anche in questo caso meccanismi di offset).
Nell’ambito delle fonti dati prima citate, ognuna di queste ha le sue parametrizzazioni specifiche, che  si possono ricavare attraverso processi di inventory messi a disposizione dei software di gestione.
Una forma finale molto diffusa in campo amatoriale per la gestione dei dati è quella testuale. Quindi si procede con l’estrazione dal formato binario per poi giungere ad una forma leggibile e gestibile da qualsiasi software di uso comune (in particolare è sempre sulla cresta dell’onda Excel).
Il formato testuale è di semplice amministrazione, ma se la richiesta è agire su importanti sezioni geografiche a livello emisferico, allora le cose si complicano se non si utilizzano procedure software votate alla ricerca di ciò che si vuol ottenere. Ma se si è in grado di scrivere del software, meglio gestire direttamente i formati nativi o generare uno strato intermedio binario utilizzabile a posteriori con qualsiasi linguaggio di programmazione.
Un’ archiviazione binaria strutturalmente semplice, rende i dati fruibili a chi opera con un qualsiasi linguaggio di programmazione, senza dunque la richiesta di dover operare sui formati nativi. Inoltre è così comodamente possibile omogeneizzare i dati provenienti da differenti fonti.
Queste sono state tra le principali ragioni (la più importante riguarda un progetto d’analisi dei dati di cui spero di parlarvi il prossimo anno), che mi hanno spinto a scrivere il software ZMDE che ora vi presento brevemente.

Il software ZMDE

ZMDE è scritto per la piattaforma windows col linguaggio C#.
L’obiettivo di questo software è di trattare i dati provenienti dalle fonti di cui ho scritto in precedenza e, considerando le specifiche parametrizzazioni native, esportare i dati in una composizione di semplici matrici binarie corredate da una testata di metadati. Le matrici possono essere impacchettate in un unico file e dunque di fatto viene riprodotta la situazione d’aggregazione delle logiche native dei dati.
Tuttavia l’assenza della di compressione, nonché un banale accorgimento numerico relativo alla gestione della griglia geografica (quindi dei valori dei nodi della griglia stessa), rende tale matrice direttamente interpretabile e aperta alla possibilità di accogliere i dati nativi o una loro estensione gestita attraverso un comune processo d’interpolazione. Processo che può essere applicato anche solo in fase di successiva gestione del dato così storicizzato. Ad esempio l’uso più banale dell’interpolazione è quello di riprodurlo graficamente.

octwmod500_19951001_19951031

ZMDE elabora solo i file NetCDF (formato più diffuso ripsetto ai GRIB e con librerie di gestione ben documentate) e pertanto è necessario, se si utilizzano i GRIB, in prima istanza trasformare i GRIB in NetCDF.
Il mondo del NOAA è largamente dominato dal formato GRIB2 (da ECMWF si possono scaricare direttamente i NetCDF) e per operare la trasformazione si può usare il coltellino svizzero WGRIB2 (tool segnalato nei link proposti in precedenza).
WGRIB2 è portabile e funziona a riga di comando. Ciò lo rende particolarmente comodo per la creazione di batch che eseguano l’operazione richiesta. Inoltre utilizzando gli switch di comando messi a disposizione, è possibile ritargliarsi ancor meglio l’attività desiderata. Quindi in ZMDE è stata creata l’innterfaccia semplificata per generare il batch d’estrazione (volendo conservandone il modello in un file xml) e trasformazione dei GRIB2 in NetCDF.

ZMDE1

Una volta ottenuti i NetCDF, è possibile ottenerene un inventory (sempre tramite ZMDE) e così avere visione dei parametri (run, livelli, variabili) necessari per impostare la successiva fase di preparazione della struttura binaria di cui ho parlato poco fa.
L’estrazione può essere esguita sia su file coerenti in termini di parametri dei dati (tipicamente derivanti dagli archivi storici), oppure raggruppati da file in cui i dati sono organizzati in modo distribuito (tipicamente forniti dai run di forecast o correnti).
Quindi ZMDE mette a disposizione due forme per l’estrazione: una semplificata (dati storici) e una un po’ più complessa (dati correnti).
La forma complessa dell’estrazione può fare qualsiasi cosa, ma la forma semplificata è particolarmente comoda.
L’interfaccia semplificata è la seguente (la si può utilizzare direttamente sui file NetCDF) e con essa si possono utilizzare alcune variabili d’ambiente che facilitano l’estrazione multipla dei file.

ZMDE2

La forma complessa dell’estrazione necessita di una fase preparatoria, in cui definire  (in un file xml) la struttura dati cercata. Anche in questo caso è stata approntata un’interfaccia semplificata.

ZMDE3

Il risultato sono i file binari sopra descritti con l’impacchettamento delle matrici organizzate per l’accesso diretto in latitudine e longitudine.

Conclusioni

Spero che questa chiacchierata vi abbia fatto comprendere come oggigiorno vi sia la possibilità concreta di gestire le informazioni numeriche dei parametri atmosferici. Ciò permette, anche al semplice appassionato, possibilità di analisi avanzate. Oggigiorno infatti un Computer (pur senza troppe pretese) ha le prestazioni per poter trattare senza  limiti stringenti quantità rilevanti di dati. Una via questa che spero venga sempre più battuta dagli amanti delle scienze dell’atmosfera.