import cdsapi
import geopandas as gpd
import xarray as xr
import os
import yaml
import hashlib
import plotly
from shapely import geometry
from datetime import datetime, timedelta
from math import dist
from scipy.stats import zscore
import plotly.graph_objects as go

plotly.offline.init_notebook_mode()

def get_dates(start_month, n_month=1):
    start_date = datetime.strptime(start_month, '%Y-%m')
    end_date = start_date + timedelta(days=n_month*31)
    return start_date.strftime('%Y-%m-01'), end_date.strftime('%Y-%m-01')

def sanitize_string(string_in):
    delete_chars = '\\/:*?"<>|,'
    for char in delete_chars:
        string_in = string_in.replace(char,'')
    ugly_chars = " '-" 
    for char in ugly_chars:
        string_in = string_in.replace(char,'_')
    return string_in

regione_sel = 'Sardegna'
month = '2024-06'
hours = [f'{i:02}:00' for i in range(0,24)]

start_date, end_date = get_dates(month, n_month = 1)
month_out = month.replace("-","")
regione_sel_out = sanitize_string(regione_sel.lower())
cams_data_fname = f"{os.path.join(os.path.expanduser('~'), 'ILAB_DATA', 'COPERNICUS')}/NC/data_{regione_sel_out}_{month_out}.nc"

comuni = gpd.read_parquet(os.path.join(os.path.expanduser('~'), 'ILAB_DATA','ISTAT', 'DATA', 'comuni_pop.parquet'))
regione = comuni[comuni['cod_reg']==20].copy()
regione_bb = list(regione['geometry'].to_crs(4326).total_bounds)
bb = [regione_bb[3],regione_bb[0],regione_bb[1],regione_bb[2]]

with open ('../../.adsapirc', 'r') as f:
    credentials= yaml.safe_load(f)
c = cdsapi.Client(url=credentials['url'], key=credentials['key'])

c.retrieve(
'cams-europe-air-quality-forecasts',
{
    'model': 'ensemble',
    'date': f'{start_date}/{end_date}',
    'format': 'netcdf',
    'variable': [
        'ammonia', 'carbon_monoxide', 'nitrogen_dioxide',
        'ozone', 'particulate_matter_10um', 'particulate_matter_2.5um',
        'pm10_wildfires', 'pm2.5_total_organic_matter', 'residential_elementary_carbon',
        'sulphur_dioxide', 'total_elementary_carbon',
    ],
    'level': '0',
    'type': 'analysis',
    'time': hours,
    'leadtime_hour': '0',
    'area': bb
},cams_data_fname)

ds = xr.open_dataset(cams_data_fname)
df = ds.to_dataframe().reset_index()
ds.close()

df.columns = [col.replace('_conc','') for col in df.columns]

df.head()

variables = list(df.columns)
variables = [element for element in variables if element not in ['longitude','latitude','level','time']]
aggs_dict = {element: 'mean' for element in variables}

timestart = datetime.strptime(start_date, '%Y-%m-%d')
df['time_abs'] = timestart + df['time']
df['date'] = df['time_abs'].dt.date

df['time_abs'] = df['time_abs'].astype('string')
df['time'] = df['time'].astype('string')
df['date'] =  df['date'].astype('string')

df.head()

lons = df[df['time']==f'0 days {hours[0]}:00'].sort_values(by=['latitude','longitude']).head(2)['longitude'].values
lats = df[df['time']==f'0 days {hours[0]}:00'].sort_values(by=['latitude','longitude']).head(2)['latitude'].values
distance = dist([lons[1]], [lons[0]])

def get_id_cell(row, distance_in):
    grid_distance = str(distance_in)[:3].replace('.','_')
    id_cell = f'{grid_distance}__{row["latitude"]}_{row["longitude"]}'
    result = hashlib.md5(id_cell.encode()).hexdigest()
    return result

df['id_cell'] = df.apply(get_id_cell, distance_in=distance, axis='columns')

df_geom = df[df['time']==f'0 days {hours[0]}:00'].copy()
df_geom = df_geom[['longitude','latitude','id_cell']].copy()

def make_cell(row, distance_in):
    xmin = row['longitude'] - (distance_in/2)
    ymin = row['latitude'] - (distance_in/2)
    xmax = row['longitude'] + (distance_in/2)
    ymax = row['latitude'] + (distance_in/2)
    geom = geometry.Polygon(((xmin,ymin), (xmin,ymax), (xmax,ymax), (xmax,ymin)))
    return geom

df_geom['geometry'] = df_geom.apply(make_cell, distance_in=distance, axis='columns')

gdf = gpd.GeoDataFrame(df_geom, geometry=df_geom['geometry'])
gdf = gdf[['id_cell', 'geometry']].set_crs(4326)

gdf_out = gdf.merge(df, on='id_cell')

gdf_out.to_parquet(os.path.join(os.path.expanduser('~'), 'ILAB_DATA', 'COPERNICUS','DATA', f'cams_grid_{regione_sel_out}_{month_out}.parquet'))

gdf_out.head()

# # cella a Roma
# fig = go.Figure()
# for var in variables:
#     temp = gdf_out[(gdf_out['id_cell']=='53d7e08a8fae6e9b00f5f516945b6a37')].copy()# & (gdf_out['date']=='2024-01-01')
#     temp['zscore'] = temp[[var]].apply(zscore)
#     fig.add_trace(go.Scatter(x=temp['time_abs'], y=temp['zscore'], name=var))

# fig.show()

fig = go.Figure()
for var in variables:
    temp = gdf_out[(gdf_out['id_cell']=='54cfb985fad9555c04e4b4135a471259')].copy()# & (gdf_out['date']=='2024-01-01')
    temp['zscore'] = temp[[var]].apply(zscore)
    fig.add_trace(go.Scatter(x=temp['time_abs'], y=temp['zscore'], name=var))

fig.show()

intersection = gdf.overlay(regione[['geometry','pro_com_t','comune']].to_crs(4326), how="intersection")
intersection = intersection[['pro_com_t','id_cell']].copy()
m = intersection.merge(regione[['geometry','pro_com_t','comune']], on = 'pro_com_t')
m = m.merge(df, on='id_cell')

g = m.groupby(['pro_com_t','comune'], as_index=False).agg(aggs_dict)
regione_stats = regione.merge(g)
regione_stats = gpd.GeoDataFrame(regione_stats, geometry=regione_stats['geometry'])

regione_stats.to_parquet(os.path.join(os.path.expanduser('~'), 'ILAB_DATA', 'DATA', f'cams_comuni_{regione_sel_out}_{month_out}.parquet'))

g.shape, regione_stats.shape

regione_stats[regione_stats['comune']=='Cagliari'].head()

Tutorial per lo scaricamento dei dati sulla qualità dell'aria (CAMS) da Copernicus¶

Ora trasformiamo le celle del file raster in vettoriale¶

Visualizziamo i dati¶

Possiamo anche calcolare i valori medi comunali¶