1 year ago · bc0afd2eaf
--- a/UNFCCC_GHG_data/UNFCCC_DI_reader/UNFCCC_DI_reader_core.py
+++ b/UNFCCC_GHG_data/UNFCCC_DI_reader/UNFCCC_DI_reader_core.py
@@ -31,6 +31,7 @@ from UNFCCC_GHG_data.helper import custom_country_mapping
 
															 from UNFCCC_GHG_data.helper import get_country_code, get_country_name
														
 
															 from UNFCCC_GHG_data.helper import extracted_data_path_UNFCCC, root_path, code_path
														
 
															 from UNFCCC_GHG_data.helper import dataset_path_UNFCCC
														
 
															+from UNFCCC_GHG_data.helper import convert_categories
														
 
															 def read_UNFCCC_DI_for_country(
														
@@ -780,7 +781,7 @@ def save_DI_country_data(
 
															 def save_DI_dataset(
														
 
															         data_pm2: xr.Dataset,
														
 
															         raw: bool=True,
														
 
															-        non_AnnexI: bool=True,
														
 
															+        annexI: bool=False,
														
 
															 ):
														
 
															     '''
														
 
															     save primap2 and IF data to dataset folder
														
@@ -789,10 +790,11 @@ def save_DI_dataset(
 
															     # preparations
														
 
															     data_if = data_pm2.pr.to_interchange_format()
														
 
															-    if non_AnnexI:
														
 
															-        country_group = "non-AnnexI"
														
 
															-    else:
														
 
															+    if annexI:
														
 
															         country_group = "AnnexI"
														
 
															+    else:
														
 
															+        country_group = "non-AnnexI"
														
 
															+
														
 
															     ## get timestamp
														
 
															     scenario_col = data_pm2.attrs['scen']
														
@@ -811,7 +813,7 @@ def save_DI_dataset(
 
															     # get the filename with the hash and check if it exists (separate for pm2 format
														
 
															     # and IF to fix broken datasets if necessary)
														
 
															-    filename_hash = determine_dataset_filename(token, raw, non_AnnexI=non_AnnexI,
														
 
															+    filename_hash = root_path / determine_dataset_filename(token, raw, annexI=annexI,
														
 
															                                                hash=True)
														
 
															     # primap2 native format
														
 
															     filename_hash_nc = filename_hash.parent / (filename_hash.name + '.nc')
														
@@ -836,8 +838,8 @@ def save_DI_dataset(
 
															         print(f"Data unchanged for {country_group}. Create symlinks.")
														
 
															     # get the filename with the date
														
 
															-    filename_date = determine_dataset_filename(date_str, raw=raw,
														
 
															-                                               non_AnnexI=non_AnnexI, hash=False)
														
 
															+    filename_date = root_path / determine_dataset_filename(date_str, raw=raw,
														
 
															+                                               annexI=annexI, hash=False)
														
 
															     # create the symlinks to the actual data (with the hash)
														
 
															     suffixes = ['.nc', '.csv', '.yaml']
														
@@ -850,25 +852,23 @@ def save_DI_dataset(
 
															 ## functions for multiple country reading
														
 
															-def read_UNFCCC_DI_for_all_countries(
														
 
															-        non_AnnexI: bool=True,
														
 
															+def read_UNFCCC_DI_for_country_group(
														
 
															+        annexI: bool=False,
														
 
															 ) -> xr.Dataset:
														
 
															     '''
														
 
															     This function reads DI data for all countries in a group (annexI or non-AnnexI)
														
 
															     TODO: currently only non-annexI is implemented
														
 
															     The function reads all data in one go using datalad run. as the output data file
														
 
															     names are unknown beforehand datalad run uses explicit=false
														
 
															-    TODO: decide if dataset creation goes in here as well. Makes sense, I think. Then
														
 
															-    the function can return the xarray dataset
														
 
															     '''
														
 
															     today = date.today()
														
 
															     date_str = today.strftime(DI_date_format)
														
 
															-    if non_AnnexI:
														
 
															-        countries = nAI_countries
														
 
															-    else:
														
 
															+    if annexI:
														
 
															         raise ValueError("Bulk reading for AnnexI countries not implemented yet")
														
 
															+    else:
														
 
															+        countries = nAI_countries
														
 
															     # read the data
														
 
															     data_all = None
														
@@ -897,10 +897,17 @@ def read_UNFCCC_DI_for_all_countries(
 
															     # TODO: write metadata
														
 
															     # save the data
														
 
															-    #save_DI_dataset(data_all, raw=True, non_AnnexI=non_AnnexI)
														
 
															+    save_DI_dataset(data_all, raw=True, annexI=annexI)
														
 
															     return data_all
														
 
															+# TODO: add interface functions and script for read all data
														
 
															+# add process all sfunctios and scripts
														
 
															+# merge into main
														
 
															+# rund reading procedure
														
 
															+# config for all DI data
														
 
															+# re-run crf etc
														
 
															+
														
 
															 ## datalad and pydoit interface functions
														
 
															 def read_DI_for_country_datalad(
														
@@ -1004,13 +1011,57 @@ def process_DI_for_country_datalad(
 
															         print(ex.message)
														
 
															-def read_DI_for_all_countries_datalad(
														
 
															-        non_AnnexI: bool=True,
														
 
															-):
														
 
															-    '''
														
 
															-    This function calls datalad run to read all data in one go. as the output data file
														
 
															-    names are unknown beforehand datalad run uses explicit=false
														
 
															-    '''
														
 
															+def read_DI_for_country_group_datalad(
														
 
															+        annexI: bool=False,
														
 
															+) -> None:
														
 
															+    """
														
 
															+    Wrapper around read_UNFCCC_DI_for_country_group which takes care of selecting input
														
 
															+    and output files and using datalad run to trigger the data processing
														
 
															+
														
 
															+    Parameters
														
 
															+    __________
														
 
															+
														
 
															+    country: str
														
 
															+        country name or ISO 3-letter country code
														
 
															+    date_str: str
														
 
															+        Date of the data to be processed in the format %Y-%m-%d (e.g. 2023-01-30). If
														
 
															+        no date is given the last data read will be processed.
														
 
															+    """
														
 
															+
														
 
															+    if annexI:
														
 
															+        country_group = "AnnexI"
														
 
															+    else:
														
 
															+        country_group = "non-AnnexI"
														
 
															+
														
 
															+    print(f"Attempting to read DI data for {country_group}.")
														
 
															+    print("#"*80)
														
 
															+    print("")
														
 
															+    print(f"Using the UNFCCC_DI_reader")
														
 
															+    print("")
														
 
															+    print(f"Run the script using datalad run via the python api")
														
 
															+    script = code_path / "UNFCCC_DI_reader" / "read_UNFCCC_DI_for_all_countries.py"
														
 
															+    script = script.relative_to(root_path)
														
 
															+
														
 
															+    cmd = f"./venv/bin/python3 {script.as_posix()} "
														
 
															+    if annexI:
														
 
															+        cmd = cmd + f" --annexI"
														
 
															+
														
 
															+    try:
														
 
															+        datalad.api.run(
														
 
															+            cmd=cmd,
														
 
															+            dataset=root_path,
														
 
															+            message=f"Read DI data for {country_group}.",
														
 
															+            inputs=[],
														
 
															+            outputs=[],
														
 
															+            dry_run=None,
														
 
															+            explicit=False,
														
 
															+        )
														
 
															+    except IncompleteResultsError as IRE:
														
 
															+        print(f"IncompleteResultsError occurred when running {cmd}: {IRE}")
														
 
															+    except Exception as ex:
														
 
															+        print(f"Exception occurred when running {cmd}")
														
 
															+        print(ex.message)
														
 
															+
														
 
															 ## helper functions
														
 
															 def determine_filename(
														
@@ -1078,7 +1129,7 @@ def determine_filename(
 
															 def determine_dataset_filename(
														
 
															         date_or_hash: str,
														
 
															         raw: bool=False,
														
 
															-        non_AnnexI: bool=True,
														
 
															+        annexI: bool=False,
														
 
															         hash: bool = False,
														
 
															 ) -> Path:
														
 
															     """
														
@@ -1090,8 +1141,8 @@ def determine_dataset_filename(
 
															         formatted date string
														
 
															     raw: bool
														
 
															         bool specifying if filename fow raw or processed data should be returned
														
 
															-    non_AnnexI: bool
														
 
															-        True if non-AnnexI False if AnnexI
														
 
															+    annexI: bool, default False
														
 
															+        True if AnnexI data, False if non-AnnexI data
														
 
															     hash: str
														
 
															     Returns
														
@@ -1100,12 +1151,12 @@ def determine_dataset_filename(
 
															     """
														
 
															     # get the country folder
														
 
															-    if non_AnnexI:
														
 
															-        current_dataset_path = dataset_path_UNFCCC / "DI_non_AnnexI"
														
 
															-        filename = f"DI_non_AnnexI_{date_or_hash}"
														
 
															-    else:
														
 
															+    if annexI:
														
 
															         current_dataset_path = dataset_path_UNFCCC / "DI_AnnexI"
														
 
															         filename = f"DI_AnnexI_{date_or_hash}"
														
 
															+    else:
														
 
															+        current_dataset_path = dataset_path_UNFCCC / "DI_non_AnnexI"
														
 
															+        filename = f"DI_non_AnnexI_{date_or_hash}"
														
 
															     if not current_dataset_path.exists():
														
 
															         current_dataset_path.mkdir()
														
@@ -1119,66 +1170,6 @@ def determine_dataset_filename(
 
															     return filename.relative_to(root_path)
														
 
															-def convert_categories(
														
 
															-        ds_input: xr.Dataset,
														
 
															-        conversion: Dict[str, Dict[str, str]],
														
 
															-        #terminology_from: str,
														
 
															-        terminology_to: str,
														
 
															-        debug: bool=False,
														
 
															-        tolerance: float=0.01,
														
 
															-)->xr.Dataset:
														
 
															-    ds_converted = ds_input.copy(deep=True)
														
 
															-    ds_converted.attrs = deepcopy(ds_input.attrs)
														
 
															-
														
 
															-    # change category terminology
														
 
															-    cat_dim = ds_converted.attrs["cat"]
														
 
															-    ds_converted.attrs["cat"] = f"category ({terminology_to})"
														
 
															-    ds_converted = ds_converted.rename({cat_dim: ds_converted.attrs["cat"]})
														
 
															-
														
 
															-    # find categories present in dataset
														
 
															-    cats_present = list(ds_converted.coords[f'category ({terminology_to})'])
														
 
															-
														
 
															-    # restrict categories and map category names
														
 
															-    if 'mapping' in conversion.keys():
														
 
															-        mapping_cats_present = [cat for cat in list(conversion['mapping'].keys()) if
														
 
															-                                cat in cats_present]
														
 
															-        ds_converted = ds_converted.pr.loc[
														
 
															-            {'category': mapping_cats_present}]
														
 
															-
														
 
															-        from_cats = ds_converted.coords[f'category ({terminology_to})'].values
														
 
															-        to_cats = pd.Series(from_cats).replace(conversion['mapping'])
														
 
															-        ds_converted = ds_converted.assign_coords({f'category ({terminology_to})':
														
 
															-                                                   (f'category ({terminology_to})',
														
 
															-                                                    to_cats)})
														
 
															-
														
 
															-    # redo the list of present cats after mapping, as we have new categories in the
														
 
															-    # target terminology now
														
 
															-    cats_present_mapped = list(ds_converted.coords[f'category ({terminology_to})'])
														
 
															-    # aggregate categories
														
 
															-    if 'aggregate' in conversion:
														
 
															-        aggregate_cats = conversion['aggregate']
														
 
															-        for cat_to_agg in aggregate_cats:
														
 
															-            if debug:
														
 
															-                print(f"Category: {cat_to_agg}")
														
 
															-            source_cats = [cat for cat in aggregate_cats[cat_to_agg]['sources'] if
														
 
															-                           cat in cats_present_mapped]
														
 
															-            data_agg = ds_converted.pr.loc[{'category': source_cats}].pr.sum(
														
 
															-                dim='category', skipna=True, min_count=1)
														
 
															-            nan_vars = [var for var in data_agg.data_vars if
														
 
															-                        data_agg[var].isnull().all().data == True]
														
 
															-            data_agg = data_agg.drop(nan_vars)
														
 
															-            if len(data_agg.data_vars) > 0:
														
 
															-                data_agg = data_agg.expand_dims([f'category ({terminology_to})'])
														
 
															-                data_agg = data_agg.assign_coords(
														
 
															-                    coords={f'category ({terminology_to})':
														
 
															-                                (f'category ({terminology_to})', [cat_to_agg])})
														
 
															-                ds_converted = ds_converted.pr.merge(data_agg, tolerance=tolerance)
														
 
															-            else:
														
 
															-                print(f"no data to aggregate category {cat_to_agg}")
														
 
															-
														
 
															-    return ds_converted
														
 
															-
														
 
															-
														
 
															 def get_input_and_output_files_for_country_DI(
														
 
															         country: str,
														
 
															         date_str: str,
														
--- a/UNFCCC_GHG_data/UNFCCC_DI_reader/__init__.py
+++ b/UNFCCC_GHG_data/UNFCCC_DI_reader/__init__.py
@@ -6,8 +6,7 @@ from .UNFCCC_DI_reader_core import \
 
															     process_UNFCCC_DI_for_country, process_and_save_UNFCCC_DI_for_country, \
														
 
															     process_DI_for_country_datalad, \
														
 
															     convert_DI_data_to_pm2_if, convert_DI_IF_data_to_pm2, determine_filename, \
														
 
															-    read_UNFCCC_DI_for_all_countries
														
 
															-
														
 
															+    read_UNFCCC_DI_for_country_group, read_DI_for_country_group_datalad
														
 
															 __all__ = [
														
@@ -19,5 +18,6 @@ __all__ = [
 
															     "convert_DI_data_to_pm2_if",
														
 
															     "convert_DI_IF_data_to_pm2",
														
 
															     "determine_filename",
														
 
															-    "read_UNFCCC_DI_for_all_countries",
														
 
															+    "read_UNFCCC_DI_for_country_group",
														
 
															+    "read_DI_for_country_group_datalad",
														
 
															 ]
														
--- a/UNFCCC_GHG_data/UNFCCC_DI_reader/read_UNFCCC_DI_for_country_group.py
+++ b/UNFCCC_GHG_data/UNFCCC_DI_reader/read_UNFCCC_DI_for_country_group.py
@@ -0,0 +1,19 @@
 
															+"""
														
 
															+This script is a wrapper around the read_UNFCCC_DI_for_country_group
														
 
															+function such that it can be called from datalad
														
 
															+"""
														
 
															+
														
 
															+import argparse
														
 
															+from UNFCCC_GHG_data.UNFCCC_DI_reader import \
														
 
															+    read_UNFCCC_DI_for_country_group
														
 
															+
														
 
															+
														
 
															+parser = argparse.ArgumentParser()
														
 
															+parser.add_argument('--annexI', help='read for AnnexI countries (default is for '
														
 
															+                                     'non-AnnexI)', action='store_true')
														
 
															+args = parser.parse_args()
														
 
															+annexI = args.annexI
														
 
															+
														
 
															+read_UNFCCC_DI_for_country_group(
														
 
															+    annexI=annexI,
														
 
															+)
														
--- a/UNFCCC_GHG_data/UNFCCC_DI_reader/read_UNFCCC_DI_for_country_group_datalad.py
+++ b/UNFCCC_GHG_data/UNFCCC_DI_reader/read_UNFCCC_DI_for_country_group_datalad.py
@@ -0,0 +1,19 @@
 
															+"""
														
 
															+wrapper around read_crf_for_country_datalad such that it can be called
														
 
															+from doit in the current setup where doit runs on system python and
														
 
															+not in the venv.
														
 
															+"""
														
 
															+
														
 
															+from UNFCCC_GHG_data.UNFCCC_DI_reader import \
														
 
															+    read_DI_for_country_group_datalad
														
 
															+import argparse
														
 
															+
														
 
															+parser = argparse.ArgumentParser()
														
 
															+parser.add_argument('--annexI', help='read for AnnexI countries (default is for '
														
 
															+                                     'non-AnnexI)', action='store_true')
														
 
															+args = parser.parse_args()
														
 
															+annexI = args.annexI
														
 
															+
														
 
															+read_DI_for_country_group_datalad(
														
 
															+    annexI=annexI,
														
 
															+)
														
--- a/UNFCCC_GHG_data/helper/__init__.py
+++ b/UNFCCC_GHG_data/helper/__init__.py
@@ -4,7 +4,7 @@ from .definitions import legacy_data_path
 
															 from .definitions import downloaded_data_path, downloaded_data_path_UNFCCC
														
 
															 from .definitions import dataset_path, dataset_path_UNFCCC
														
 
															 from .definitions import custom_country_mapping, custom_folders
														
 
															-from .functions import get_country_code, get_country_name
														
 
															+from .functions import get_country_code, get_country_name, convert_categories
														
 
															 __all__ = [
														
 
															     "root_path",
														
@@ -21,4 +21,5 @@ __all__ = [
 
															     "custom_folders",
														
 
															     "get_country_code",
														
 
															     "get_country_name",
														
 
															+    "convert_categories",
														
 
															 ]
														
--- a/UNFCCC_GHG_data/helper/functions.py
+++ b/UNFCCC_GHG_data/helper/functions.py
@@ -1,5 +1,7 @@
 
															 import pycountry
														
 
															 import json
														
 
															+import xarray as xr
														
 
															+from copy import deepcopy
														
 
															 from typing import Dict, List
														
 
															 from pathlib import Path
														
 
															 from .definitions import custom_country_mapping, custom_folders
														
@@ -7,6 +9,69 @@ from .definitions import root_path, downloaded_data_path, extracted_data_path
 
															 from .definitions import legacy_data_path, code_path
														
 
															+def convert_categories(
														
 
															+        ds_input: xr.Dataset,
														
 
															+        conversion: Dict[str, Dict[str, str]],
														
 
															+        #terminology_from: str,
														
 
															+        terminology_to: str,
														
 
															+        debug: bool=False,
														
 
															+        tolerance: float=0.01,
														
 
															+)->xr.Dataset:
														
 
															+    """
														
 
															+    convert data from one category terminology to another
														
 
															+    """
														
 
															+    ds_converted = ds_input.copy(deep=True)
														
 
															+    ds_converted.attrs = deepcopy(ds_input.attrs)
														
 
															+
														
 
															+    # change category terminology
														
 
															+    cat_dim = ds_converted.attrs["cat"]
														
 
															+    ds_converted.attrs["cat"] = f"category ({terminology_to})"
														
 
															+    ds_converted = ds_converted.rename({cat_dim: ds_converted.attrs["cat"]})
														
 
															+
														
 
															+    # find categories present in dataset
														
 
															+    cats_present = list(ds_converted.coords[f'category ({terminology_to})'])
														
 
															+
														
 
															+    # restrict categories and map category names
														
 
															+    if 'mapping' in conversion.keys():
														
 
															+        mapping_cats_present = [cat for cat in list(conversion['mapping'].keys()) if
														
 
															+                                cat in cats_present]
														
 
															+        ds_converted = ds_converted.pr.loc[
														
 
															+            {'category': mapping_cats_present}]
														
 
															+
														
 
															+        from_cats = ds_converted.coords[f'category ({terminology_to})'].values
														
 
															+        to_cats = pd.Series(from_cats).replace(conversion['mapping'])
														
 
															+        ds_converted = ds_converted.assign_coords({f'category ({terminology_to})':
														
 
															+                                                   (f'category ({terminology_to})',
														
 
															+                                                    to_cats)})
														
 
															+
														
 
															+    # redo the list of present cats after mapping, as we have new categories in the
														
 
															+    # target terminology now
														
 
															+    cats_present_mapped = list(ds_converted.coords[f'category ({terminology_to})'])
														
 
															+    # aggregate categories
														
 
															+    if 'aggregate' in conversion:
														
 
															+        aggregate_cats = conversion['aggregate']
														
 
															+        for cat_to_agg in aggregate_cats:
														
 
															+            if debug:
														
 
															+                print(f"Category: {cat_to_agg}")
														
 
															+            source_cats = [cat for cat in aggregate_cats[cat_to_agg]['sources'] if
														
 
															+                           cat in cats_present_mapped]
														
 
															+            data_agg = ds_converted.pr.loc[{'category': source_cats}].pr.sum(
														
 
															+                dim='category', skipna=True, min_count=1)
														
 
															+            nan_vars = [var for var in data_agg.data_vars if
														
 
															+                        data_agg[var].isnull().all().data == True]
														
 
															+            data_agg = data_agg.drop(nan_vars)
														
 
															+            if len(data_agg.data_vars) > 0:
														
 
															+                data_agg = data_agg.expand_dims([f'category ({terminology_to})'])
														
 
															+                data_agg = data_agg.assign_coords(
														
 
															+                    coords={f'category ({terminology_to})':
														
 
															+                                (f'category ({terminology_to})', [cat_to_agg])})
														
 
															+                ds_converted = ds_converted.pr.merge(data_agg, tolerance=tolerance)
														
 
															+            else:
														
 
															+                print(f"no data to aggregate category {cat_to_agg}")
														
 
															+
														
 
															+    return ds_converted
														
 
															+
														
 
															+
														
 
															 def get_country_name(
														
 
															         country_code: str,
														
 
															 ) -> str:
														
--- a/dodo.py
+++ b/dodo.py
@@ -250,6 +250,7 @@ def task_read_new_unfccc_crf_for_year():
 
															 read_config_di = {
														
 
															     "country": get_var('country', None),
														
 
															     "date": get_var('date', None),
														
 
															+    "annexI": get_var('annexI', False),
														
 
															     #"countries": get_var('countries', None),
														
 
															 }
														
@@ -285,6 +286,23 @@ def task_process_unfccc_di_for_country():
 
															         'setup': ['setup_venv'],
														
 
															     }
														
 
															+def task_read_unfccc_di_for_country_group():
														
 
															+    """ Read DI data for a country """
														
 
															+    actions = [
														
 
															+        f"./venv/bin/python "
														
 
															+        f"UNFCCC_GHG_data/UNFCCC_DI_reader/read_UNFCCC_DI_for_country_group_datalad.py",
														
 
															+        f"./venv/bin/python UNFCCC_GHG_data/helper/folder_mapping.py "
														
 
															+        f"--folder=extracted_data/UNFCCC"
														
 
															+        ]
														
 
															+    if read_config_di["annexI"] == "True":
														
 
															+        actions[0] = actions[0] + " --annexI"
														
 
															+
														
 
															+    return {
														
 
															+        'actions': actions,
														
 
															+        'task_dep': ['set_env'],
														
 
															+        'verbosity': 2,
														
 
															+        'setup': ['setup_venv'],
														
 
															+    }
														
 
															 # general tasks