1 year ago · d122069339
--- a/UNFCCC_GHG_data/UNFCCC_DI_reader/UNFCCC_DI_reader_config.py
+++ b/UNFCCC_GHG_data/UNFCCC_DI_reader/UNFCCC_DI_reader_config.py
@@ -1407,6 +1407,99 @@ di_processing_templates = {
 
															     # TTO: 1990 only
														
 
															     # TUN: 1994, 2000
														
 
															     # TUV: 1994, 2014, many sectors missiong / 0 (but maybe as there are no emissions)
														
 
															+    # TZA: 1990, 1994
														
 
															+    # UGA: 1994, 2000, subcategories a bit inconsistent
														
 
															+    'URY': {
														
 
															+        'DI2023-05-24': {
														
 
															+            'downscale': {
														
 
															+                'sectors': {
														
 
															+                    '1': {
														
 
															+                        'basket': '1',
														
 
															+                        'basket_contents': ['1.A', '1.B'],
														
 
															+                        'entities': ['CO2', 'CH4', 'N2O'],
														
 
															+                        'dim': 'category (BURDI)',
														
 
															+                    },
														
 
															+                    '1.A': {
														
 
															+                        'basket': '1.A',
														
 
															+                        'basket_contents': ['1.A.1', '1.A.2', '1.A.3', '1.A.4',
														
 
															+                                            '1.A.5'],
														
 
															+                        'entities': ['CO2', 'CH4', 'N2O'],
														
 
															+                        'dim': 'category (BURDI)',
														
 
															+                    },
														
 
															+                    '1.B': {
														
 
															+                        'basket': '1.B',
														
 
															+                        'basket_contents': ['1.B.1', '1.B.2'],
														
 
															+                        'entities': ['CO2', 'CH4', 'N2O'],
														
 
															+                        'dim': 'category (BURDI)',
														
 
															+                    },
														
 
															+                    '2_CO2CH4N2O': {
														
 
															+                        'basket': '2',
														
 
															+                        'basket_contents': ['2.A', '2.B', '2.C', '2.D', '2.G'],
														
 
															+                        'entities': ['CO2', 'CH4', 'N2O'],
														
 
															+                        'dim': 'category (BURDI)',
														
 
															+                    },
														
 
															+                    '2_FGASES': {
														
 
															+                        'basket': '2',
														
 
															+                        'basket_contents': ['2.C', '2.E', '2.F'],
														
 
															+                        'entities': ['C2F6', 'CF4', 'HFC125', 'HFC134a', 'HFC143a',
														
 
															+                                     'HFC152a', 'HFC227ea', 'HFC23', 'HFC32', 'SF6'],
														
 
															+                        'dim': 'category (BURDI)',
														
 
															+                    },
														
 
															+                    '4': {
														
 
															+                        'basket': '4',
														
 
															+                        'basket_contents': ['4.A', '4.B', '4.C', '4.D', '4.E', '4.F',
														
 
															+                                            '4.G'],
														
 
															+                        'entities': ['CH4', 'N2O'],
														
 
															+                        'dim': 'category (BURDI)',
														
 
															+                    },
														
 
															+                    '5': {
														
 
															+                        'basket': '5',
														
 
															+                        'basket_contents': ['5.A', '5.B', '5.C', '5.D', '5.E'],
														
 
															+                        'entities': ['CO2', 'CH4', 'N2O'],
														
 
															+                        'dim': 'category (BURDI)',
														
 
															+                    },
														
 
															+                    '6': {
														
 
															+                        'basket': '6',
														
 
															+                        'basket_contents': ['6.A', '6.B', '6.C', '6.D'],
														
 
															+                        'entities': ['CO2', 'CH4', 'N2O'],
														
 
															+                        'dim': 'category (BURDI)',
														
 
															+                    },
														
 
															+                },
														
 
															+            },
														
 
															+        },
														
 
															+    },
														
 
															+    # UZB: 1990-2012
														
 
															+    # VCT: 1990, 1994, 1997, 2000, 2004. Sector coverage a bit inconsistent. 1.A.x
														
 
															+    # missing for CH4 but present for CO2. IPPU is 0, subsectors missing downscaling
														
 
															+    # doesn't wor for all 0 / Nan timeseries
														
 
															+    # VEN: 1999 only
														
 
															+    # VNM: more data in BUR3
														
 
															+    # VUT: more data in NC3
														
 
															+    # WSM: more data in NC2
														
 
															+    # YEM: 1995, 2000, 2010, 2012. subsectoral data a bit inconsistent, e.g. for 1.A.x
														
 
															+    # ZAF: 1990, 1994
														
 
															+    'ZMB': {
														
 
															+        'DI2023-05-24': {  # 1994, 2000
														
 
															+            'downscale': { # for 2000
														
 
															+                'sectors': {
														
 
															+                    '5': {
														
 
															+                        'basket': '5',
														
 
															+                        'basket_contents': ['5.B', '5.C'],
														
 
															+                        'entities': ['CO2', 'CH4', 'N2O'],
														
 
															+                        'dim': 'category (BURDI)',
														
 
															+                    },
														
 
															+                    '6': {
														
 
															+                        'basket': '6',
														
 
															+                        'basket_contents': ['6.A', '6.B'],
														
 
															+                        'entities': ['CH4'],
														
 
															+                        'dim': 'category (BURDI)',
														
 
															+                    },
														
 
															+                },
														
 
															+            },
														
 
															+        },
														
 
															+    },
														
 
															+    # ZWE: 1994, 2000, 2006 consistency of sectors and coverage does not look good,
														
 
															+    # esopecially for subsectors
														
 
															 }
														
 
															 di_processing_info = {
														
@@ -1527,6 +1620,14 @@ di_processing_info = {
 
															         'default': di_processing_templates['THA']['DI2023-05-24'],
														
 
															         'DI2023-05-24': di_processing_templates['THA']['DI2023-05-24'],
														
 
															     },
														
 
															+    'URY': {
														
 
															+        'default': di_processing_templates['URY']['DI2023-05-24'],
														
 
															+        'DI2023-05-24': di_processing_templates['URY']['DI2023-05-24'],
														
 
															+    },
														
 
															+    'ZMB': {
														
 
															+        'default': di_processing_templates['ZMB']['DI2023-05-24'],
														
 
															+        'DI2023-05-24': di_processing_templates['ZMB']['DI2023-05-24'],
														
 
															+    },
														
 
															 }
														
 
															 gas_baskets = {
														
--- a/UNFCCC_GHG_data/UNFCCC_DI_reader/UNFCCC_DI_reader_proc.py
+++ b/UNFCCC_GHG_data/UNFCCC_DI_reader/UNFCCC_DI_reader_proc.py
@@ -63,7 +63,7 @@ def process_and_save_UNFCCC_DI_for_country(
 
															         data_country=data_to_process,
														
 
															         entities_to_ignore=entities_to_ignore,
														
 
															         gas_baskets=gas_baskets,
														
 
															-        cat_conversion=cat_conversion,
														
 
															+        #category_conversion=cat_conversion,
														
 
															         sectors_out=None,
														
 
															         processing_info_country=processing_info_country,
														
 
															     )
														
@@ -79,7 +79,7 @@ def process_UNFCCC_DI_for_country(
 
															         entities_to_ignore: List[str],
														
 
															         gas_baskets: Dict[str, List[str]],
														
 
															         filter_dims: Optional[Dict[str, List[str]]] = None,
														
 
															-        cat_conversion: Dict[str, Dict] = None,
														
 
															+        category_conversion: Dict[str, Dict] = None,
														
 
															         sectors_out: List[str] = None,
														
 
															         processing_info_country: Dict = None,
														
 
															 ) -> xr.Dataset:
														
@@ -289,9 +289,11 @@ def process_UNFCCC_DI_for_country(
 
															     if country_code in nAI_countries:
														
 
															         # conversion from BURDI to IPCC2006_PRIMAP needed
														
 
															         cat_terminology_out = 'IPCC2006_PRIMAP'
														
 
															+        if category_conversion is None:
														
 
															+            category_conversion = cat_conversion[f"{cat_terminology_in}_to_{cat_terminology_out}"]
														
 
															         data_country = convert_categories(
														
 
															             data_country,
														
 
															-            cat_conversion[f"{cat_terminology_in}_to_{cat_terminology_out}"],
														
 
															+            category_conversion,
														
 
															             cat_terminology_out,
														
 
															             debug=False,
														
 
															             tolerance=0.01,
														
@@ -345,7 +347,7 @@ def process_UNFCCC_DI_for_country_group(
 
															 ) -> xr.Dataset:
														
 
															     """
														
 
															     This function processes DI data for all countries in a group (annexI or non-AnnexI)
														
 
															-    TODO: currently only non-annexI is implemented
														
 
															+    
														
 
															     The function processes all data in one go using datalad run. as the output data file
														
 
															     names are unknown beforehand datalad run uses explicit=false
														
--- a/UNFCCC_GHG_data/UNFCCC_DI_reader/util.py
+++ b/UNFCCC_GHG_data/UNFCCC_DI_reader/util.py
@@ -4,9 +4,11 @@ from UNFCCC_GHG_data.helper import code_path
 
															 #reader = unfccc_di_api.UNFCCCApiReader()
														
 
															 #nAI_countries = list(reader.non_annex_one_reader.parties["code"])
														
 
															-nAI_countries = pd.read_csv(code_path / 'UNFCCC_DI_reader' / 'DI_NAI_parties.conf')
														
 
															+nAI_countries = list(pd.read_csv(code_path / 'UNFCCC_DI_reader' /
														
 
															+                                 'DI_NAI_parties.conf')["code"])
														
 
															 #AI_countries = list(reader.annex_one_reader.parties["code"])
														
 
															-AI_countries = pd.read_csv(code_path / 'UNFCCC_DI_reader' / 'DI_AI_parties.conf')
														
 
															+AI_countries = list(pd.read_csv(code_path / 'UNFCCC_DI_reader' /
														
 
															+                                'DI_AI_parties.conf')["code"])
														
 
															 DI_date_format = '%Y-%m-%d'
														
 
															 regex_date = r"([0-9]{4}-[0-9]{2}-[0-9]{2})"
														
--- a/UNFCCC_GHG_data/helper/functions.py
+++ b/UNFCCC_GHG_data/helper/functions.py
@@ -1,6 +1,7 @@
 
															 import pycountry
														
 
															 import json
														
 
															 import xarray as xr
														
 
															+import pandas as pd
														
 
															 from copy import deepcopy
														
 
															 from typing import Dict, List
														
 
															 from pathlib import Path
														
@@ -20,6 +21,12 @@ def convert_categories(
 
															     """
														
 
															     convert data from one category terminology to another
														
 
															     """
														
 
															+    print(f"converting categories to {terminology_to}")
														
 
															+
														
 
															+    if 'orig_cat_name' in ds_input.coords:
														
 
															+        cat_name_present = True
														
 
															+    else:
														
 
															+        cat_name_present = False
														
 
															     ds_converted = ds_input.copy(deep=True)
														
 
															     ds_converted.attrs = deepcopy(ds_input.attrs)
														
@@ -55,6 +62,8 @@ def convert_categories(
 
															                 print(f"Category: {cat_to_agg}")
														
 
															             source_cats = [cat for cat in aggregate_cats[cat_to_agg]['sources'] if
														
 
															                            cat in cats_present_mapped]
														
 
															+            if debug:
														
 
															+                print(source_cats)
														
 
															             data_agg = ds_converted.pr.loc[{'category': source_cats}].pr.sum(
														
 
															                 dim='category', skipna=True, min_count=1)
														
 
															             nan_vars = [var for var in data_agg.data_vars if
														
@@ -65,7 +74,13 @@ def convert_categories(
 
															                 data_agg = data_agg.assign_coords(
														
 
															                     coords={f'category ({terminology_to})':
														
 
															                                 (f'category ({terminology_to})', [cat_to_agg])})
														
 
															+                if cat_name_present:
														
 
															+                    data_agg = data_agg.assign_coords(
														
 
															+                        coords={'orig_cat_name':
														
 
															+                                    (f'category ({terminology_to})',
														
 
															+                                     [aggregate_cats[cat_to_agg]['name']])})
														
 
															                 ds_converted = ds_converted.pr.merge(data_agg, tolerance=tolerance)
														
 
															+                cats_present_mapped.append(cat_to_agg)
														
 
															             else:
														
 
															                 print(f"no data to aggregate category {cat_to_agg}")