Tandem Projektleitung | Matthias Schneider |
NHR@KIT Projektleitung | Achim Streit |
Projektkoordination | Ugur Cayoglu |
Team | SDL Erdsystemwissenschaft |
Forschung | Kanwal Shahzadi |
Open-Source-Software | - |
Einleitung
Globale Satellitenbeobachtungen der atmosphärischen Zusammensetzung sind für die Klima- und Wetterforschung unerlässlich. Die entsprechenden Datenmengen sind enorm und zudem ist die Struktur der Datenarchive in der Regel auf eine effiziente Verarbeitungskette ausgerichtet (z.B. orbitweise Datenverarbeitung und Archivierung von Einzelbeobachtungen) und nicht für wissenschaftliche Anwendungen optimiert (z.B. Daten optimiert für ein bestimmtes räumliches und zeitliches Raster). In diesem Projekt wird ein Rahmenwerk entwickelt, das große Satellitendatenarchive durchforstet und die Daten entsprechend den individuellen wissenschaftlichen Anforderungen aufbereitet. Dies unterstützt vor allem die wissenschaftliche Nutzung der Daten und leistet einen sehr wichtigen Beitrag zur Klima- und Wetterforschung.
Den Kern des Frameworks bilden eine Software zur Datenzusammenführung (deren Leistungsfähigkeit auf HoreKa's CPUs und GPUs getestet wird), ein effizientes Taskmanagement (das durch parallele Verarbeitung eine optimale Effizienz sicherstellt) und ein Machine Learning gestütztes Datenflussmanagement (das die erforderlichen I/O-Operationen minimiert). Alle Entwicklungen werden nachhaltig und quelloffen gestaltet, so dass das Framework leicht für neuartige Datenfusionsmethoden und andere Datenbanken (einschließlich Datenbanken anderer Disziplinen) angepasst und erweitert werden kann.
Abbildung: Flussdiagramm für den vorgeschlagenen nutzerorientierten Rahmen für Satellitendaten (UFOS) und seine Verknüpfung mit Helmholtz- (ATMO) und nationalen (NFDI4Earth) Dateninfrastrukturen. Die verschiedenen Komponenten von UFOS sind durch blaue Farbe gekennzeichnet.
Projektbeschreibung
Satellitengestützte Beobachtungen sind einzigartig, da sie globale Daten liefern und hochentwickelte Instrumente für eine detaillierte Beobachtung der atmosphärischen Spurengaszusammensetzung einsetzen. In der Vergangenheit war dies auf spezielle wissenschaftliche Missionen beschränkt; in letzter Zeit werden jedoch auch operationelle meteorologische Satelliten mit hoch entwickelten Instrumenten ausgestattet. In Anbetracht der garantierten Langzeitunterstützung durch operationelle meteorologische Missionen ermöglicht diese Entwicklung eine qualitativ hochwertige Langzeitüberwachung der atmosphärischen Zusammensetzung und damit noch nie dagewesene Klimaforschungsstudien. Ein sehr prominentes Beispiel ist das Instrument IASI (Infrared Atmospheric Sounding Interferometer) an Bord der EUMETSAT-Satelliten (European Organisation for the Exploitation of Meteorological Satellites) Metop-A, -B und -C, dessen Betrieb bis in die 2040er Jahre auf drei weiteren Satelliten einer bereits von EUMETSAT genehmigten Nachfolgemission (IASI-NG/Metop-SG) garantiert ist.
Im Rahmen des Projekts MUSICA (MUlti-platform remote Sensing of Isotopologues for investigating the Cycle of Atmospheric water, 2011-2016) des Europäischen Forschungsrats und mehrerer MUSICA-Nachfolgeprojekte haben wir die MUSICA IASI-Prozessierungskette entwickelt (Schneider et al., 2016; Schneider et al., 2021a). Sie nutzt die IASI-Spektren zur Bestimmung von Vertikalprofilen und der Isotopologiezusammensetzung von atmosphärischem Wasser, den Treibhausgasen Lachgas und Methan sowie Salpetersäure (eine wichtige Komponente für die Ozonchemie). Im Rahmen der Projektreihe GLOMIR (GLObal MUSICA IASI Retrievals, 2018-2022) auf ForHLR I/II und HoreKa haben wir mit der Prozessierung von IASI-Daten für längere Zeiträume begonnen (aktueller Prozessierungsstand ist 2014 - heute).
Die MUSICA IASI-Prozessierungskette erzeugt einzelne NetCDF-Datendateien pro Orbit mit allen Datenprodukten gemäß den CF (Climate and Forecast)-Metadatenstandards und erfüllt die FAIR-Prinzipien (Wilkinson et al., 2016) vollständig. Eine Datenbank mit einer orbitweisen Speicherung der einzelnen Produkte ist typisch für Satellitendaten, da sie sehr praktisch für die effiziente Verarbeitung und Speicherung ist; für die wissenschaftliche Nutzung ist sie jedoch oft ineffizient. Die meisten Nutzer sind nur an einem einzigen Datenprodukt interessiert, in einem begrenzten räumlichen Bereich, aber mit einer spezifischen horizontalen und vertikalen Rasterung, die sich von den Daten im Archiv unterscheidet. Dennoch müssen sie alle Orbits mit allen Datenprodukten (einschließlich aller speicherintensiven Hilfsvariablen) für den gesamten Globus herunterladen und dann die Daten von Interesse heraussuchen und mit ihrer eigenen Software Berechnungen zur Datenzusammenführung durchführen. Ein Nutzer, der sich beispielsweise für ein Jahr MUSICA IASI-Daten mit einer horizontalen Auflösung von 1°x1° interessiert, muss alle Orbits (15383 Dateien) mit insgesamt 10,8 TB herunterladen und dann seine Fusionssoftware anwenden, um die gewünschten 1°x1°-Daten zu erzeugen (deren Datenvolumen weniger als 1‰ der heruntergeladenen Daten beträgt). Dies verursacht eine Menge unnötigen Datenverkehrs (Tabelle 1 enthält Beispiele für das Datenvolumen der MUSICA IASI-Datenbank). Außerdem sollte eine optimale Datenzusammenführung die Komplementarität der einzelnen Daten berücksichtigen; entsprechende Berechnungen erfordern jedoch die Inversion großer Matrizen (z. B. Kalman 1960; Schneider et al., 2021b; Zoppetti et al., 2021) und sind daher rechenintensiv. Wenn die Datennutzer die Zusammenführung auf suboptimale Weise durchführen (einfache Mittelwertbildung aufgrund mangelnder Fachkenntnisse und/oder Rechenressourcen), wird ein großer Teil der Informationen, die die Satellitendaten eigentlich liefern, vergeudet.
Um eine optimale Datennutzung zu gewährleisten und unnötigen Datenverkehr zu vermeiden, benötigen wir dringend einen Rahmen, der die Daten vor dem Herunterladen optimal (für einen bestimmten Nutzerbedarf) aufbereitet. In Anbetracht der großen Anzahl einzelner Datenprodukte, des großen Datenvolumens und der rechenintensiven Berechnungen zur Zusammenführung der Daten ist der Einsatz von HPC zur Realisierung dieses Rahmens zwingend erforderlich.
Literaturangaben
Kalman, R. E.: A new approach to linear filtering and prediction problems, J. Basic Eng., 82, 35, 1960.
Schneider, M., Wiegele, A., Barthlott, S., González, Y., Christner, E., Dyroff, C., García, O. E., Hase, F., Blumenstock, T., Sepúlveda, E., Mengistu Tsidu, G., Takele Kenea, S., Rodríguez, S., and Andrey, J.: Accomplishments of the MUSICA project to provide accurate, long-term, global and high-resolution observations of tropospheric {H2O,δD} pairs – a review, Atmos. Meas. Tech., 9, 2845-2875, doi:10.5194/amt-9-2845-2016, 2016.
Schneider, M., Ertl, B., Diekmann, C. J., Khosrawi, F., Weber, A., Hase, F., Höpfner, M., García, O. E., Sepúlveda, E., and Kinnison, D.: Design and description of the MUSICA IASI full retrieval product, Earth Syst. Sci. Data Discuss. [preprint], https://doi.org/10.5194/essd-2021-75, in review, 2021a.
Schneider, M., Ertl, B., Diekmann, C. J., Khosrawi, F., Röhling, A. N., Hase, F., Dubravica, D., García, O. E., Sepúlveda, E., Borsdorff, T., Landgraf, J., Lorente, A., Chen, H., Kivi, R., Laemmel, T., Ramonet, M., Crevoisier, C., Pernin, J., Steinbacher, M., Meinhardt, F., Deutscher, N. M., Griffith, D. W. T., Velazco, V. A., and Pollard, D. F.: Synergetic use of IASI and TROPOMI space borne sensors for generating a tropospheric methane profile product, Atmos. Meas. Tech. Discuss. [preprint], https://doi.org/10.5194/amt-2021-31, in review, 2021b.
Wilkinson, M. D., Dumontier, M., Aalbersberg, I. J., Appleton, G., Axton, M., Baak, A., Blomberg, N., Boiten, J.-W., da Silva Santos, L. B., Bourne, P. E., Bouwman, J., Brookes, A. J., Clark, T., Crosas, M., Dillo, I., Dumon, O., Edmunds, S., Evelo, C. T., Finkers, R., Gonzalez-Beltran, A., Gray, A. J., Groth, P., Goble, C., Grethe, J. S., Heringa, J., ’t Hoen, P. A., Hooft, R., Kuhn, T., Kok, R., Kok, J., Lusher, S. J., Martone, M. E., Mons, A., Packer, A. L., Persson, B., Rocca-Serra, P., Roos, M., van Schaik, R., Sansone, S.-A., Schultes, E., Sengstag, T., Slater, T., Strawn, G., Swertz, M. A., Thompson, M., van der Lei, J., van Mulligen, E., Velterop, J., Waagmeester, A., Wittenburg, P., Wolstencroft, K., Zhao, J., and Mons, B.: The FAIR Guiding Principles for scientific data management and stewardship, Sci Data, 3, 1215, 2052–4463, https://doi.org/10.1038/sdata.2016.18, 2016.
Zoppetti, N., Ceccherini, S., Carli, B., Del Bianco, S., Gai, M., Tirelli, C., Barbara, F., Dragani, R., Arola, A., Kujanpää, J., van Peet, J. C. A., van der A, R., and Cortesi, U.: Application of the Complete Data Fusion algorithm to the ozone profiles measured by geostationary and low-Earth-orbit satellites: a feasibility study, Atmos. Meas. Tech., 14, 2041–2053, https://doi.org/10.5194/amt-14-2041-2021, 2021.