Data Cubes von rasdaman: Bibliothek fĂŒr Massendaten

Die Sentinel-Familie hat, obwohl nach wie vor nicht komplett, den praktischen Nutzen ihrer Daten bereits bewiesen. Gleichzeitig ist klar: Der Nutzen der Sentinel-Daten beschrĂ€nkt sich bislang vornehmlich auf vereinzelte Dienste und Erkenntnisse, die breite Nutzung durch Spezialisten aber auch die Öffentlichkeit muss noch kommen. Wie lĂ€sst sich das erreichen?

In kaum einem Bereich ist die sprichwörtliche Datenflut so gegenstĂ€ndlich, wie bei Geo-Archiven der Fernerkundung: Individuelle Organisation der Archive, kryptische Konventionen mit Metadaten verschlĂŒsselt in den Dateinamen, unĂŒbliche und/oder ungeeignete Datenformate sowie unpassende DateigrĂ¶ĂŸen stellen Experten wie Nicht-Experten vor erhebliche HĂŒrden. DatenbestĂ€nde zu recherchieren, zu beschaffen und aufzuarbeiten bildet ein Großteil des Aufwandes fĂŒr die Be-handlung der Fragestellungen.

Die Vision, an der ĂŒberall gearbeitet wird: Die Entwicklung eines weltweiten Systems an Standards fĂŒr Daten, Datenprozessierung und Datendiensten, sodass der maximale Nutzen fĂŒr die Datenverwertung gestiftet werden kann: Eine automatisierte Beschaffung, Verarbeitung und Fusion der Daten, um mit hochentwickelten, KI-basierten Auswerteverfahren maximale Erkenntnisgewinne zu erzielen. Einer der weltweit wichtigsten Akteure fĂŒr die Realisierung ist Professor Dr. Peter Baumann, GrĂŒnder und GeschĂ€ftsfĂŒhrer der rasdaman GmbH.

Von der Utopie zur RealitÀt

Ein erster Schritt dazu ist die Etablierung des Konzepts von DatenwĂŒrfeln, sogenannten Data Cubes. „Dieses Prinzip ergĂ€nzt das Konzept der blattschnittfreien 2D-Geodaten um die dritte Dimension und die Zeit“, erklĂ€rt Baumann. DatenwĂŒrfel sind demnach DatenbestĂ€nde, die einfach, skalierbar, performant, standardbasiert und sicher zur VerfĂŒgung gestellt werden. Dabei kann man sich DatenwĂŒrfel als eine Art Bibliothek vorstellen. Sensordaten jeglicher Herkunft können darin vorhanden sein, von regionalen InSitu-Daten bis zu den Daten der Sentinel-Satelliten, die tĂ€glich Terabyte-große DatensĂ€tze produzieren. Eine Dienste-orientierte Struktur fungiert dann in der Praxis so, als wenn automatisiert aus einem weltweiten Datenbestand genau jene Daten aus dem DataCube herausgelöst werden, die fĂŒr eine Anwendung benötigt werden. „Die Analyse langer Klima- und Satellitenbild-Zeitreihen ist etwa fĂŒr Klimauntersuchungen die absolute Killerapplikation“, fĂŒhrt Baumann aus.

DarĂŒber hinaus könne der Server, so Baumann, neben der Datenextraktion auch anspruchsvollere Aufgaben ĂŒbernehmen. Das reiche sogar so weit, dass die komplexe Datenanalyse und -fusion durch die OGC-konforme DatenwĂŒrfel-Analysesprache Web Coverage Processing Service (WCPS) durchgefĂŒhrt werden kann. Baumann spricht in diesem Zusammenhang auch von einer ortstransparenten Föderation: Einzelne DatenbestĂ€nde behalten ihre eigenstĂ€ndige Existenz, arbeiten aber gleichberechtigt, barrierefrei auf Grundlage festgelegter Standards zusammen und ermöglichen so die maximale Inwertsetzung der weltweiten DatenbestĂ€nde. Der Raumbezug ist dabei der allgemein verbindliche kleinste gemeinsame Nenner.

Definition und Standards

Standards sind essentiell fĂŒr diese Version, und dies auf mehreren Ebenen. Zwar werden sie meist im Bereich der Metadaten wahrgenommen, doch auch fĂŒr die Daten selbst – beispielsweise bei den Copernicus-Pixeldaten – spielen vordefinierte Standards eine wichtige Rolle: Sie regulieren den Einsatz der bekannten Datenformate, definieren Dienste-Merkmale und legen APIs sowie Protokolle fest. „Das Datenmodell fĂŒr multi-dimensionale raum-zeitliche Rasterdaten ist in der Welt der Standards einheitlich durch das Konzept der Coverages definiert“, erklĂ€rt Baumann. In der Praxis werde im Moment noch ĂŒblicherweise auf Rasterdaten fokussiert. „Das DataCube-Modell ist viel weiter gespannt und umfasst regulĂ€re und irregulĂ€re Rasterdaten, Punktwolken und allgemeine Netzwerke wie etwa 3D-Modelle.“

Aufnahmen des Sentinel-1-Satelliten von Athen und dem Peloponnes-Gebierge. Foto: Deutsches Zentrum fĂŒr Luft- und Raumfahrt (DLR)

Aufnahmen des Sentinel-1-Satelliten von Athen und dem Peloponnes-Gebierge. Foto: Deutsches Zentrum fĂŒr Luft- und Raumfahrt (DLR)

Dieser erweiterte Ansatz lasse sich auf Regulierungsebene bereits beobachten. Konkrete, interoperable Datenstrukturen fĂŒr Coverages werden etwa ĂŒber das OGC Coverage Implementation Schema (CIS) definiert. Baumann: „Das CIS gibt dann auch Codierungen in XML, JSON und RDF vor.“ Weitere Begleitspezifikationen definieren außerdem die Abbildung von Coverages auf Formate wie GeoTIFF, NetCDF, JPEG2000 oder GRIB2. Und an dieser Stelle wird der erweiterte Blick auf die Rasterdaten des DataCubes bereits berĂŒcksichtigt. „Mit CIS 1.1 wurden sĂ€mtliche Rasterdaten vereinheitlicht sowie vorher unberĂŒcksichtigte FĂ€lle einbezogen. Damit existiert nun mit dem Datentyp GeneralGridCoverage ein einheitliches Rahmenwerk, um jegliche Art von Rasterdaten zu modellieren“, fasst Baumann zusammen. Und damit nicht genug: Auch die Internationale Organisation fĂŒr Normung (ISO) hat sich an den von Baumann mitentwickelten Coverage-Definitionen orientiert und diese ĂŒbernommen. „Die veraltete Coverage-Spezifikation ISO 19123 wird derzeit zur abstrakteren ISO 19123-1 ĂŒberarbeitet. Parallel wird daran gearbeitet, die in mehreren Standards individuell spezifizierten Coverages auf die ISO 19123-X zu vereinheitlichen“, erklĂ€rt Baumann.

Weite Verbreitung

Der wichtigste Dienste-Standard fĂŒr Rasterdaten – neben dem reinen Visualisierungsdienst Web Map Service (WMS) ist jedoch unzweifelhaft der OGC Web Coverage Service (WCS). „Eigentlich ist WCS eine modulare Suite von Spezifikationen, welche von der einfachen Ausschnittsbildung in WCS-Core bis zur Datenanalyse und -fusion im Web Coverage Processing Service (WCPS) reicht.“ Damit solle die Schwelle fĂŒr Implementierungen von WCS bewusst niedrig gehalten werden, so der DatenwĂŒrfel-Experte, um eine weite Verbreitung der Technologie zu erreichen. Und das mit Erfolg: „Die UnterstĂŒtzung von WCS liest sich wie ein ‚Who is Who‘ der open-source und proprietĂ€ren Werkzeuge: MapServer, GeoServer, QGIS, NASA und Esri-Software, um nur einige zu nennen.“

Anders als die ISO hat die INSPIRE-Initiative eine eigene Coverage-Definition erstellt. Experten sehen diese jedoch als inkompatibel zu den OGC- und ISO-Coverages an. Doch in Europa habe man das Risiko des Sonderwegs erkannt. „Ein Team von Coverage-Experten hat daher VorschlĂ€ge erarbeitet, um INSPIRE-Coverages wieder OGC-konform zu machen“, erlĂ€utert Baumann. „Inoffiziell hat sich JRC, die INSPIRE-Institution, die das Regelwerk definiert, einer Coverage-Änderung positiv gegenĂŒber gezeigt. Eine offizielle Stellungnahme steht jedoch noch aus“, fĂŒhrt Baumann aus, der selbst in den Standardisierungsgremien von OGC und ISO sehr engagiert ist und wichtige Weichenstellungen auf den Weg gebracht hat.

Praxiserfahrungen

In der Praxis wird die DatenwĂŒrfel-Technologie bereits angewendet. So beispielsweise im Rahmen der EarthServer-Föderation, einer Plattform von der Firma rasdaman; die von Baumann gegrĂŒndet wurde: Innerhalb dieser Föderation werden raum-zeitliche, geowissenschaftliche Daten gesammelt. „Die Idee der Föderation entstand aber eher nebenbei“, sagt Baumann. „Bei rasdaman nutzen wir schon seit einiger Zeit eine als Query Splitting bekannte Technik, um Anfragen völlig transparent fĂŒr die Nutzer ĂŒber viele Cloud-Knoten hinweg zu parallelisieren. Irgendwann entstand dann die Idee, diese Technik auch zwischen Datenzentren einzusetzen – und die Föderation war geboren.“ Vereinfacht gesagt bedeutet es, dass die Datenzentren ihre Daten so homogenisieren, dass sie zu DatenwĂŒrfeln zusammengetragen werden können – und weltweit abrufbar sind.

Heute sind bereits eine ganze Reihe von Datenanbietern auf diese Art miteinander vernetzt. Dies erlaube Nutzern eine völlig ortstransparente Datenabfrage, -prozessierung und -fusion. „Dabei behalten alle Föderationsmitglieder die volle Autonomie ĂŒber ihr Datenangebot und sie können den Zugriffsschutz pixelgenau festlegen“, erklĂ€rt der rasdaman-GeschĂ€ftsfĂŒhrer. „Durch die enorme GrĂ¶ĂŸe der zugelieferten Daten drohen wir jedoch an der Datenflut zu ertrinken. Man kann es sich vorstellen wie beim Trinken aus einem Feuerwehrschlauch: Obwohl ich Durst habe, kann ich wegen der enormen Menge an Wasser, die aus dem Schlauch kommt, nichts trinken. Unser DatenwĂŒrfel-Konzept setzt hier an, indem es die Wassermenge – also die Anzahl der Daten – so weit verringert, dass der Nutzer seinen Durst stillen kann – und eine auf seine BedĂŒrfnisse zugeschnittene Lösung an die Hand bekommt.“ (jr)

www.rasdaman.com