Data Cubes von rasdaman: Bibliothek für Massendaten

Die Sentinel-Familie hat, obwohl nach wie vor nicht komplett, den praktischen Nutzen ihrer Daten bereits bewiesen. Gleichzeitig ist klar: Der Nutzen der Sentinel-Daten beschränkt sich bislang vornehmlich auf vereinzelte Dienste und Erkenntnisse, die breite Nutzung durch Spezialisten aber auch die Öffentlichkeit muss noch kommen. Wie lässt sich das erreichen?

In kaum einem Bereich ist die sprichwörtliche Datenflut so gegenständlich, wie bei Geo-Archiven der Fernerkundung: Individuelle Organisation der Archive, kryptische Konventionen mit Metadaten verschlüsselt in den Dateinamen, unübliche und/oder ungeeignete Datenformate sowie unpassende Dateigrößen stellen Experten wie Nicht-Experten vor erhebliche Hürden. Datenbestände zu recherchieren, zu beschaffen und aufzuarbeiten bildet ein Großteil des Aufwandes für die Be-handlung der Fragestellungen.

Die Vision, an der überall gearbeitet wird: Die Entwicklung eines weltweiten Systems an Standards für Daten, Datenprozessierung und Datendiensten, sodass der maximale Nutzen für die Datenverwertung gestiftet werden kann: Eine automatisierte Beschaffung, Verarbeitung und Fusion der Daten, um mit hochentwickelten, KI-basierten Auswerteverfahren maximale Erkenntnisgewinne zu erzielen. Einer der weltweit wichtigsten Akteure für die Realisierung ist Professor Dr. Peter Baumann, Gründer und Geschäftsführer der rasdaman GmbH.

Von der Utopie zur Realität

Ein erster Schritt dazu ist die Etablierung des Konzepts von Datenwürfeln, sogenannten Data Cubes. „Dieses Prinzip ergänzt das Konzept der blattschnittfreien 2D-Geodaten um die dritte Dimension und die Zeit“, erklärt Baumann. Datenwürfel sind demnach Datenbestände, die einfach, skalierbar, performant, standardbasiert und sicher zur Verfügung gestellt werden. Dabei kann man sich Datenwürfel als eine Art Bibliothek vorstellen. Sensordaten jeglicher Herkunft können darin vorhanden sein, von regionalen InSitu-Daten bis zu den Daten der Sentinel-Satelliten, die täglich Terabyte-große Datensätze produzieren. Eine Dienste-orientierte Struktur fungiert dann in der Praxis so, als wenn automatisiert aus einem weltweiten Datenbestand genau jene Daten aus dem DataCube herausgelöst werden, die für eine Anwendung benötigt werden. „Die Analyse langer Klima- und Satellitenbild-Zeitreihen ist etwa für Klimauntersuchungen die absolute Killerapplikation“, führt Baumann aus.

Darüber hinaus könne der Server, so Baumann, neben der Datenextraktion auch anspruchsvollere Aufgaben übernehmen. Das reiche sogar so weit, dass die komplexe Datenanalyse und -fusion durch die OGC-konforme Datenwürfel-Analysesprache Web Coverage Processing Service (WCPS) durchgeführt werden kann. Baumann spricht in diesem Zusammenhang auch von einer ortstransparenten Föderation: Einzelne Datenbestände behalten ihre eigenständige Existenz, arbeiten aber gleichberechtigt, barrierefrei auf Grundlage festgelegter Standards zusammen und ermöglichen so die maximale Inwertsetzung der weltweiten Datenbestände. Der Raumbezug ist dabei der allgemein verbindliche kleinste gemeinsame Nenner.

Definition und Standards

Standards sind essentiell für diese Version, und dies auf mehreren Ebenen. Zwar werden sie meist im Bereich der Metadaten wahrgenommen, doch auch für die Daten selbst – beispielsweise bei den Copernicus-Pixeldaten – spielen vordefinierte Standards eine wichtige Rolle: Sie regulieren den Einsatz der bekannten Datenformate, definieren Dienste-Merkmale und legen APIs sowie Protokolle fest. „Das Datenmodell für multi-dimensionale raum-zeitliche Rasterdaten ist in der Welt der Standards einheitlich durch das Konzept der Coverages definiert“, erklärt Baumann. In der Praxis werde im Moment noch üblicherweise auf Rasterdaten fokussiert. „Das DataCube-Modell ist viel weiter gespannt und umfasst reguläre und irreguläre Rasterdaten, Punktwolken und allgemeine Netzwerke wie etwa 3D-Modelle.“

Aufnahmen des Sentinel-1-Satelliten von Athen und dem Peloponnes-Gebierge. Foto: Deutsches Zentrum für Luft- und Raumfahrt (DLR)

Aufnahmen des Sentinel-1-Satelliten von Athen und dem Peloponnes-Gebierge. Foto: Deutsches Zentrum für Luft- und Raumfahrt (DLR)

Dieser erweiterte Ansatz lasse sich auf Regulierungsebene bereits beobachten. Konkrete, interoperable Datenstrukturen für Coverages werden etwa über das OGC Coverage Implementation Schema (CIS) definiert. Baumann: „Das CIS gibt dann auch Codierungen in XML, JSON und RDF vor.“ Weitere Begleitspezifikationen definieren außerdem die Abbildung von Coverages auf Formate wie GeoTIFF, NetCDF, JPEG2000 oder GRIB2. Und an dieser Stelle wird der erweiterte Blick auf die Rasterdaten des DataCubes bereits berücksichtigt. „Mit CIS 1.1 wurden sämtliche Rasterdaten vereinheitlicht sowie vorher unberücksichtigte Fälle einbezogen. Damit existiert nun mit dem Datentyp GeneralGridCoverage ein einheitliches Rahmenwerk, um jegliche Art von Rasterdaten zu modellieren“, fasst Baumann zusammen. Und damit nicht genug: Auch die Internationale Organisation für Normung (ISO) hat sich an den von Baumann mitentwickelten Coverage-Definitionen orientiert und diese übernommen. „Die veraltete Coverage-Spezifikation ISO 19123 wird derzeit zur abstrakteren ISO 19123-1 überarbeitet. Parallel wird daran gearbeitet, die in mehreren Standards individuell spezifizierten Coverages auf die ISO 19123-X zu vereinheitlichen“, erklärt Baumann.

Weite Verbreitung

Der wichtigste Dienste-Standard für Rasterdaten – neben dem reinen Visualisierungsdienst Web Map Service (WMS) ist jedoch unzweifelhaft der OGC Web Coverage Service (WCS). „Eigentlich ist WCS eine modulare Suite von Spezifikationen, welche von der einfachen Ausschnittsbildung in WCS-Core bis zur Datenanalyse und -fusion im Web Coverage Processing Service (WCPS) reicht.“ Damit solle die Schwelle für Implementierungen von WCS bewusst niedrig gehalten werden, so der Datenwürfel-Experte, um eine weite Verbreitung der Technologie zu erreichen. Und das mit Erfolg: „Die Unterstützung von WCS liest sich wie ein ‚Who is Who‘ der open-source und proprietären Werkzeuge: MapServer, GeoServer, QGIS, NASA und Esri-Software, um nur einige zu nennen.“

Anders als die ISO hat die INSPIRE-Initiative eine eigene Coverage-Definition erstellt. Experten sehen diese jedoch als inkompatibel zu den OGC- und ISO-Coverages an. Doch in Europa habe man das Risiko des Sonderwegs erkannt. „Ein Team von Coverage-Experten hat daher Vorschläge erarbeitet, um INSPIRE-Coverages wieder OGC-konform zu machen“, erläutert Baumann. „Inoffiziell hat sich JRC, die INSPIRE-Institution, die das Regelwerk definiert, einer Coverage-Änderung positiv gegenüber gezeigt. Eine offizielle Stellungnahme steht jedoch noch aus“, führt Baumann aus, der selbst in den Standardisierungsgremien von OGC und ISO sehr engagiert ist und wichtige Weichenstellungen auf den Weg gebracht hat.

Praxiserfahrungen

In der Praxis wird die Datenwürfel-Technologie bereits angewendet. So beispielsweise im Rahmen der EarthServer-Föderation, einer Plattform von der Firma rasdaman; die von Baumann gegründet wurde: Innerhalb dieser Föderation werden raum-zeitliche, geowissenschaftliche Daten gesammelt. „Die Idee der Föderation entstand aber eher nebenbei“, sagt Baumann. „Bei rasdaman nutzen wir schon seit einiger Zeit eine als Query Splitting bekannte Technik, um Anfragen völlig transparent für die Nutzer über viele Cloud-Knoten hinweg zu parallelisieren. Irgendwann entstand dann die Idee, diese Technik auch zwischen Datenzentren einzusetzen – und die Föderation war geboren.“ Vereinfacht gesagt bedeutet es, dass die Datenzentren ihre Daten so homogenisieren, dass sie zu Datenwürfeln zusammengetragen werden können – und weltweit abrufbar sind.

Heute sind bereits eine ganze Reihe von Datenanbietern auf diese Art miteinander vernetzt. Dies erlaube Nutzern eine völlig ortstransparente Datenabfrage, -prozessierung und -fusion. „Dabei behalten alle Föderationsmitglieder die volle Autonomie über ihr Datenangebot und sie können den Zugriffsschutz pixelgenau festlegen“, erklärt der rasdaman-Geschäftsführer. „Durch die enorme Größe der zugelieferten Daten drohen wir jedoch an der Datenflut zu ertrinken. Man kann es sich vorstellen wie beim Trinken aus einem Feuerwehrschlauch: Obwohl ich Durst habe, kann ich wegen der enormen Menge an Wasser, die aus dem Schlauch kommt, nichts trinken. Unser Datenwürfel-Konzept setzt hier an, indem es die Wassermenge – also die Anzahl der Daten – so weit verringert, dass der Nutzer seinen Durst stillen kann – und eine auf seine Bedürfnisse zugeschnittene Lösung an die Hand bekommt.“ (jr)

www.rasdaman.com