rasdaman: Einfache Handhabung von Big Data dank Cube-Technologie

Jeden Tag fließen mehrere Terabytes Daten von den Sentinel-Satelliten in die Copernicus-Archive. Die Firma rasdaman mit ihrer gleichnamigen Datenwürfel-Software sorgt nicht nur für eine einfache Handhabung dieser Big Data. Mit verteilten, cloudbasierten Diensten entstehen auch neue Nutzungsformen und Analysemöglichkeiten.

In kaum einem Bereich ist die sprichwörtliche Datenflut so gegenständlich wie im Bereich der satellitenbasierten Fernerkundung. Nutzer drohen geradezu in ihr zu ertrinken. Sprich: Die Probleme, die Daten handhabbar zu machen, sind so groß, dass der vermeintliche Schatz eher Probleme schafft.

Doch die Überwindung dieses Problems ist in Sicht. Experten sind sich heute weltweit einig, dass das Datenwürfel-Konzept einen Quantensprung in der Nutzbarkeit von Erdbeobachtungsdaten darstellt. Man bezeichnet sie auch als „Analysis-Ready Data“, also als Datensätze mit riesigen Volumina, die aber einfach, performant, skalierbar, standardbasiert und sicher zur Verfügung gestellt werden.

Globale Analyse der Temperaturverteilung auf der Erde. Mit Datenwürfeln können die Daten auch in ihrer zeitlichen Abfolge einfach dargestellt und analysiert werden. Grafik: rasdaman GmbH

Als führend in diesem Bereich wird das Unternehmen rasdaman GmbH angesehen. Es gilt nicht nur als Erfinder dieser Datenwürfel, sondern auch als technologisch führend. Tests haben ergeben, dass die Datenverfügbarkeit sich von Wochen auf Sekunden reduzieren kann. Ein Research Data Alliance Report aus dem Jahr 2018 kommt zu dem Schluss, dass „rasdaman 300 mal schneller sein kann, als andere Werkzeuge“. Referenzimplementierungen haben gezeigt, dass der Datenwürfel Multi-Petabytes über eintausend Cloud-Knoten beinhalten kann.

Die Technologie ist aber auch ein Game-Changer, was die Prozesse und Kollaborationen rund um die Datennutzung und -bereitstellung angeht. „Derzeit erleben wir, wie Copernicus-Dienste schrittweise zu mächtigen Föderationen zusammenwachsen, welche endlich das lange erwartete Potenzial erschließen“, so Professor Peter Baumann, CEO und Chefentwickler der rasdaman GmbH, welche die gleichnamige Software (rasdaman; raster data manager) für Datenwürfel anbietet. Eine Reihe von Geo-Startups, welche rasdaman nutzen, beschreiten einen solchen Weg in die Zukunft der Copernicus-Dienste bereits.

Würfel statt Millionen einzelner Dateien

Doch was sind überhaupt die Mehrwerte, die Datenwürfel bieten? Zunächst einmal erweitern sie das Prinzip der homogenisierten, aufbereiteten Daten – etwa wie sie bei blattschnittfreien Karten zu finden sind – um eine weitere Dimension: Neben der Ausrichtung in x- und y-Achse werden die Daten auch in der Zeit ausgerichtet. Somit werden Zeitreihenanalysen auf einem solchen x-, y- und t-Würfel für den Nutzer vereinfacht. Für Wetterdaten kann zusätzlich die Höhenachse hinzugenommen werden – und es entsteht ein 4D-Würfel.

Die standardbasierte rasdaman-Lösung soll dafür sorgen, dass solche 4D-Würfel einfach kontrolliert und bearbeitet werden können. „Mit der Software lassen sich die multi-dimensionalen Datenwürfel komfortabel interaktiv verschneiden und kombinieren“, beschreibt Professor Baumann.

Ein Einsatzfeld sind Satellitenbild-Archive, die aufgrund ihrer schieren Datenmenge oft schwer beherrschbar sind. Die Europäische Weltraumbehörde (ESA) liefert einzelne Szenen zudem im komplexen SAFE-Format aus. Ein weiteres Beispiel: Die vom Deutschen Zentrum für Luft- und Raumfahrt (DLR) entwickelte Copernicus- Zugangsplattform CODE-DE arbeitet mit einer Hadoop-basierten Batch-Schnittstelle. „Im Klartext bedeutet das, dass beinahe ausschließlich Programmierer mit den Daten arbeiten können“, sagt Baumann. Im BMWi-geförderten Projekt BigDataCube arbeitet er derzeit an einen interaktiven Zugang zu den Copernicus-Daten, der auf dem Datenwürfel-Konzept basiert. Anstelle der Millionen von einzelnen Dateien im SAFE-Format wird der Nutzer so mit nur wenigen raum-zeitlich organisierten Würfeln arbeiten. Die aktuellen Entwicklungen gehen aber noch weiter. Sie zielen darauf ab, dass die Daten verschiedenster Cloud-Dienste frei kombiniert werden können. Dies ermöglicht den Zusammenschluss sogenannter Föderationen, also von Einzelunternehmen, die zwar eigenständig agieren, aber in einem Gesamtverbund vernetzt sind.

Die Datenwürfel sind dann bei unterschiedlichen Anbietern im Einsatz, je nach Spezialisierung: CODE-DE als deutscher Sentinel-Hub bietet Sentinel- Daten, der Deutsche Wetterdienst bietet Klima- und Wetterdaten, kommerzielle Anbieter offerieren weitere Produkte. rasdaman sorgt nun für die Kombination solcher Daten. Dazu werden sie zur Prozessierung nicht von einem zum anderen Datencenter gesendet – dafür wären sie schlicht zu groß. Jedes Mitglied der Föderation bekommt für jede Analyse hingegen genau die Anfrage geschickt, die innerhalb ihres eigenen Datenwürfels bearbeitet werden kann. „Die betroffenen Datenzentren orchestrieren sich automatisch, um die Anfrage optimal zu errechnen“, beschreibt Baumann. Solche föderierten Anfragen wurden bereits zwischen ECMWF/UK und NCI/Australien öffentlich live gezeigt, und sind seit kurzem auch zwischen CODE-DE, cloudeo AG und dem Alfred-Wegener-Institut Bremerhaven möglich. „Dies bildet den Nukleus für die derzeit entstehende ‚European Datacube Federation‘“ so Baumann.

Offene Standards für einfache Handhabung

Für den Nutzer ebenfalls von Bedeutung sind die bereits existierenden, erprobten und stabilen Standards von rasdaman-Datenwürfeln. Zudem bietet die OGC Web Coverage Service (WCS)-Suite mit dem Coverage Implementation Schema (CIS) ein Datenmodell, mit dem raum-zeitliche Datenwürfel exakt und übersichtlich beschrieben werden können. Diese Suite wurde von rasdaman für die ESA und das OGC entwickelt. „Zwar können solche Coverages von vielen Diensten angeboten werden, WCS bietet jedoch die größte Funktionalität: Gegliedert in modulare Bausteine reicht der Funktionsumfang von WCS von der einfachen Ausschnittsbildung und Codierung im gewünschten Zielformat bis zur High-End-Analyse mit Web Coverage Processing Service (WCPS), der OGC-Analysesprache für raum-zeitliche Geo-Datenwürfel“, beschreibt Baumann. Das Tool wird bereits von einer großen Anzahl von Open-Source-Werkzeugen unterstützt. Zudem hat die ISO das CIS-Datenmodell als neuen Standard ISO 19123-2 übernommen – und angekündigt, dies ebenfalls mit WCS zu tun.

Eine Analyse von Küstengebieten und land-, wasser- beziehungsweise sandbedeckten Flächen. Grafik: rasdaman GmbH

Doch was bedeutet das für den Nutzer? Im Prinzip ist es ganz einfach: Weil bereits jetzt petabyte- große Dienste auf Basis der WCS-Suite betrieben werden und viele Clients WCS unterstützen, können Anwender innerhalb ihrer bestehenden Software-Umgebung und den gewohnten Methoden auf Datenwürfel-Dienste zugreifen. So unterstützt rasdaman beispielsweise die Navigation mit OpenLayers und Leaflet, virtuelle Globen mit NASA WorldWind und Microsoft Cesium, sowie Web GIS-Anwendungen mit QGIS und ESRO ArcGIS.

Sicherheit bis auf Pixelebene

„Auch Sicherheit gewinnt für die Datenanbieter, aber auch die Nutzer, noch mehr Gewicht als in der Vergangenheit“, erklärt Baumann. Die petabyte-großen Datenwürfel repräsentieren einen immensen Wert, wenn es sich um kommerzielle oder sicherheitskritische Daten handelt. Zusätzlich müssen die neuen Prozessierungsfähigkeiten auf den Archiven vor Angreifern geschützt werden. „Die öfters propagierten python-basierten Schnittstellen sind zwar mächtig, aber unkontrollierbar. Vergleichbare Probleme gab es schon vor Jahren mit Word-BASIC, einer Programmiersprache, die ein Dokument zum Programm machen kann. Das Ergebnis war eine Flut von Viren, welche noch heute trotz aller Sicherheitsmaßnahmen eine große Gefahr bilden“, beschreibt Baumann.

Die OGC WCPS-Sprache wurde daher mit speziellem Fokus auf Sicherheit entwickelt, sodass nach Angaben von rasdaman eine Reihe von Angriffen gar nicht erst formulierbar sind. Zusätzlich bietet rasdaman ein abgestuftes Sicherheitskonzept, mit dem der Administrator bis zur Ebene einzelner Pixel den Zugriff gezielt blockieren beziehungsweise freigeben kann. Weiterhin lassen sich Quota (Beschränkungen des Speicherplatzes) definieren, so dass beispielsweise nicht aus Versehen ein Terabyte abgerufen werden kann. Der Schutz in rasdaman geht aber noch weiter: Nicht nur Datenzugriffe, sondern auch Prozessierungslimits, Downloadlimits und weitere Faktoren können individuell pro Nutzer eingestellt werden; als Nebenprodukt werden detaillierte Abrechnungsrecords erstellt. „Der Schutz ist im Kernel implementiert und kann daher vom Benutzer nicht umgangen werden. Somit ergibt sich ein optimaler Schutz dieses mächtigen Dienstes“, so Baumann. ( jr)

www.rasdaman.com