rasdaman: Einfache Handhabung von Big Data dank Cube-Technologie

Jeden Tag flie├čen mehrere Terabytes Daten von den Sentinel-Satelliten in die Copernicus-Archive. Die Firma rasdaman mit ihrer gleichnamigen Datenw├╝rfel-Software sorgt nicht nur f├╝r eine einfache Handhabung dieser Big Data. Mit verteilten, cloudbasierten Diensten entstehen auch neue Nutzungsformen und Analysem├Âglichkeiten.

In kaum einem Bereich ist die sprichw├Ârtliche Datenflut so gegenst├Ąndlich wie im Bereich der satellitenbasierten Fernerkundung. Nutzer drohen geradezu in ihr zu ertrinken. Sprich: Die Probleme, die Daten handhabbar zu machen, sind so gro├č, dass der vermeintliche Schatz eher Probleme schafft.

Doch die ├ťberwindung dieses Problems ist in Sicht. Experten sind sich heute weltweit einig, dass das Datenw├╝rfel-Konzept einen Quantensprung in der Nutzbarkeit von Erdbeobachtungsdaten darstellt. Man bezeichnet sie auch als ÔÇ×Analysis-Ready DataÔÇť, also als Datens├Ątze mit riesigen Volumina, die aber einfach, performant, skalierbar, standardbasiert und sicher zur Verf├╝gung gestellt werden.

Globale Analyse der Temperaturverteilung auf der Erde. Mit Datenw├╝rfeln k├Ânnen die Daten auch in ihrer zeitlichen Abfolge einfach dargestellt und analysiert werden. Grafik: rasdaman GmbH

Als f├╝hrend in diesem Bereich wird das Unternehmen rasdaman GmbH angesehen. Es gilt nicht nur als Erfinder dieser Datenw├╝rfel, sondern auch als technologisch f├╝hrend. Tests haben ergeben, dass die Datenverf├╝gbarkeit sich von Wochen auf Sekunden reduzieren kann. Ein Research Data Alliance Report aus dem Jahr 2018 kommt zu dem Schluss, dass ÔÇ×rasdaman 300 mal schneller sein kann, als andere WerkzeugeÔÇť. Referenzimplementierungen haben gezeigt, dass der Datenw├╝rfel Multi-Petabytes ├╝ber eintausend Cloud-Knoten beinhalten kann.

Die Technologie ist aber auch ein Game-Changer, was die Prozesse und Kollaborationen rund um die Datennutzung und -bereitstellung angeht. ÔÇ×Derzeit erleben wir, wie Copernicus-Dienste schrittweise zu m├Ąchtigen F├Âderationen zusammenwachsen, welche endlich das lange erwartete Potenzial erschlie├čenÔÇť, so Professor Peter Baumann, CEO und Chefentwickler der rasdaman GmbH, welche die gleichnamige Software (rasdaman; raster data manager) f├╝r Datenw├╝rfel anbietet. Eine Reihe von Geo-Startups, welche rasdaman nutzen, beschreiten einen solchen Weg in die Zukunft der Copernicus-Dienste bereits.

W├╝rfel statt Millionen einzelner Dateien

Doch was sind ├╝berhaupt die Mehrwerte, die Datenw├╝rfel bieten? Zun├Ąchst einmal erweitern sie das Prinzip der homogenisierten, aufbereiteten Daten ÔÇô etwa wie sie bei blattschnittfreien Karten zu finden sind ÔÇô um eine weitere Dimension: Neben der Ausrichtung in x- und y-Achse werden die Daten auch in der Zeit ausgerichtet. Somit werden Zeitreihenanalysen auf einem solchen x-, y- und t-W├╝rfel f├╝r den Nutzer vereinfacht. F├╝r Wetterdaten kann zus├Ątzlich die H├Âhenachse hinzugenommen werden ÔÇô und es entsteht ein 4D-W├╝rfel.

Die standardbasierte rasdaman-L├Âsung soll daf├╝r sorgen, dass solche 4D-W├╝rfel einfach kontrolliert und bearbeitet werden k├Ânnen. ÔÇ×Mit der Software lassen sich die multi-dimensionalen Datenw├╝rfel komfortabel interaktiv verschneiden und kombinierenÔÇť, beschreibt Professor Baumann.

Ein Einsatzfeld sind Satellitenbild-Archive, die aufgrund ihrer schieren Datenmenge oft schwer beherrschbar sind. Die Europ├Ąische Weltraumbeh├Ârde (ESA) liefert einzelne Szenen zudem im komplexen SAFE-Format aus. Ein weiteres Beispiel: Die vom Deutschen Zentrum f├╝r Luft- und Raumfahrt (DLR) entwickelte Copernicus- Zugangsplattform CODE-DE arbeitet mit einer Hadoop-basierten Batch-Schnittstelle. ÔÇ×Im Klartext bedeutet das, dass beinahe ausschlie├člich Programmierer mit den Daten arbeiten k├ÂnnenÔÇť, sagt Baumann. Im BMWi-gef├Ârderten Projekt BigDataCube arbeitet er derzeit an einen interaktiven Zugang zu den Copernicus-Daten, der auf dem Datenw├╝rfel-Konzept basiert. Anstelle der Millionen von einzelnen Dateien im SAFE-Format wird der Nutzer so mit nur wenigen raum-zeitlich organisierten W├╝rfeln arbeiten. Die aktuellen Entwicklungen gehen aber noch weiter. Sie zielen darauf ab, dass die Daten verschiedenster Cloud-Dienste frei kombiniert werden k├Ânnen. Dies erm├Âglicht den Zusammenschluss sogenannter F├Âderationen, also von Einzelunternehmen, die zwar eigenst├Ąndig agieren, aber in einem Gesamtverbund vernetzt sind.

Die Datenw├╝rfel sind dann bei unterschiedlichen Anbietern im Einsatz, je nach Spezialisierung: CODE-DE als deutscher Sentinel-Hub bietet Sentinel- Daten, der Deutsche Wetterdienst bietet Klima- und Wetterdaten, kommerzielle Anbieter offerieren weitere Produkte. rasdaman sorgt nun f├╝r die Kombination solcher Daten. Dazu werden sie zur Prozessierung nicht von einem zum anderen Datencenter gesendet ÔÇô daf├╝r w├Ąren sie schlicht zu gro├č. Jedes Mitglied der F├Âderation bekommt f├╝r jede Analyse hingegen genau die Anfrage geschickt, die innerhalb ihres eigenen Datenw├╝rfels bearbeitet werden kann. ÔÇ×Die betroffenen Datenzentren orchestrieren sich automatisch, um die Anfrage optimal zu errechnenÔÇť, beschreibt Baumann. Solche f├Âderierten Anfragen wurden bereits zwischen ECMWF/UK und NCI/Australien ├Âffentlich live gezeigt, und sind seit kurzem auch zwischen CODE-DE, cloudeo AG und dem Alfred-Wegener-Institut Bremerhaven m├Âglich. ÔÇ×Dies bildet den Nukleus f├╝r die derzeit entstehende ÔÇÜEuropean Datacube FederationÔÇśÔÇť so Baumann.

Offene Standards f├╝r einfache Handhabung

F├╝r den Nutzer ebenfalls von Bedeutung sind die bereits existierenden, erprobten und stabilen Standards von rasdaman-Datenw├╝rfeln. Zudem bietet die OGC Web Coverage Service (WCS)-Suite mit dem Coverage Implementation Schema (CIS) ein Datenmodell, mit dem raum-zeitliche Datenw├╝rfel exakt und ├╝bersichtlich beschrieben werden k├Ânnen. Diese Suite wurde von rasdaman f├╝r die ESA und das OGC entwickelt. ÔÇ×Zwar k├Ânnen solche Coverages von vielen Diensten angeboten werden, WCS bietet jedoch die gr├Â├čte Funktionalit├Ąt: Gegliedert in modulare Bausteine reicht der Funktionsumfang von WCS von der einfachen Ausschnittsbildung und Codierung im gew├╝nschten Zielformat bis zur High-End-Analyse mit Web Coverage Processing Service (WCPS), der OGC-Analysesprache f├╝r raum-zeitliche Geo-Datenw├╝rfelÔÇť, beschreibt Baumann. Das Tool wird bereits von einer gro├čen Anzahl von Open-Source-Werkzeugen unterst├╝tzt. Zudem hat die ISO das CIS-Datenmodell als neuen Standard ISO 19123-2 ├╝bernommen ÔÇô und angek├╝ndigt, dies ebenfalls mit WCS zu tun.

Eine Analyse von K├╝stengebieten und land-, wasser- beziehungsweise sandbedeckten Fl├Ąchen. Grafik: rasdaman GmbH

Doch was bedeutet das f├╝r den Nutzer? Im Prinzip ist es ganz einfach: Weil bereits jetzt petabyte- gro├če Dienste auf Basis der WCS-Suite betrieben werden und viele Clients WCS unterst├╝tzen, k├Ânnen Anwender innerhalb ihrer bestehenden Software-Umgebung und den gewohnten Methoden auf Datenw├╝rfel-Dienste zugreifen. So unterst├╝tzt rasdaman beispielsweise die Navigation mit OpenLayers und Leaflet, virtuelle Globen mit NASA WorldWind und Microsoft Cesium, sowie Web GIS-Anwendungen mit QGIS und ESRO ArcGIS.

Sicherheit bis auf Pixelebene

ÔÇ×Auch Sicherheit gewinnt f├╝r die Datenanbieter, aber auch die Nutzer, noch mehr Gewicht als in der VergangenheitÔÇť, erkl├Ąrt Baumann. Die petabyte-gro├čen Datenw├╝rfel repr├Ąsentieren einen immensen Wert, wenn es sich um kommerzielle oder sicherheitskritische Daten handelt. Zus├Ątzlich m├╝ssen die neuen Prozessierungsf├Ąhigkeiten auf den Archiven vor Angreifern gesch├╝tzt werden. ÔÇ×Die ├Âfters propagierten python-basierten Schnittstellen sind zwar m├Ąchtig, aber unkontrollierbar. Vergleichbare Probleme gab es schon vor Jahren mit Word-BASIC, einer Programmiersprache, die ein Dokument zum Programm machen kann. Das Ergebnis war eine Flut von Viren, welche noch heute trotz aller Sicherheitsma├čnahmen eine gro├če Gefahr bildenÔÇť, beschreibt Baumann.

Die OGC WCPS-Sprache wurde daher mit speziellem Fokus auf Sicherheit entwickelt, sodass nach Angaben von rasdaman eine Reihe von Angriffen gar nicht erst formulierbar sind. Zus├Ątzlich bietet rasdaman ein abgestuftes Sicherheitskonzept, mit dem der Administrator bis zur Ebene einzelner Pixel den Zugriff gezielt blockieren beziehungsweise freigeben kann. Weiterhin lassen sich Quota (Beschr├Ąnkungen des Speicherplatzes) definieren, so dass beispielsweise nicht aus Versehen ein Terabyte abgerufen werden kann. Der Schutz in rasdaman geht aber noch weiter: Nicht nur Datenzugriffe, sondern auch Prozessierungslimits, Downloadlimits und weitere Faktoren k├Ânnen individuell pro Nutzer eingestellt werden; als Nebenprodukt werden detaillierte Abrechnungsrecords erstellt. ÔÇ×Der Schutz ist im Kernel implementiert und kann daher vom Benutzer nicht umgangen werden. Somit ergibt sich ein optimaler Schutz dieses m├Ąchtigen DienstesÔÇť, so Baumann. ( jr)

www.rasdaman.com