Bei Diensten rund um die Fernerkundung und Copernicus gibt es eine dynamische Entwicklung. In Zukunft können sich Experten Analysen ohne Programmierung vorstellen.
Qualität, Verfügbarkeit und zeitliche Auflösung von Satelliten- und Fernerkundungsdaten nehmen beständig zu. Das Potential für verschiedene Nutzergruppen aus Institutionen, Forschung und Wirtschaft wächst folglich ebenso rasant. Doch wie entwickelt sich die Nutzung der Datenanalyse in Zukunft weiter? Eine Vision könnte wie folgt beschrieben werden: Klimaforscher wählen im Web-Browser das genaue Gebiet und den Zeitraum für ihre Analyse aus, geben die entsprechenden Parameter für ihre detaillierte Fragestellung ein und erhalten gewissermaßen auf Knopfdruck die Antwort. Ein solche, automatisierte Analyse greift „im Hintergrund“ auf die verschiedenen Daten aus Fernerkundung sowie von flugzeugbasierten oder terrestrischen Sensoren zurück, verschneidet diese und liefert so ein Ergebnis auf Basis einer umfassenden Datenintegration.
Experten sind sich einig, dass die Zukunft so aussehen kann. Der Schlüssel liegt in der dazu Kombination von Computer Science und Data Science. Sogenannte Datenwürfel, also ein Bestand an Einzeldatensätzen, der nach einheitlichen Regeln multidimensional strukturiert, gespeichert und dem Nutzer und der Applikation angeboten wird, gehören zu diesen Basisbestandteilen. Datenwürfel werden beispielsweise bei der Analyse von Unternehmensdaten schon seit Jahren eingesetzt, wo sie unter dem Namen von OLAP bekannt sind. Auch die großen Datenmengen der Fernerkundung (Big Data) können so anhand von Raum und Zeit performant selektiert und analysiert werden. In der Fernerkundungsbranche wurde das Konzept unter anderem durch Professor Peter Baumann bekannt. Der Informatiker forscht und lehrt an der Jacobs Universität Bremen im Bereich Computer Science. Mit der rasdaman GmbH hat er eine Softwarefirma gegründet, die sich mit der Thema Datenmanagement für Fernerkundungsdaten befasst. BUSINESS GEOMATICS sprach mit Professor Baumann über die derzeitigen Herausforderungen in der Fernerkundung.
Herr Professor Baumann, woher stammt das Konzept der Datenwürfel (engl.: Data Cubes)?
Wir haben im akademischen Rahmen das Konzept der Datenwürfel-Dienste schon ab 1991 publiziert. 1994 kamen dann die ersten OLAP-Datenwürfel in die Praxis, vor allem im Bereich der Unternehmens-Datenanalyse. In Naturwissenschaft und Technik wurde der Ansatz erst viel später adaptiert und in der Fernerkundung sogar erst vor wenigen Jahren. Dabei ist die Idee prädestiniert für die Fernerkundung, für die die räumlich-zeitliche Struktur von Messdaten ja in der sprichwörtlichen DNA liegt. Daher fällt die Idee zunehmend auf fruchtbaren Boden. Datenwürfel sollten wie ein TV-Gerät funktionieren: ich kann es ohne lange Anleitung nutzen, ohne dass ich die Technik dahinter verstehen muss. Derzeit arbeiten wir daher unter dem Codenamen „Cube4All“ an der weiteren Automatisierung, um die Nutzbarkeit für Nicht-Experten zu erhöhen und den Aufwand für Experten zu erleichtern.
Wie genau muss man sich den Datenwürfel-Ansatz bei Fernerkundungsdatenvorstellen?
Was stellen Sie sich vor, wenn ich von der Atmosphäre spreche? Einen dreidimensionalen Raum, in dem sich Wind und Wetter abspielen, also mit Zeit als vierter Dimension. Nicht einen Haufen von SAFE- oder GRIB2- oder NetCDF-Dateien. Datenwürfel bieten ganz intuitiv eine raum-zeitliche strukturierte Sicht auf die Daten: statt Millionen von Szenen oder Granulen habe ich pro Sensor genau einen Datenwürfel. Die Sensordaten müssen also strukturiert und homogenisiert werden, um analysebereit zu sein (Analysis-Ready Data, ARD), und die Analyse muss die Dimensionen etc. kennen. Dann kann ich meine Anfragen an den Datenwürfel-Server in Begriffen von Raum und Zeit formulieren, wie es meinem mentalen Modell entspricht. Unsere Software rasdaman unterstützt Nutzer dabei, Datenwürfel kontinuierlich zu pflegen und neue Daten durch eine automatisierte Verwaltung einzupflegen. Dabeiw erden effiziente Strukturen aufgebaut, die Analysen echtzeitfähig machen.
Sind die dafür notwendigen Dienste und Standards heute bereits verfügbar?
Zum Teil. Auf Seiten der Standards und Normen gibt es viele richtige und wichtige Weichenstellungen, etwa die Web Coverage Service (WCS) Familie, welche einheitlich von OGC, ISO und INSPIRE unterstützt wird. Teilweise verrennt man sich auch schon mal, wie etwa bei OAPI-Coverages, wo im wesentlichen WCS nachempfunden wird, allerdings mit einigen problematischen Modifikationen. Grundsätzlich sind Standards jedoch vorteilhaft, indem sie die monolithischen Welten aufbrechen und statt „nur ESRI“ oder „nur GeoServer“ erlauben, für jeden Bereich die jeweils beste Lösung am Markt zu wählen. Dank der Standards lassen sich die Teillösungen dann zu einer ebenfalls standardkonformen Gesamtlösung kombinieren. Diesen Ansatz verfolgen wir auch bei der rasdaman GmbH: mache eine Sache, und mache sie gut – in diesem Fall Verwaltung und Analyse multi-dimensionaler Rasterdaten.
Wie äußert sich das in Ihrer täglichen Arbeit?
Vor allem ist maximale Flexibilität gefragt. Manche Kunden betreiben Lösungen on-premise, andere setzen auf Managed Services, wieder andere benötigen nur einen einfachen Datenzugang für die DIAS-Plattformen von COPERNICUS. Die Analyse-Fragestellungen sind oft nur unscharf definiert und werden im Dialog mit uns verfeinert; dabei kommt der Appetit beim Essen, des Öfteren hören wir „da könnten wir ja auch XY machen, ich dachte immer das sei unmöglich“. Die Server laufen auf Laptops, in Clouds, Föderationen, auf Supercomputern … oder auf Nano-Satelliten, wie in unserem Projekt ORBiDANSe. Einheitlich ist nur, dass der Dienst in kurzer Zeit verfügbar sein soll, die aufgestauten Datenprobleme lösen soll und möglichst wenig Aufwand beim Kunden verursachen darf.
Spielen in diesem Zusammenhang auch Programmiersprachen eine Rolle?
Nein. Wie der Server implementiert ist, interessiert niemanden außer dem Betreiber. Und als Dienste-Schnittstelle sind Programmiersprachen denkbar ungeeignet: viel zu kompliziert für Anwender und viel zu gefährlich für den Server – in Python beispielsweise ist eine Attacke bereits in zwei Zeilen formulierbar. Natürlich unterstützen wir auch den Datenwürfel-Zugang über python, ebenso übrigens wie R, JavaScript, C++, Java usw. für den Anwendungsprogrammierer. Aber die Schnittstelle zum Server bleibt immer gesichert. Und mindestens genauso wichtig sind uns die Schnittstellen für die Nicht-Programmierer, beispielsweise eine Vielzahl von visuellen Clients. Im Endeffekt soll jeder Anwender in der Komfortzone seiner bekannten Werkzeuge bleiben können.
Mit Python gibt es eine weit verbreitete Sprache, die derzeit einen zweiten Frühling zu erleben scheint. Bauen auch Sie darauf auf?
Ist Python wirklich so weit verbreitet? Laut statista.com beispielsweise ist JavaScript auf Platz 1, und Python und SQL teilen sich knapp Platz 2. Python ist als Sprache nicht besser als andere, lediglich in manchen Aspekten etwas seltsam, aber damit können Programmierer umgehen. Für die Fernerkundung ist an Python vor allem interessant, dass es eine Vielzahl von Bibliotheken mit Spezialfunktionalitäten gibt. Nur: wer von uns ist versierter Python-Programmierer? Alle anderen bleiben unberücksichtigt und müssen erst für teures Geld Firmen anheuern. Manche Datenwürfel-Server bieten Python, weil das trivial ist, wenn auch der Server in Python programmiert ist. Unser Ansatz hingegen ist, so viele Nutzergruppen wie möglich zu unterstützen, unabhängig vom Server (der übrigens in schnellem C++ realisiert ist).
Gibt es alternative Sprachen?
Computer kennen viele Arten von Sprachen: die klassischen Programmiersprachen für Algorithmen, Datenanalysesprachen wie SQL, Seitenbeschreibungssprachen wie HTML und PDF, bis hin zu Betriebssystem-Kommandos. Natürlich sollte man für jedes Problem die richtige Art von Sprache nutzen, sonst wird das nichts. Wenn es um Datenzugriff und –analyse geht, dann sind das eben Daten-Sprachen. Sie sind speziell für diesen Zweck optimiert. Man kennt das von SQL, die Lingua Franca in Datenbanken. Innerhalb von drei Zeilen SQL bekomme ich mehr Abfrage-Funktionalität untergebracht als in vielen Zeilen Python.
SQL hat seine Wurzeln in relationalen Datenbanken. Ist sie damit für die Fernerkundung überhaupt geeignet?
Das klassische SQL erstmal nicht, außer für Metadaten. Es kennt nur Tabellen, und Pixel in Tabellen zu quetschen ist nicht zielführend. Aber in den SQL-Standardisierern schlägt auch ein NoSQL-Herz, und so enthält der SQL-Standard seit 2019 auch mehrdimensionale Arrays (Multi-Dimensional Arrays, MDA), mit denen Satellitenbilder hervorragend gespeichert und verarbeitet werden können. Dabei wurde nach eingehender Untersuchung die rasdaman-Anfragesprache als Vorlage gewählt. Auf Basis von SQL/MDA lassen sich also „Big Datacubes“ analysieren, was völlig neue Perspektiven für Fernerkundungsdienste eröffnet. OGC Web Coverage Processing Service (WCPS) ist eine Analysesprache, welche zusätzlich die Semantik von Raum und Zeit kennt und damit auch reguläre und irreguläre Gitter. In rasdaman übersetzen wir übrigens WCPS intern in SQL/MDA, welches dann von der Engine ausgewertet wird. Klingt kompliziert, ist aber um Größenordnungen schneller als andere Datenwürfel-Technologien, wie unabhängige Benchmarks beweisen. Die Entwicklung ist hier noch lange nicht am Ende, aber für die Auswertung von Datenwürfeln ist das ein enorm wichtiger Schritt in die richtige Richtung, insbesondere was das Thema Datenfusion betrifft.
Weg von den Sprachen, hin zur Praxis: was sind spezifische Herausforderungen für die Fernerkundung?
Die liegen – neben der einfachen Nutzbarkeit – vor allem in der Fusion von Daten. In einem Projekt haben wir folgende Zeitreihen kombiniert: Sentinel-2, CORINE Land Cover, Bodendaten, klimatische Feuchte. Geodaten sind oftmals extrem heterogen in Auflösung, Koordinatenbezugssystem, Metadaten und vielen weiteren Parametern. Selbst innerhalb beispielsweise Sentinel-2 Daten werden verschiedene UTM-Zonen verwendet – technisch einleuchtend, für Nutzer schwierig. Diese Komplexität muss aber hinter der Anwendung sozusagen verschwinden, der Anwender darf davon nichts bemerken. In unserem Ansatz bauen wir aus den Sentinel-Szenen aller UTM-Zonen einen einzigen virtuellen Datenwürfel, und alle eventuell erforderlichen Homogenisierungen und Umprojektionen geschehen für den Nutzer unsichtbar „unten im Maschinenraum“.
Aber macht das die Dienste nicht immer komplexer und damit auch langsamer?
Es ist ein oft wiederholtes Narrativ, dass Dienste einfach sein müssen, um auch performant zu sein. Dem widerspreche ich aber ausdrücklich. Das genaue Gegenteil ist richtig: Ein simpler Download-Dienst kann mir Sentinel-Szenen liefern, damit ich zum Beispiel die Frage lösen kann „wieviel hat die Vegetation in Spanien im letzten Monat abgenommen“. Das sind viele Daten, dauert lange, und danach habe ich selbst die Aufgabe zu lösen. Ein intelligenter Dienst beantwortet meine Frage mit einer Zahl. Das ist klein, geht schnell, und ich habe die fertige Antwort für meinen Chef. Unterm Strich habe ich höhere Dienstequalität und bessere Performance. Wir haben eigens eine Online-Demo gebaut, um das zu demonstrieren.
Welche Risiken sehen Sie bei solchen modernen Diensten?
Ein Risiko besteht natürlich im eventuell mangelnden Hintergrundwissen: Die Dienste werden immer einfacher zu nutzen, sie werden von Nutzern mit immer wenige Sachkenntnis aufgerufen, und daher kann auch Unsinn herauskommen. Dieses Risiko kann nicht völlig eliminiert werden, denn natürlich kann ein Dienst nicht erraten, was der Nutzer im Sinn haben könnte. Allerdings kann die Plausibilität von einem Dienst umso besser überprüft werden, je mehr Datensemantik er kennt. Mit aller Vorsicht, erläutert an zwei Beispielen: Wird von einem Datensatz eine höhere Auflösung gefordert, als die originären Datensätzen besitzen, muss das dem Nutzer gemeldet werden, anstatt dass beispielsweise eine höhere Auflösung interpoliert wird und dem User etwas suggeriert wird, das in Wirklichkeit nicht vorhanden ist. Allerdings kann das System erkennen, dass zum Beispiel optische Daten benötigt werden und automatisch von Satelliten- auf Luftbilder umschwenken, falls die spektrale Charakteristik hinreichend übereinstimmt. Bei hocheffektiven Diensten, die auf Knopfdruck aufgerufen werden oder auch aus automatisierten unüberwachten Routinen heraus, muss Qualitätssicherung eingebaut werden. Sonst droht es irgendwann, gefährlich zu werden.
Gibt es heute schon moderne Fernerkundungsdienste, die zeigen, was möglich ist und den Weg in die Zukunft weisen könnten?
Schon heute laufen die skizzierten Dienste auf Mundi, Creodias, CODE-DE. Telefonica nutzt rasdaman für die Funknetzplanung, das FZ Jülich baut große Klima-Zeitreihen auf. Inzwischen arbeiten wir, mit Unterstützung der ESA, unter dem Codenamen Cube4All an der nächsten Generation von Raster-Diensten. Darin nutzen wir den Datenwürfel-Ansatz, um komplexe Fernerkundungs-Aufgaben auch für Anwender verfügbar zu machen, die keine ausgewiesenen IT- oder Fernerkundungsexperten sind. Benutzerfreundlichkeit, Einfachheit und keine notwendigen Programmierkenntnisse sind die Maßgaben. In diesem Projekt werden Datenwürfel-Dienste entstehen, die die öffentlichen Datenangeboten etwa der DIASe erweitern. Andere Projekte wie etwa H2020 Centurion und AI-Cube fokussieren auf die Integration von KI und Datenwürfeln. (sg)