Geodatenintegration mit Talend

Disy hat für die Datenplattform Talend das Plug-in „GeoSpatial Integration für Talend“ entwickelt. Es erweitert Talend um Funktionen zur Einbindung von GIS-Datenquellen und Bearbeitung von Geodaten.

Etablierte Ansätze und Werkzeuge zur Verarbeitung und Integration von Daten werden zunehmend um Funktionalitäten zur Geodatenverarbeitung und Visualisierung erweitert. Denn der Megatrend der Geobranche besteht darin, Geodaten immer mehr in Unternehmensprozesse einzubinden, die bisher keine Geodaten kennen oder nutzen. Das 2005 gegründete, über 1.000 Mitarbeiter starke Unternehmen Talend Inc. stellt als branchenübergreifender Anbieter von Datenintegrationssoftware seine namensgleiche Plattform Talend als Open-Source-Werkzeug zur Verfügung. Mit ihr werden klassische ETL-Prozesse zum Aufbau von Data-Warehouse-Lösungen, aber auch für die Integration von Big-Data oder für die Datenverarbeitung in der Cloud durchgeführt.

Das Geo-Plug-in „GeoSpatial Integration für Talend“ von Disy integriert sich nahtlos in das Talend-Menü und erweitert die Plattform um Geofunktionalitäten. Foto: Disy Informationssysteme GmbH

Geodaten nahtlos integriert

Die von Talend unterstützten ETL-Prozesse – kurz für Extract, Transform, Load (zu Deutsch: Extraktion, Transformation, Laden) – beschreiben Verfahren, bei denen Daten aus mehreren, gegebenenfalls unterschiedlich strukturierten Datenquellen in einer Zieldatenbank vereinigt werden. Dabei werden die relevanten Daten zuerst aus verschiedenen Quellen extrahiert, dann in teilweise umfangreichen Prozessen bereinigt, zusammengeführt, angereichert, transformiert oder qualitätsgesichert, in das Schema und Format der Zieldatenbank überführt und schließlich in diese geladen. Talend wird nun mit dem von der Disy Informationssysteme GmbH entwickelten Plug-in „GeoSpatial Integration für Talend“ noch um Funktionen zur Geodatenverarbeitung erweitert.

Das vom Karlsruher Unternehmen entwickelte Plug-in integriert die wichtigsten GIS-Datenquellen und räumliche Operationen für die Geodatenverarbeitung in die Talend-Plattform. Dadurch entfalle beim Aufbau großer Data-Warehouse-Lösungen die Notwendigkeit, für die Datenintegration sowie die Geodatentransformation und -verarbeitung separate Werkzeuge zu nutzen, so Disy. Der Clou des Geo-Plug-ins: Die neuen Komponenten und Operatoren sollen die vorhandene Talend-Komponentenpalette nahtlos erweitern, sodass der Ersteller von ETL-Jobs dieselbe Umgebung nutzt, egal ob gerade Prozesse mit oder ohne Geodatenverarbeitung erstellt werden.

Umfangreicher Funktionsumfang für Geo-ETL

„GeoSpatial Integration für Talend“ fokussiert den Aufbau von großen Data-Warehouse-Lösungen mit umfangreichen automatisierten Prozessen – auch mit mehreren Entwicklern in Test-, Entwicklungs- und Produktionsumgebungen. Daher unterstützt das Plug-in die für diese Zwecke gängigen Geodatenbanken und -formate Oracle Locator/Spatial, PostGIS, SpatiaLite und Shapefiles. Über Well-known Text (WKT) und Well-known Binary (WKB) lassen sich darüber hinaus Daten aus weiteren Datenquellen, wie SAP Hana, SQL-Server oder der häufig in ArcGIS genutzte Datentyp SDE.ST_Geometry, lesen und schreiben.

Nachdem Geodaten in Talend eingelesen wurden, können sie zusätzlich umfänglich räumlich verarbeitet werden. Hierfür stellt das Plug-in nach Herstellerangaben sowohl eigene Komponenten bereit, die per Drag-and-Drop in ETL-Jobs genutzt werden können, als auch spezielle Geo-Routinen, die die Funktionalität der Talend-Komponenten erweitern. So können im Integrationsund Transformationsprozess beispielsweise Flächen oder Längen berechnet, Geometrien verschnitten sowie Puffer, konvexe Hüllen oder Bounding-Boxen gebildet werden. Zudem sollen weitere Routinen den Nutzer bei der Prüfung nach Validität von Geometrien oder dem direkten Vergleich mehrerer Geometrien nach Überlappung, Berührung oder Enthaltensein sowie bei der Distanzmessung zwischen ihnen unterstützen. Die Umwandlung von Koordinaten in Punkte beziehungsweise von Punkten in Linien ist ebenso möglich wie die direkte Umrechnung von Geometrien zwischen unterschiedlichen Koordinatensystemen. Das Geo-Plug-in steht – wie Talend selbst – als kostenlose Variante zum Download zur Verfügung. Für unternehmenskritische und große Umgebungen bietet Disy eine kommerzielle Version als Abonnement an.

www.talend.com

www.disy.net/geospatial