Die steigende Zahl verfügbarer Datenquellen und die intensivere Nutzung von Geodaten in der wissenschaftlichen Forschung befeuern aktuell die Qualitätsdiskussion. infas 360 setzt auf durchgängige Standards.

Bild: Vasin Lee/shutterstock
Daten sind das Kapital des 21.Jahrhunderts und tagtäglich entstehen neue Informationsquellen. Sie speisen sich zum Beispiel aus europäischen Open und Public Data-Beständen. Allerdings fehlen diesen Daten vielfach die sogenannten „Metainformationen“ (Informationen über die Informationen), die Aufschluss über wichtige Qualitätsparameter geben können. Nimmt man beispielsweise den mikrogeographischen Rasterdatensatz der amtlichen Einwohnerzahlen von 2011 auf Ebene von 100×100 Metern, so finden sich über dessen Entstehen und Qualität kaum Angaben. Streng wissenschaftlich gesehen ist dieser Datensatz also nicht einsetzbar. Ähnlich verhält es sich mit den am Markt angebotenen Daten aus privatwirtschaftlichen Quellen. So hat eine Vergleichsstudie der relevanten verfügbaren regionalen Kaufkraftzahlen mit den Zahlen der amtlichen Einkommenssteuerstatistik ergeben, dass die auf Basis der Einkommenszahlen berechneten regionalen Prognosen einer am Einkommen gemessenen Kaufkraft Ergebnisse erbringen, die wenig belastbar sind.
Auch in der wissenschaftlichen Forschung gibt es zunehmend Bedarf, Befragungsdaten um zusätzliche mikrogeographische Merkmale anzureichern. Die dazu bisher am Markt verfügbaren Daten werden den wissenschaftlichen Qualitätsansprüchen allerdings oftmals nicht gerecht.
In Abstimmung mit dem Schwesterunternehmen infas Institut für angewandte Sozialwissenschaften hat infas 360 daher nahezu alle mikrogeographischen Marktdaten an diesen Qualitätsmerkmalen ausgerichtet – sowohl hinsichtlich der Datenquellen als auch der angewandten Methoden. „In Zeiten von Big Data ist ein konsequentes Qualitätsmanagement kein Luxus, sondern eine unverzichtbare Voraussetzung für verwertbare Erkenntnisse“, betont Geschäftsführer Michael Herter. Das gelte nicht nur für die Wissenschaft, sondern für jede Nutzung der Daten.
Die Datenbasis
Hinsichtlich der Datenbasis ging es infas 360 daher darum, eine flächendeckende mikrogeographische Einheit maximaler Granularität auf amtlicher Basis zu schaffen, die jedes Phänomen auf der Erdoberfläche beschreiben kann. Das Ergebnis ist eine Objektdatenbank, die alle amtlich erfassten Gebäude und die sogenannten Points-Of-Interest (POIs) beinhaltet. Gespeist wird diese aus den rund 50 Millionen 3D-Gebäuden der Bundesländer (HU und LOD1), den rund 22 Millionen Katasterkoordinaten mit postalischen Adressen der Länder (HK) sowie den ebenfalls rund 22 Millionen Anschlussobjekten der Lokationsdatenbank der Deutschen Telekom. Wie Gefäße werden diejenigen Objekte, die postalische Adressen besitzen, fortlaufend mit Merkmalen befüllt. Auch die dazu verwendeten Daten stammen aus gesicherten Quellen, darunter das BKG, Destatis oder die Statistischen Landesämter. Auch Haushaltsinformationen der Deutschen Post, Firmendaten der Bisnode und Immobiliendaten von Immobilienscout24 werden zur Anreicherung der Gebäudedaten genutzt. infas 360 erhebt auch eigene Daten durch Befragungen, etwa über den quartalsweise durchgeführten CASA Monitor. Hier werden jeweils 10.000 Haushalte zu verschiedenen Themen des täglichen Lebens befragt. Auch diese Daten werden regionalisiert und fließen in die Datenbanken von infas 360 ein. Über das Data Intelligence Network stehen weitere Daten zur Verfügung. Die Datenquellen zu jedem Merkmal werden grundsätzlich benannt.
Transparente Regeln

Mit einem eigenen Siegel bestätigt das Bonner Unternehmen seine Ausrichtung an wissenschaftlichen Qualitätsstandards.
Über nachvollziehbare und reproduzierbare Berechnungsmethoden (Regeln) werden aus den Rohdaten neue Merkmale generiert – so zum Beispiel ein statistisch hoch differenzierender Wohngebäudetyp. „Bei Bedarf und berechtigtem Interesse können jederzeit grundlegende Berechnungsregeln zu allen selbst entwickelten Merkmalen offen gelegt werden“, erläutert Michael Herter. In diesem Kontext hat sich die infas 360 vor allem auf die Verfahren der Small-Area-Methoden (SAM) und das Duplizieren von Daten über die Bestimmung statistischer Zwillinge spezialisiert (siehe Infokasten).
Güte und Aussagekraft
Datenquelle und Berechnungsmethode führen zu einem Merkmal, dass schlussendlich nichts anderes darstellt als eine Schätzung eines bestimmten Phänomens auf einer bestimmten räumlichen Ebene (etwa die Anzahl der Einwohner in einem Siedlungsblock, dem AGS20) zu einem bestimmten Stichtag. „Die Güte der Vorhersage ist das A und O der Datenqualität“, betont Michael Herter. Diese lässt sich entweder durch den Abgleich mit Echtdaten (Begehungs- und/oder Befragungsdaten) oder mit Drittquellen bestimmen. Die Datengüte wird bei infas 360 fortlaufend stichprobenartig bestimmt und variiert von Merkmal zu Merkmal.
Vollständigkeit
Der Datensatz, mit dem der Bonner Anbieter heute arbeitet, ist flächendeckend und hat den Anspruch stichtagsbezogen vollständig zu sein, sprich: zu einem Tag x befinden sich alle zu diesem Zeitpunkt bekannten Gebäude aller Gemeinden Deutschlands in der Objektdatenbank. Da dennoch in der Regel nicht alle Adressen angereichert werden können, gibt ein Geocodierungsprotokoll Aufschluss über die Vollständigkeit des jeweiligen Datensatzes. „Vollautomatisch werden bis zu 97 Prozent aller Fälle angereichert“, berichtet der Geschäftsführer. Durch eine manuelle Nachcodierung kann projektweise auch eine 100 prozentige Vollständigkeit gewährleistet werden.
Aktualität
PAGS und die damit verbundenen geographischen Gebiete wie auch die dazugehörigen Merkmale beziehen sich auf die aktuell zur Verfügung stehende amtliche Statistik (= 31.12. des Vorvorjahres) und steht Ende des ersten Quartals eines Jahres zur Verfügung. Die amtlichen Geometrien sind zumeist aktueller, beziehen sich jedoch aus Konsistenzgründen auf denselben Stichtag. Die Daten werden bei infas 360 (intern) fortlaufend gepflegt und aktualisiert.
Projektbezogene Datenentwicklung



Mikromarketing und Geomarketing sind unser Spezialgebiet! Von der anvisierten Zielgruppe über den passenden Standort bis hin zur aufmerksamkeitsstarken Botschaft für den richtigen Werbekanal: Wir liefern exakte Daten, erstellen Zielgruppenanalysen, Standortanalysen, finden ihr Marktpotenzial und optimieren Ihre regionale (Online)-Werbung. Sprechen Sie uns an.


Geomarketing. Das Datenspektrum umfasst feinräumige konsistente
Georaster, amtliche Marktdaten, mikrogeographische Informationen auf
Basis von 22,4 Mio. Häusern, B2C-, B2B- und POI-Adressen. Umfassendes
analytisches Know-how in Standortanalyse und Vertriebssteuerung bilden
die Basis für erfolgreiche Kundenprojekte.

In Zeiten von Big Data wachsen die Datenquellen und die daraus verfügbaren Daten. Dies führt zu einem Trend, dass Fragestellungen nicht nur mit Hilfe eines allgemeinen Standarddatenportfolios beantwortet werden, sondern zunehmend auch über individuelle projektbezogene Daten, die ad-hoc recherchiert und erstellt werden. „Neben der inhaltlich zielführenden Auswahl der entsprechenden Datenquellen ist das Thema Datenqualität dabei von entscheidender Bedeutung“, betont Michael Herter. Anderenfalls seien die gewonnenen Ergebnisse unter Umständen nicht viel wert.
Daher wünscht sich der Geomarketing-Experte auch eine übergreifende Qualitätsinitiative der (Geo-)Datenanbieter. Er ist überzeugt: „Angesichts des zunehmenden Informationsangebots benötigen wir nachvollziehbare Standards bei Daten und Berechnungsverfahren als Differenzierungsmerkmal gegenüber fragwürdigen Anbietern und Angeboten.“
Qualitätsmerkmale mikrogeographischer Daten
- Transparenz der verwendeten Rohdatenquelle(n)
- Nachvollziehbarkeit und Reproduzierbarkeit der Berechnungsmethodik
- Aussagekraft des Merkmals (Güte der Vorhersage)
- Vollständigkeit des Datensatzes
- Räumliche Ebene und Lagegenauigkeit
- Aktualität und Aktualisierungszyklen