Interview mit André Völker: Warum braucht Kommunikation einen Data-Lake?

André Völker ist als Daten-Analyst im Siemens Kommunikations-Team “Data Management & Engineering” tätig. Als Product Owner verantwortet er die Konzeption, Weiterentwicklung und den Betrieb des zentralen Data Hubs für digitale Kommunikationsdaten.

Thomas Mickeleit: Siemens gilt als Champion, wenn es um data-driven PR geht. Ein Data-Lake ist bei Euch eine Selbstverständlichkeit?

André Völker: Wir sind auf einem guten Weg. In den vergangenen drei Jahren haben wir zusammen mit unseren Stakeholdern den Bedarf an Daten abgestimmt und darauf basierend alle relevanten Plattformen wie Ad-Server, Social Media Netzwerke oder Website-Tracking an unseren Data-Lake angebunden. Aktuell sind das über 18 Plattformen, die Daten für unterschiedlichste Kanäle und Aktivitäten wie Owned / Earned Media, Website, Demand Generation und für die interne Kommunikation liefern.

Die Herausforderungen sind hier zum einen, dass unsere Kollegen in der Kommunikation mit den entsprechenden Plattformen und Agenturen, die wir im Set-up berücksichtigen, arbeiten und dabei gewisse Vorgaben z.B. beim Aufsetzen und Benennung einer Kampagne oder dem Tagging beachten. Da braucht es Lösungen, die einfach zu bedienen und in die Prozesse integrierbar sind sowie Schulungen, Unterstützung und Dokumentation.

Zum anderen ist die Herausforderung, technisch zu gewährleisten, dass die Daten täglich komplett und in einer hohen Qualität in unseren Data-Lake fließen. Aus dem Data-Lake stellen wir die Daten formatiert und strukturiert in unserem Data-Hub zur Verfügung. Hier arbeiten wir z.B. mit einem Monitoring, das die tägliche Prozessierung der Daten überwacht und ein schnelles Eingreifen bei Problemen ermöglicht.

Hinsichtlich Konsumierung der Daten haben wir sichergestellt, dass die Transformierung, Analyse oder Visualisierung der Daten mit gängigen Plattformen wie z.B. PowerBI, Tableau oder KNIME funktioniert.

Für die nächsten Monate steht für uns das Thema Data-Governance verstärkt auf dem Plan. In Abstimmung mit unseren Daten-Analysten gilt es, zunächst den Zugang und das Arbeiten mit den Daten kontinuierlich zu vereinfachen, z.B. mit Hilfe eines Datenkatalogs. Mit unseren Stakeholdern wollen wir weiterhin Rollen und Verantwortlichkeiten entlang des Datenflusses – von der Erhebung der Daten bis zur Konsumierung in Analyse oder Visualisierungsprojekten – definieren und in der Organisation verankern. Bei dem Thema Data-Lake besteht manchmal die Gefahr, sich sehr schnell auf Technologie und Architektur zu fokussieren. Uns hat es enorm geholfen, die Organisation bei der Planung und Umsetzung von Anfang an mit einzubeziehen und die Transformation hin zur datengetriebenen Kommunikation gemeinsam anzugehen.

Thomas Mickeleit: Warum braucht man überhaupt einen Data-Lake oder Data-Hub? Was sind die Vorteile?

André Völker: Wer über Big Data, Advanced Analytics oder datengetriebene Organisation nachdenkt, wird sehr schnell auf das Thema Data-Lake stoßen. Der große Vorteil eines Data-Lakes ist, dass Rohdaten aus unterschiedlichsten Quellen und Formaten an einen zentralen Ort abgelegt werden können. Das reduziert die Abhängigkeit von Datenlieferanten wie z.B. Media-Agenturen und die Zeit bis die Daten zur Verfügung stehen.

Der Vorteil des Data-Hubs ist dann schließlich die Daten aus dem Data-Lake strukturiert und formatiert z.B. im Parquet Datenformat zur Verfügung zu stellen. Die Analysten können die Daten entsprechend einfach und schnell für Projekte z.B. Visualisierungen weiterverarbeiten, ohne sich groß mit unterschiedlichen Formaten beschäftigen zu müssen.

Unter dem Strich wird das Arbeiten mit großen Datenmengen skalierbar und effizient, da die Daten für unterschiedlichste Anwendungsfälle verwendet werden können, sobald die Datenquelle im Data-Lake integriert wurde.

Thomas Mickeleit: Auf jeden Fall besteht nicht nur der Wunsch, unterschiedliche Datenquellen zusammenzuführen, sondern Siemens hat dem Data-Hub einen wesentlichen Schritt dahin getan. Was hat bei Euch den Wunsch getriggert, den Data-Hub zu bauen?

André Völker: Ausgangspunkt für den Data-Hub war 2019 der Wunsch der Kampagnen-Manager nach einem Tool, das Auswertungen zu den unterschiedlichen Wirkstufen der Aktivitäten – Reach, Engagement, Interaction und Action – zur Verfügung stellt. Zudem war die Anforderung, bei der Bewertung der Aktivitäten mit Hilfe berechneter Benchmark-Werte zu unterstützen. Entsprechend mussten wir als Basis eine Infrastruktur aufbauen, die zum einen große Datenmengen strukturiert und schnell für andere Anwendungen bereitstellt. Zum anderen war die Anforderung, Advanced-Analytics-Methoden zur Berechnung der Benchmark-Werte ausführen zu können. Das war damals sozusagen die Geburtsstunde des Comms Data-Hubs.

Seitdem haben wir den Data-Hub kontinuierlich ausgebaut und nutzen heute die dadurch gewonnene Flexibilität für die Bearbeitung unterschiedlichster Fragestellungen. So gab es z.B  die Anforderung, ein Reporting der Aktivitäten nach Fokusthemen zu erstellen. Herausforderung für uns war damals, dass die Aktivtäten nicht entsprechend mit Fokusthemen getaggt wurden. Mit Hilfe der Daten aus dem Data-Hub haben wir einen Weg gefunden, das manuelle Tagging durch Kampagnen-Manager automatisiert zu ersetzen.

Thomas Mickeleit: Der Data-Hub erlaubt Euch also nicht nur Kanäle, sondern spezifische Themen zu messen. Wie funktioniert das praktisch?

André Völker: Zur Clusterung der Aktivitäten nach Fokusthemen nutzen wir unterschiedliche Informationen, die wir im Data-Hub zur Verfügung haben. Das sind zum einen Kampagnen-Metadaten wie die Benennung von Aktivitäten oder hinterlegte Zusatz-Informationen von den Kampagnen-Managern. Zum anderen nutzen wir Informationen, die im Kontext der Kommunikationsinhalte zur Verfügung stehen wie. z.B. Landingpage URL, Post-Text oder Hashtags. Mit Hilfe definierter Schlüsselbegriffe durchsuchen wir die genannten Informationen für jede Aktivität und ordnen diese den entsprechend Fokusthemen zu. Von der Funktionsweise vergleichbar mit dem Social-Listening.

Thomas Mickeleit: Ich möchte noch mal auf Load zurückkommen. Viele empfinden das – zurecht – als den schwierigsten Part. Die Daten so zu visualisieren, dass sie einen Erkenntnisgewinn bringen und Aktionen auslösen. Wie löst Ihr diese Problematik?

André Völker: Wie eingangs erwähnt ist es wichtig, eng mit den Stakeholdern zusammenzuarbeiten. Aus ihren Fragestellungen ergeben sich nicht nur die Anforderungen an die Daten, sondern auch an das Format der Präsentation. Ein Reporting fürs Management unterscheidet sich grundlegend von einem operativen Dashboard und es ist wichtig zu wissen, welche Entscheidungen auf Basis der Daten getroffen werden, um die richtigen KPIs und Visualisierungen zu wählen.

Wir haben über die Zeit verschiedene Methoden ausprobiert, Daten so nah wie möglich an unsere Stakeholder heranzutragen. Ein Durchbruch war die Funktion von Power BI, voll funktionsfähige Dashboards in Power Point einzubetten. Das war ein großer Schritt Richtung Automatisierung und Vereinfachung des Analyse-Prozesses. Wir müssen nicht mehr zwischen Dashboard und Power Point wechseln, sondern können Beobachtungen, Erkenntnisse und Handlungsempfehlungen direkt in Power Point aufzeichnen und konsumierbar machen.


Thomas Mickeleit: Data-Hubs oder Lakes gewinnen zunehmend an Bedeutung. Wenn alle Unternehmensfunktionen ihre eigenen Data-Lakes bauen, sind wir auch nicht weiter. Wie lässt sich das verhindern?

André Völker: In einer Traumwelt gäbe es natürlich nur einen zentralen „Datentopf“, der die Daten aus unterschiedlichsten Unternehmensfunktionen enthält. In der realen Welt ist das aktuell nur schwer realisierbar. Vor allem in einer großen Organisation wie Siemens. Davon abgesehen ist es aufgrund der Anforderungen wie mit den Daten gearbeitet werden soll und der bestehenden Systemlandschaft manchmal zielführender, wenn Unternehmensfunktionen ihre eigene Lösung zur Zentralisierung der relevanten Daten finden und umsetzen. Hinzu kommt auch das Fachwissen je nach Unternehmensfunktion, welches in die Verarbeitung der Daten einfließt und entsprechend für die Qualität der Daten sorgt. Da ist es m.E. wichtiger, dass Unternehmensfunktionen mit der Transformation zur datengetriebenen Organisation, wenn auch erstmal im eigenen Unternehmensbereich, starten. Elementar ist dann allerdings, dass auch Daten-Analysten aus anderen Unternehmensbereichen bei Bedarf auf die Daten zugreifen können. So teilen wir unsere Daten, die wir im Bereich Kommunikation sammeln, mit Daten-Analysten Siemens-weit. Das Thema Data-Governance wird hier in Zukunft immens an Bedeutung gewinnen, um zu gewährleisten, dass das gesamte Unternehmen mit den Daten aus den einzelnen Bereichen arbeiten kann und entsprechend profitiert. Eine große Bedeutung nimmt in diesem Zusammenhang auch der Schutz von personenbezogenen Daten und strategisch wichtigen Unternehmensdaten ein. Technologisch gibt es bereits Plattformen, die das Aufbauen einzelner Data-Hubs und das Teilen der Daten auf Basis von Data-Governance Gesichtspunkten unterstützen.



Schreibe einen Kommentar