Big Data - Nur ein neuer Hype? - OdiSys IT-Consulting

Nichts ist so beständig wie die Veränderung! Das wusste schon Heraklit um 500 v. Chr.

Und so ist es nicht verwunderlich, wenn stetig neue Themen durch den Blätterwald der Medien rauschen. Oft stehen sie nur für platzfüllende Modeerscheinungen, die schnell wieder in Vergessenheit geraten. Zuweilen befinden sich aber auch Schätzchen darunter, die werthaltig sind und langfristig unser Leben verändern.

»Big Data« scheint zu dieser Themenkategorie zu gehören, in vieler Munde und ebenso vielfältig, oft ungenau interpretiert. In welchem Verhältnis steht dieser neue Trend zu den etablierten Techniken der Business Intelligence?

Big Data – Mehr als ein großer Datenhaufen!

Ein »Patent« auf den Begriff »Big Data« kann niemand für sich in Anspruch nehmen. Er tauchte mit der Jahrtausendwende zunehmend in Foren, Publikationen und auf Tagungen auf.

Folglich existiert hier auch keine verbindliche Definition. Relativ unumstritten ist jedoch eine Klassifikation durch Gartner im Jahr 2011. Darin wird ein 3-V-Modell vorgestellt, welches die Herausforderungen des Datenwachstums beschreibt. Diese ergeben sich aus dem ansteigenden Volumen (engl. volume) der Daten, bei wachsender Datenbereitstellungs- und Verarbeitungsgeschwindigkeit (engl. velocity), verbunden mit einer zunehmenden Vielfalt der Datenformate (engl.variety).

Anschaulicher als die abstrakte Definition des Begriffs sind aber typische Anwendungsfälle, welche diesem Schlagwort zuzuordnen sind.

Volume: Facebook als der WEB 2.0-Repräsentant und das aktuell größte soziale Netzwerk hat die Grenze von einer Milliarde Nutzer deutlich überschritten. Jeden Monat agieren über 600 Millionen Benutzer mit ihren mobilen Endgeräten in und mit diesem Netzwerk. Dabei generieren sie pro Minute über 650.000 neue Inhalte unterschiedlicher Art und verteilen ca. 35.000 »Likes«. Parallel hierzu werden weltweit pro Minute E-Mails und Chat-Nachrichten im dreistelligen Millionenbereich versandt, mit stetigem Wachstum.

Es ist leicht nachvollziehbar, dass dieses Volumen, dessen Wachstum sowie die darauf ausgeführten Zugriffe rund um den Globus für klassische Datenhaltungssysteme eine gewaltige Herausforderung darstellen. Dies gilt umso mehr, als dass die daraus resultierenden Kosten, nicht den aus den Daten zu generierenden Nutzen überschreiten dürfen.

Velocity: Der Begriff der Geschwindigkeit ist in doppelter Hinsicht von Bedeutung. Er bezieht sich einmal auf die Entstehungsfrequenz der Daten und zum anderen auf die Notwendigkeit einer taktkonformen Verarbeitung. Globale WEB 2.0-Applikationen wie Facebook und Google sind hier nur erste Vorboten eines breiten Datenstroms, den es zeitnah zu prozessieren gilt. Je mehr das Internet-of-Things (IoT) Realität werden wird, umso häufiger werden Maschinen und deren Sensoren als Quellen der Daten in Erscheinung treten, die faktisch eine Echtzeitverarbeitung erfordern.

Variety: Werden Daten in einer hohen Vielzahl verarbeitet, ist die Wahrscheinlichkeit hoch, dass diese auch vielgestaltig sind. Die Vielgestaltigkeit ist hier insbesondere in Abgrenzung zu den klassischen Datenverarbeitungs- und -haltungssystemen zu sehen, die eine mehr oder weniger bekannte und fixe Datenstruktur voraussetzen. Die bekanntesten Vertreter sind hier die relationalen Datenbanken. Treten Quellen des IoT in Erscheinung, steigert sich die Formatvarianz bereits deutlich. Sollen textuelle Quellen ausgewertet werden, also humanogene Medien wie WEB-Sites, Chats, Mails, Bücher, Telefonate etc., so driftet die Formatvarianz gegen unendlich.

Viel hilft nicht immer viel!

Publikationen jüngeren Datums verweisen auf eine weitere Herausforderung, welcher im Big Data-Ansatz ihren Niederschlag findet: Veracity, die Glaubhaftigkeit von Informationen, wird zum vierten V in der Runde. Sie steht in engem Kontext zu den bereits existierenden Kategorien, denn größere Datenvolumina, bei hoher Strukturvarianz und hoher Bereitstellungsfrequenz bedeutet nicht automatisch »bessere Information«. Sie implizieren zugleich das wachsende Fehlerrisiko, welchem begegnet werden muss, um qualitativ hochwertige Informationen zu gewinnen.

Dem so beschriebenen Problem-Raum können nun lösungsorientierte Technologieansätze gegenübergestellt werden. So leiten sich die sogenannten Big Data-Technologien ab. Zum Teil nehmen sie den eigentlichen Begriff als Synonym für sich in Anspruch.

Da insbesondere das Problem wachsender Datenvolumina bereits über einen sehr langen Zeitraum relevant ist, existieren hierfür umfangreiche, auch klassische, Lösungsansätze. Die Vertreter dieser Technologien versuchen nicht selten, Big Data mehr oder weniger wörtlich übersetzt für sich als effekthaschendes Buzzword zu missbrauchen, um alten Wein in neuen Schläuchen zu verkaufen. Dabei ist dann aber in den meisten Fällen die Skalierbarkeit der Lösung nicht oder nur eingeschränkt möglich.

Träume werden wahr

Werden die heute verfügbaren »echten« Big Data-Techniken und Technologien hinsichtlich ihres Kerns einer Analyse unterworfen, zeigt sich, dass auch diese auf einem altbekannten Grundkonzept beruhen, dem »Massively parallel computing«. Das Internet als global verfügbares, leistungsfähiges digitales Kommunikationsnetzwerk und massenhaft verfügbare Standardcomputer legen die Grundlage, diese Ideen zu verwirklichen.

Die Pioniere des WEB 2.0 (Facebook, Google, Amazon) haben diese Infrastrukturkomponenten konsequent genutzt, um hierauf aufbauend ein Parallel-Computing-Ökosystem zu entwickeln. Es bildet das technologische Rückgrat für das von in diesen Unternehmen gelebte Geschäftsmodell. Alle drei Unternehmen folgen dabei gleichartigen Grundprinzipien:

Sie zielen auf globale Massenmärkte,
an denen sie stetig und schnell wachsende Anteile gewinnen,
was sie mit einer konsequenten Digitalisierungsstrategie realisierbar machen.

Die Bereitstellung einer adäquaten Rechenleistung zu vertretbaren Kosten ist für diese Geschäftsmodelle der entscheidende Erfolgsfaktor. Sie muss im Anfangsstadium der Unternehmung kostenbedingt überschaubar bleiben und zugleich mit zunehmendem Erfolg nahezu unendlich wachsen können. Ohne die Basistechnologie, die wir heute unter dem Begriff Big Data zusammenfassen, wären Firmen wie Facebook, Google und Amazon also nicht denkbar.

In etwas mehr als einer Dekade entstand so ein schwer durchschaubares Sammelsurium an Frameworks und Tools, die sich spezifischer Aufgaben innerhalb einer der nachfolgenden Bereiche widmen:

der Datenspeicherung,
der Datenverarbeitung,
der Entgegennahme von Daten,
der Daten- und Systemsicherheit sowie
dem Prozessmanagement.

Zielten die hier bereitgestellten Komponenten ursprünglich auf die Erfordernisse batch-gestützter Anwendungsfälle, wie sie für Google und Amazon in den Anfängen relevant waren, so gewinnen heute zunehmend Anforderungen der echtzeitnahen Datenverarbeitung an Relevanz, getrieben durch die Geschäftsfelder von Facebook, Twitter und dem sich etablierenden »Internet of Things«.

Business Intelligence

Der Begriff »Business Intelligence« ist zirka zehn Jahre älter als »Big Data«. Anfang der neunziger Jahre wurde er vermehrt gebraucht. Auch hier kann niemand ein Begriffspatent oder DIE Wahrheit für sich beanspruchen.

Management-Informations-Systeme

»Business Intelligence« steht für die konsequente Fortentwicklung eines sehr alten Ansatzes aus den 60er Jahren, den »Management Informationssystemen«.

Bereits damals wurde sichtbar, dass in den Daten der operativen Systeme wichtige Informationen für die Unternehmensführung verborgen sind. Diese waren nur in geeigneter Form zu extrahieren und mittels Informationsverdichtung aus der operativen in eine strategische Sicht zu transformieren. Es war die Zeit der zentralisierten Großrechnersysteme. Und so lag es nahe, den Versuch zu unternehmen, das gesamte operative Geschäft in ein zentrales Operatives System abzubilden. SAP mit seinem R2-System kann hierfür als Synonym verstanden werden. Management-Informations-Systeme wurden und werden bis heute als integraler Bestandteil des operativen Systems verstanden (siehe SAP-Business Warehouse).

Data Warehouse

Mit fortschreitender Computerisierung des wirtschaftlichen Lebens zeigte sich jedoch bald, dass es nicht DAS eine Business-System im Unternehmen gab. Hierfür waren die Anforderungen schlichtweg zu variantenreich und variabel. Die Wahrheit eines Unternehmens versteckte sich also in einer Vielzahl unterschiedlicher Quellen, die es in eine gemeinsame, konsolidierte Unternehmenssicht zu überführen galt. Hieraus entwickelte sich in den 80er Jahren der Gedanke des Data Warehouse.

Business Intelligence

Mit den Data Warehouses entstand ein neuartiger Informationsschatz, deutlich umfangreicher und komplexer als es zu Zeiten der Management-Informations-Systeme denkbar war. Zugleich standen den Anwendern wesentlich leistungsfähigere Verarbeitungseinheiten in Form moderner Desktop-PCs am individuellen Arbeitsplatz zur Verfügung. Es ist deshalb nicht verwunderlich, dass das Konzept der analytischen Informationsverarbeitung weiterentwickelt wurde und das vormals primär relational geprägte Denk- und Implementierungsmuster durch den multidimensionalen Ansatz ergänzt wurde. Abgrenzend wurde hierfür der Begriff »Business Intelligence« wiederentdeckt, der eigentlich schon 1958 durch Hans Peter Luhn, einem Informatiker der IBM, geprägt wurde. Anfang der 90er Jahre etablierte sich der Begriff als Synonym für die Gesamtheit von Strategien, Prozessen und Techniken, um aus verteilten, inhomogenen Unternehmens-, Markt- und Wettbewerbsdaten steuerungsrelevante Informationen über den Status, die Potenziale und die Perspektiven zu erzeugen. Im täglichen Sprachgebrauch reduziert sich der Begriff oft auf die Sammlung diverser Analyse- und Reporting-Werkzeuge, die zum täglichen Instrumentarium des Managements und ihrer Stabsorgane (z.B. Controlling) gehören.

Corporate Performance Management

Stand bei allen bisherigen Ansätzen die Gewinnung steuerungsrelevanter Informationen im Fokus, so findet seit der Jahrtausendwende mit Einführung des Begriffs »Corporate Performance Management« der eigentliche Zweck der Analyse, die Leistungsfähigkeit des Unternehmens zu optimieren, seine Berücksichtigung. Indem die bisher vorhandenen Funktionen »Messen« und »Bewerten« durch die Funktion »Beeinflussen« ergänzt werden, baut sich faktisch ein Regelkreis auf, der die Performance des Unternehmens steuert.

Hinter dem Begriff verbergen sich, wie schon im Falle von »Business Intelligence«, ein betriebswirtschaftlich begründetes methodisches Instrumentarium sowie die informationstechnischen Hilfsmittel, die diese Methoden stützen. Auf technischer Ebene sind die Planungssysteme das wichtigste neue Element, mit welchem das Management seine steuernde Einflussnahme realisiert und so den Regelkreis schließt.

Big Data versus Business Intelligence

In den Medien existieren viele Versuche, Big Data und Business Intelligence inhaltlich voneinander abzugrenzen. Allein die Häufigkeit dieses Unterfangens weist darauf hin, dass der Außenstehende hier wohl Ähnlichkeiten vermutet oder gar erkennt. An dieser Stelle soll der Fokus deshalb nicht auf der Abgrenzung liegen, sondern vielmehr beleuchtet werden, wo Berührungspunkte zwischen beiden Ansätzen existieren, welche die Grundlage für eine wechselseitige Bereicherung darstellen können.

Die Gemeinsamkeiten gründen sich in der sehr ähnlichen Ausgangslage, die zur Etablierung der hinter den Big Data wie auch Business-Intelligence stehenden Methoden und Technologien führten.

Auf der Suche nach der Wahrheit

In beiden Fälle war es der Versuch, einem Informationsdefizit Rechnung zu tragen. In der Historie der Business-Intelligence-Systeme waren es die in den operativen IT-Systemen von Unternehmen verborgenen Steuerungsinformationen, die gehoben werden sollten. Im Falle von Big Data ging es anfänglich primär um das Gewinnen von Orientierung in den Weiten des WEBs.

Beide Ansätze begegnen dieser Herausforderung mit einem ähnlichen Grundkonzept: Sie selektieren eine Teilmenge von Daten aus der Basismenge in den Quellen, verdichten bzw. transformieren diese und überführen sie in eine geeignete Präsentationsform, die deren Interpretation durch den Menschen ermöglicht. Unter Umständen wird die Präsentation durch Elemente ergänzt, welche die Navigation in Informationsräumen gestatten.

Die Unterschiede in der konkreten Ausgestaltung der Lösungsansätze liegen in den spezifischen Anforderungen der primären Anwendungs-Domains und dem abweichenden Stand der Technik zum Einführungszeitpunkt begründet. Die unterschiedlich lange Historie ist zugleich der Grund für Abweichungen im technischen Reifegrad vorhandener Lösungen.

Neue Grenzen ausloten

Beim Aufbau von Business-Intelligence-Lösungen kann heute auf eine ausgereifte technische Infrastruktur und entsprechende Standards zurückgegriffen werden. Dies gilt über den gesamten Technologie-Stack, von der Datenakquisition, über deren Transformation bis hin zur Präsentation. Langjährige Einsatzerfahrungen haben eine stabile Referenzarchitektur für derartige Lösungen entstehen lassen. Im Kern fußt sie auf dem erprobten Ansatz der zentralisierten Informationsverarbeitung. Dies gilt sowohl bei der Datenaufbereitung als auch deren Präsentation. Man könnte den Eindruck gewinnen: »Eine ideale Welt. Alle sind glücklich!«

Diese Aussage trifft auch zu, solange nicht die Grenzen des zentralisierten Ansatzes erreicht werden. Dies ist zu befürchten, wenn

der Gradient des Datenzuwachses zu groß wird,
der zu analysierende Datenbestand die Leistungsgrenzen der zentralisierten Infrastruktur erreicht,
die Zeitfenster für die Informationsaufbereitung und -bereitstellung ausgeschöpft sind,
die Lösungen auch zur operativen Steuerung eingesetzt werden sollen und die Latenz der Informationen deshalb stark sinken muss,
die Datenquellen nicht mehr wohlstrukturiert sind und
außerordentliche Anforderungen an die Ausfallsicherheit der Lösung gestellt werden.

Es werden stetig Versuche unternommen, die Grenzen der zentralisierten Datenverarbeitung zu erweitern. Die Datenbankhersteller leisten hierbei einen herausragenden Beitrag, aktuell mit In-Memory- und spaltenorientierten Datenbanken. Dies darf aber nicht darüber hinwegtäuschen, dass auch hier wieder neue Grenzen, nur weitergefasste, entstehen. Im Regelfall erfordert zudem die Grenzerweiterung ein Redesign der betroffenen Applikation.

Über den Tellerrand schauen

Die Stärken der Big Data-Infrastruktur liegen genau dort, wo der »alte«, ursprüngliche Business-Intelligence-Ansatz seine Schwächen aufweist und zugleich stehen die Stärken von Business-Intelligence für die Schwächen von Big Data:

Big Data-Technologie beruht konsequent auf dem Ansatz des Massiv-Parallel-Computings und der nahezu unbegrenzten Skalierbarkeit. Leistungsgrenzen sind damit faktisch aufgehoben. Wachsenden Anforderungen kann immer mit der »Macht des Schwarms« begegnet werden. Dies gilt sowohl für die Bereitstellung der entsprechenden Speicherkapazitäten als auch der Verarbeitungs-Power.
Die Systeme sind »hochelastisch«. Das bezieht sich auf deren Flexibilität im Umgang mit steigenden Anforderungen (Anpassbarkeit) ebenso wie auf die Robustheit bei Komponentenausfällen.
Die Verarbeitung von Informationen, ohne oder mit variabler technischer Struktur, gehört zum »Kern-Geschäft« von Big Data Lösungen. Dabei darf aber nicht übersehen werden, dass die hierfür erforderlichen Algorithmen aktuell nicht Out-of-the-Box verfügbar oder einfach »zusammenklickbar« sind. Hier ist vielmehr massiv programmiertechnische Handarbeit erforderlich. Die Big Data-Infrastruktur stellt hierfür nur die parallel wirkende Laufzeitumgebung bereit.

Pioniergeist ist gefragt

Bei aller Begeisterung bezüglich Big Data dürfen die im Vergleich zur althergebrachten Business-Intelligence-Technologie vorhandenen Nachteile nicht übersehen werden:

Big Data ist jung und hat folglich nicht den gewohnten Reifegrad, den Software im breiten produktiven Einsatz haben sollte. Der Umgang mit dieser Technologie ist deshalb aufwendig und erfordert ein erhebliches Maß an Experimentierfreude.
Big Data setzt technologisch auf den Ansatz des parallelen und verteilten Computings. Dieser ist strukturell komplexer als jener der zentralen, sequenziellen Verarbeitung. Die Erstellung und der Betrieb eines komplexeren Systems ist immer mit höheren Aufwendungen verbunden. Zugleich steigt auch noch das Risiko für Implementierungsfehler.
Der technologische Fokus der wichtigen Big Data-Akteure liegt zumeist in den Bereichen Datenspeicherung und -verarbeitung. Im Vergleich hierzu ist das gebotene Funktionsspektrum zur Informationspräsentation eher schwach ausgeprägt. Dies kann bereits an der Zahl verfügbarer Frameworks und Tools festgemacht werden. Sicher ist dies der Tatsache geschuldet, dass leistungsfähige und komplexe Frontends für die Protagonisten der Szene eher hinderlich waren. Google war in seinen Anfängen im Wettbewerb mit dem Hauptkonkurrenten Yahoo eben genau wegen der simplen Gestaltung seines Frontends so erfolgreich.

Wir sind also gut beraten, wenn wir Big Data- und Business-Intelligence-Technologien als Geschwister verstehen. Sie erblickten zu unterschiedlichen Zeiten das Licht der Welt, jeweils den aktuellen Bedürfnissen und Möglichkeiten folgend. Neben aller Konkurrenz beherbergen sie aber ein großes Potenzial der gegenseitigen Befruchtung, weil sie in vielen ihrer Stärken und Schwächen komplementär zueinander aufgestellt sind. Für die etablierte Data-Warehouse-Technologie der Business-Intelligence- und Corporate-Performance-Systeme bedeutet dies, dass bisher als unlösbar geltende Herausforderungen der Praxis nun lösbar werden, wenn technologische Ansätze der Big Data-Welt mit den althergebrachten Data-Warehouse-Techniken kombiniert werden und so faktisch ein Data-Warehouse 2.0 entsteht.