Über die Schwierigkeit, ein analytisches Unternehmen zu sein

Im immer sehr interessanten „Stats with Cats“-Blog erschien vor kurzem der Beitrag „It’s Hard to be a Data Driven Organization„. Ich kann ihn sowohl Managern als auch anderen Data Scientists sehr empfehlen.

Der Autor spricht viele Themen an, die ich gerade in Österreich auch schon gesehen habe: Insbesondere das Nicht-Glauben an die Aussagekraft von Daten und statistischen Methoden und die Überzeugung, die eigene Erfahrung würde zu besseren intuitiven Entscheidungen führen als eine datengestützte Vorgehensweise.

Auch als Data Scientist muß man sich manchmal dem Management stellen und die Ergebnisse der eigenen Arbeit erklären. In diesem Kontext trifft man dann eventuell auf Gegenmeinungen von Leuten, die das politische Spiel im Unternehmen besser beherrschen (weil es ihre Hauptbeschäftigung ist?). Es kann schwierig sein, dem genug entgegenzusetzen, weil man in der Organisation doch eine niedrigere Rolle einnimmt (trotz der häufig besseren Ausbildung und einer vergleichbaren Gehaltsstufe).

Wenn ein Unternehmen sich als daten-gesteuert ansehen will, ist es die Verantwortung der Geschäftsleitung, durch die politischen Argumente hindurchzusehen und die Arbeit der Data Scientists entsprechend zu bewerten.

Data Science und Mathematik

Auf Heise Developer erschien heute ein Artikel „Data Scientist – ein neues Berufsbild für die Big-Data-Welt„. Relevante Aspekte wie Methoden, Werkzeuge und Ausbildungsmöglichkeiten werden darin thematisiert.

Mit einer Aussage bin ich jedoch nicht ganz einverstanden: der Formel „Data Science = Mathematik + Informatik + Domänenwissen“.

Informatik (wenn auch nur Teile davon) kann ich absolut bestätigen. Das Wissen um Datenbanksysteme, Systemarchitekturen, Programmiersprachen, Textkodierungssysteme usw. ist für uns Data Scientists ohne Frage essenziell.

Domänenwissen über alle möglichen Themen kann man als Freelancer gar nicht haben. Es zählt vielmehr die Fähigkeit (und der Wille), sich mit offenen Augen durch die Welt zu bewegen und sich fürs aktuelle Projekt tatsächlich in die Problemfelder der Aufgabe einarbeiten zu können.

Was mich aber in der „Formel“ am meisten stört, ist die Betonung von Mathematik. Statistik ist nur ein sehr kleiner Ausschnitt der Mathematik, vielleicht nicht einmal ein besonders typischer. Und es ist die Statistik, die als Grundlage von Data Mining und Predictive Analytics gilt. Andere Teile von Mathematik (Graphentheorie etwa) sind sicherlich nützlich für abgegrenzte Teilaufgaben (also durchaus für eine Spezialisierung geeignet, wenn man Interesse daran hat), aber im Zweifelsfall sollte man sich lieber intensiv mit Statistik beschäftigen als den gleichen Zeitaufwand auf allgemeine Mathematik aufzuteilen.

Sicher kann es nützlich sein, mehr Mathematik zu wissen. Aber genauso könnte man von Wissen in den Bereichen Betriebs- und Volkswirtschaft, Linguistik oder Physik profitieren. Nach meiner Erfahrung ist Vielseitigkeit ganz wichtig.

Viele Data-Mining-Methoden und Vorgehensweisen lassen sich nicht mehr vollständig mit Mathematik beschreiben. Wir wissen aber, wie wir die Ergebnisse trotzdem in der Praxis validieren und einsetzen können.

Die Unterscheidung zwischen Statistik und Mathematik sieht man auch daran, daß in fast jedem Text über Data Science die Sprachen R (spezialisiert auf Statistik) und Python (mit der Erweiterung um statistische Funktionen), aber selten die klassischen mathematischen Sprachen wie Octave/Matlab erwähnt werden. (Das schließt natürlich nicht aus, daß jemand diese Werkzeuge kennt und erfolgreich nutzt.)

Data Science ist heute so weit fortgeschritten, daß High-Level-Werkzeuge wie RapidMiner, Pentaho und Datameer fast alle Aspekte ohne Programmierung und vor allem ohne mathematische Formeln abdecken. Um mit ihnen erfolgreich predictive analytics zu betreiben, sind gewisse statistische Kenntnisse wichtig. Für Außenstehende mag das von Mathematik nicht unterscheidbar sein, aber Tatsache ist, daß man weitgehend ohne Formeln und mathematische Beweise verstehen kann, wie die Verfahren arbeiten und wo ihre Vor- und Nachteile liegen.

In der RapidMiner-Schulung kommen jedenfalls kaum Formeln vor, trotzdem können die Teilnehmer danach komplexe Data-Mining-Prozesse auf ihre Daten anwenden und aus ihnen erfolgreich Vorhersagen generieren. Sie kennen die Anwendbarkeit und die Vor- und Nachteile von einzelnen Algorithmen (ohne sie mathematisch Schritt für Schritt erklärt zu bekommen) und können sie in der Praxis einsetzen – und darum geht es in der Data Science.

Vielleicht ist der Science-Aspekt im Artikel auch ein bißchen zu kurz gekommen. In der Wissenschaft geht es auch darum, skeptisch zu bleiben und die Ergebnisse am besten nochmal unabhängig zu überprüfen. (Da hilft wieder speziell die Statistik.)

Die Ausbildung ist natürlich ein Thema. Ich bin wirklich gespannt, ob die neuen und kommenden Data-Science-Ausbildungsmöglichkeiten auch in der Praxis verwendbar sind, oder ob vielleicht doch eher die Erfahrung nach wie vor mehr zählt. Jene, die aktuell schon als Data Scientist arbeiten, so wie ich, mußten das ja auch irgendwo lernen und dabei vielleicht Umwege gehen. Unsere Begeisterung für Datenanalyse hat uns (vielleicht auch unbewußt) in diese Richtung gesteuert und dazu geführt, uns in den notwendigen Themen zu vertiefen. Daraus folgt für mich, daß auch in Zukunft Leute eine Chance haben werden, auch wenn sie nicht die konkrete (Data Science genannte) Ausbildung gemacht haben.