Tableau – mächtiges Desktop-Tool
Nachdem ich bisher nur mit Tableau Public ein wenig gespielt habe, wollte ich mit möglichst wenig Aufwand einen Dashboard-Prototypen für Reportingdaten erstellen. Die Entscheidung fiel auf Tableau, und hier sind meine Erfahrungen nach einer recht intensiven zweiwöchigen Evaluierung von Tableau Desktop in Kombination mit dem Tableau Server. Mein Fazit:
- Pro: Sehr mächtig und vor allem eine sehr intuitive Benutzeroberfläche
- Con: Grenzen bei der Automatisierung bzw. Integration
Was kann Tableau?
Tableau Desktop kann aus verschiedenen Datenquellen lesen, diese nach Bedarf transformieren, also z.B. aggregieren, und die ausgewählte Datensicht in dafür geeigneten Charttypen darstellen. Folgende Charttypen werden unterstützt:
Mehr…
IV10 in London & mein Paper
[portfolio_slideshow timeout=4000]
Ende Juli war ich auf der IV10, der großen Infovis Konferenz, die dieses Jahr in London stattfand.
Dort habe ich mit einer Präsentation mein Paper vorgestellt: A Theme Landscape for Tagged Data. Damit ist dieses wissenschaftliche Werk aus meiner Zeit am Boltzmann Institut für Medien.Kunst.Forschung jetzt endlich offiziell publiziert!
Auf Anfrage schicke ich das Paper gerne per Mail zu.
In den 3 Tagen der Konferenz gab es natürlich eine Menge interessanter Präsentationen von Infovis Wissenschaftlern aus der ganzen Welt. Besonders gefallen hat mir die Keynote von Mikael Jern, in der er den eXplorer for advanced Statistical Visualization vorstellte. Dieses Tools bietet ein Dashboard für geografisch-statistische Daten und beeindruckt durch seinen ausgereiften Funktionsumfang und die benutzerfreundliche Oberfläche. Auch gibt es verschiedene Versionen online, z.B. der OECD Factbook eXplorer mit 256 bereits vorgeladenen zeitbasierten Indikatoren für OECD Länder. Das muss ich mir noch mal genauer anschauen!
A Theme Landscape for Tagged Data
Mein wichtigstes & liebstes Projekt in meiner Zeit am Ludwig Boltzmann Institut Media.Art.Research war die Theme Landscape.
Es ist ein Tool zur Visualisierung von getaggten Daten. Für den Prototypen haben wir Daten vom Prix Ars Electronica verwendet. Man kann damit Werke der Interaktiven Kunst entdecken und Zusammenhänge erkennen. Die Werke wurden anhand ihrer relativen Ähnlichkeit in eine Landschaft platziert – umso ähnlicher zwei Werke sind, umso näher liegen sie beieinander. Zusätzlich zeigen die Icons die Tags der Werke.
Das Tool ist online im Visualization Showcase des Instituts, dort gibt es auch noch mehr Infos.
Spannender Daten-Krimi
Hans Rosling gibt in seinem TED talk von 2006 über Weltgesundheit und Demographie einen spannenden Einblick, wie beeindruckend informativ Datenvisualisierung sein kann. Er zeigt anhand von öffentlich zugänglichen Datensätzen, dass die Welt sich seit 1963 stark verändert hat und es nicht mehr “die 3. Welt” gibt, die leider immer noch in unseren Köpfen existiert. Dieses 30 min Video (auf englisch) wird diese Sichtweise verändern. Garantiert. Mehr…
Visual Data Mining
Using naked numbers to tell stories might just be the first great art form of the 21st Century. (aus: londonist.com)
Was ist Visual Data Mining?
Visual Data Mining ist Data Mining mit Hilfe von Bildern. Es sind Bilder, die komplexe Daten darstellen und von einem Menschen gelesen werden können. Sie enstehen unter Verwendung von Methoden der Informationsvisualisierung.
Visual Data Mining kombiniert die visuellen Fähigkeiten des Menschen mit den analytischen der Technik.
Die Ergebnisse eines Data Mining Prozesses werden von klassischen Data Mining Tools visuell dargestellt. Insofern ist Visual Data Mining vielleicht grundsätzlich nichts Neues, jedoch werden hier Potentiale nicht ausgeschöpft.
Oft ist anfangs nur sehr wenig über die Daten bekannt. Wie viele Datensätze gibt es? Wie viele unterschiedliche Informationsobjekte, wie hängen sie zusammen? Welche Attribute gibt es? Sind die Daten vollständig und konsistent? Die Ziele der Datenexploration können daher eventuell nicht genau spezifiziert werden.
Durch Visualisierung der Ausgangsdaten kann ein erster Überblick geschaffen werden. Daraus ergeben sich erste Fragestellungen, und ein passendes Data Mining Modell kann abgeleitet und auf die Daten angewendet werden. Auch die Visualisierung der Zwischenschritte hilft dem Benutzer zu erkennen, ob er sich auf dem richtigen Weg befindet.
Kategorisierung von Datenstrukturen
Zu beurteilen, ob eine Visualisierungsmethode auf die vorliegenden Daten sinnvoll anwendbar ist, ist oft nicht einfach. Man muss wissen, für welche Datenstrukturen die Methode geeignet ist, und dann die eigenen Daten daraufhin prüfen oder evaluieren. Bisher habe ich aber keinerlei umfassende Kategorisierung von Datenstrukturen gefunden. Und auch die Autoren von Vis-Methoden gehen kaum auf die Voraussetzungen ein, um die Methode anzuwenden. Und schließlich fehlen Tools, die Daten (typischerweise in Datenbanken) auf ihre Struktur untersuchen. Mehr…
Kohonen Map
Kohonen Map, auch SOM (Self Organizing Map). Neben MDS eine weitere Möglichkeit, multivariate (multidimensionale) Daten auf zwei Dimensionen abzubilden. Also prima geeignet für die Visualisierung von quantitativen als auch von qualitativen Daten. Dabei wird ein neuronales Netzwerk in der Lernphase in vielen Durchgängen trainiert, die neuen Datensätze bestehenden Koordinaten (genauer: Vektoren) in einem Raster zuzuordnen. Dabei wird die Ähnlichkeit der Gewichtungen zwischen Datensatz und Vektor verglichen, und die Vektoren auch noch angepasst.
Interessant ist, dass mit der Kohonen Map auch Cluster gebildet werden können. Mir ist nur nicht klar, ob das Cluster über alle Dimensionen sind, oder man dafür eine Dimension auswählen muss.
Kritik: Der Kohonen Algorithmus basiert stark auf der Anpassung der Parameter in unmittelbarer Umgebung und verliert schnell das große Ganze aus dem Blick.
Beispiele: generation5 JDK, netzspannung.org – Semantic Map, Allographic fraglet codebooks for writer identification
Quellen: On global self-organizing maps
Exploration vs. Representation
Exploration, Erkundung, Erforschung von Datensätzen ist meist ergebnisoffen und erfordert eine interaktive Vorgehensweise. Der Analyst braucht Vorkenntnisse in Datenanalyse, und muss lernen die komplexe Software zu bedienen und die Visualisierung richtig zu deuten. Verwandte Begriffe sind: Exploratory data analysis, Visual Exploration.
Das Gegenteil ist representational visualization, auch illustrative visualization oder Infografiken, da geht es darum eine These zu veranschaulichen, oft verwendet in Präsentationen oder in Zeitschriften und Artikeln.
Bei den meisten Informationsvisualisierungen auf visualcomplexity handelt es sich eher um explorative Visualisierungen bzw. Interfaces, wobei es hier eher um eine Tendenz als um eine kategorische Trennung geht.
Todo: Beispiele von Methoden & Tools.
Extract, Transform, Load (ETL)
Extract, Transform, Load (ETL) bezeichnet in der Informatik einen Prozess, um Daten aus mehreren Datenquellen mit ggf. unterschiedlichen Strukturen in einer Zieldatenbank zu vereinigen. Dieser Vorgang wird in drei Schritten vollzogen, aus denen sich die Bezeichnung ETL ableitet:
- Extraktion (Extract) der relevanten Daten aus verschiedenen Quellen
- Transformation (Transform) der Daten in das Schema und Format der Zieldatenbank
- Laden (Load) der Daten in die Zieldatenbank
[Quelle: Wikipedia]
Und bevor du nun anfängst, selbst ein ETL-Skript zu schreiben: es gibt da ein Open Source Tool. Talend bietet ein Klick-mich Wysiwyg-Interface und Unterstützung für so ziemlich alle Datenbanksysteme.




