
A Theme Landscape for Tagged Data
The main project that I did in my time at the Ludwig Boltzmann Institute Media.Art.Research is called Theme Landscape.
It is a tool for visualizing tagged data. For the prototype, data from the Prix Ars Electronica has been used. You can explore interactive artworks that are placed in a landscape according to their similarity. Also the artwork-icons show the tags of the artworks.
-> Read more about the project at the visualization showcase.

Hans Rosling shows the best stats you've ever seen
Hans Rosling gibt in seinem TED talk von 2006 über Weltgesundheit und Demographie einen spannenden Einblick, wie beeindruckend informativ Datenvisualisierung sein kann. Er zeigt anhand von öffentlich zugänglichen Datensätzen, dass die Welt sich seit 1963 stark verändert hat und es nicht mehr “die 3. Welt” gibt, die leider immer noch in unseren Köpfen existiert. Dieses 30 min Video (auf englisch) wird diese Sichtweise verändern. Garantiert. Mehr…
Using naked numbers to tell stories might just be the first great art form of the 21st Century. (aus: londonist.com)
Was ist Visual Data Mining?
Visual Data Mining ist Data Mining mit Hilfe von Bildern. Es sind Bilder, die komplexe Daten darstellen und von einem Menschen gelesen werden können. Sie enstehen unter Verwendung von Methoden der Informationsvisualisierung.
Visual Data Mining kombiniert die visuellen Fähigkeiten des Menschen mit den analytischen der Technik.

Verschiedene Visualisierungsmethoden aus "Mapping the Archive"
Die Ergebnisse eines Data Mining Prozesses werden von klassischen Data Mining Tools visuell dargestellt. Insofern ist Visual Data Mining vielleicht grundsätzlich nichts Neues, jedoch werden hier Potentiale nicht ausgeschöpft.
Oft ist anfangs nur sehr wenig über die Daten bekannt. Wie viele Datensätze gibt es? Wie viele unterschiedliche Informationsobjekte, wie hängen sie zusammen? Welche Attribute gibt es? Sind die Daten vollständig und konsistent? Die Ziele der Datenexploration können daher eventuell nicht genau spezifiziert werden.
Durch Visualisierung der Ausgangsdaten kann ein erster Überblick geschaffen werden. Daraus ergeben sich erste Fragestellungen, und ein passendes Data Mining Modell kann abgeleitet und auf die Daten angewendet werden. Auch die Visualisierung der Zwischenschritte hilft dem Benutzer zu erkennen, ob er sich auf dem richtigen Weg befindet.
Zu beurteilen, ob eine Visualisierungsmethode auf die vorliegenden Daten sinnvoll anwendbar ist, ist oft nicht einfach. Man muss wissen, für welche Datenstrukturen die Methode geeignet ist, und dann die eigenen Daten daraufhin prüfen oder evaluieren. Bisher habe ich aber keinerlei umfassende Kategorisierung von Datenstrukturen gefunden. Und auch die Autoren von Vis-Methoden gehen kaum auf die Voraussetzungen ein, um die Methode anzuwenden. Und schließlich fehlen Tools, die Daten (typischerweise in Datenbanken) auf ihre Struktur untersuchen. Mehr…
Kohonen Map, auch SOM (Self Organizing Map). Neben MDS eine weitere Möglichkeit, multivariate (multidimensionale) Daten auf zwei Dimensionen abzubilden. Also prima geeignet für die Visualisierung von quantitativen als auch von qualitativen Daten. Dabei wird ein neuronales Netzwerk in der Lernphase in vielen Durchgängen trainiert, die neuen Datensätze bestehenden Koordinaten (genauer: Vektoren) in einem Raster zuzuordnen. Dabei wird die Ähnlichkeit der Gewichtungen zwischen Datensatz und Vektor verglichen, und die Vektoren auch noch angepasst.
Interessant ist, dass mit der Kohonen Map auch Cluster gebildet werden können. Mir ist nur nicht klar, ob das Cluster über alle Dimensionen sind, oder man dafür eine Dimension auswählen muss.
Kritik: Der Kohonen Algorithmus basiert stark auf der Anpassung der Parameter in unmittelbarer Umgebung und verliert schnell das große Ganze aus dem Blick.
Beispiele: generation5 JDK, netzspannung.org – Semantic Map, Allographic fraglet codebooks for writer identification
Quellen: On global self-organizing maps
Exploration, Erkundung, Erforschung von Datensätzen ist meist ergebnisoffen und erfordert eine interaktive Vorgehensweise. Der Analyst braucht Vorkenntnisse in Datenanalyse, und muss lernen die komplexe Software zu bedienen und die Visualisierung richtig zu deuten. Verwandte Begriffe sind: Exploratory data analysis, Visual Exploration.
Das Gegenteil ist representational visualization, auch illustrative visualization oder Infografiken, da geht es darum eine These zu veranschaulichen, oft verwendet in Präsentationen oder in Zeitschriften und Artikeln.
Bei den meisten Informationsvisualisierungen auf visualcomplexity handelt es sich eher um explorative Visualisierungen bzw. Interfaces, wobei es hier eher um eine Tendenz als um eine kategorische Trennung geht.
Todo: Beispiele von Methoden & Tools.

Aus einem Tutorial auf talend.com
Extract, Transform, Load (ETL) bezeichnet in der Informatik einen Prozess, um Daten aus mehreren Datenquellen mit ggf. unterschiedlichen Strukturen in einer Zieldatenbank zu vereinigen. Dieser Vorgang wird in drei Schritten vollzogen, aus denen sich die Bezeichnung ETL ableitet:
- Extraktion (Extract) der relevanten Daten aus verschiedenen Quellen
- Transformation (Transform) der Daten in das Schema und Format der Zieldatenbank
- Laden (Load) der Daten in die Zieldatenbank
[Quelle: Wikipedia]
Und bevor du nun anfängst, selbst ein ETL-Skript zu schreiben: es gibt da ein Open Source Tool. Talend bietet ein Klick-mich Wysiwyg-Interface und Unterstützung für so ziemlich alle Datenbanksysteme.

Ein Mosaic Plot zeigt das gesamte Datenset, in Quadrate aufgeteilt je nach Zugehörigkeit zu den Kategoriewerten. Das besondere ist, dass x- und y-Achse mehrfach verwendet werden, indem die Balken von Kategorie 1 nochmals längs geteilt werden. Somit sind maximal 4 Kategorien sinnvoll unterzubringen.
Eine gute Einführung gibt es bei childrensmercy.org.
Geeignet für: Nominale Daten. Keine Mehrfachzuweisung innerhalb einer Kategorie . Maximal 4 Kategorien, mit maximal 5-10 Werten.

Satzbasierte Konfiguration (engl. sentence-based configuration) lässt sich gut anpassen und skalieren, denn die Parameter bekommen eine Bedeutung durch den sie umgebenden Text. Dieser kann selbst wieder andere Parameter enthalten.
Eine konventionelle Konfigurationsdialogbox hingegen versucht jeden Parameter isoliert anzuzeigen, was zu einem einschüchternden und verwirrenden Parameterchaos führen kann.
(sinngemäß ins Deutsche übersetzt aus: MagicInk)
Ich mag satzbasierte Konfiguration und kenne sie von dem Regelassistenten von Outlook. Manchmal eignen sich vollständige Sätze eben viel besser als lange Listen (oder ambitionierte Visualisierungen) dazu, komplexe Sachverhalte auszudrücken.

AL von murderdeathkitty.net
Das Grundprinzip kennt wahrscheinlich jeder: ein Künstler nimmt als Input Ton oder Bild oder sonst etwas, das sich in Zahlen ausdrücken lässt. Diese Zahlen werden durch einen geheimnisvollen Algorithmus gejagt, und der Output ist wieder Bild oder Ton oder ähnliches. Das nennt sich Generative Art. Wobei ich mich hier nur auf diejenigen Werke beziehe, die konkrete Daten, also z.B. Netzwerkströme oder den Puls des Besuchers als Input verwenden. Heraus kommen oft sehr ästhetisch faszinierende Werke, jedoch es ist nie nachvollziehbar, wie sie entstehen. Ich meine: man kann da vermutlich Jahre drauf starren, und wird nie etwas über die Inputdaten herausbekommen. Mehr…