Bilder verraten mehr als Worte

Forschende der ETH haben die ganze Stadt Zürich allein aus Bilddaten modelliert. Das zeigt, wie viel Wissen in Bildern steckt und was künstliche Intelligenz aus ihnen extrahieren kann.

Eva Wolfangel
Drucken
Blick auf Limmat und Grossmünster mit überlagerten Varcity-Daten. (Bild: ETHZ)

Blick auf Limmat und Grossmünster mit überlagerten Varcity-Daten. (Bild: ETHZ)

Wissenschafter von der ETH Zürich haben in einem grossangelegten Projekt in den vergangenen fünf Jahren Millionen teilweise öffentlich verfügbare Fotos und Videos ihrer Heimatstadt gesammelt, um daraus ein Modell der Stadt zu erstellen. Ein Modell, das allein aus Bildern erstaunlich viel Wissen extrahiert: Aus den Daten des Varcity-Projektes geht beispielsweise dank künstlicher Intelligenz hervor, aus welchem Material Fassaden sind, wie viele Fenster ein Haus oder welche Funktion ein Gebäude hat. Es zeigt zudem, wie viele Personen an einem Tag ein Haus betreten, wo gerade ein Stau entsteht oder wo sich Menschen sammeln.

Die Fotos bleiben privat

Die Wissenschafter betonen, dass ihr System nach dem Motto «Privacy by design» entwickelt wurde: Keinerlei Fotos gelangen an die Öffentlichkeit, sondern die Daten werden – zum Teil in Echtzeit – in ein Modell umgerechnet. Erst dieses wird dann für die Stadtplanung und andere Zwecke verwendet. Anders als bei Google Street View also, wo Menschen und Häuser auf Wunsch nachträglich gepixelt wurden, kommen solche Informationen, die einzelne Personen identifizieren könnten, gar nicht erst in das Endprodukt.

Alle Projekte dieser Art, von denen Varcity wohl das umfangreichste ist, kämpfen mit den Tücken der künstlichen Intelligenz, die immer wieder unvorhersehbare Fehler produziert. Die Zürcher Forscher setzen deshalb auf zwei Ebenen an: Sie haben ihr System einerseits mittels maschinellen Lernens trainiert, indem sie ihm beispielsweise eine Vielzahl an Fotos von Fenstern gaben und dieses selbst daraus lernte, was ein Fenster ausmacht. Das haben sie andererseits durch einige programmierte Regeln ergänzt: beispielsweise dass man ein Fenster auch an den verschiedenen Spiegelungen im Glas erkennen kann, die sich je nach Blickwinkel verändern. Im Datensatz gibt es von den meisten Gebäuden Fotos aus verschiedenen Perspektiven. «Bildverarbeitung ist ein noch junges Feld, auf dem Fehler passieren», sagt ETH-Forscher Hayko Riemenschneider, «wir haben verschiedene Methoden kombiniert, damit sie sich ausgleichen.»

Anwendungen für Stadtplaner und Architekten

Aus allen verfügbaren Informationen, wie der Quelle des Bildes und der Häufigkeit eines Motivs, lernt das Varcity-Modell zudem selbst, ob es sich um eine Sehenswürdigkeit handelt oder um ein Wohnhaus. Betreten viele Menschen ein Haus? Dann ist es wohl ein öffentliches Gebäude. Hat es einen Turm? Dann ist es vermutlich eine Kirche. Allein aus Bildern lässt sich vieles schliessen.

Dank dem Modell können beispielsweise Veränderungen aller Art geplant werden: etwa wie es sich auf die Umgebung auswirkt, wenn ein Haus um einige Stockwerke erhöht wird. Wo wirft es Schatten? Wie viel Licht kommt durch die Fenster des Nachbarhauses zurzeit und danach? Auch für die Verkehrsplanung ist ein solches Modell nützlich: Künftig könnten beispielsweise Ampeln geschaltet werden abhängig von der aktuellen Verkehrslage und auf Grundlage der Echtzeitberechnung für einen optimalen Verkehrsfluss in der gesamten Stadt. Erste Ausgründungen des Projektes arbeiten beispielsweise an einer Software, die freie Parkplätze erkennt, oder an einem Service für Versicherungen, der Gebäudeschäden detektiert.