Zum Inhalt springen

Kann künstliche Intelligenz einen Eisbären von einem Dosenöffner unterscheiden?

Wie intelligent ist die Form der künstlichen Intelligenz, die als tief lernende Computernetzwerke bekannt ist, und wie genau ahmen diese Maschinen das menschliche Gehirn nach? Sie haben sich in den letzten Jahren stark verbessert, haben aber noch einen langen Weg vor sich .

Unterstützer haben ihre Begeisterung für die Nutzung dieser Netzwerke zum Ausdruck gebracht, um viele individuelle Aufgaben und sogar Jobs zu erledigen, die traditionell von Menschen ausgeführt werden. Die Ergebnisse der fünf Experimente in dieser Studie haben jedoch gezeigt, dass es einfach ist, Netzwerke zu täuschen, und die Methode der Netzwerke zur Identifizierung von Objekten mithilfe von Computervision unterscheidet sich erheblich vom menschlichen Sehen.

„Die Maschinen haben gravierende Einschränkungen, die wir verstehen müssen“, sagte Philip Kellman, ein angesehener Professor für Psychologie an der UCLA und ein leitender Autor der Studie. „Wir sagen, ‚warte nicht so schnell.'“

Die Bildverarbeitung habe Nachteile, sagte er. Im ersten Experiment zeigten die Psychologen eines der besten Netzwerke für das tiefe Lernen, VGG-19, Farbbilder von Tieren und Objekten. Die Bilder waren verändert worden. Zum Beispiel wurde die Oberfläche eines Golfballs auf einer Teekanne angezeigt; Zebrastreifen wurden auf ein Kamel gelegt; und das Muster einer blauen und roten Argyle-Socke wurde auf einem Elefanten gezeigt. Der VGG-19 hat seine Top-Auswahl und nur für fünf von 40 Objekten den richtigen Artikel als erste Wahl gewählt.

„Wir können diese künstlichen Systeme ziemlich leicht täuschen“, sagte der Co-Autor Hongjing Lu, Professor für Psychologie an der UCLA. „Ihre Lernmechanismen sind viel weniger ausgefeilt als der menschliche Geist.“

VGG-19 war der Meinung, dass der Elefant eine 0-prozentige Chance hatte, und die Chance, dass die Teekanne nur eine 0,41-prozentige Wahrscheinlichkeit war, eine Teekanne war. Die erste Wahl für die Teekanne war ein Golfball, der zeigt, dass das künstliche Intelligenznetz die Textur eines Objekts mehr als seine Form betrachtet, sagte der Hauptautor Nicholas Baker, ein Psychologiestudent an der UCLA.

„Es ist absolut vernünftig, dass der Golfball auftaucht, aber es ist beunruhigend, dass die Teekanne nicht irgendwo unter den Auswahlmöglichkeiten steht“, sagte Kellman. „Es nimmt keine Form an.“

Menschen identifizieren Objekte hauptsächlich anhand ihrer Form, sagte Kellman. Die Forscher vermuteten, dass die Computernetzwerke eine andere Methode verwenden.

Im zweiten Experiment zeigten die Psychologen Bilder von Glasfiguren für VGG-19 und ein zweites Netzwerk für tiefes Lernen, genannt AlexNet. VGG-19 zeigte bei allen Experimenten, in denen beide Netzwerke getestet wurden, eine bessere Leistung. Beide Netzwerke wurden darauf trainiert, Objekte anhand einer Bilddatenbank namens ImageNet zu erkennen.

Beide Netzwerke konnten jedoch die Glasfiguren nicht identifizieren. Weder VGG-19 noch AlexNet identifizierten die Figuren als ihre erste Wahl. Eine Elefantenfigur wurde von beiden Netzwerken mit einer Wahrscheinlichkeit von fast 0 Prozent als Elefant eingestuft. Die meisten der Antworten waren für die Forscher rätselhaft, beispielsweise die Wahl der „Website“ von VGG-19 für „Gans“ und „Dosenöffner“ für „Eisbär“. Im Durchschnitt stufte AlexNet die richtige Antwort auf Platz 328 von 1.000 Entscheidungen ein.

Die Maschinen machen sehr unterschiedliche Fehler vom Menschen„, sagte Lu.

Im dritten Experiment zeigten die Forscher 40 schwarz umrandete Zeichnungen mit Bildern in Weiß sowohl für VGG-19 als auch für AlexNet. Diese ersten drei Experimente sollten herausfinden, ob die Geräte Objekte anhand ihrer Form identifizierten.

Die Netzwerke haben wiederum schlechte Arbeit geleistet, um Gegenstände wie einen Schmetterling, ein Flugzeug und eine Banane zu identifizieren.

Ziel der Experimente war es nicht, die Netzwerke zu betrügen, sondern zu lernen, ob sie Objekte auf ähnliche Weise wie Menschen oder auf andere Weise identifizieren, sagte der Co-Autor Gennady Erlikhman, ein Postdoktorand der Psychologie der UCLA.

Im vierten Experiment zeigten die Forscher beiden Netzwerken 40 Bilder, diesmal in durchgehendem Schwarz.

Bei den schwarzen Bildern waren die Netzwerke besser und produzierten für etwa 50 Prozent der Objekte die richtige Objektbezeichnung unter den ersten fünf Auswahlmöglichkeiten. VGG-19 beispielsweise bewertete einen Abakus mit einer 99,99-prozentigen Chance, ein Abakus zu sein, und eine Kanone mit einer 61-prozentigen Chance, eine Kanone zu sein. Im Gegensatz dazu glaubten VGG-19 und AlexNet, dass ein weißer Hammer (schwarz umrahmt) weniger als 1% Chance hatte.

Die Forscher glauben, dass die Netzwerke mit den schwarzen Objekten viel besser abschneiden, weil den Elementen, wie Kellman es nennt, „interne Konturen“ genannt werden, die die Maschinen verwirren.

Im fünften Versuch haben die Forscher die Bilder verschlüsselt, um sie schwieriger zu erkennen, aber sie haben Teile der Objekte erhalten. Die Forscher wählten sechs Bilder aus, die das VGG-19-Netzwerk ursprünglich richtig gemacht hatte, und verwürfelten sie. Menschen fanden diese schwer zu erkennen. VGG-19 hatte fünf der sechs Bilder richtig und war am sechsten knapp.

Im Rahmen des fünften Experiments testeten die Forscher zusätzlich zu VGG-19 UCLA-Studenten. Zehn Schülern wurden Objekte in schwarzen Silhouetten gezeigt – einige waren schwer zu erkennen und einige nicht entschlüsselt, einige nur für eine Sekunde und einige, solange die Schüler sie sehen wollten. Die Schüler identifizierten 92 Prozent der unverschlüsselten Objekte und 23 Prozent der verschlüsselten Objekte mit einer Sekunde, um sie zu sehen. Wenn die Schüler die Silhouetten so lange sehen konnten, wie sie wollten, identifizierten sie 97 Prozent der unverschlüsselten Objekte und 37 Prozent der verwürfelten Objekte korrekt.

Welche Schlussfolgerungen ziehen die Psychologen?

Menschen sehen das gesamte Objekt, während die Netzwerke der künstlichen Intelligenz Fragmente des Objekts erkennen.

„Diese Studie zeigt, dass diese Systeme die richtige Antwort auf die Bilder erhalten, auf die sie trainiert wurden, ohne die Form zu berücksichtigen“, sagte Kellman. „Für den Menschen ist die Gesamtform für die Objekterkennung vorrangig, und das Identifizieren von Bildern anhand der Gesamtform scheint in diesen tiefen Lernsystemen überhaupt nicht zu sein.“

Es gibt Dutzende von Deep-Learning-Maschinen, und die Forscher glauben, dass ihre Ergebnisse auf diese Geräte zutreffen.


Christoph Lampert, Professor am Institute of Science and Technology (IST) Austria in Klosterneuburg: Künstliche Intelligenz ist keine Magie. Es sind Techniken, die in der Informatik über viele Jahrzehnte entwickelt wurden und mittlerweile so gut funktionieren, dass man sie in praktischen Anwendungen einsetzen kann. Maschinelles Lernen ist eine Art, einem Computer zu erklären, was er tun soll. Man gibt ihm Beispiele von dem, was man erreichen will – etwa deutsche Sätze mit ihrer englischen Übersetzung. Der Computer findet durch einen Suchprozess selbst Regeln, wie man diese Sätze übersetzt, und macht daraus eine Software. Man erspart sich, dass ein Programmierer das alles erledigen muss. Deep Learning ist ein Begriff, der in den letzten Jahren für eine spezielle Art des maschinellen Lernens populär wurde. Dabei werden künstliche neuronale Netze benutzt, die stark dem menschlichen Gehirn nachempfunden sind – allerdings in sehr abstrakter Weise.

Quelle: https://www.derstandard.at/story/2000120023879/mathematiker-wie-kann-ein-computer-lernen-ohne-zu-vergessen (20-09-22)