banner
Nachrichtenzentrum
Inklusive Firma

Quanta-Magazin

Jul 13, 2023

1. Februar 2023

Jeffrey Fisher für Quanta Magazine

Mitwirkender Autor

1. Februar 2023

Stellen Sie sich vor, Ihr Nachbar ruft an und bittet ihn um einen Gefallen: Könnten Sie seinem Kaninchen bitte ein paar Karottenscheiben geben? Ganz einfach, sollte man meinen. Sie können sich ihre Küche vorstellen, auch wenn Sie noch nie dort waren – Karotten im Kühlschrank, eine Schublade mit verschiedenen Messern. Es ist abstraktes Wissen: Du weißt nicht genau, wie die Karotten und Messer deines Nachbarn aussehen, aber zu einer Gurke greifst du nicht mit dem Löffel.

Programme für künstliche Intelligenz können nicht mithalten. Was Ihnen wie eine einfache Aufgabe erscheint, ist für aktuelle Algorithmen ein riesiges Unterfangen.

Ein KI-geschulter Roboter kann ein bestimmtes Messer und eine Karotte finden, die in einer vertrauten Küche versteckt sind, aber in einer anderen Küche fehlen ihm die abstrakten Fähigkeiten, um erfolgreich zu sein. „Sie lassen sich nicht auf neue Umgebungen übertragen“, sagte Victor Zhong, ein Doktorand der Informatik an der University of Washington. Die Maschine versagt, weil es einfach zu viel zu lernen und einen zu großen Raum zum Erkunden gibt.

Das Problem besteht darin, dass diese Roboter – und KI-Agenten im Allgemeinen – keine Grundlage für Konzepte haben, auf denen sie aufbauen können. Sie wissen nicht, was ein Messer oder eine Karotte wirklich ist, geschweige denn, wie man eine Schublade öffnet, eines auswählt und Scheiben schneidet. Diese Einschränkung ist teilweise auf die Tatsache zurückzuführen, dass viele fortschrittliche KI-Systeme mit einer Methode namens „Reinforcement Learning“ trainiert werden, bei der es sich im Wesentlichen um Selbstlernen durch Versuch und Irrtum handelt. Mit Reinforcement Learning geschulte KI-Agenten können die Aufgabe, für die sie ausgebildet wurden, in der Umgebung, in der sie ausgebildet wurden, sehr gut ausführen. Wenn jedoch die Aufgabe oder die Umgebung geändert wird, versagen diese Systeme häufig.

Um diese Einschränkung zu umgehen, haben Informatiker damit begonnen, Maschinen wichtige Konzepte beizubringen, bevor sie sie loslassen. Es ist, als ob man ein Handbuch liest, bevor man eine neue Software verwendet: Man könnte versuchen, es auch ohne zu erkunden, aber man lernt damit viel schneller. „Menschen lernen durch eine Kombination aus Tun und Lesen“, sagte Karthik Narasimhan, Informatiker an der Princeton University. „Wir wollen, dass Maschinen das Gleiche tun.“

Neue Arbeiten von Zhong und anderen zeigen, dass die Vorbereitung eines Lernmodells auf diese Weise das Lernen in simulierten Umgebungen beschleunigen kann, sowohl online als auch in der realen Welt mit Robotern. Und es führt nicht nur dazu, dass Algorithmen schneller lernen, sondern führt sie auch zu Fähigkeiten, die sie sonst nie erlernen würden. Die Forscher möchten, dass diese Agenten zu Generalisten werden, die in der Lage sind, alles von Schach über Einkaufen bis hin zu Putzen zu lernen. Und da die Demonstrationen immer praktischer werden, glauben Wissenschaftler, dass dieser Ansatz sogar die Art und Weise verändern könnte, wie Menschen mit Robotern interagieren können.

„Es war ein ziemlich großer Durchbruch“, sagte Brian Ichter, Forscher im Bereich Robotik bei Google. „Es ist ziemlich unvorstellbar, wie weit es in anderthalb Jahren gekommen ist.“

Auf den ersten Blick ist maschinelles Lernen bereits bemerkenswert erfolgreich. Die meisten Modelle verwenden typischerweise Reinforcement Learning, bei dem Algorithmen lernen, indem sie Belohnungen erhalten. Sie beginnen völlig unwissend, aber aus Versuch und Irrtum wird schließlich Versuch und Triumph. Reinforcement-Learning-Agenten können einfache Spiele problemlos meistern.

Betrachten Sie das Videospiel Snake, in dem Spieler eine Schlange steuern, die länger wird, indem sie digitale Äpfel frisst. Sie möchten, dass Ihre Schlange die meisten Äpfel frisst, innerhalb der Grenzen bleibt und nicht in ihren immer massiger werdenden Körper gerät. Solche klaren Richtig-Falsch-Ergebnisse geben einem gut belohnten Maschinenagenten positives Feedback, sodass genügend Versuche ihn vom „Neuling“ zum Highscore führen können.

Aber nehmen wir an, die Regeln ändern sich. Vielleicht muss derselbe Agent auf einem größeren Raster und in drei Dimensionen spielen. Während sich ein menschlicher Spieler schnell anpassen könnte, ist die Maschine aufgrund zweier entscheidender Schwächen dazu nicht in der Lage. Erstens bedeutet der größere Raum, dass die Schlange länger braucht, um über Äpfel zu stolpern, und das Lernen verlangsamt sich exponentiell, wenn die Belohnungen spärlich werden. Zweitens bietet die neue Dimension eine völlig neue Erfahrung, und das verstärkende Lernen hat Schwierigkeiten, es auf neue Herausforderungen zu übertragen.

Zhong sagt, wir müssen diese Hindernisse nicht akzeptieren. „Warum ist es so, dass wir, wenn wir Schach spielen wollen“ – ein weiteres Spiel, das Reinforcement Learning beherrscht – „einen Reinforcement-Learning-Agenten von Grund auf trainieren?“ Solche Ansätze sind ineffizient. Der Agent wandert ziellos umher, bis er auf eine gute Situation stößt, beispielsweise auf ein Schachmatt, und Zhong sagt, dass es einer sorgfältigen menschlichen Planung bedarf, um dem Agenten klarzumachen, was es bedeutet, dass eine Situation gut ist. „Warum müssen wir das tun, wenn wir schon so viele Bücher darüber haben, wie man Schach spielt?“

Das liegt zum Teil daran, dass Maschinen überhaupt Schwierigkeiten hatten, die menschliche Sprache zu verstehen und Bilder zu entziffern. Damit ein Roboter visionsbasierte Aufgaben wie das Finden und Schneiden von Karotten erledigen kann, muss er wissen, was eine Karotte ist – das Bild einer Sache muss auf einem grundlegenderen Verständnis dessen basieren, was diese Sache ist. Bis vor Kurzem gab es dafür keine gute Möglichkeit, aber ein Boom bei der Geschwindigkeit und dem Umfang der Sprach- und Bildverarbeitung hat die neuen Erfolge ermöglicht.

Neue Modelle zur Verarbeitung natürlicher Sprache ermöglichen es Maschinen, im Wesentlichen die Bedeutung von Wörtern und Sätzen zu lernen – sie in Dingen in der Welt zu verankern – anstatt nur eine einfache (und begrenzte) Bedeutung wie ein digitales Wörterbuch zu speichern.

Computer Vision hat eine ähnliche digitale Explosion erlebt. Etwa 2009 wurde ImageNet als Datenbank mit kommentierten Bildern für die Computer-Vision-Forschung eingeführt. Heute beherbergt es über 14 Millionen Bilder von Objekten und Orten. Und Programme wie DALL·E von OpenAI generieren auf Befehl neue Bilder, die wie von Menschenhand geschaffen aussehen, obwohl es keinen genauen Vergleich gibt, aus dem sie ziehen könnten.

Es zeigt, dass Maschinen erst jetzt Zugriff auf genügend Online-Daten haben, um wirklich etwas über die Welt zu lernen, so Anima Anandkumar, Informatikerin am California Institute of Technology und Nvidia. Und es ist ein Zeichen dafür, dass sie wie wir aus Konzepten lernen und sie für die Generierung nutzen können. „Wir befinden uns jetzt in einem so großartigen Moment“, sagte sie. „Denn wenn wir erst einmal eine Generation haben, können wir noch viel mehr tun.“

Forscher wie Zhong kamen zu dem Schluss, dass Maschinen ihre Erkundungen nicht mehr völlig uninformiert beginnen müssten. Ausgestattet mit ausgefeilten Sprachmodellen könnten die Forscher einen Vortrainingsschritt hinzufügen, bei dem ein Programm vor seinen Versuchen und Irrtümern aus Online-Informationen lernt.

Um die Idee zu testen, verglichen er und seine Kollegen das Vortraining mit traditionellem Verstärkungslernen in fünf verschiedenen spielähnlichen Umgebungen, in denen Maschinenagenten Sprachbefehle interpretierten, um Probleme zu lösen. Jede simulierte Umgebung forderte den Maschinenagenten auf einzigartige Weise heraus. Einer bat den Agenten, Gegenstände in einer 3D-Küche zu manipulieren; Ein weiterer Pflichttext zum Erlernen einer genauen Abfolge von Aktionen im Kampf gegen Monster. Aber das komplizierteste Setting war ein echtes Spiel, das 35 Jahre alte NetHack, bei dem es darum geht, durch einen raffinierten Dungeon zu navigieren, um ein Amulett zu finden.

Für die einfachen Einstellungen bedeutete das automatisierte Vortraining einfach, die wichtigen Konzepte zu erden: Das ist eine Karotte, das ist ein Monster. Bei NetHack trainierte der Agent, indem er Menschen beim Spielen zusah und dabei von menschlichen Spielern ins Internet hochgeladene Spieldurchläufe nutzte. Diese Durchspiele mussten nicht einmal besonders gut sein – der Agent musste lediglich ein Gespür dafür entwickeln, wie sich Menschen verhalten. Der Agent sollte kein Experte werden, sondern nur ein normaler Spieler. Es würde die Intuition fördern, indem man beobachtete: Was würde ein Mensch in einem bestimmten Szenario tun? Der Agent würde entscheiden, welche Schritte erfolgreich waren, und dabei sein eigenes Zuckerbrot und die Peitsche formulieren.

„Durch das Vortraining bilden wir gute Grundlagen dafür, wie wir Sprachbeschreibungen mit Dingen in der Welt in Verbindung bringen können“, sagte Zhong. Der Agent würde von Anfang an besser spielen und beim anschließenden Verstärkungslernen schneller lernen.

Infolgedessen übertraf der vorab geschulte Agent den traditionell geschulten Agenten. „In allen fünf dieser Umgebungen erzielen wir auf breiter Front Gewinne“, sagte Zhong. Einfachere Einstellungen zeigten nur einen leichten Vorteil, aber in den komplizierten Dungeons von NetHack lernte der Agent um ein Vielfaches schneller und erreichte ein Fähigkeitsniveau, das der klassische Ansatz nicht erreichen konnte. „Möglicherweise erzielen Sie eine zehnfache Leistung, denn wenn Sie dies nicht tun, lernen Sie einfach keine gute Strategie“, sagte er.

„Diese generalistischen Agenten sind ein großer Fortschritt im Vergleich zu dem, was standardmäßiges Reinforcement Learning leistet“, sagte Anandkumar.

Ihr Team schult Agenten auch vorab, damit sie schneller lernen und so erhebliche Fortschritte beim weltweit meistverkauften Videospiel Minecraft erzielen. Es ist als „Sandbox“-Spiel bekannt, was bedeutet, dass es den Spielern einen nahezu unbegrenzten Raum bietet, in dem sie interagieren und neue Welten erschaffen können. Es ist sinnlos, eine Belohnungsfunktion für Tausende von Aufgaben einzeln zu programmieren. Stattdessen baute das Modell des Teams („MineDojo“) sein Verständnis des Spiels auf, indem es sich mit Untertiteln versehene Durchspielvideos ansah. Gutes Verhalten muss nicht kodifiziert werden.

„Wir bekommen automatisierte Belohnungsfunktionen“, sagte Anandkumar. „Dies ist der erste Benchmark mit Tausenden von Aufgaben und der Möglichkeit, verstärkendes Lernen mit offenen Aufgaben durchzuführen, die durch Textaufforderungen spezifiziert werden.“

Spiele waren eine großartige Möglichkeit zu zeigen, dass Pre-Training-Modelle funktionieren könnten, aber es handelt sich immer noch um vereinfachte Welten. Es ist viel schwieriger, Roboter für den Umgang mit der realen Welt zu trainieren, in der die Möglichkeiten praktisch unbegrenzt sind. „Wir haben die Frage gestellt: Gibt es etwas dazwischen?“ Sagte Narasimhan. Also beschloss er, online einzukaufen.

Sein Team hat WebShop erstellt. „Es ist im Grunde wie ein Einkaufsbutler“, sagte Narasimhan. Benutzer können etwas sagen wie „Geben Sie mir einen Nike-Schuh, der weiß ist und weniger als 100 US-Dollar kostet, und ich möchte, dass in den Bewertungen steht, dass er für Kleinkinder sehr bequem ist“, und das Programm findet und kauft den Schuh.

Wie bei den Spielen von Zhong und Anandkumar entwickelte WebShop eine Intuition durch Training mit Bildern und Text, dieses Mal von Amazon-Seiten. „Mit der Zeit lernt es, die Sprache zu verstehen und sie den Aktionen zuzuordnen, die es auf der Website ausführen muss.“

Auf den ersten Blick mag ein Shopping-Butler nicht so futuristisch wirken. Doch während ein hochmoderner Chatbot Sie mit einem gewünschten Sneaker verknüpfen kann, erfordern Interaktionen wie das Aufgeben einer Bestellung ganz andere Fähigkeiten. Und obwohl Ihre Alexa- oder Google Home-Lautsprecher am Bett Befehle erteilen können, sind sie auf proprietäre Software angewiesen, die vorher festgelegte Aufgaben ausführt. WebShop navigiert im Web so, wie Menschen es tun: durch Lesen, Tippen und Klicken.

„Es ist ein Schritt näher an die allgemeine Intelligenz“, sagte Narasimhan.

Lassen Sie sich das Quanta Magazine in Ihren Posteingang liefern

„Menschen lernen durch eine Kombination aus Handeln und Lesen. Wir möchten, dass Maschinen dasselbe tun“, sagte Karthik Narasimhan.

David Kelly Crow/Princeton University

Natürlich birgt die Interaktion von Robotern mit der realen Welt ihre eigenen Herausforderungen. Denken Sie zum Beispiel an eine Flasche. Sie erkennen einen an seinem Aussehen, wissen, dass er zur Aufbewahrung von Flüssigkeiten gedacht ist, und wissen, wie man ihn mit den Händen manipuliert. Können echte Maschinen jemals Worte und Bilder in eine komplexe Bewegungsintelligenz umwandeln?

Um das herauszufinden, arbeitete Narasimhan mit Anirudha Majumdar, einer Robotikerin in Princeton, zusammen. Sie brachten einem Roboterarm bei, Werkzeuge zu manipulieren, die er noch nie zuvor gesehen hatte, und trainierten ihn vorab mithilfe einer beschreibenden Sprache, die erfolgreichen Sprachmodellen entnommen war. Laut Ergebnissen, die letzten Juni auf dem Preprint-Server arxiv.org veröffentlicht wurden, lernte das Programm schneller und schnitt bei fast jedem Tool und jeder Aktion besser ab als Programme, die durch herkömmliche Erkundung lernen.

Ingenieure haben in den Robotiklabors von Google eine Bibliothek mit noch komplexeren Befehlen erstellt, die ebenfalls auf kontextbildenden Vorschulungen basieren. „Die Welt der Möglichkeiten, die man in Betracht ziehen muss, ist riesig“, sagte Karol Hausman, Forscher im Google-Robotikteam. „Also bitten wir das Sprachmodell, es für uns aufzuschlüsseln.“

Das Team arbeitete mit einem mobilen Helferroboter mit siebengelenkigem Arm, den es sprachlich trainierte. Für jeden gegebenen Befehl – ​​wie „Hilf mir, mein verschüttetes Getränk wegzuräumen“ – verwendet das Programm ein Sprachmodell, um Aktionen aus einer Bibliothek von 700 trainierten Bewegungen vorzuschlagen, wie zum Beispiel „ein Papiertuch greifen“, „die Dose aufheben“ oder „ die Dose wegwerfen. Und Hausman sagt, es erkenne seine Grenzen mit Sätzen wie „Ich bin eigentlich nicht in der Lage, es abzuwischen. Aber ich kann Ihnen einen Schwamm bringen.“ Das Team hat kürzlich Ergebnisse dieses Projekts namens SayCan veröffentlicht.

Ein weiterer Vorteil der Ausstattung von Robotern mit Sprachmodellen besteht darin, dass die Übersetzung von Synonymen und Wörtern in andere Sprachen trivial wird. Eine Person kann „drehen“ sagen, während eine andere „drehen“ sagt, und der Roboter versteht beides. „Das Verrückteste, was wir versucht haben, ist, dass es auch Emojis versteht“, sagte Fei Xia, Forscher bei Google.

SayCan ist vielleicht die bisher fortschrittlichste Demonstration sprachbasierten Lernens in der Robotik. Und Sprach- und Bildmodelle werden ständig verbessert, wodurch bessere und komplexere Vortrainingstechniken entstehen.

Aber Xia achtet darauf, die Aufregung zu zügeln. „Jemand sagte halb im Scherz, wir hätten den Moment des ‚Roboter-GPT‘ erreicht“, sagte er und bezog sich dabei auf die bahnbrechenden Sprachmodelle, die ein breites Spektrum menschlicher Befehle verstehen. „Wir sind noch nicht am Ziel und es gibt noch viel zu entdecken.“

Beispielsweise können diese Modelle falsche Antworten liefern oder fehlerhafte Maßnahmen ergreifen, die Forscher zu verstehen versuchen. Auch Roboter beherrschen die „Verkörperung“ noch nicht: Während Menschen über eine physische Intuition verfügen, die auf dem Spielen mit Spielzeug in ihrer Kindheit basiert, benötigen Roboter immer noch Interaktionen in der realen Welt, um diese Art von Intuition zu entwickeln. „Für einige Einstellungen gibt es viele unbeschriftete Demonstrationen“, sagte Zhong – denken Sie an Datenbanken mit Videospielinteraktionen wie Minecraft und NetHack. Keine Datenbank kann Robotern schnell intelligente Bewegungen beibringen.

Dennoch geht es schnell voran. Und immer mehr Forscher glauben, dass das Endergebnis eine intelligentere Robotik sein wird. Narasimhan verfolgt diese Mensch-Roboter-Entwicklung von Lochkarten bis zur nächsten Technologie. „Wir hatten Tastaturen und Mäuse und dann Touchscreens“, sagte er. Als nächstes kommt die geerdete Sprache. Für Antworten und Besorgungen sprechen Sie mit Ihrem Computer. „Dieser ganze Traum von wirklich fähigen Assistenten ist noch nicht wahr geworden“, sagte er. „Aber ich denke, dass es sehr bald passieren wird.“

Mitwirkender Autor

1. Februar 2023

Lassen Sie sich das Quanta Magazine in Ihren Posteingang liefern

Erhalten Sie Highlights der wichtigsten Nachrichten direkt in Ihren E-Mail-Posteingang

Das Quanta Magazine moderiert Kommentare, um eine fundierte, sachliche und zivile Konversation zu ermöglichen. Beleidigende, profane, eigenwerbliche, irreführende, inkohärente oder themenfremde Kommentare werden abgelehnt. Die Moderatoren sind während der regulären Geschäftszeiten (New Yorker Zeit) besetzt und können nur Kommentare entgegennehmen, die auf Englisch verfasst sind.

Sparse Rewards Gaming das System über Spiele hinaus, die die Bots lernen