Massachusetts Institute of Technology (MIT) zaprezentował w zeszłym tygodniu nową metodę szkolenia robotów, która wykorzystuje modele generatywnej sztucznej inteligencji (AI). Nowa technika polega na łączeniu danych z różnych dziedzin i modalności oraz ujednolicaniu ich we wspólny język, który może być następnie przetwarzany przez duże modele językowe (LLM). Badacze z MIT twierdzą, że dzięki tej metodzie mogą powstać roboty ogólnego przeznaczenia, które będą w stanie wykonywać szeroki zakres zadań bez konieczności indywidualnego szkolenia każdej umiejętności od podstaw.
Naukowcy z MIT opracowują inspirowaną sztuczną inteligencją technikę szkolenia robotów
W newsroomie postMIT szczegółowo opisał nowatorską metodologię szkolenia robotów. Obecnie nauczenie robota określonego zadania jest zadaniem trudnym, ponieważ wymagana jest duża ilość danych symulacyjnych i rzeczywistych. Jest to konieczne, ponieważ jeśli robot nie zrozumie, jak wykonać zadanie w danym środowisku, będzie miał trudności z przystosowaniem się do niego.
Oznacza to, że do każdego nowego zadania potrzebne są nowe zestawy danych obejmujące każdą symulację i scenariusz ze świata rzeczywistego. Następnie robot przechodzi okres szkoleniowy, podczas którego optymalizowane są działania oraz usuwane błędy i usterki. W rezultacie roboty są na ogół szkolone w zakresie określonego zadania, a wielofunkcyjne roboty widziane w filmach science fiction nie były widziane w rzeczywistości.
Jednak nowa technika opracowana przez naukowców z MIT ma na celu ominięcie tego wyzwania. w papier opublikowanych w preprintowym czasopiśmie internetowym arXIv (uwaga: nie jest recenzowany), naukowcy podkreślili, że generatywna sztuczna inteligencja może pomóc w rozwiązaniu tego problemu.
W tym celu dane z różnych dziedzin, takich jak symulacje i rzeczywiste roboty, oraz różne modalności, takie jak czujniki wizyjne i kodery położenia ramion robota, zostały ujednolicone we wspólny język, który może być przetwarzany przez model sztucznej inteligencji. W celu ujednolicenia danych opracowano także nową architekturę nazwaną Heterogeneous Pretrained Transformers (HPT).
Co ciekawe, główna autorka badania, Lirui Wang, absolwentka elektrotechniki i informatyki (EECS), stwierdziła, że inspirację dla tej techniki czerpano z modeli sztucznej inteligencji, takich jak GPT-4 OpenAI.
Naukowcy dodali model LLM zwany transformatorem (podobny do architektury GPT) w środku swojego systemu, który przetwarza zarówno dane wejściowe dotyczące wzroku, jak i propriocepcji (poczucie własnego ruchu, siły i pozycji).
Naukowcy z MIT twierdzą, że ta nowa metoda może być szybsza i tańsza w szkoleniu robotów w porównaniu z metodami tradycyjnymi. Wynika to głównie z mniejszej ilości danych specyficznych dla zadania wymaganych do szkolenia robota w różnych zadaniach. Co więcej, badanie wykazało, że metoda ta okazała się skuteczniejsza od zera niż szkolenie od zera o ponad 20 procent zarówno w symulacji, jak i w eksperymentach w świecie rzeczywistym.