Zabudnuté heslo?
Prihlásenie

ChatGPT trénuje robotického psa, aby chodil na fit lopte

Autor:
Roman Mališka
Zverejnené:
15. 5. 2024
Hodnotenie:
Už ste hlasovali.

Štvornohý robot, ktorý balansuje na fit lopte vyzerá ako zábavný experiment, ktorý však v podstate dokazuje, že umelé inteligencie ako je model GPT-4 dokážu trénovať roboty na vykonávanie zložitých úloh v reálnom svete oveľa efektívnejšie ako to zvládame my ľudia.

DrEureka je nový softvérový balík s otvoreným zdrojovým kódom, s ktorým sa môže v podstate hrať ktokoľvek, a ktorý sa používa na trénovanie robotov na vykonávanie úloh v reálnom svete pomocou veľkých jazykových modelov (LLM – Large Language Model), ako je ChatGPT 4. Je to takzvaný systém „sim-to-reality“, čo znamená, že učí roboty vo virtuálnom prostredí s použitím simulovanej fyziky pred ich implementáciou do reálneho sveta.

Dr. Jim Fan z Eureka Research, jeden z vývojárov systému DrEureka, pritom nasadil štvornohého robota Unitree Go1 do akcie, aby predviedol schopnosti tohto modelu umelej inteligencie. Unitree Go1 je pritom dobre podporovaný robot s otvoreným zdrojovým kódom, čo sa hodí, pretože aj s umelou inteligenciou sú robotické zvieratá stále náchylné na poškodenie pádom.

„Dr“ v DrEureka znamená „Domain randomization,“ čiže náhodné nastavenie premenných, ako je trenie, hmotnosť, tlmenie, ťažisko atď. v simulovanom prostredí. Pomocou niekoľkých podnetov do LLM, ako je ChatGPT, môže umelá inteligencia napísať kód, ktorý vytvorí systém odmien / trestov na trénovanie robota vo virtuálnom priestore, kde 0 = neúspech a čokoľvek vyššie ako 0 je výhra. Čím vyššie skóre, tým lepšie.

Robotický pes sa drží na fit lopte lepšie ako kovboj na býkovi na rodeu.

Môže vytvárať parametre minimalizovaním a maximalizovaním bodov zlyhania / poruchy v oblastiach, ako sú napríklad odrazivosť lopty, sila motora, stupeň voľnosti končatín a tlmenie. LLM nemá problém vytvárať ich v obrovských objemoch, aby tréningový systém mohol bežať súčasne.

Po každej simulácii sa model GPT môže zamyslieť aj nad tým, ako dobre si virtuálny robot počínal a ako sa môže zlepšiť. Prekročenie alebo porušenie parametrov, napríklad prehriatím motora alebo pokusom o artikuláciu končatiny nad rámec jej možností, bude mať za následok 0.

Podnet na napísanie kódu LLM si vyžaduje bezpečnostné inštrukcie. Tím zistil, že GPT sa bude snažiť o čo najlepší výkon a v podstate bude v simulácii „podvádzať“ bez patričného vedenia. To je v simulácii v poriadku, ale v reálnom svete by mohlo dôjsť k prehriatiu motorov alebo nadmernému predĺženiu končatín, čo by robota poškodilo. Výskumníci tento jav nazývajú ako „degeneratívne správanie“.

V jednom z príkladov svojho neprirodzeného správania virtuálny robot zistil, že sa môže pohybovať rýchlejšie tak, že zapichne bok do zeme a pomocou troch nôh sa posúva po podlahe, pričom ťahá svoj bok. Hoci to bola výhoda v simulácii, keď sa o to robot pokúsil v reálnom svete, vyústilo to do neproduktívneho výsledku.

Tréningový systém DrEureka založený na GPT v reálnom svete hravo porazil roboty trénované ľuďmi.

Výskumníci preto dali modulu GPT pokyn, aby bol mimoriadne opatrný, keďže robot sa bude testovať v reálnom svete. V reakcii na to GPT vytvoril bezpečnostné funkcie pre také veci, ako je plynulá akcia, orientácia trupu, výška trupu a zabezpečenie toho, aby motory robota neboli preťažené. Ak by robot podvádzal a porušil tieto parametre, jeho funkcia odmeňovania by ponúkla nižšie skóre. Bezpečnostné funkcie zmierňujú degeneratívne a neprirodzené správanie, ako napríklad spomínané zbytočné ťahy panvou.

Umelá inteligencia DrEureka pritom dokázala poraziť ľudí pri tréningu robotického pohybu. Zaznamenala 34 % náskok v rýchlosti pohybu vpred a 20 % v prejdenej vzdialenosti v reálnom zmiešanom teréne. Podľa výskumníkov je to všetko o štýle učenia. Ľudia inklinujú k výučbe v štýle učebných osnov. Rozdeľujú úlohy na malé kroky a snažia sa ich vysvetliť izolovane, zatiaľ čo model GPT má schopnosť efektívne učiť všetko a naraz. Toho jednoducho nie sme schopní.

Umelá inteligencia DrEureka je prvá svojho druhu. Tvorcovia sa domnievajú, že by mohli ešte viac zlepšiť simuláciu, ak by mohli poskytnúť modulu GPT spätnú väzbu z reálneho sveta. V súčasnosti sa všetky simulátorové tréningy vykonávajú na základe údajov z vlastných systémov robota, ale ak by GPT mohol skutočne vidieť, čo sa pokazilo, prostredníctvom reálneho videokanála, a nie len čítať chyby pri vykonávaní v záznamoch robota, mohol by oveľa efektívnejšie vylepšiť svoje pokyny.

Neskrátený záznam, v ktorom sa robotický pes prechádza na fit lopte bez jedinej zastávky, si môžete pozrieť vo videu na začiatku článku alebo priamo TU.

Robotický pes si musel prejsť množstvom testov.