Zabudnuté heslo?
Prihlásenie

ChatGPT trénuje robotického psa, aby chodil na fit lopte

Autor:
Roman Mališka
Zverejnené:
15. 5. 2024
Hodnotenie:
Už ste hlasovali.

Štvornohý robot, ktorý balansuje na fit lopte vyzerá ako zábavný experiment, ktorý však v podstate dokazuje, že umelé inteligencie ako je model GPT-4 dokážu trénovať roboty na vykonávanie zložitých úloh v reálnom svete oveľa efektívnejšie ako to zvládame my ľudia.

DrEureka je nový softvérový balík s otvoreným zdrojovým kódom, s ktorým sa môže v podstate hrať ktokoľvek, a ktorý sa používa na trénovanie robotov na vykonávanie úloh v reálnom svete pomocou veľkých jazykových modelov (LLM – Large Language Model), ako je ChatGPT 4. Je to takzvaný systém „sim-to-reality“, čo znamená, že učí roboty vo virtuálnom prostredí s použitím simulovanej fyziky pred ich implementáciou do reálneho sveta.

Dr. Jim Fan z Eureka Research, jeden z vývojárov systému DrEureka, pritom nasadil štvornohého robota Unitree Go1 do akcie, aby predviedol schopnosti tohto modelu umelej inteligencie. Unitree Go1 je pritom dobre podporovaný robot s otvoreným zdrojovým kódom, čo sa hodí, pretože aj s umelou inteligenciou sú robotické zvieratá stále náchylné na poškodenie pádom.

„Dr“ v DrEureka znamená „Domain randomization,“ čiže náhodné nastavenie premenných, ako je trenie, hmotnosť, tlmenie, ťažisko atď. v simulovanom prostredí. Pomocou niekoľkých podnetov do LLM, ako je ChatGPT, môže umelá inteligencia napísať kód, ktorý vytvorí systém odmien / trestov na trénovanie robota vo virtuálnom priestore, kde 0 = neúspech a čokoľvek vyššie ako 0 je výhra. Čím vyššie skóre, tým lepšie.

Robotický pes sa drží na fit lopte lepšie ako kovboj na býkovi na rodeu.

Môže vytvárať parametre minimalizovaním a maximalizovaním bodov zlyhania / poruchy v oblastiach, ako sú napríklad odrazivosť lopty, sila motora, stupeň voľnosti končatín a tlmenie. LLM nemá problém vytvárať ich v obrovských objemoch, aby tréningový systém mohol bežať súčasne.

Po každej simulácii sa model GPT môže zamyslieť aj nad tým, ako dobre si virtuálny robot počínal a ako sa môže zlepšiť. Prekročenie alebo porušenie parametrov, napríklad prehriatím motora alebo pokusom o artikuláciu končatiny nad rámec jej možností, bude mať za následok 0.

Podnet na napísanie kódu LLM si vyžaduje bezpečnostné inštrukcie. Tím zistil, že GPT sa bude snažiť o čo najlepší výkon a v podstate bude v simulácii „podvádzať“ bez patričného vedenia. To je v simulácii v poriadku, ale v reálnom svete by mohlo dôjsť k prehriatiu motorov alebo nadmernému predĺženiu končatín, čo by robota poškodilo. Výskumníci tento jav nazývajú ako „degeneratívne správanie“.

V jednom z príkladov svojho neprirodzeného správania virtuálny robot zistil, že sa môže pohybovať rýchlejšie tak, že zapichne bok do zeme a pomocou troch nôh sa posúva po podlahe, pričom ťahá svoj bok. Hoci to bola výhoda v simulácii, keď sa o to robot pokúsil v reálnom svete, vyústilo to do neproduktívneho výsledku.

Tréningový systém DrEureka založený na GPT v reálnom svete hravo porazil roboty trénované ľuďmi.

Výskumníci preto dali modulu GPT pokyn, aby bol mimoriadne opatrný, keďže robot sa bude testovať v reálnom svete. V reakcii na to GPT vytvoril bezpečnostné funkcie pre také veci, ako je plynulá akcia, orientácia trupu, výška trupu a zabezpečenie toho, aby motory robota neboli preťažené. Ak by robot podvádzal a porušil tieto parametre, jeho funkcia odmeňovania by ponúkla nižšie skóre. Bezpečnostné funkcie zmierňujú degeneratívne a neprirodzené správanie, ako napríklad spomínané zbytočné ťahy panvou.

Umelá inteligencia DrEureka pritom dokázala poraziť ľudí pri tréningu robotického pohybu. Zaznamenala 34 % náskok v rýchlosti pohybu vpred a 20 % v prejdenej vzdialenosti v reálnom zmiešanom teréne. Podľa výskumníkov je to všetko o štýle učenia. Ľudia inklinujú k výučbe v štýle učebných osnov. Rozdeľujú úlohy na malé kroky a snažia sa ich vysvetliť izolovane, zatiaľ čo model GPT má schopnosť efektívne učiť všetko a naraz. Toho jednoducho nie sme schopní.

Umelá inteligencia DrEureka je prvá svojho druhu. Tvorcovia sa domnievajú, že by mohli ešte viac zlepšiť simuláciu, ak by mohli poskytnúť modulu GPT spätnú väzbu z reálneho sveta. V súčasnosti sa všetky simulátorové tréningy vykonávajú na základe údajov z vlastných systémov robota, ale ak by GPT mohol skutočne vidieť, čo sa pokazilo, prostredníctvom reálneho videokanála, a nie len čítať chyby pri vykonávaní v záznamoch robota, mohol by oveľa efektívnejšie vylepšiť svoje pokyny.

Neskrátený záznam, v ktorom sa robotický pes prechádza na fit lopte bez jedinej zastávky, si môžete pozrieť vo videu na začiatku článku alebo priamo TU.

Robotický pes si musel prejsť množstvom testov.

Podobné články