Neuveriteľné univerzálne roboty zvládnu domáce práce namiesto nás
- Autor:
- Roman Mališka
- Zverejnené:
- 8. 11. 2024
- Hodnotenie:
- Už ste hlasovali.
Rozvíjajúca sa startup spoločnosť Physical Intelligence nemá záujem stavať roboty, no namiesto toho má tím na mysli niečo lepšie: napájanie hardvéru neustále sa učiacim všeobecným „mozgom“ softvéru umelej inteligencie, takže existujúce stroje budú schopné autonómne vykonávať čoraz väčšie množstvo úloh, ktoré si vyžadujú presné pohyby a zručnosť. A to vrátane domácich prác.
Za posledný rok bolo predstavených viacero pokročilejších humanoidov a stroje postavené na špeciálne úlohy na montážnych linkách. Stále však čakáme na robota, ktorý bude užitočný aj pre bežných spotrebiteľov a mohol by im pomáhať s domácimi prácami.
Ale možno tam budeme čoskoro. Spoločnosť Physical Intelligence so sídlom v americkom San Franciscu odhalila svoj všeobecný model umelej inteligencie pre robotiku, ktorý dokáže umožniť existujúcim strojom vykonávať rôzne úlohy. V tomto prípade vyberanie bielizne zo sušičky a skladanie oblečenia, jemné balenie vajec do nádoby, mletie kávy a ďalšie úlohy. Nie je ťažké si predstaviť, že tento systém bude v budúcnosti dokáže vysávať, skladať bielizeň, vyberať riad z umývačky riadu, ustlať posteľ, pozerať do chladničky a špajze, katalogizovať obsah a vymýšľajú plán na večeru a možno ju aj navariť.
S touto víziou spoločnosť Physical Intelligence odhaľuje svoj „základný model robota na všeobecné použitie“ známy ako π0 (pi-nula).
„Veríme, že toto je prvý krok smerom k nášmu dlhodobému cieľu vyvinúť umelú fyzickú inteligenciu, aby používatelia mohli jednoducho požiadať roboty, aby vykonali akúkoľvek úlohu, ktorú chcú, rovnako ako môžu požiadať veľké jazykové modely (LLM) a asistentov chatbotov,“ vysvetľuje spoločnosť. „Rovnako ako LLM, aj náš model je trénovaný na širokých a rôznorodých údajoch a môže sa riadiť rôznymi textovými pokynmi. Na rozdiel od LLM zahŕňa obrázky, text a akcie a získava fyzickú inteligenciu tréningom na stelesnených skúsenostiach z robotov, pričom sa učí priamo vytvárať nízkoúrovňové motorové príkazy prostredníctvom novej architektúry môže ovládať množstvo rôznych robotov a môže byť buď vyzvaný na vykonanie požadovanej úlohy, alebo môže byť doladený tak, aby sa špecializoval na náročné aplikačné scenáre.“
Spoločnosť Physical Intelligence vo svojom výskume ukazuje, ako môže hardvér vyškolený umelou inteligenciou vykonávať rôzne úlohy vyžadujúce rôzne úrovne obratnosti a pohybov. Celkovo základný model vykonal 20 úloh, pričom všetky si vyžadovali rôzne zručnosti a manipulácie.
„Naším cieľom pri výbere týchto úloh nie je vyriešiť žiadnu konkrétnu aplikáciu, ale začať poskytovať nášmu modelu všeobecné pochopenie fyzických interakcií. – počiatočný základ pre fyzickú inteligenciu,“ poznamenáva tím.
Univerzálne roboty dokážu viac ako len odborne postaviť tehlovú stenu a keďže sú schopní sa učiť, budú schopní prispôsobiť sa rôznym výzvam vo fyzickom svete a budú mať súbor neustále sa vyvíjajúcich zručností.
Model pi-nula používa predbežné školenie s modelom videnia v jazyku (VLM) na internete s prispôsobením toku na synchronizáciu svojich pohybov s učením umelej inteligencie. Jej predbežné školenie zahŕňalo 10 000 hodín „údajov obratnej manipulácie“ zo siedmich rôznych konfigurácií robotov, ako aj 68 úloh. Bol to doplnok k existujúcim súborom údajov o manipulácii s robotmi od OXE, DROID a Bridge.
„Obratná robotická manipulácia vyžaduje pi-nulu na výstup príkazov motora pri vysokej frekvencii, až 50-krát za sekundu,“ poznamenáva tím. „Aby sme zabezpečili túto úroveň obratnosti, vyvinuli sme novú metódu na rozšírenie vopred vyškolených VLM o výstupy nepretržitej akcie prostredníctvom prispôsobenia toku, čo je variant modelov difúzie. Počnúc rôznymi údajmi o robotoch a VLM vopred vyškolenými na údajoch v internetovom rozsahu trénujeme náš model prispôsobenia vízie, jazyka a akcie, ktorý môžeme následne trénovať na vysokokvalitných údajoch robotov, aby sme vyriešili celý rad následných úloh. Podľa našich vedomostí to predstavuje najväčšiu predtréningovú zmes, aká bola kedy použitá pre model manipulácie s robotom,“ uviedli výskumníci vo svojej štúdii.
Aj keď je spoločnosť stále v začiatkoch výskumu a vývoja, spoluzakladateľ a generálny riaditeľ spoločnosti Karol Hausman – vedec, ktorý predtým pracoval na robotike v spoločnosti Google – verí, že jej základný model prekoná existujúce prekážky v oblasti zovšeobecňovania, vrátane množstva času a nákladov na školenie hardvéru na dátach fyzického sveta s cieľom naučiť sa nové úlohy. Súčasťou tímu je aj spoluzakladateľ Sergey Levine, ktorý bol priekopníkom vo vývoji robotiky na Stanfordskej univerzite, a Brian Ichter, bývalý vedecký pracovník spoločnosti Google.
V blogovom príspevku spoločnosti Physical Intelligence si môžete pozrieť ďalšie videá cvičení, ktorými tím previedol roboty s modelom pi-zero, ale TU je jedno, ktoré demonštruje jeho pôsobivú a jemnú prácu.
Výskumnú prácu o rozvoji a školení modelu pi-zero nájdete TU.