Model Apple Depth Pro 3D mapuje 2D obrázky za zlomok sekundy

Autor:: Roman Mališka
Zverejnené:: 21. 10. 2024
Hodnotenie:
Už ste hlasovali.

Výskumné krídlo strojového učenia spoločnosti Apple vyvinulo základný model umelej inteligencie „pre metrický monokulárny odhad hĺbky s nulovým záberom“. Model Depth Pro umožňuje vysokorýchlostné generovanie detailných 3D hĺbkových máp len z jedného dvojrozmerného obrázku.

Náš mozog spracováva vizuálne informácie z dvoch zdrojov obrazu, čo sú naše oči. Každé z nich má trochu odlišný pohľad na svet a tie sa spájajú do jedného stereoskopického obrazu, pričom rozdiely nám pomáhajú aj odhadnúť, ako blízko alebo ďaleko sú objekty, na ktoré sa pozeráme.

Mnohé fotoaparáty a smartfóny sa na život pozerajú cez jeden objektív, ale trojrozmerné hĺbkové mapy sa dajú vytvoriť pomocou informácií skrytých v metadátach 2D fotografií (napríklad ohniskové vzdialenosti a informácie o snímači) alebo odhadnúť pomocou viacerých snímok.

Systém Depth Pro sa však s týmto všetkým nezaťažuje, napriek tomu dokáže vytvoriť podrobnú 3D mapu hĺbky pri rozlíšení 2,25 megapixela z jedinej 2D snímky už za 0,3 sekundy prostredníctvom štandardného grafického procesora.

Architektúra modelu umelej inteligencie zahŕňa niečo, čo sa nazýva ako „viacškálový transformátor videnia“, ktorý súčasne spracováva celkový kontext obrazu, ako aj všetky jemné detaily, ako sú „vlasy, srsť a iné jemné štruktúry“. A dokáže odhadnúť relatívnu aj absolútnu hĺbku. To znamená, že model môže poskytnúť merania reálneho sveta, ktoré umožnia napríklad aplikáciám rozšírenej reality presne umiestniť virtuálne objekty do fyzického priestoru.

Model umelej inteligencie Depth Pro syntetizuje hĺbkové 3D mapy s vysokým rozlíšením s bezkonkurenčnou ostrosťou a vysokofrekvenčnými detailmi.

Umelá inteligencia to všetko dokáže bez toho, aby potrebovala náročné školenie na veľmi špecifických súboroch údajov, pričom využíva niečo, čo sa nazýva ako učenie s nulovým počtom snímok. To IBM opisuje ako „scenár strojového učenia, v ktorom model umelej inteligencie dokáže rozpoznať a kategorizovať nevidené triedy bez označených príkladov“. To z neho robí celkom všestrannú technológiu.

Čo sa týka aplikácií, okrem vyššie uvedeného scenára rozšírenej reality by model Depth Pro mohol umožniť oveľa efektívnejšiu úpravu fotografií alebo by mohol dokonca viesť k 3D zobrazovaniu v reálnom čase pomocou kamery s jedným objektívom a ukázať sa ako užitočný nástroj na pomoc strojom, ako sú autonómne vozidlá a roboty, aby lepšie vnímali svet okolo seba v reálnom čase.

Projekt je stále vo fáze výskumu, ale pre spoločnosť Apple je možno nezvyčajné, že kód a podporná dokumentácia sú k dispozícii ako otvorený zdrojový kód na platforme GitHub. To umožňuje vývojárom, vedcom a kóderom posunúť technológiu na ďalšiu úroveň. Článok o projekte bol pritom uverejnený na serveri Arxiv a pre každého, kto si chce aktuálnu verziu vyskúšať na vlastnej koži, je k dispozícii živé demo.