Umelá inteligencia si prešla 80 hodín videa, aby sa naučila posunkovú reč

Autor:: Roman Mališka
Zverejnené:: 26. 5. 2023
Hodnotenie:
Už ste hlasovali.

Pre nepočujúcich a nedoslýchavých môže byť technológia rozpoznávania hlasu prekážkou efektívnej komunikácie. Výskumníci použili umelú inteligenciu na vývoj nástroja, ktorý prevádza posunkovú reč na text, čo potenciálne zvyšuje inkluzívnosť a dostupnosť pre komunitu nepočujúcich.

Preklad posunkovej reči si vyžaduje presné pochopenie pózy človeka, aby sa vytvoril presný textový prepis. Výskumníci z Barcelonského superpočítačového centra (BSC) a Universitat Politècnica de Catalunya (UPC) použili umelú inteligenciu na vývoj nástroja na zlepšenie prekladu posunkovej reči. To je dôležitý krok smerom k tomu, aby nepočujúci a nedoslýchaví ľudia mohli komunikovať s technológiou a mohli mať prístup k digitálnym službám navrhnutým na používanie s hovorenými jazykmi.

Výskumníci použili model strojového učenia v štýle transformátora, podobného tým, ktoré sú za inými nástrojmi umelej inteligencie, ako je napríklad známy ChatGPT. Transformátory sú užitočné z dvoch hlavných dôvodov. Po prvé, tieto modely sú obzvlášť dobré na to, aby sa naučili, ako aplikovať kontext, vďaka mechanizmu sebapozornosti prítomnému v architektúre. Sebapozornosť je spôsob, akým neurónová sieť kontextualizuje slová pri pohľade na iné slová v texte. A po druhé, umožňujú oveľa rýchlejšiu priepustnosť pri učení sa z príkladov školenia, čo umožňuje použitie väčšieho množstva školiacich údajov v danom čase.

Tréningový súbor údajov pochádzal z How2Sign, verejne dostupného rozsiahleho, multimodálneho súboru údajov, ktorý obsahuje 80 hodín inštruktážnych videí v americkom posunkovom jazyku so zodpovedajúcimi anglickými prepismi.

„Nový vyvinutý nástroj je rozšírením predchádzajúcej publikácie BSC a UPC s názvom How2Sign, kde sú zverejnené údaje potrebné na trénovanie modelov (viac ako 80 hodín videí, kde tlmočníci amerického posunkového jazyka prekladajú videonávody, ako sú recepty na varenie alebo triky pre domácich majstrov),“ povedala Laia Tarrés, hlavná autorka štúdie. „S týmito údajmi, ktoré sú už k dispozícii, tím vyvinul nový softvér s otvoreným zdrojovým kódom, ktorý je schopný naučiť sa mapovať medzi videom a textom.“

Pre výskumníkov bolo dôležité používať videá s nepretržitou posunkovou rečou a nie s izolovanou posunkovou rečou, pretože realistickejšie odrážajú, ako hovoriaci prirodzene používajú reťazec slov (reťazenie) na vytváranie viet, ktoré môžu byť rozhodujúce pri určovaní významu vety.

Výzvou, ktorej výskumníci čelili, bola variabilita a zložitosť posunkových jazykov, ktoré môžu byť ovplyvnené vecami, ako je pozadie, kontext a vzhľad hovoriaceho. Aby v tomto ohľade pomohli, predspracovali údaje pomocou Inflated 3D Networks (I3D), čo je metóda extrakcie videa, ktorá na videá aplikuje 3D filter, čo umožňuje prevzatie časopriestorových informácií priamo z nich.

Vedci zistili, že predbežné spracovanie textu tiež výrazne zlepšilo preklady zo znaku do textu. Aby predspracovali nespracovaný text, previedli ho na malé písmená, čím sa znížila zložitosť slovnej zásoby. Celkovo pritom zistili, že ich model bol schopný produkovať zmysluplné preklady, ale nebol dokonalý.

S modelom, ktorý je stále v experimentálnej fáze, budú výskumníci pokračovať v práci na vytvorení nástroja, ktorý umožní nepočujúcim a nedoslýchavým ľuďom prístup k rovnakým technológiám, aké majú ľudia bez straty sluchu.

„Tento otvorený nástroj na automatický preklad posunkovej reči je cenným príspevkom pre vedeckú komunitu zameranú na dostupnosť a jeho zverejnenie predstavuje významný krok k vytvoreniu inkluzívnejšej a dostupnejšej technológie pre všetkých,“ povedala Tarrés.

Štúdia bola nedávno zverejnená online na arXiv.