Mozgové vlny sa pomocou umelej inteligencie menia na hovorené slová

Autor:: Roman Mališka
Zverejnené:: 11. 4. 2025
Hodnotenie:
Už ste hlasovali.

Kalifornskí výskumníci vyvinuli systém poháňaný umelou inteligenciou, ktorý dokáže obnoviť prirodzenú reč paralyzovaných ľudí v reálnom čase a pomocou ich vlastných hlasov.

Táto nová technológia od výskumníkov z Kalifornskej univerzity v Berkeley a Kalifornskej univerzity v San Franciscu využíva zariadenia, ktoré dokážu napojiť sa na mozog na meranie nervovej aktivity, spolu s umelou inteligenciou, ktorá sa skutočne učí, ako vytvárať zvuky hlasu pacienta. To je ďaleko vpred pred pokrokom z minulého roka v oblasti rozhraní mozog-počítač pre syntézu reči.

„Náš streamovací prístup prináša rovnakú schopnosť rýchleho dekódovania reči zariadení ako Alexa a Siri do neuroprotéz,“ vysvetlil Gopala Anumanchipalli, odborný asistent elektrotechniky a informatiky na Kalifornskej univerzite v Berkeley a spoluvedúci výskumník štúdie, ktorá sa nedávno objavila v magazíne Nature Neuroscience. „Použitím podobného typu algoritmu sme zistili, že dokážeme dekódovať neurónové dáta a po prvýkrát umožniť takmer synchrónne streamovanie hlasu. Výsledkom je naturalistickejšia a plynulejšia syntéza reči.“

Na tejto technológii je skvelé, že dokáže efektívne pracovať s celým radom rozhraní na snímanie mozgu. Patria sem polia elektród s vysokou hustotou, ktoré zaznamenávajú neurónovú aktivitu priamo z povrchu mozgu (podobne ako nastavenie, ktoré použili výskumníci), ako aj mikroelektródy, ktoré prenikajú cez povrch mozgu, a neinvazívne senzory povrchovej elektromyografie (sEMG) na tvári na meranie svalovej aktivity.

Funguje to tak, že najprv neuroprotéza nasadená na pacienta odoberá vzorky neurónových dát z motorickej kôry jeho mozgu, ktorá riadi produkciu reči. Umelá inteligencia potom tieto dáta dekóduje do reči. Cheol Jun Cho, spoluautor článku, vysvetlil: „... to, čo dekódujeme, je po tom, čo sa myšlienka stala, po tom, čo sme sa rozhodli, čo povedať, po tom, čo sme sa rozhodli, aké slová použiť a ako pohnúť svalmi hlasového traktu.“

Táto umelá inteligencia bola pritom trénovaná na údajoch o mozgových funkciách zachytených od pacienta, ktorý sa potichu pokúšal vysloviť slová, ktoré sa zobrazovali na obrazovke pred ním. To umožnilo tímu zmapovať nervovú aktivitu a slová, ktoré sa snažil povedať.

Okrem toho model prevodu textu na reč, ktorý bol vyvinutý s použitím vlastného hlasu pacienta predtým, ako bol zranený a paralyzovaný, generuje zvuk, ktorý môžete počuť z pacienta, keď „hovorí“.

Vo video demonštrácii overenia funkčnosti konceptu sa zdá, že výsledná reč nie je úplne dokonalá ani nemá úplne prirodzené tempo, ale je k tomu naozaj veľmi blízko. Systém začne dekódovať mozgové signály a vydávať reč do sekundy od toho, ako sa pacient pokúsi hovoriť. To je skrátenie o 8 sekúnd v porovnaní s predchádzajúcou štúdiou, ktorú tím vykonal v roku 2023.

Toto by mohlo výrazne zlepšiť kvalitu života ľudí s paralýzou a podobnými oslabujúcimi stavmi, ako je amyotrofická laterálna skleróza (ALS), tým, že im pomôže komunikovať všetko, od ich každodenných potrieb, až po ich zložité myšlienky a prirodzenejšie sa tak spojiť s blízkymi. Ďalšími krokmi výskumníkov pritom bude zrýchlenie spracovania umelou inteligenciou pre ešte rýchlejšie generovanie reči a preskúmanie spôsobov, ako zvýšiť expresivitu výstupného hlasu.