Egy figyelemre méltó mérföldkőnek számító áttörés eredményeként tudósok egy olyan számítógépes rendszert mutattak be, amely hatékonyan képes lefordítani az agyi jeleket érthető beszéddé. A rendkívüli kísérlet egy olyan koncepciót mutat be, amely a jövőben az agyvezérelt kommunikációs eszközök széles skálájának megjelenését vetíti előre.
A hatalmas akadály, amellyel a neuromérnökök az agy-számítógép interfész felé vezető úton folyamatosan szembesülnek, hogy az agyunk által generált jelek széles skáláját milyen módon fordítsák le olyan szavakra és képekre, amelyek könnyen átvihetők.
Az eddig csupán sci-fi filmekben látható ötlet, hogy képesek legyünk irányítani az eszközöket vagy kommunikálni másokkal csak a gondolataink segítségével, lassan, de biztosan közelebb kerül a valósághoz.
A gépi tanulási technológiában a közelmúltban elért eredmények lehetővé tették, hogy a tudósok hatalmas mennyiségű elvont adattömeget rögzítsenek. A múlt évben egy kanadai kutatócsoport egy olyan algoritmust hozott nyilvánosságra, amely az elektroenkefalográfiás (EEG) adatok felhasználásával képes digitálisan újragenerálni azokat az emberi arcokat, amelyeket egy tesztalanynak mutattak be.
Az agyhullámok szavakká történő átalakítása egy másik nagy kihívást jelentett a kutatók számára, de a gépi tanulási algoritmusok segítségével az elmúlt években lenyűgöző előrelépések történtek. A legújabb ugrást ezen a területen amerikai neuromérnökök egy csapatának sikerült elérni, akik egy olyan számítógépes algoritmust mutattak be, amely képes dekódolni az emberi hallókéreg által rögzített jeleket és azokat érthető beszédre lefordítani. (1)
A tanulmány során először öt páciens adatait gyűjtötték össze, miközben epilepsziás idegsebészeti beavatkozáson mentek keresztül. A pácienseknek számos elektródát ültettek be az agyukba, amelyek lehetővé tették a kutatók számára, hogy átfogó elektrokortikográfiás méréseket rögzítsenek, miközben a betegek rövid, folyamatos történeteket hallgattak négy különböző hangszórón keresztül. Az adatok összegyűjtésének invazív jellege miatt, miközben a betegek éppen agyműtéten estek át, csak mintegy 30 percnyi neurális felvételt lehetett készíteni minden egyes személy esetében.
"Dr. Mehtával (az eljárást végző idegsebész) együttműködve megkértük az epilepsziás betegeket, akiknél már megkezdték az agyi műtétet, hogy hallgassanak különböző emberek által mondott mondatokat, miközben az agyi aktivitásuk mintáit mértük," - mondta Nima Mesgarani, az új tanulmány vezető szerzője. "Ezek a neurális minták képezték ki a vocodert."
Az algoritmus hatékonyságának tesztelésére a rendszert arra kérték, hogy dekódolja a nulla és kilenc közötti hangokat, amelyek nem szerepeltek az eredeti kiképzési adatokban. Ahogy a hangszórók a számjegyeket mondták, a páciensek agyi jeleit rögzítették, és végigfuttatták a vocodert. A neurális hálózat ezután elemezte és megtisztította a vocoder által előállított kimenetet.
"Megállapítottuk, hogy az emberek megértették és meg tudták ismételni a hangokat az idő 75 százalékában, ami jóval meghaladja a korábbi kísérleteket," - mondja Mesgarani. "Az érzékeny vocoder és az erős neurális hálózatok meglepő pontossággal képviselték azokat a hangokat, amelyeket a beteg eredetileg hallgatott."
Mesgarani ugyanakkor elismerte, hogy legalább egy évtizedbe telhet, mire ez a technológia valóban elérhetővé válik. Végtére is, még nem tudjuk könnyen beültetni az elektródákat az agyunkba, hogy rögzítsük ezeket a neurális jeleket. Ez a kutatás azonban annak az úttörő bizonyítéka, hogy az emberi hallókéreg által feldolgozott jelek beszéddé dekódolhatók. Ha ezek az átfogó eredmények egy ilyen kis adatállományból is előállíthatók, akkor csak elképzelni tudjuk, hogy mit lehetne generálni nagyobb adatmennyiségekből.
A következő lépés Mesgarani és csapata számára az, hogy finomítsanak az algoritmusokon annak érdekében, hogy megtudják, vajon az összetettebb szavak és mondatok is dekódolhatók-e ugyanazokból a hallóidegi adatokból. Ebből következően a cél az lenne, hogy az egyszerű hangadatok dekódolásától eljussunk a pontos idegrendszeri adatok megtalálásához, amelyek képesek az elképzelt beszédet szintetizált szavakká alakítani.
"Egy ilyen forgatókönyv esetén, ha a viselő arra gondol, hogy 'szükségem van egy pohár vízre,' a mi rendszerünk rögzítené az adott gondolat által generált agyi jeleket, és szintetizált, verbális beszéddé alakíthatja," - mondja Mesgarani. "Ez sok mindent megváltoztatna. Mindenkinek, aki elvesztette a beszédképességét, akár sérülés, akár betegség miatt, egy újabb esélyt kapna, hogy kapcsolódjon a körülötte lévő világhoz." (2)
(1) - https://www.nature.com/articles/s41598-018
(2) - https://zuckermaninstitute.columbia.edu/colu