2025. 11. 19., szerda, 18:20
Magyar kutatók a Nature Communicationsben mutatták be új felfedezésüket.
Hogyan lát az emberi agy? Mi alapján döntjük el egy pillanat alatt, hogy amit látunk, barát vagy ellenség, veszély vagy ártalmatlan jelenség? És mit tanulhat ebből a mesterséges intelligencia? – Ezekre a kérdésekre ad új választ egy friss, világszinten is nagy figyelmet kiváltó magyar kutatás.
A HUN-REN Wigner Fizikai Kutatóközpont kutatói a Nature Communications rangos tudományos folyóiratban tették közzé azt a mesterségesintelligencia-modellt, amellyel elsőként írták le olyan pontossággal a vizuális információk feldolgozását, hogy az az emberi agy működését is új megvilágításba helyezi.
Hogyan beszél az agy? – A neurális kód titkai
Az idegsejtek nem szavakkal kommunikálnak, hanem apró elektromos impulzusokkal. Ezt nevezzük neurális kódnak – ez hordoz minden információt arról, amit látunk, hallunk, érzünk, és arról is, hogyan kell reagálnunk ezekre.
A most bemutatott kutatás azért különösen jelentős, mert segít megérteni, mitől olyan hatékony az emberi idegrendszer a látott világ értelmezésében.
Miért más az agyunk, mint a jelenlegi AI-k?
A mai mesterséges intelligenciák – például a telefonunk arcfelismerő rendszere – egyirányú feldolgozással működnek. Az információ lentről felfelé halad: először felismeri a formákat, majd az alakokat, végül a tárgyat.
Az emberi agy ezzel szemben kétirányú:
- egyszerre dolgozik az alacsonyabb és magasabb szinteken,
- mindig figyelembe veszi a kontextust,
- nemcsak „mit látok?” a kérdés, hanem „mit jelent, amit látok?”.
Ahogy a kutatók fogalmaznak: a neurális kódot nem csak az határozza meg, ami már megtörtént a feldolgozásban, hanem az is, ami ezután fog történni.
Ez magyarázza, miért tudjuk azonnal érzékelni, hogy egy állat felénk mozdul vagy távolodik, barátságos vagy fenyegető – miközben egy mai AI ezt gyakran nem képes ilyen biztosan eldönteni.
Diszkriminatív vs. generatív modellek – ezért fontos a különbség
A kutatók szerint a hagyományos mély diszkriminatív modellek, amelyek sok tanító képpel tanulnak meg különbséget tenni kategóriák között, már nem elég erősek ahhoz, hogy az emberi látás összetettségét utánozzák.
A megoldást a mély generatív modellek jelentik – azok az AI-technológiák, amelyek képesek saját maguktól tanulni, kontextusokat teremteni, és logikai összefüggéseket alkotni. Ilyen modelleken alapulnak a modern nagy nyelvi rendszerek és a képgenerátorok is.
A Wigner FK kutatói egy olyan új, kétirányú modellverziót készítettek, amely egyszerre tud:
- látni,
- értelmezni,
- és következtetni,
éppen úgy, ahogyan az emberi agy teszi.
Mit hozhat a jövő? – Ellenállóbb, okosabb, pontosabb AI-k
A magyar kutatók szerint az újfajta modell több területen is áttörést hozhat:
- ellenállóbb lehet hibákkal és támadásokkal szemben,
- kevesebb tanítóadatból is hatékonyabban tanulhat,
- pontosabb és megbízhatóbb gépi látási rendszereket eredményezhet,
- segítheti az idegrendszeri kutatásokat, például a látási illúziók vagy agyi betegségek jobb megértésével.
Csikor Ferenc és kutatócsoportja rámutat: az emberi látás egy sokkal rugalmasabb, összetettebb feladat, mint amit bármely mai képfelismerő rendszer végez. Az általuk fejlesztett modell ehhez a komplexitáshoz kerül most közelebb.
Magyar siker, globális hatás
A kutatás nemcsak a neurológiai folyamatok megértését viszi előre, hanem olyan AI-fejlesztések alapját is megteremtheti, amelyek a jövőben okosabb önvezető autókhoz, biztonságosabb robotokhoz, vagy akár emberhez igazodóbb digitális asszisztensekhez vezethetnek.
Az eredmény pedig büszkeségre ad okot: újra magyar kutatók mutatták meg a világnak, hogyan lehet közelebb kerülni az egyik legnagyobb rejtélyhez – ahhoz, hogyan lát és gondolkodik az emberi agy.