Искусственный интеллект и загадки человеческого мышления: Прорыв в чтении ума
Представьте себе, как компьютеры, опираясь на активность вашего мозга, создают точные текстовые описания визуальных впечатлений. На первый взгляд, это кажется научной фантастикой, но сейчас это стало реальностью!
Японский нейробиолог Томоясу Хорикава из NTT представил уникальный метод, который конвертирует мозговую активность в развернутые текстовые описания того, что человек видит или вспоминает. Новость была опубликована в Science Advances, и это действительно исторический шаг в исследованиях в области связи между мозгом и компьютером.
Как это работает?
Участникам эксперимента (японцам, для которых английский язык не является родным) пришлось провести около 17 часов в фМРТ-сканере. За это время они увидели 2180 коротких видео, а затем вспоминали отобранные ролики с закрытыми глазами.
Процесс чтения мыслей отражает следующие шаги:
- Использование линейных декодеров для перевода паттернов мозговой активности в числовые представления семантики.
- Применение маскированной языковой модели для итеративного создания текста: замена слов, генерирование контекста и выбрание наилучших вариантов, основанных на декодированных фичах. Этот процесс повторяется 100 раз, в результате чего получается связный текст.
Важно отметить, что метод не использует никаких баз данных с готовыми описаниями только прямое взаимодействие семантических репрезентаций с текстом.
Структурированные данные и их значимость
Ключевым аспектом исследования является то, что мозг кодирует не только отдельные объекты, но и их взаимодействия. Эксперимент показал, что перемешивание слов в предложениях значительно ухудшает точность интерпретации мозговой активности.
Таким образом, когда Хорикава перемешивал слова, модели теряли способность различать ролики. Данные из мозга лучше коррелировали с оригинальным порядком слов, чем с любыми перемешанными вариантами. Так было подтверждено, что структура языка имеет первостепенное значение.
Интересные открытия и дальнейшие перспективы
Метод оказался эффективен даже при отключении классических языковых зон мозга: исследование показало, что точность осталась на уровне 50%. Это указывает на то, что визуальная семантика закодирована в более глубоких структурах мозга.
Дополнительный анализ показал следующие моменты:
- Задние участки визуальной коры отвечают за распознавание различных категорий объектов.
- Передние области, наоборот, формируют контекстуализированные представления, могущие связывать невербальную визуальную информацию с языком.
Таким образом, хотя ИИ не способен в буквальном смысле читать мысли, его достижения в интерпретации ментальных репрезентаций открывают новые горизонты для медицины возможно, это станет альтернативным способом общения для пациентов с нарушениями речи.