Инсульт, боковой амиотрофический склероз (которым был болен Стивен Хокинг) и другие заболевания могут лишить людей способности говорить. Их общение будет ограничено скоростью, с которой они могут перемещать курсор глазами (обычно это всего от 8 до 10 слов в минуту), в отличие от естественного темпа разговора от 120 до 150 слов в минуту. Однако, хотя до восстановления естественной речи еще далеко, исследователи из Калифорнийского университета в Сан-Франциско (UCSF) смогли создавать внятные предложения из мыслей людей, у которых нет проблем с речью.
Но Чанг предупреждает, что технология, которая была протестирована только на людях без проблем с речью, может работать иначе для тех, кто не может говорить, и особенно для людей, которые никогда не могли говорить из-за расстройства двигательной системы, такого как церебральный паралич.
Чанг также подчеркнул, что его подход не может использоваться для чтения чьих-либо мыслей — только для перевода слов, которые человек хочет сказать, в слышимые звуки. «Другие исследователи пытались выяснить, есть ли возможность на самом деле расшифровать только мысли», — говорит он. «Оказывается, это очень сложная и запутанная задача. И это только одна из многих причин, по которым мы концентрируемся только на том, чтобы озвучивать мысли».
Исследователи расшифровывают мозговую активность, связанную с речью, с использованием набора внутричерепных электродов, подобному этому.
Чанг и его коллеги разработали двухступенчатый метод перевода мыслей в речь. В начале они обратились за помощью к пяти эпилептикам, чья нервная активность измерялась электродами на поверхности их мозга. Исследователи просили их произносить различные предложения и регистрировали сигналы от областей мозга, которые контролируют язык, губы и мышцы горла. Позже, используя компьютерные алгоритмы глубокого обучения, они перевели эти команды в понятный для компьютера язык.
На этом этапе система декодирования должна быть обучена на головном мозге каждого человека, но перевод в звуки может быть обобщен для всех людей, сказал соавтор исследования Гопала Ануманчипалли, также из Калифорнийского университета. «Нейронная активность у каждого человека своя, но дальнейшее получение звуков является общим для всех, и это то, что мы исследуем», — сказал он.
В дальнейшем, используя полученные данные и нейросеть, ученые из UCSF создали программу, которая является виртуальным аналогом голосовых связок, способную преобразовывать эти сигналы в обычную речь.
Ученые попросили носителей английского языка на краудсорсинговой площадке Amazon Mechanical Turk прослушать полученные таким образом предложения. По результатам исследования, слушатели точно слышали предложения в 43 процентах случаев при выборе набора из 25 возможных слов и в 21 процентах случаев при выборе 50 слов.
Хотя уровень точности остается низким, его все равно достаточно, чтобы иметь существенное значение для «запертого в себе» человека, который почти полностью парализован и не может говорить. «Для кого-то, кто заперт в себе и вообще не может общаться, допустимы несколько незначительных ошибок», — говорит Марк Слуцки, невролог и нейронный инженер из медицинской школы Северо-Западного университета им. Файнберга, который опубликовал соответствующее исследование, но не принимал в нем участия. «Даже возможность произносить несколько сотен слов будет огромным улучшением», — говорит он. «Очевидно, что вы хотели бы [быть в состоянии] произнести любое слово, которое захотите, но все равно возможность произнести хотя бы самые распространенные слова уже намного лучше, чем набирать их по одной букве за раз, что является чуть ли не одним из видов современного искусства».
Даже когда добровольцы не слышали составленные нейросеткой предложения совершенно ясно, они зачастую додумывали их по смыслу и схожему звучанию. Например, таким образом «кролик» («rabbit») мог превратиться в «грызуна» («rodent»), сказал на пресс-конференции Джош Чартье из UCSF, еще один соавтор исследования. Звуки, подобные «ш» в слове «шип», создаваемые «виртуальным голосом», расшифровывались большинством людей без проблем, а вот звуки типа «th» в артикле «the» (в русском языке нет аналога этому звуку, однако в начальной школе, думаю, многие учились его произносить — прим. перев.) были особенно сложными, добавил Чартье. При этом такая программа хорошо отражала ритм и интонацию речи, правильно определяя пол и личные характеристики человека.
Несколько других исследовательских групп в Соединенных Штатах и других странах также делают значительные успехи в расшифровке речи, но новое исследование является первым, когда полные предложения были правильно интерпретированы, по словам Слуцки и других ученых, не вовлеченных в работу.
«Я думаю, что это исследование является примером возможности, которая открывается при объединении биологии и машинного обучения», — говорит Ли Хохберг, невролог из Массачусетской больницы общего профиля в Бостоне и нейробиолог из Университета Брауна.
Исследование вызывает некоторое волнение по поводу этики, но ученые говорят, что технология еще не готова даже к клиническим испытаниям. «Я думаю, что в течение следующих 10 лет мы увидим системы, которые улучшат способность людей общаться», — говорит Джейми Хендерсон, профессор нейрохирургии в Стэнфордском университете, который не участвовал в новом исследовании. Он говорит, что оставшиеся проблемы включают исследование того, улучшит ли декодирование речи использование более детального анализа мозговой деятельности. Также нужно разработать нейрочип, который можно имплантировать в мозг и декодировать речь в режиме реального времени, и проверить, распространяется ли такое преимущество на людей, которые вообще никогда не говорили и чей мозг не умеет управлять голосовыми связками.
Хохберг говорит, что напоминает ему о том, что поставлено на карту в такого рода исследованиях: «каждый раз, когда я нахожусь в отделении нейроинтенсивной терапии, и я вижу кого-то, кто, возможно, без труда ходил и говорил вчера, но сегодня у него был инсульт, и теперь он больше не может ни двигаться, ни говорить». Хотя он хотел бы, чтобы работа двигалась быстрее, по словам Хохберга, он доволен прогрессом в этой области: «я думаю, что интерфейсы мозг-компьютер будут иметь много возможностей, чтобы помочь людям, и, надеюсь, сделать это уже скоро».