Как скоро гаджеты и машины ? ... «С сантехникой искусственный интеллект пока не может справиться»
«С сантехникой искусственный интеллект пока не может справиться»...
Как скоро гаджеты и машины начнут общаться с нами с использованием эмоций? «Час Х» всё ближе, судя по огромному интересу к этой возможности ученых из разных стран. В конце октября в НИЯУ МИФИ прошла пятидневная Международная научно-техническая конференция «Нейроинформатика-2023». А в начале октября по этой теме в Китае прошла самая крупная международная конференции из серии BICA. На обоих мероприятиях модерировал и выступал входящий в список топ-2% самых цитируемых в 2022 году учёных мира, профессор кафедры кибернетики и научный руководитель Института интеллектуальных кибернетических систем НИЯУ МИФИ Алексей Самсонович. В предлагаемом интервью ученый рассказывает об актуальных проблемах и последних достижениях в области когнитивных архитектур и нейроинформатики.
«Агенты» среди нас
— Алексей Владимирович, между нашей конференцией и китайской была еще конференция практически по той же тематике, в которой вы тоже приняли участие — КИИ-2023 в Смоленске. Чем вызван такой бум интереса к этой области знания?
— Действительно, мы наблюдаем просто взрыв интереса к большим нейросетевым моделям — на этих конференциях обсуждались работы по большим языковым моделям, глубоким нейросетям и глубокому обучению (глубокие — это те, которые имеют много слоев, если мы говорим об архитектуре нейросетей). Революция в этой области стала возможной благодаря тому, что появились немыслимые в прошлом веке вычислительные мощности, новые эффективные алгоритмы и большие данные, на которых можно обучать нейросетевые модели.
— К чему их можно приложить?
— Практически ко всему. Представьте себе, что берется единая нейросетевая методика и ее вариации применяются к самым разным прикладным задачам — это и атомные реакторы, и финансы, образование, предсказание погоды, медицина — в ней особенно много точек приложения, практически везде, от онкологии до психиатрии. Большие же языковые модели могут применяться вообще повсеместно — это любые агенты, которые могут с вами разговаривать, понимать вас и отвечать вам на естественном языке.
— Давайте пройдемся по терминам. Что такое «агент»?
— Агент — это когнитивная система, погруженная в некую среду, в которой она имеет средства восприятия информации и совершения каких-то действий, а также имеет потребности, цели и возможности их достижения. Агент может быть как виртуальным (программа), так и физическим (робот). Некоторые исследователи определяют агента как интеллектуальную систему, способную обучаться и обрабатывать информацию в символьном виде на основе базы знаний. В любом случае агент — это некая сущность, работающая как индивидуум, как правило, взаимодействующий с человеком.
Почему у агентов нет чувства юмора?
— Ваш доклад был посвящен «Социально-эмоциональному искусственному интеллекту на основе когнитивных архитектур и больших языковых моделей». Эмоциональный интеллект может быть присущ не только человеку, но и машине?
— Что такое вообще эмоциональный интеллект? Это способность понимать проявления эмоций, выражать эмоции, рассуждать о них, адекватно реагировать на них и управлять ими: использовать эмоции для достижения своих целей. До сих пор такая совокупность способностей считалась присущей на высоком уровне только человеку, а сейчас идут попытки воплотить те же качества в машине, в искусственном интеллекте. Термин «социальный» я добавил для того, чтобы отличить исследования сложных социальных эмоций, которыми я интересуюсь, от большинства работ в области аффективного моделирования, посвященных базовым эмоциям и аффектам. Общепризнанных базовых эмоций всего шесть: радость, гнев, печаль, страх, отвращение и удивление. Но есть более сложные, социальные эмоции, несводимые к этим шести, например: стыд, зависть, ревность, сострадание, эмпатия, злорадство, обида, чувство юмора. Можно ли их назвать действительно сложными эмоциями, построенными из базовых?
— Почему нет? Видя труп врага, человек может испытывать отвращение и радость одновременно — вот вам злорадство.
— Да, есть такая точка зрения, и она сейчас доминирует: сложные эмоции сводятся в конце концов к комбинациям базовых. Но я думаю, что не все так просто. Вот, например, если взять стыд или чувство юмора…
— Разве чувство юмора — это эмоция, а не интеллектуальная способность?
— Действительно, чувство юмора, стыда, ревности и т.п. часто относят к категории чувств, отличая их от эмоций. Я же пользуюсь другой терминологией: эмоция — это особое психическое состояние субъекта, а чувство — это внутреннее отношение субъекта к другому субъекту либо к самому себе (здесь я не говорю о других значениях слова «чувство»: например, чувство боли). В этом смысле и юмор, и стыд — эмоции, и они же связаны с чувствами. Но если стыд психологам все же удалось разложить по полочкам, то вот подвести под формализацию юмор оказалось сложнее всего. Справедливости ради стоит сказать, что существует целый набор разных причин, заставляющих человека смеяться: игра слов, табу, и т.д. , вплоть до физиологических. Но если говорить о когнитивном чувстве юмора — то здесь есть разные теории, и нет общепринятого консенсуса. Сам факт, что машина до сих пор не может генерировать по-настоящему смешные анекдоты, говорит о том, что понимания этого явления нет: если бы человек его понимал, он бы смог смоделировать его. Это пока отсутствует, но когнитивный юмор — это не единственное, что пока не поддается моделированию. На самом деле весь комплекс сложных человеческих социально-эмоциональных отношений пока недоступен искусственному интеллекту, он не в силах моделировать поведение в этой области на уровне человека в произвольной ситуации.
— А что он еще не может?
— Он не может творить как гений, не может неограниченно расти когнитивно, обучаясь как ребенок до уровня взрослого. Не обладает здравым смыслом на уровне человека. Можно назвать еще немало примеров. Смешно, но он пока бессилен и перед… сантехникой. Искусственный интеллект ни за что не сможет поменять вам трубы в ванной, все остальное — пожалуйста!
— Наверное, потому что сантехника сильно связана с эмоциональной сферой у человека — любой, кто делал ремонт в ванной, это подтвердит.
— Сделать робота, который влезет в вашу ванную комнату и поменяет трубы сам — очень сложно, там слишком много нетипичных решений. А вот выполнять операции на сердце или делать макияж — этому робота можно научить. Не говоря уже о решении интеллектуальных задач. Удивительно, что многое из того, что казалось невозможным на заре искусственного интеллекта, было реализовано довольно быстро. Часто можно слышать утверждение, что уж эмоциональная-то сфера навсегда останется вотчиной человека и искусственный интеллект не сможет даже приблизиться в ней к уровню человека — он не в состоянии испытывать эмоции и адекватно на них реагировать… Но я полагаю, это заблуждение. Формализовать эмоции, возможно, проще, чем построить математическую модель естественного языка. А это уже в некотором смысле сделано, если мы говорим о больших языковых моделях.
Чувства в цифрах
— Зачем нам вообще до такой высокой степени уточнять и формализовывать эмоции? Зачем периодически уточняется секунда — понятно. А чувства? Допустим, мы установим, условно, что чувство юмора состоит из 3,5% страха, 2,5% радости и т.д. Что нам это даст, какова конечная цель таких изысканий?
— Мне кажется, что актуальная задача, стоящая сейчас перед человечеством, — это создание социально приемлемого искусственного интеллекта, который смог бы войти в нашу жизнь и взаимодействовать с человеком не как инструмент или среда для решения задач, а как партнер, как в каком-то смысле равный человеку мыслящий субъект. Об этом давно мечтают. Иной раз слышишь по ТВ такой вопрос: «Когда же искусственный интеллект начнет все делать сам, сколько можно ему все объяснять на каждом шагу?» Мы хотим, чтобы были созданы такие агенты, которым можно было бы дать задание, как преподаватель, скажем, дает студенту, и чтобы он ее сам решил, а нам об этом сообщил, когда уже все готово. Сейчас мы на самом деле приближаемся к этому: в первый же день на нашей конференции BICA*AI 2023 были доклады по большим языковым моделям, которые сейчас вышли на уровень, когда программирование может вообще не требоваться, а вместо него будет использоваться промптинг (или промт— инжиниринг). Вы просто будете писать ему, причем не программу на каком-то машинном языке, а буквальный запрос: «ты должен сделать то-то и то-то». И это будет сделано — нейросетью, натренированной на огромном материале.
— То есть это уже подобие мозга?
— Нет! В том-то и дело, что даже цель такая не ставилась! Ведь в этих моделях абсолютно отсутствует понимание сути вопроса — это чисто статистические модели. Они вобрали в себя все возможные данные, когда-либо созданные людьми, и когда вы подаете запрос, они из этой гигантской «каши» вытягивают нужное и генерируют то, что может быть наиболее адекватно вашему запросу, совершенно не понимая его сущности.
— Значит, через социально-эмоциональные инструменты искусственного интеллекта мы хотим добиться понимания — так?
— Чтобы добиться понимания, нужно воспроизвести функциональную организацию человеческого мозга, нашего мышления — сделать то, что делают исследователи, создающие когнитивные архитектуры. То есть когнитивных агентов, которые обладают внутренней семантикой, способностью рассуждать, моделировать окружающий мир, имеют память в символьном виде на основе того или иного языка, имеют определенные логические правила и генерируют новые, строят аналогии, ставят и достигают свои цели, и делают многое другое из того, чем обычно занят человек. Но в статистических моделях ничего этого нет. Архитектура большой языковой модели не воспроизводит ни архитектуру мозга, ни принципы его работы. Это просто матрица, в которую вы заложили кучу информации, и она работает в режиме ответа на запрос, а внутри нее никакого понимания нет. Почти как в известной «Китайской комнате».
Искусственный интеллект абсолютно тупой, но…
— Насколько же полезным будет тогда ответ?
— Как ни странно, ответы очень разумны. Как раз недавно на конференции BICA*AI 2023 я увидел пример выдачи чата GPT, которого попросили объяснить суть книги Уэллса «Война миров». Меня поразило, насколько ответ грамотно был дан на естественном языке и какой была (кажущаяся!) глубина понимания и анализа текста: какие аналогии проводит автор, на какие подстерегающие человечество опасности он указывает и т.д. Я бы сказал, далеко не всякий человек способен написать нечто подобное. Но если бы вам не сказали, что это чат GPT написал, вы бы не догадались. А ведь понимания-то никакого нет! И все эти модели неспособны творить, в смысле создавать что-то принципиально новое и оригинальное — нейросеть не «родит» Ван Гога или Клода Моне. Модель может скомпилировать эти два стиля, но не создаст своего, достойного признания. И вообще, она зачастую демонстрирует грубое непонимание самой сути вопроса, вещей. Вы скажете, нейросеть ошибается, но ведь и человек ошибается — в чем разница? Так, как способен ошибаться искусственный интеллект, человек не смог бы ошибиться никогда. В этом разница. Популярный сегодня искусственный интеллект, представленный большими языковыми моделями, на самом деле абсолютно тупой и никаким «интеллектом» не обладает, он просто генерит данные согласно заученной статистике. В то же время это мощный и нужный инструмент, и у него есть свое место. Например, большую языковую модель можно использовать как периферийное устройство — допустим, у вас есть когнитивная модель, имеющая внутри себя семантику и способность рассуждать и планировать. Ей нужен интерфейс с внешним миром, с человеком — естественного языка она не знает, и ей нужно, чтобы кто-то ей объяснил, как одно связать с другим в конкретной ситуации, к которой она заранее не подготовлена. Вот чат GPT для этого прекрасно подходит. Допустим, его задача — определить процент тех или иных эмоций, включая зависть и чувство юмора, в высказывании человека. Вы просто пишите запрос: «Дай мне выраженное в числах содержание каждой из этих эмоций в данном параграфе текста» — и он выдаст. Правда, очень важно правильно сформулировать вопрос.
— А можно его спросить: «Какие эмоции испытывает Андрей Болконский на поле Аустерлица?»
— Да, и он выдаст список, если вы попросите список. А если вы спросите: «Дай мне процентное содержание каждой из этих эмоций» — он выдаст в числах.
Более того, чат GPT может не только распознать, но и выразить нужную эмоцию. Скажите ему: «Сгенерируй мне высказывание на такую-то конкретную тему с такой-то конкретной эмоцией». Допустим, клиент недоволен заселением в отеле или открытием счета в банке — надо донести до клиента конкретную фразу, но имеющую ту или иную эмоциональную окраску — чат GPT вам это напишет в реальном времени. Причем уже есть возможность получить не просто текст, а живую речь фотореалистичного антропоморфного агента с выражением требуемых эмоций в тембре и интонации голоса, в мимике, взгляде, жестах, позе, и т.д. Все соответствующие модели есть, и поле здесь уже распахано вдоль и поперек — по большому счету все эти «периферийные» задачи решены, и мы имеем огромный набор средств для распознавания и для выражения эмоций, включая их тончайшие детали. Единственное, чего нет — это то, что должно быть посередине между ними. Центральный элемент как раз отсутствует. Вы распознали эмоцию собеседника и можете выразить любую эмоцию в ответ — но какую? Определить это на уровне человека в любой непредвиденной ситуации искусственный интеллект пока не может.
— Допустим, человек говорит ласково (эмоция распознана), но при этом он говорит неправду. Агент должен распознать, что его обманывают и выдать соответствующую эмоцию. Искусственный интеллект способен на это?
— Да, и были демонстрации таких возможностей. Более того, например, Джонатан Грач в Университете Южной Калифорнии реализовал агентов, которые сами способны обманывать человека, используя выражения тех или иных эмоций во время беседы для достижения своих целей.
В этом и есть весь вопрос: агент должен понять, какая эмоция в той или иной ситуации адекватна и служит его целям. Например, можно отзеркалить эмоцию собеседника, но это быстро будет распознано человеком как чисто механическая реакция. Если агент будет все время копировать ваши эмоции, вам поначалу, возможно, это понравится, но потом вы все равно поймете, что что-то здесь не так и, скорее всего, он ничего не понимает. А искусственный интеллект все-таки должен понимать, как нужно адекватно себя вести в той или иной социальной ситуации, какие эмоции и когда нужно выражать. Сейчас это умеет только человек, и в ограниченных парадигмах — когнитивные модели. В нашей лаборатории «BICA Lab» (International research laboratory “Cognitive Architectures and Semantic Technologies”, Department of Cybernetics, National Research Nuclear University “MEPhI”) были созданы прототипы, обладающие данными способностями.
— А для чего здесь нужны большие языковые модели?
— Большая языковая модель — это нейросеть, которая обучена на огромном материале текстов, написанных человеком. Это модель языка, задача которой — просто продолжить какое-то повествование. Допустим, вы ввели какое-то предложение, а она может его продолжить, развить так, как, ей кажется, вам понравится. То есть ваш запрос служит «затравкой» для того, что дальше генерирует чат GPT. Но генерирует он это чисто по ассоциациям на основе своего статистического багажа. Он может решать задачи, связанные не только с языком, но тем не менее его когнитивные способности ограничены. Еще раз подчеркну: популярные сегодня большие языковые модели — это статистические модели, а когнитивные архитектуры — это модели, основанные на знаниях, позаимствованных из психологии, нейрофизиологии и т.д. Мы в BICA Lab фактически занимаемся когнитивными моделями, но при этом используем большие языковые модели для реализации нужных функций интерфейса с человеком.
Нам нужно, чтобы машина могла воспринять эмоции и намерения человека и выразить свои адекватные эмоции ему в ответ. До появления больших языковых моделей это было довольно сложно — требовалось для каждой функции искать свое решение. Сейчас же фактически один и тот же чат GPT позволяет вам сделать всё: он может и распознать эмоции, и выразить их в любых числах или других представлениях, заданных вами, а может и синтезировать фразу по заданным эмоциям — это универсальный инструмент, готовый к использованию. Только нужно научиться писать к нему запросы правильно.
Что будет через два года
— Итак, как же интегрировать эти два подхода для создания социально-эмоционального интеллекта человеческого уровня?
— Мы до сих пор говорили с вами лишь об одном варианте интеграции глубоких нейросетей с когнитивными моделями — об использовании больших языковых моделей в качестве интерфейса или периферийного устройства для когнитивной модели, позволяющего распознать или выразить что-то в естественной речи. Мой интерес к этой теме не угасает, и я верю в скорый успех. Но мы ведь можем использовать нейросеть и для реализации самой когнитивной модели: тот факт, что она статистическая, не запрещает ей стать когнитивной. Тогда получается, что, кроме задачи осуществлять интерфейс с человеком на естественном языке, есть еще и задача воплощения когнитивной модели в нейросети. Почему в нейросети? Зачем это нужно, если алгоритм, воплощающий когнитивную модель, уже запрограммирован и работает? Потому что нейросеть способна обучаться дальше, и она может быть более устойчива к непредвиденным ситуациям, чем алгоритм, разработанный для ограниченной парадигмы.
Представьте, что мы воплотили когнитивную модель вручную алгоритмическим путем — написали программу, которая осуществляет выполнение определенных правил, и она решает свою задачу в какой-то предметной области в конкретной парадигме и ведет себя, в общем, как человек. А затем мы взяли и обучили нейросеть выполнять те же функции, используя для ее обучения записи поведения когнитивной модели. И теперь, если человек с ней общается, он не отличит нейросеть от живого человека. Мы проводили такие эксперименты: человеку попеременно отвечал то агент-автомат на основе нейросети, то живой человек, и спрашивающий не мог отличить кто есть кто, поскольку оба управляли одним и тем же аватаром. Более того, мы просили оценивать ответы по ряду шкал, и оказалось, что в некоторых случаях автомат получил даже более высокие оценки — удивительно! — по таким шкалам, как эмпатичность, индивидуальность, способность вызывать эмоции, социальная приемлемость. Хотя, может быть, это связано с тем, что студенты, контролировавшие этого аватара, были недостаточно вежливы и эмпатичны и выполняли свою функцию чисто автоматически, поэтому автомат их превзошел. Но мы получили значимое превосходство автомата над человеком (в нашей ограниченной парадигме, подчеркну). Такой результат оказалось получить сравнительно легко, что указывает на то, что задача разрешима, видимо, и в более общем случае. Значит, в принципе мы можем создать искусственный социально-эмоциональный интеллект не только достигший уровня человека, но и превосходящий среднего человека в самой его человечности — он будет более социальным, эмпатичным, приятным, чем средний человек. И люди, имея выбор, станут выбирать его.
— В сфере социальных услуг мы часто сталкиваемся с ответами роботов — в банках, у мобильных операторов, в службах экстренных вызовов. Сам факт вежливого или сочувствующего ответа от робота вовсе не будет означать решения нашей проблемы.
— Вот то-то и оно! Поэтому и нужны когнитивные архитектуры, способные не только выразить сочувствие, но и решить проблему, возникшую в эмоциональной сфере. А ведь есть области, где понимание человеческих эмоций просто необходимо. Возьмите, например, общение пациента с психологом. Подобных примеров много: спасение людей в чрезвычайных ситуациях, индивидуальные тьюторинговые системы, мотивирующие студента, мониторинг антисоциального или экстремистского поведения, разрешение всевозможных конфликтных ситуаций, и многое другое, вплоть до принятия решений роботом на поле боя: там тоже необходим эмоциональный интеллект. Дело не в том, чтобы сделать общение с агентом приятным для человека. Сегодня назрела острая необходимость в социально-эмоциональных интеллектуальных агентах для решения определенных практически важных задач; значит, они будут созданы. Одной из их функций будет психологическое профилирование и определение текущего психического состояния человека по его поведению во время контакта.
— Предполагается, что будут электронные психологи?
— Они уже есть. И мы, кстати, разработали прототип виртуального психолога, который смог определить тип личности с точностью не хуже 80% по сравнению со стандартными психологическими тестами. Виртуальных психодиагностов в мире уже создано много. Автоматы уже понимают человеческие эмоции, способны их выражать в различных модальностях и теперь обязаны научиться делать это адекватно и целенаправленно. Я убежден, что создание социально-эмоционального искусственного интеллекта общего назначения — задача разрешимая, и она будет решена в самое ближайшее время, года через два максимум. Как одно из следствий, все «умные» устройства, от часов до автомобиля, начнут общаться с вами на языке эмоций. Главное, чтобы человек поверил в этих агентов и воспринимал их как сознательных живых существ, которым можно доверять. Тогда они войдут в нашу жизнь в широких масштабах. Именно доверие, подкрепленное эмоциями, будет здесь играть ключевую роль.
— Но это же иллюзия — они же не живые и ничего не сознают на самом деле.
— А все ли люди сознательны? То, что мы живые, еще не делает нас гарантированно разумными и сознательными. Вы не можете измерить субъективные переживания человека никаким устройством. То, что вы думаете о другом человеке, о чувствах, которые он испытывает, — это лишь ваши предположения, которые могут быть иллюзиями. И в этом смысле между иллюзией по отношению к человеку и иллюзией по отношению к автомату разницы нет.