Найти тему
Логово ИИ

Объяснимый искусственный интеллект. Почему легче сказать, чем сделать?

Современные языковые модели, используемые в ИИ, обладают удивительными возможностями. Они способны переводить тексты на разные языки, генерировать новости и даже писать стихи. Однако, когда речь идет о том, чтобы объяснить, как они работают, все становится намного сложнее.

Вероятно, это одна из самых сложных и технически сложных проблем, с которыми мы сталкиваемся, говоря об искусственном интеллекте.

Почему языковые модели так сложно сделать объяснимыми?

В течение многих лет исследователи пытались понять, как работают системы ИИ. Это результат того, как они устроены: системы ИИ выдают ответы, комбинируя миллионы показателей. Эти показатели уточняются во время разработки системы, чтобы модель могла наилучшим образом предсказать ответ, например следующее слово в предложении или наличие опухоли на рентгеновском снимке. Однако эти показатели не обязательно соответствуют человеческим представлениям.

Для более простых систем ИИ, которые уже используются в системах здравоохранения, финансовом секторе и производстве, исследователи разработали инструменты объяснимости. Например, ИИ может сообщить человеку, заявка на получение которого была отклонена автоматизированной системой, об основных факторах, повлиявших на решение – таких как кредитный рейтинг или уровень дохода.

И даже здесь инструменты часто противоречат друг другу. Один алгоритм может сказать, что кредит был отклонен, потому что кредитный рейтинг человека слишком низкий, а другой – может подчеркивать доход человека.

Системы посложнее.

Но для самых сложных систем, включая большие языковые модели (LLM), такие как ChatGPT от OpenAI , инструменты объяснимости, разработанные для более простых моделей, не работают. На первый взгляд должно быть легко получить объяснение— мы можем просто спросить их, почему они ответили именно так.

Но когда группа исследователей из Нью-Йоркского университета, стартапа ИИ Cohere и лаборатории ИИ Anthropic попробовала это на двух разных LLM, они обнаружили, что эти модели давали ответы, соответствующие общепринятым стереотипам, и не упоминали влияние социальных предубеждений, которые привели к таким ответам.

Языковые модели часто используют нейронные сети, которые работают по принципу "черного ящика". Это значит, что мы знаем входящий запрос (который формулируем), и результат, который получаем на выходе, но не можем понять, как сеть обрабатывает информацию между этими двумя точками. Нейроны получают входные данные и передают их дальше по сети, обрабатывая их с помощью математических операций. Каждый нейрон имеет свои веса, которые определяют, как он будет реагировать на входные данные.

Некоторые исследователи пытаются понять, какие из этих искусственных нейронов соответствуют понятиям реального мира — ученые из OpenAI проводили эксперимент по обозначению всех нейронов (на примере GPT2). Они смогли найти несколько нейронов, которые, казалось, соответствовали узнаваемым понятиям, например, нейрон, который, казалось, активировался для «социально правильных действий».

Но эти инструменты находятся на ранних стадиях, и есть опасения по поводу их надежности. Кроме того, эти методы не демонстрируют строгого воспроизведения при масштабировании.

Почему важно делать языковые модели объяснимыми?

Во-первых, это помогает улучшить качество моделей. Если мы можем понять, как они работают, мы можем увидеть, где возникают ошибки и как их исправлять. Кроме того, объяснимость моделей может помочь избежать некоторых негативных последствий их использования – стереотипы или дискриминацию.

В целом, объяснимость языковых моделей - это сложная задача, но очень важная для развития искусственного интеллекта. Хорошо объяснимые модели помогут нам лучше понимать, как они работают, и использовать их более эффективно и безопасно.