NLP (Natural Language Processing, обработка естественного языка) в искусственном интеллекте (ИИ) – это область компьютерных наук и искусственного интеллекта, направленная на взаимодействие между компьютерами и человеческими (естественными) языками.
Естественный язык – это язык, на котором говорят люди, например, русский, английский, китайский и другие.
Цель технологии NLP – разработка алгоритмов, которые позволяют компьютерам понимать, интерпретировать и генерировать человеческий язык. Простыми словами, это математические правила и инструкции, которые использует компьютер, чтобы перевести наш вопрос, устный или письменный, на свой «компьютерный» язык и наоборот – перевести свой ответ с «компьютерного» языка на человеческий.
К основным задачам NLP относятся:
- Морфологический анализ: Разбор слов по их составляющим частям (например, префиксам, корням, суффиксам). Всё как в начальной школе 😉.
- Синтаксический анализ: Определение грамматической структуры предложения.
- Семантический анализ: Определение смысла и значения слов и предложений.
- Распознавание именованных сущностей: Выделение из текста имён, дат, организаций и других сущностей.
- Распознавание и синтез речи: Преобразование устной речи в текст и наоборот.
- Анализ эмоциональной окраски текста: Выделение из текста его субъективных характеристик, например эмоциональной составляющей.
- Машинный перевод: Перевод текста с одного языка на другой.
Сегодняшний уровень технологий ИИ – это дети 7–10 лет. Они знают отдельные слова, могут строить предложения, но путают значения слов, неправильно ставят ударения при произношении, неправильно подбирают окончания слов и прочие прелести, которые умиляют при общении с детьми и раздражают при общении с ИИ.
Углубимся в историю.
В 1950 году математик Алан Тьюринг представил свою знаменитую статью «Вычислительные машины и разум» (оригинальное название «Computing Machinery and Intelligence»).
Алан Тьюринг – выдающийся британский математик, логик, криптограф и один из основателей компьютерных наук. Родился 23 июня 1912 года в Лондоне, Великобритания. Учился в Королевской школе в Кенте, затем в Кембриджском университете, где изучал математику. Получил степень доктора философии в Принстонском университете.
В 1936 году Тьюринг опубликовал статью «On Computable Numbers, with an Application to the Entscheidungsproblem», в которой предложил концепцию «машины Тьюринга» – абстрактного устройства, способного выполнять любые вычисления, которые могут быть описаны алгоритмом. Это стало фундаментом для теоретической информатики.
Во время Второй мировой войны Тьюринг работал в правительственном учреждении Bletchley Park, где он разработал методы для расшифровки сообщений, закодированных немецкой машиной «Энигма». Его работа значительно ускорила окончание войны и спасла множество жизней.
После войны Тьюринг продолжил работу над проектами в области компьютерных наук, включая разработку одного из первых проектов цифрового компьютера.
Тьюринг умер 7 июня 1954 года при загадочных обстоятельствах, официальной причиной смерти стало отравление цианидом. Рядом с телом Алана Тьюринга было найдено надкушенное яблоко, и это обстоятельство, по бытующей версии, легло в основу логотипа всемирно известной компании Apple. Официальные представители компании Apple никогда не подтверждали, что логотип был создан как дань уважения Алану Тьюрингу. Легенда о связи логотипа с Тьюрингом остаётся популярным мифом, не имея документальных доказательств.
В своей статье «Вычислительные машины и разум», опубликованной в 1950 году, Тьюринг начинает с обсуждения вопроса «Могут ли машины мыслить?» и предлагает переформулировать его в более конкретную форму «Есть ли у машин разум?». Алан Тьюринг предлагает замену вопроса о мышлении машин на «Игру в имитацию», так называемый тест Тьюринга. В этой игре человек задаёт вопросы как компьютеру, так и человеку, не зная, кто из них кто. Если машина сможет вести диалог таким образом, что её нельзя будет отличить от человека, то можно считать, что машина прошла тест Тьюринга и обладает разумом.
Сегодня программы и системы ИИ значительно продвинулись и многие из них могут успешно имитировать беседу живого человека в ограниченных контекстах. Однако полноценное прохождение теста Тьюринга, при котором машина была бы неотличима от человека в широком спектре диалогов и ситуаций, всё ещё остаётся вызовом.
Некоторые, но значимые этапы прохождения теста Тьюринга.
- 1966 год. Один из первых примеров программы, прошедшей примитивный вариант теста Тьюринга, – это программа ELIZA, разработанная Джозефом Вейценбаумом. ELIZA могла имитировать поведение психотерапевта, и некоторые пользователи считали, что общаются с реальным человеком.
- 1972 год. PARRY – алгоритм, разработанный Кеннетом Колби, был более продвинутой программой, имитирующей параноидного шизофреника. В неформальных тестах психиатры часто не могли отличить его от реальных пациентов.
- 2000 год. В честь 50-летия публикации статьи Тьюринга был проведён очередной тест Тьюринга. Программа A.L.I.C.E. (Artificial Linguistic Internet Computer Entity) была признана одной из лучших, но не смогла полностью убедить жюри.
- 2014 год. Программа под названием Eugene Goostman, разработанная Владимиром Веселовым и Евгением Демченко, стала первым чат-ботом, который, как было заявлено, «прошёл» тест Тьюринга. В ходе эксперимента 33% жюри приняли программу за 13-летнего мальчика. Однако этот результат вызвал споры в научном сообществе из-за условий тестирования и интерпретации результатов.
Марвин Мински, американский учёный, один из основателей и пионеров в области искусственного интеллекта, в 2014 году сказал: «Из плохо разработанных «экспериментов» ничему не научишься. Спросите программу, можете ли вы толкать машину с помощью верёвки. И, если нет, то почему бы и нет?». Кстати, можете проверить и спросить об этом любой GPT! ИИ не может определить разницу между «тянуть» и «толкать». Я провёл свой тест и спросил GPT: «Можно ли косить траву заплетённой косой украшенной бантиком?». Ответ:
«Коса для стрижки волос»!!!😂 Однако GPT вывернулся, на всякий случай уточнив про причёску 😉, но тест Тьюринга он явно не прошёл!
Теперь вернёмся к NLP. Технологии NLP используются в различных приложениях, таких как чат-боты, виртуальные ассистенты, системы машинного перевода, поиск информации, пересказ текстов и многие другие.
Сегодня мы встречаемся с технологиями NLP повсеместно: и в Интернете, и в повседневной жизни. Хотите смотреть ролик на родном языке – получите синхронный перевод видео, нет желания читать статью – получите её пересказ, можно просто поболтать с ИИ или узнать какие-то сведения. Это прогресс, и он сегодня активно меняет многие сферы нашей жизни, делая взаимодействие с технологиями более естественным и удобным. Многие скажут: «Это зло, которое мешает!». Да, любая технология работает как для пользы, так и во вред. Достаточно вспомнить открытие ядерного синтеза и то, к чему это привело.
Новые технологии в ИИ сегодня ставят новые задачи:
- Проблемы предвзятости и справедливости в моделях NLP
- Вопросы конфиденциальности и безопасности данных
- Этические аспекты использования NLP в различных сферах
Все эти задачи крайне важны, и над ними работают учёные крупных университетов. Например, 26 июня 2024 года Учёный совет НИУ ВШЭ утвердил «Декларацию этических принципов использования ИИ». Декларация охватывает ряд ключевых принципов, направленных на этичное и ответственное использование ИИ.
Жаркие споры о вопросах конфиденциальности и безопасности данных, применяемых в ИИ, прошли на Петербургском международном экономическом форуме в 2024 году.
Всё это уже реальность! Скажу вам честно, что ещё в 2014 году применение ИИ в технических задачах вызывало бурю споров и возмущений. Я, будучи в то время молодым специалистом в этой области, с трудом защищал свои научные труды. Сейчас же ИИ стараются использовать даже в самых сложных технологических задачах. Вот яркий пример: 18 июня базирующаяся в Дубае компания объявила об успешном тестовом запуске жидкостного ракетного двигателя LEAP 71 с 3D-печатью hot-fires, разработанного с использованием вычислительной модели Noyron. Видео тут. Круто, и добавить нечего!
Я убеждён, что ИИ сыграет немалую роль в технологическом и социальном прогрессе этого столетия.
Если вам будет интересно узнать, как именно работают технологии NLP, пишите в комментариях, и я подготовлю материал на эту тему.
© Автор статьи: Широков Павел, руководитель компании Интеллектуальные продукты и системы