Тему искусственного интеллекта я начал изучать постепенно: читал в интернете статьи, новости, смотрел передачи, но этого мало – общение в профессиональных кругах – это самое ценное в познании любого вопроса. Продолжая углубляться в тему искусственного интеллекта, терминологию, инструменты, о которых я писал ранее, решил затронуть тему NLP (ред., Natural Language Processing – обработка естественного языка). Это область искусственного интеллекта, которая позволяет машине читать и понимать, извлекать смысл из человеческого языка. NLP часто сравнивают с компьютерной лингвистикой, которая использует компьютерные инструменты для решения задач. Сложно? Сейчас разберемся.
«Искусственный интеллект – это гораздо больше, чем NLP. Каждый для себя понимает этот термин по-своему, для кого-то ChatGPT – это уже и есть искусственный интеллект, а можно думать в сторону сознания, чувств, эмоций и мыслей. И тут уже этический вопрос – а должно ли это все быть у машины?», - Ирина Никишина, PhD, postdoc университета Гамбург.
Предыстория
Я восхищаюсь людьми, которые четко знают, чего они хотят и понимают свое предназначение с детства, идут к своей цели несмотря ни на что. Ирина Никишина вдохновила меня своей историей. Уже в 27 лет она получила степень доктора философии в области вычислительной техники и обработки данных в Сколковском институте науки и технологий.
«Я родилась в Саранске, c детства нравилось сверстникам что-т объяснять, помогать делать задания. Родители всегда поддерживали в стремлении к знаниям: отличница, медалистка. Получила степень бакалавра и магистра в Национальном исследовательском университете "Высшая школа экономики". Во время учебы я находилась в постоянной мотивационной среде: конференции, летние школы, поездки, тогда бурными темпами начало развиваться NLP. В магистратуре я оказалась в институте системного программирования РАН – узнала о том, что такое "настоящая" наука. Благодаря этому опыту, теперь я являюсь одним из организаторов Международной конференции по анализу изображений, социальных сетей и текстов (AIST) в рамках направления сетевого анализа. Была секретарем организационного комитета 9-го и 10-го AISTs в 2020 и 2021 годах. Являюсь одним из сооснователей поисковой системы RusNLP для российских конференций по NLP. Таких историй "выбравшихся" из региона за "карьерой" или "лучшей жизнью" очень много, но я никогда не стремилась переехать в Москву, делала то, что интересно. Наверное, мой секрет успеха – не останавливаться. Я ощущаю себя на возвышенности, откуда видны более крутые вершины и отвесные скалы, по которым нужно карабкаться».
Чтобы стать №1 в том, что ты делаешь, нужно делать это по любви. У Ирины случился идеальный во всех смыслах мэтч (ред. совпадение). Ей нравится преподавать, она стремится к знаниям, любит писать длинные тексты, научные статьи, общаться с людьми и путешествовать.
NLP и AI. Кто главный?
Есть много разных версий, что является частью чего: искусственный интеллект (AI) часть NLP или наоборот.
«AI в текстах это "переваривание" и понимание этих текстов, подаваемых на вход, и генерация чего-то осмысленного на выходе. Можно решать эту задачу отдельно – каждая задача NLP, но большие модели делают все и классно справляются. Я бы приняла версию, что NLP – это часть искусственного интеллекта. Также соглашусь с тем, что NLP – это междисциплинарная область лингвистики, информатики и искусственного интеллекта».
Вопрос спорный, но есть задача определения частей речи, которая всегда считалась задачей обработки естественного языка.
С помощью различных техник и методов, которые относятся к машинному обучению, нейросетям, правиловым системам и решаются задачи обработки естественного языка. Приведу примеры таких задач:
- определение частей речи
- определение именованных сущностей (ред. например, название валюты, города, страны)
- ответы на вопросы
- суммаризация (ред. краткий пересказ текста)
Проблема есть всегда
На сегодняшний день специалисты выделяют 4 основные проблемы обработки естественного языка: поиск смысла, распознавание эмоций (но не все эксперты с этой проблемой согласны), морфология, неверная корреляция.
1. Математически сложно отразить нюансы языка, например, омонимы: сушка (от глагола «сушить») – сушка (кондитерское изделие). За извлечение смысла отвечает семантический анализ текста.
2. Машину сложно научить определять эмоции и тональность текста. В зависимости от контекста слова меняют свой смысл.
3. Компьютеры не все языки понимают хорошо. Лучше всего нейросети работают с английским. Отсутствуют ресурсы для многих африканских и азиатских, а также вымирающих языков и местных диалектов. Практически невозможно обработать языки без письменности.
4. Модели обнаруживают простейшие закономерности, объясняющие данные. Например, есть классификатор изображений, где представлены собаки и кошки. Изображения собак имеют оттенки серого, а кошки — цветные. Модель, скорее всего, зафиксирует ложную корреляцию между наличием/отсутствием цвета и тегами. Если попадётся изображение собаки в цвете, программа, вероятно, идентифицирует ее как кошку.
«Задача определения эмоций и тональности достаточно хорошо решается, однако есть сложные примеры или данные, на которых справляется плохо. Есть более сложные датасеты, на которых прослеживаются низкие результаты. Основная проблема больших языковых моделей – галлюцинации. Они придумывают факты, мы не можем им полноценно доверять. Информацию и факты, которые они предоставляют, нужно перепроверять», - поясняет Ирина.
«Проект, которым я сейчас занимаюсь, связан с вопросно-ответными системами, а точнее со сравнительными вопросами. Что лучше: android или iphone? windows / linux? важно не просто выбрать один из них и ответить, почему. ChatGPT может выдать ответ на такой вопрос, и даже подробный, но откуда он берет эту информацию, не перепутал ли свойства и качества одного объекта сравнения с другим? Как я уже говорила, такие модели могут выдумывать и привирать, мы же хотим генерировать какой-то ответ, по которому можно понять, откуда такие аргументы. Такая система есть для английского языка, мы разрабатываем ее и для русского тоже».
За последние пять лет тенденция развития обработки естественного языка существенно возрастает. Естественно, ChatGPT – это самый большой прорыв и многие называют его тем самым AI. Помимо этого, появляются и другие виртуальные помощники, инструменты, при помощи которых можно рассказать модели, что от нее нужно и как решать задачу.
Как одно из направлений искусственного интеллекта обработка естественного языка играет важную роль, это еще одна часть цифрового разума. Кроме текстов и речи для полноценного AI нужно сочетание инженерного (программирования), лингвистики и биологии.
«Возможно, все должно быть с приставкой нейро (нейролингвистка, нейробиология). Мозг человека плохо изучен, и если мы на основе нейросетей (по образу нейронов в живых организмах) построили и научились обучать нейросети и достигли таких высоких результатов, то, что будет, когда мы узнаем больше?».
Читать другие статьи - здесь. Подписывайтесь на мой канал.
#ai #ml #chatgpt #nlp #нейросеть #искусственныйинтеллект