6 подписчиков

10. Обработка естественного языка (NLP): учим компьютер понимать человеческую речь 🗣️📖

4 марта 20254 мар 2025

4 мин

В предыдущих постах мы занимались обработкой изображений. Сегодня мы переходим к другой важной области искусственного интеллекта – обработке естественного языка (NLP). NLP – это область, занимающаяся обучением компьютеров понимать, интерпретировать и генерировать человеческий язык. 1. Что такое NLP? NLP охватывает широкий спектр задач, включая: 2. Основные этапы обработки текста: Прежде чем обучать модель NLP, необходимо подготовить текстовые данные. Обычно это включает в себя следующие этапы: 3. Пример задачи: классификация тональности отзывов (Sentiment Analysis) Мы будем использовать набор данных отзывов о фильмах (IMDB dataset), который доступен в Keras. Наша задача – определить, является ли отзыв положительным или отрицательным. __________________________________________________________________________________________ import numpy as np

from tensorflow.keras.datasets import imdb

from tensorflow.keras.models import Sequential

from tensorflow.keras.layers import Embedding, Flatten,

from tensorflow.keras.datasets import imdb

from tensorflow.keras.models import Sequential

from tensorflow.keras.layers import Embedding, Flatten,

1. Что такое NLP?

NLP охватывает широкий спектр задач, включая:

Классификация текста: Определение категории или темы текста (например, определение тональности отзыва – положительный, отрицательный или нейтральный).
Извлечение информации: Извлечение конкретной информации из текста (например, извлечение названий компаний и дат из новостной статьи).
Машинный перевод: Автоматический перевод текста с одного языка на другой.
Вопросно-ответные системы: Ответы на вопросы, заданные на естественном языке.
Генерация текста: Создание текста на естественном языке (например, написание статей или ответов на электронные письма).

2. Основные этапы обработки текста:

Прежде чем обучать модель NLP, необходимо подготовить текстовые данные. Обычно это включает в себя следующие этапы:

Токенизация (Tokenization): Разделение текста на отдельные слова (токены).
Удаление стоп-слов (Stop word removal): Удаление часто встречающихся слов, которые не несут большого смысла (например, “и”, “в”, “на”).
Лемматизация (Lemmatization) / Стемминг (Stemming): Приведение слов к их базовой форме (например, “бежал”, “бежит”, “бегут” -> “бежать”). Лемматизация использует словарь и грамматические правила, чтобы найти правильную лемму (базовую форму слова), в то время как стемминг просто обрезает окончания слов.
Векторизация (Vectorization): Преобразование текста в числовые векторы, которые могут быть обработаны моделями машинного обучения. Наиболее распространенные методы векторизации:Bag of Words (BoW): Подсчитывает количество каждого слова в тексте.
TF-IDF (Term Frequency-Inverse Document Frequency): Взвешивает слова в зависимости от их частоты в тексте и их редкости во всем корпусе текстов.
Word Embeddings (Word2Vec, GloVe, FastText): Представляют слова как векторы в многомерном пространстве, где близкие по смыслу слова находятся близко друг к другу.

3. Пример задачи: классификация тональности отзывов (Sentiment Analysis)

Мы будем использовать набор данных отзывов о фильмах (IMDB dataset), который доступен в Keras. Наша задача – определить, является ли отзыв положительным или отрицательным.

__________________________________________________________________________________________

import numpy as np
from tensorflow.keras.datasets import imdb
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, Flatten, Dense
from tensorflow.keras.preprocessing.sequence import pad_sequences

# 1. Загрузка данных IMDB

num_words = 10000 # Ограничиваем словарь 10000 наиболее часто встречающимися словами

(X_train, y_train), (X_test, y_test) = imdb.load_data(num_words=num_words)

# 2. Предобработка данных

# Приводим все последовательности к одной длине

maxlen = 200 X_train = pad_sequences(X_train, maxlen=maxlen)
X_test = pad_sequences(X_test, maxlen=maxlen)

# 3. Создание модели

model = Sequential()
model.add(Embedding(num_words, 32, input_length=maxlen)) # Embedding слой для преобразования токенов в векторы model.add(Flatten()) # Преобразование многомерных данных в вектор model.add(Dense(1, activation='sigmoid')) # Выходной слой с сигмоидной функцией активации (0 или 1)
# 4. Компиляция и обучение модели

model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
model.fit(X_train, y_train, epochs=10, batch_size=32, validation_data=(X_test, y_test))

# 5. Оценка модели

loss, accuracy = model.evaluate(X_test, y_test, verbose=0)
print('Test accuracy:', accuracy)

___________________________________________________________________________________python

Разберем код:

imdb.load_data(num_words=num_words) – загружает набор данных IMDB и ограничивает словарь num_words наиболее часто встречающимися словами.
pad_sequences(X_train, maxlen=maxlen) – приводит все последовательности (отзывы) к одной длине maxlen. Более короткие последовательности заполняются нулями, а более длинные обрезаются.
Embedding(num_words, 32, input_length=maxlen) – создает слой Embedding, который преобразует каждый токен (слово) в вектор размерностью 32.
Flatten() – преобразует многомерные данные в вектор.
Dense(1, activation='sigmoid') – добавляет выходной слой с сигмоидной функцией активации, который выводит значение от 0 до 1, представляющее вероятность того, что отзыв является положительным.

4. Что дальше?

Использование рекуррентных нейронных сетей (RNN): RNN, такие как LSTM и GRU, лучше подходят для обработки последовательностей, чем обычные нейронные сети.
Использование предварительно обученных Word Embeddings: Использование предварительно обученных Word Embeddings, таких как Word2Vec, GloVe или FastText, может значительно улучшить результаты.
Использование Transformers: Transformers – это новая архитектура нейронных сетей, которая революционизировала область NLP.
Fine-tuning предварительно обученных языковых моделей: Fine-tuning предварительно обученных языковых моделей, таких как BERT или GPT, для решения вашей конкретной задачи NLP.

Вопрос дня: Какие задачи NLP вам кажутся наиболее интересными и перспективными? Поделитесь в комментариях! 👇

#nlp #обработкаестественногоязыка #keras #tensorflow #глубокоеобучение #deeplearning #искусственныйинтеллект #ai #ml #sentimentanalysis #python #дляначинающих #технологии #дзен #канал