2 года назад
Как разбить текст на абзацы с помощью Python
Источник: Nuances of Programming В этой статье будет представлен подход, использованный мной в проекте, посвященном реферированию подкастов. Корректное реферирование текста всегда начинается с разделения его на смысловые части  —  абзацы. Общий подход Нам предстоит превратить текст в нечто понятное машине, т.е. в векторы. В практике обработки естественного языка векторное представление текста называется эмбеддингом (встраиванием). Есть два способа его проведения. Второй вариант реализуется быстрее и позволяет достичь приемлемых результатов...
325 читали · 2 года назад
Автоматическое реферирование текста
Вступление Регулярно пользуюсь описанным ранее способом распознавания речи в текст для того, чтобы получить текстовый файл из аудиодорожки какой-нибудь презентации или интересного видео с YouTube. Чтобы извлечь полезную информацию из текстового файла, достаточно бегло просмотреть его, а это значительно быстрее, чем слушать видео целиком, даже на 2-кратной скорости. Часть таких материалов потом отправляется в дополнительную личную базу знаний, где можно искать текст по ключевым словам и находить взаимосвязи с другими материалами...