Найти в Дзене
поиск работы python

Как преобразовать текст в список слов Python

Чтобы преобразовать строку текста в список слов в Python, обычно используется метод строки split(). pythontext = "Это простой пример текста"
words = text.split()
print(words) # ['Это', 'простой', 'пример', 'текста'] pythonimport re
text = "Привет, как дела? Всё хорошо!"
words = re.findall(r'\b\w+\b', text.lower())
print(words) # ['привет', 'как', 'дела', 'всё', 'хорошо'] Здесь:
Оглавление

Чтобы преобразовать строку текста в список слов в Python, обычно используется метод строки split().

Как работает split()

  • text.split() возвращает список слов, разделённых пробелами (по умолчанию).
  • Можно указать разделитель в скобках, например, text.split(',').

Пример

pythontext = "Это простой пример текста"
words = text.split()
print(words) # ['Это', 'простой', 'пример', 'текста']

Особенности

  • Метод разделяет по всем пробельным символам (пробел, табуляция, перенос строки).
  • Если текст содержит знаки препинания (например, запятые, точки), они останутся в словах. Чтобы избавиться от них, нужно дополнительно очистить слова или использовать модуль re с регулярными выражениями.

Пример с удалением знаков препинания

pythonimport re

text = "Привет, как дела? Всё хорошо!"
words = re.findall(r'\b\w+\b', text.lower())
print(words) # ['привет', 'как', 'дела', 'всё', 'хорошо']

Здесь:

  • re.findall(r'\b\w+\b', text.lower()) — находит все слова, игнорируя знаки препинания.
  • text.lower() — приводим все к нижнему регистру.

Итог

  • Если нужна простая разбивка по пробелам — используйте split().
  • Если нужна более точная токенизация — используйте регулярные выражения или специальные библиотеки для разбора текста (например, nltk или spaCy).