«У носителей словарь — 30 тысяч слов». Звучит как приговор тем, кто только начал учить язык. На самом деле эта цифра почти не имеет отношения к практике: в живой речи носители используют намного меньше, и для большинства человеческих целей нужно гораздо более скромное количество слов, чем кажется.
Корпусные исследования последних 30 лет дают довольно точные ответы на вопрос «сколько нужно знать для X». Разберёмся по уровням и целям.
Сколько знают носители
Самое цитируемое современное исследование размера словаря — Brysbaert, Stevens, Mandera & Keuleers (2016) «How many words do we know?» в Frontiers in Psychology. Авторы протестировали более 220 тысяч взрослых носителей английского.
Результат: в среднем 20-летний образованный носитель знает около 42 тысяч лемм (словарных форм). К 60 годам словарь вырастает до 48 тысяч. Из этих десятков тысяч — большая часть пассивного словаря: узнаёт, но почти никогда не использует.
Активный словарь носителей по разным оценкам — 15–20 тысяч лемм. Но и эта цифра обманчива: в реальной речи каждый день человек обходится 2–3 тысячами разных слов. Остальное лежит в «архиве» — извлекается, когда нужно обсудить специальную тему.
Что такое лемма?
Лемма — это не «слово как оно звучит в тексте», а его базовая словарная форма, под которой объединяются все грамматические варианты.
Лемма = «одна единица в словаре», а не каждое отдельное употребление.
Примеры
- идти, иду, шёл, пойдём → это одна лемма: “идти”
- кот, кота, котом, коты → одна лемма: “кот”
- красивый, красивая, красивее → одна лемма: “красивый”
Сколько слов на каждом уровне CEFR
CEFR — это европейская шкала уровней владения языком:
A1 (начальный) → A2 → B1 → B2 (свободный) → C1 → C2 (мастерский).
Корпусные исследования Джеймса Милтона (Milton, 2010) показали довольно стабильное соответствие словарного запаса уровням:
— A1 (начальный): около 1000 слов. Можно представиться, заказать кофе, понять простые объявления.
— A2 (элементарный): 1500–2000. Простые диалоги о повседневной жизни, путешествия, базовая работа.
— B1 (средний): 2750–3250. Можно поддерживать разговор на знакомые темы, читать адаптированную литературу.
— B2 (выше среднего): 3750–4500. Свободное общение в большинстве ситуаций, понимание новостей и фильмов на 70–80%.
— C1 (продвинутый): 5000–6000. Свободное чтение художественной литературы, специальная лексика по профессии.
— C2 (мастерский): 8000+ . Уровень близкий к носителю в большинстве сфер.
Эти цифры — пассивный словарь, измеренный лексическим тестом. Активный словарь на каждом уровне примерно в 2 раза меньше.
Сколько нужно для конкретных задач
Здесь самые интересные цифры — из корпусных работ Пола Нейшена, новозеландского лингвиста, который десятилетиями анализирует, какое покрытие текста нужно для понимания.
Чтобы понимать обычный устный диалог. Нейшен (Nation, 2006) показывает: первые 2000 самых частотных семейств слов покрывают около 90% слов в типичной разговорной речи. Чтобы понимать без напряжения — нужно знать примерно 95% слов в речи, и для этого хватает около 3000 семейств.
Чтобы смотреть фильмы и сериалы без субтитров. Нужно покрытие 95–98% — это примерно 4000–5000 слов в сложных взрослых драмах, около 3000 для сериалов попроще. Многие фильмы с высокой долей повседневной речи доступны уже на B1+.
Чтобы читать газеты и новости. Газетный язык богаче разговорного: для покрытия 95% нужно около 4000–5000 семейств, для комфортного чтения — 8000.
Чтобы читать художественную литературу для взрослых. Здесь самый высокий порог: 8000–9000 семейств для понимания на 98%. Но «детектив на отдыхе» сильно проще классики.
Чтобы читать научные статьи в своей сфере. Около 8000 общих + 2000 терминологических семейств. Главное препятствие — не размер словаря, а специфика, термины, понимание области знания.
Принцип частотности: почему первая тысяча самая ценная
Распределение слов в любом языке подчиняется закону Ципфа: горстка самых частотных слов занимает огромную долю любого текста. В английском первые 1000 семейств покрывают около 75% обычной разговорной речи, первые 2000 — уже около 85%, 3000 — 90%.
Это значит: каждое следующее «топовое» слово, которое вы выучиваете, даёт огромный прирост к понимаемости. А вот после 5000 кривая выполаживается — каждая следующая тысяча слов добавляет всего 1–2% покрытия.
Практический вывод: для большинства целей в первые годы изучения языка имеет смысл сосредоточиться на самых частотных словах, а не учить тематические подборки про экзотические профессии. Это именно то, на чём построены методики «частотного минимума» — например, концепция шведского полиглота Эрика Гуннемарка, который выделил около 400 слов как стартовый набор для любого языка.
А сколько у меня
Главная сложность в том, что без замера сложно понять, где вы на этой шкале. Самооценка обычно даёт сильный сдвиг — в обе стороны.
Часть людей считает, что знает «совсем мало», хотя реально набирается 3000–4000 слов из университета и сериалов. Другая часть, наоборот, переоценивает: думает, что свободно понимает фильмы (значит, словарь огромный), а замер показывает 1500–2000.
Точная цифра помогает планировать: видеть, какой следующий шаг даст максимальный эффект, и не учить уже знакомое.
Хотите узнать свой словарь в цифрах?
Бесплатный тест на 6 минут покажет ваш пассивный словарь в английском, ваш уровень CEFR и распределение знаний по частотным полосам — где у вас «фундамент» прочный, а где есть пробелы.
Тест построен по академической методологии LexTALE (Lemhöfer & Broersma, 2012), с коррекцией на завышение через ловушки-псевдослова. Без регистрации.
👉 Пройти тест бесплатно и без регистрации можно тут: https://app.minileks.ru/test/
Источники:
- Brysbaert, Stevens, Mandera & Keuleers (2016) Frontiers in Psychology;
- Milton, J. (2010) «The development of vocabulary breadth across the CEFR levels»;
- Nation, I.S.P. (2006) «How large a vocabulary is needed for reading and listening?» Canadian Modern Language Review.