195 подписчиков

IMDB: просто о сложном

25 февраля25 фев

14 мин

IMDb (Internet movie database) - непоколебимый авторитет в мире кино, рейтинговая оценочная система, самый весомый онлайн справочник кинематографа. Почему стоит опираться на IMDb, или как не попасть впросак с выбором фильма.

Кол Нидхэм вошел в историю как создатель «IMDb» - крупнейшей в мире базы данных о кино.

Бристоль, Великобритания, 1981 год - страстный киноман и коллекционер впечатлений

Кол Нидхэм вошел в историю как создатель «IMDb» - крупнейшей в мире базы данных о кино.

Бристоль, Великобритания, 1981 год - страстный киноман и коллекционер впечатлений

Оглавление

В этой статье рассказываю про:
Загребаем кеш лопатой: история IMDb.
Usenet: как FAQ файлы Кола Нидхэма обретали популярность, ведь интернета тогда еще не было?

В этой статье рассказываю про:

IMDb: история основания.
Первая в мире социальная сеть «Usenet».
Объяснение по-русски: зачем нам IMDb, если есть Кинопоиск?
Формирование рейтинга: все ли так чисто и прозрачно?
Байесовская формула, которой вы подсознательно пользуетесь при выборе товаров на Wildberries.
Топ 250 фильмов: чарт, или потому что великое?

Загребаем кеш лопатой: история IMDb.

Кол Нидхэм вошел в историю как создатель «IMDb» - крупнейшей в мире базы данных о кино.

Бристоль, Великобритания, 1981 год - страстный киноман и коллекционер впечатлений собирает заметки о просмотренных фильмах: буквально письменно в блокнот, так как хочет помнить о кино гораздо больше, чем просто название.

Со временем после начала ведения дневника Кол Нидхэм переехал на более практичное и удобное устройство - компьютер.

Там и появились первые FAQ файлы с информацией о фильмах.

FAQ файл - это текстовый или структурированный документ (например, в форматах .txt, .pdf, .html), содержащий список наиболее распространённых вопросов пользователей по определённой теме, продукту или сервису и готовые ответы на них.

В наше время, тот самый раздел на сайтах, где можно быстро найти решение по определенному вопросу, не обращаясь в поддержку.

Как это все выглядело технически? В эпоху раннего интернета популярным форматом обмена информацией в сетевых группах были именно FAQ файлы: чаще остальных использовались текстовые файлы (.txt).

Кол Нидхэм систематизировал в них информацию о фильмах: списки актёров, режиссёров, сюжеты и другую информацию.

Собирал он ее, перематывая VHS кассеты, да, тогда еще не было «цифрового» кино.

I used to rewind VHS tapes, press pause, type in the main credits, and that was that.

Я бывало перематывал кассеты, ставил на паузу, вбивал основные титры и всё.

- Кол Нидхэм.

В переводе на современный лад, чувак просто кидал в папку «избранное» наброски о просмотренном кино на протяжении многих лет.

Usenet: как FAQ файлы Кола Нидхэма обретали популярность, ведь интернета тогда еще не было?

К 1988 году Кол Нидхэм уже состоял в кинемотаграфических группах в «юзенете». Что это такое, сейчас объясню:

Средой обитания сообществ для обмена информацией той эпохи был «Usenet» (User Network), а не «интернет» в современном, привычном нам понимании. По факту, это была самая первая в мире соцсеть, работающая «по проводам». Основное отличие от интернета заключалось в «механизме распространения» информации.

Естественной экосистемой «Usenet» была университетская, академическая среда. Обусловлено это тем, что они имели необходимую инфраструктуру (дорогое «железо», сервера, выделенные телефонные линии для связи с другими университетами), целевую аудиторию (студенты, аспиранты, профессора — любознательные люди, нуждающиеся в обмене информацией).

Как работал этот механизм?

Приведу вам простую аналогию, без сложных технических терминов:

Представьте себе приложение telegram (usenet) на телефоне, в котором нет личных чатов, но есть только беседы по интересам (кино, музыка, искусство). Ваш телефон проводным способом подключен к локальному, местному серверу: как правило это огромный центральный компьютер, располагающийся прямо в университете.

Итак, вы открыли приложение: конкретно в вашем telegram (Usenet) будут отображаться только те беседы, которые ваш университетский сервер решил там хранить. Университет является своего рода «фильтром» информации, определяя, какие тематические группы способствуют академическому образованию связанным с направлением института, оставляя их на сервере, а какие нет, при этом их отсеивая. Очевидно, что в физико-технологических институтах будет больше бесед про физику и математику, в кинематографических про продюсерство и режиссуру, и так далее.

Группа, связанная с физикой навряд ли будет корректной для кинематографического университета, поэтому, если вы учитесь в таком ВУЗе, в вашем приложении telegram (Usenet) её может не быть.

Изначально вы становитесь «подписчиком» той группы, которая вам по душе, закрепляя беседу в самом вверху списка всех чатов, как это делается в telegram. Так как информации было крайне много, и вся она была неотсортированной, «подписка» была вашим личным инструментом для навигации по этому локальному архиву.

Вы определились с группой, и решили отправить сообщение в беседу: например, FAQ файл с рецензией на фильм, где снимается секс символ 90-х Дженнифер Лопес. Буквально это происходит так:

Ваше сообщение с FAQ файлом по проводам приходит на тот самый локальный университетский сервер, откуда аналогичным образом по проводам отсылается обратно всем, чей телефон подключен к этому серверу.

Это и есть локальная сеть, в переводе с английского означающая «местная». Телефоны с telegram (Usenet) были установлены в библиотеке, общежитие, главном корпусе, то есть «по месту».

Как Usenet был связан с другими университетами?

Помимо того, что сообщение отправленное в беседу копируется на телефоны в вашей локальной сети, университетский сервер, используя телефонные, выделенные линии (между прочим, государство нескромно спонсировало это дело) копирует и отправляет ваше сообщение на другие, университетские локальные серверы, где по той же схеме оно распространяется на телефоны с telegram (Usenet) чужой локальной сети. Тот сервер в свою очередь отправляет сообщение третьему, и так далее.

Кол Нидхэм, создавая свои FAQ файлы, публиковал их в группу «rec.arts.movies», зная, что её хранят почти все академические серверы мира, а значит, авторские заметки получат максимальное распространение.

Цивилизация слова «Usenet».

Вы не поверите, но визуально эта соцсеть реально выглядела примерно вот так:

Это был мир, где слово было единственной, абсолютной и самодостаточной валютой:

Не было картинок, видео, голосовых сообщений, лайков или эмодзи, только чистый, сплошной текст. Не было аватаров, анкет, подписчиков. Вас знали только по никнейму (например, «Col Needham»), а ваша репутация определялась только тем, что и как вы писали: стиль, эрудиция и содержательность ваших постов говорила за вас.

Важным моментом является то, что «usenet» не являлся мгновенным передатчиком информации. Это была «медленная сеть». Отправляя сообщение, люди с других концов мира могли получить его через день или два, что объясняется технологическим ограничением той эпохи (провода, архитектура доставки сообщений).

Но задержка в отправке не минус, а плюс «Usenet». Это породило культуру глубокого, вдумчивого ответа. Возможности отреагировать сгоряча не было, между вопросом и ответом пролегали часы или сутки - время, чтобы открыть книгу, проверить факты, отточить формулировку.

Ответ был не репликой, а целым сочинением, аргументированным и выверенным. Споры были яростными, но многословными и основанными на логике.

Вот такой была первая социальная сеть: мир сообществ, где царила «цивилизация слова», и последующее уважение к нему.

Переезд в интернет: Джонни, мы чертовски богаты.

Кинозаметки Кола Нидхэма к 1990 году со стороны единомышленников обретают немалую популярность, в связи с чем, он принимает решение написать и опубликовать первую версию IMDb (первый опубликованный FAQ файл от лица компании IMDb, а не от лица Кола Нидхэма) 17 октября 1990 года.

FAQ файл опубликованный от лица IMDb в 1990 году предположительно, по неподтвержденной информации, содержал информацию о первом занесённом в базу данных фильме. Считается, что это «A Streetcar Named Desire» - «Трамвай, называемый „Желание“» 1951 года выпуска.

Шаг за шагом IMDb превращается в сообщество любителей кино, делающих заметки о фильмах.

В 1993 году уже прилично накопившаяся база данных о кино переезжает в открытый интернет, а в 1996 регистрируется как компания: IMDb Ltd.

«LTD» (или «Ltd.») в названии IMDb Ltd. означает Limited (Лимитед), что указывает на то, что это общество с ограниченной ответственностью (аналог ООО в России).

Джефф Безос, основатель Amazon, выкупает «IMDb Ltd.» за 55 миллионов долларов в 1998 году, Кол Нидхэм при этом остается главным исполнительным директором, и дальше управляет компанией. После покупки, IMDb очень быстро стал одним из монополистов на рынке киноагрегаторов.

Таким незатейливым образом скромная привычка вести учёт просмотренных фильмов превратилась в идею, объединившую миллионы людей со всего земного шара вокруг кино.

Объяснение по-русски: зачем нам IMDb?

Для тех, кто еще не понял: IMDb - это наш отечественный «Кинопоиск», со своим сайтом и приложением (да, в AppStore его можно скачать), только вот Кинопоиск строился по примеру IMDb, а не наоборот.

В России IMDb малоизвестен, и большим спросом не пользуется. Отечественный аналог IMDb в виде Кинопоиска, рассчитанный на русскую аудиторию, создает препятствия популяризации IMDb:

В первую очередь это обусловлено языковым барьером, официальное приложение и сайт IMDb до сих пор не имеют полноценной русской локализации (интерфейса).
«Кинопоиск» интегрирован с другими сервисами Яндекса, что упрощает его использование.
Рейтинги и топ 250 «Кинопоиска» формируются с учетом мнений преимущественно русскоязычных зрителей, что делает их более отражающими вкусы местной аудитории, в то время как IMDb ориентированна на общемировое кино, а не на только лишь российское.

Так и зачем нам IMDb?

IMDb для любителя кино - это как для путешественника карта, компас и путеводитель в одном флаконе, кладезь точной информации о кино, которая предполагает приоритет факта над мнением:

На первом плане - имена, даты, технические спецификации, хронологические списки.

«Хотел помнить о кино гораздо больше, чем просто название»

- Кол Нидхэм.

Нам может быть все равно на уникальные факты съёмочного процесса конкретного кино, плевать на снимающийся актерский состав, можно не обращать внимание на историю создания того или иного фильма, но на рейтинг IMDb закрыть глаза нельзя.

Рейтинг IMDb - (оценочная система баллов, от 1 до 10 с точностью до десятых) это то, ради чего написана эта статья. Это то, ради чего нам, российским пользователям нужен IMDb. Не существует более авторитетного рейтинга, чем этот. Со статистикой не спорят, а эта является самой компетентной.

Рейтинг IMDb - главный судья, и приговор для фильма.

Если вы хотите заценить качественное кино вечером, но переживаете, что попадется «шляпа» - рейтинг IMDb ваш первый друг.

Со временем глаз наметается - вы сами для себя определите выше какого рейтинга фильм не будет вас разочаровывать.

Формирование рейтинга: Байесовская формула.

Итоговый рейтинг фильма, который вы видите на сайте IMDb (например, 6.9/10) есть не только среднее арифметическое всех поставленных оценок. Это также и средневзвешенное значение. У каждого голоса есть свой «вес», которым определяется надежность пользователя.

Вышел новенький фильм «А», и получил 10 голосов по 10 баллов, получается, рейтинг (среднее арифметическое) равен 10/10. Попадет ли он в топ 250 мира?
Солидный, общепризнанный фильм «Б» получил множество голосов, общим количеством в 500.000, но рейтинг равен 8.5/10. Будет ли фильм «А» выше рейтингом фильма «Б»?
Весь Китай, населением в полтора миллиарда человек единогласно поставил 10 баллов фильму «С», топ рейтинга обеспечен?

Архитектура системы: как все устроено технически?

Система взвешивания голосов является частью «секретного соуса» компании и до конца не раскрывается, но что-то мы знаем.

Все проходит в два этапа. Сначала «фильтруется» качество голосов. То есть одна и та же оценка от разных людей и аккаунтов учитывается системой по-разному, у каждого голоса свой «вес».

Как конкретно это происходит, как раз и есть коммерческая тайна IMDb, но по наблюдениям можно заключить следующее:

«История» и давность аккаунта: Аккаунт, который много лет активно голосует за разные фильмы, скорее всего, имеет больший вес, чем новый. Давно в банде? Имеешь доверие.
Активность на платформе: написание рецензий, участие в форумах - все это сигнализирует о вовлеченном пользователе, чей голос может учитываться серьезнее. Наводишь осмысленный движняк? Авторитет растет.
Необычная активность: если фильм вдруг получает лавину голосов 1 или 10 баллов с новых или малодеятельных аккаунтов, система распознает это как «необычную активность». Такие голоса не удаляются, но их вес радикально снижается или они временно исключаются из расчета основного рейтинга. Это как раз и есть защита от «накрутки» и манипуляций с ботами.

После фильтрации качества «голосов», полученные «эффективные» голоса подставляются в формулу Байесовского, и начинается второй этап.

Вы подсознательно пользуетесь формулой Байесовского, когда покупаете на Wildberries.

Метод основан на теореме Байеса. В контексте рейтингов он решает ключевую проблему: как оценить истинное качество фильма, если у нас мало исходных данных?

Байесовская формула - это умные статистические «весы», которые взвешивают не только оценки, но и доверие к этим самым оценкам.

Классическая формула, которую использует IMDb (в упрощённом виде), выглядит так:

WR = (v / (v + m)) × R + (m / (v + m)) × C

Не переживайте, на примере все станет понятно. Давайте расшифруем каждый компонент:

WR (Weighted Rating) - взвешенный рейтинг: Это итоговая оценка, которая отображается на сайте (например, 7.9). Это не среднее арифметическое всех оценок поделённых на их количество.
R (Average Rating) - средняя оценка: это как раз среднее арифметическое всех голосов, поданных за фильм (от 1 до 10).
v (Number of Votes) - общее количество голосов: сколько пользователей оценило фильм.
C (Mean Vote Across Whole Report) - глобальное среднее: средний балл по всей базе данных IMDb - общая сумма всех оценок всех фильмов IMDb делённая на общее количество всех голосов всех фильмов. Проще не объяснить.
m (Minimum Votes Required) - ключевой Байесовский параметр: по факту, это порог значимости фильма, перешагнув который рейтинг отображает «реальное» мнение большинства. Можно назвать это весом, или доверием. Когда вы выбираете товар на WB, вы подсознательно отдаёте предпочтение оценке 4.5 с 10.000 тысячами отзывов, чем оценке 5 с 10 отзывами. Представьте, что вы определили для себя минимальный порог в 1000 отзывов, чтобы итоговый рейтинг товара на WB являлся для вас объективным: в этом и заключается Байесовский феномен. Минимальный «порог» для фильмов является коммерческой тайной IMDb, но для топ 250 фильмов он может составлять сотни, а то и миллионы голосов. Если же фильм не перешагнул m, его рейтинг будет тянуться к глобальному, среднему С.

Фильм «А», «Б», «С» - нет, нет, и нет.

Вспоминаем формулу, и на шару берем любые исходные данные.

Глобальное среднее IMDb C = 6.8 (условно).

Порог значимости m = 1000 (условно).

Сценарий для фильма «А»: новенький фильм, 10 голосов по 10 баллов.

WR (взвешенный, итоговый рейтинг, который отображается на сайте) по итогам расчёта приблизительно равен ≈ 6.83.

Фильм «А» с идеальной десяткой получает взвешенный рейтинг 6.83, что практически неотличимо от глобального среднего 6.8. Формула почти полностью проигнорировала сырые данные из-за ничтожного количества голосов v, которые не перевалили «порог» значимости m. Поэтому нет, топ 250 мира мимо.

Сценарий для фильма «Б»: солидный и общепризнанный, 500.000 голосов с общим рейтингом 8.5 баллов.

WR ≈ 8.49 баллов.

Фильм с полумиллионом голосов получает взвешенный рейтинг 8.49, что практически в точности равно его пользовательскому среднему 8.5. Система почти без корректировки признаёт его как объективную реальность, за счёт «мнения большинства».

Поэтому нет, фильм «А» никак не будет выше в рейтингах фильма «Б».

Желание читателей после увиденных формул.

Сценарий для фильма «С»: Китай решил брать штурмом.

Алгоритмы IMDb специально обучены искать неорганическое поведение. Сценарий «огромная страна массово голосует за один фильм» будет легко выявлен по множеству сигналов:

Подавляющее большинство голосов будет приходиться из одного региона.
Паттерн (поведение) оценок - львиная часть оценок будут строго «10» или строго «1» для конкурентов.
Отсутствие демографического разнообразия: голоса будут от пользователей с похожими языковыми и культурными профилями.

Обнаружив такие аномалии, система может применить санкции: снижение веса голосов из этого региона для данного конкретного фильма или полная фильтрация части голосов, признанных непоказательными или подозрительными. Исключение фильма из рейтинга топ 250 на основании манипуляций, даже если по «сырым» цифрам он формально проходит. Поэтому нет, Китай штурмом не возьмет.

IMDb оттачивал свою систему десятилетиями, превратив её в цифрового сомелье мирового кино. Он создаёт живую, дышащую цифру, устойчивую к хайпу и накруткам, отражая коллективный пульс аудитории, а не сиюминутный шум. Рейтинг IMDb это истина, завоёванная статистикой.

Топ 250 фильмов: чарт, или потому что великое?

Для начала покажу вам, какие фильмы вообще заняли топ 10 рейтинга мира.

Побег из Шоушенка (The Shawshank Redemption, 1994)
Крёстный отец (The Godfather, 1972)
Тёмный рыцарь (The Dark Knight, 2008)
Крёстный отец 2 (The Godfather: Part II, 1974)
12 разгневанных мужчин (12 Angry Men, 1957)
Список Шиндлера (Schindler's List, 1993)
Властелин колец: Возвращение короля (The Lord of the Rings: The Return of the King, 2003)
Криминальное чтиво (Pulp Fiction, 1994)
Властелин колец: Братство кольца (The Lord of the Rings: The Fellowship of the Ring, 2001)
Хороший, плохой, злой (The Good, the Bad and the Ugly, 1966)

Список лучших фильмов по версии IMDb - это живой, бьющийся «пульс» текущих предпочтений активных кинозрителей мира, а не застывший канон, работающий по принципу «потому что великое».

IMDb - инструмент, с хирургической точностью отсекающий «посредственное» кино. Никакой политики, только факты. Опираемся на мнение «мира», а не на повестку того или иного государства.

Топ 250 IMDb - динамический, непрерывно меняющийся чарт: новый, «высокобюджетный» фильм вполне может быть оплеванным после премьеры, а старое забытое кино может пережить ренессанс и взорвать рейтинги спустя 20 лет.

Чарт меняете вы - вердикт вступает в силу немедленно, а ваш голос является пулей, меняющей рейтинги прямо сейчас.

IMDb не статичный перечень великого кино - это кровь и пот самой демократичной битвы в истории кино, где каждый ваш клик меняет расстановку сил. Идет суровая война за крупнокалиберное качество: считаю это по истине захватывающем.

О кино и сериалах

672,2 тыс интересуются