Программисты (да, вообще, программисты из больших проектов) у меня всегда ассоциируются с самой красивой картинкой корейского дорамопрома: Нам Джу Хек в роли Хабэка в фильме «Невеста речного Бога»
иллюстрация отсюда
В реальной жизни они другие, но результаты работы и послевкусие после использования их программ примерно схожи...
Я предвзята (сорок лет в IT), поэтому все, что написано ниже субъективно... я даже не старалась сделать видимость объективности.
Ну... поехали. В предыдущих статьях
начала рассказывать о проблемах создания архивов публикаций и взаимного поиска авторов и читателей.
Все, в конечном итоге, сводится к проблеме организации поиска нужной информации. Классическая схема построения древоводной системы каталогов упирается в ресурсы человеческого мозга. По этой схеме на конкретном ресурсе можно организовать хранение примерно 2,5 тыс. объектов. Для блогера этого вполне достаточно... Для большинства людей самый читаемый текст, труд всей жизни – это «Завещание». «Любимую кружечку с ложечкой, завещаю тому, кто принес стакан воды перед смертью»... типа того...
Для топовых блогеров или для сайта организации – поиск статьи становится проблемой, нужен поиск по материалам и какой-то иной, отличный от древовидного, способ классификации...
Знаю две унылые попытки решить эту проблему:
1) Хештэги. Мало того, что их тоже может быть много, так еще в полный рост встает проблема «давайте договоримся о терминах». Это хэштэг #Jungkook набирает миллиарды просмотров, так гусар Чонгук, не приходя в сознание, без хэштега гоняет по социальным сетям десятки миллионов женщин.
А вот #ключеваявода может означать вообще, все что угодно, от марки производителя до проблем экологии... информационного мусора прилетит столько, что проще отказаться от идеи найти что-то.
2) С поиском по словам еще интереснее. Хорошо если в тексте на сайте слова «ключевая вода» находятся рядом, потому что словосочетание «ключевая, чистая, холодная вода» уже не найти. Можно... есть инструмент «регулярные выражения». Пробовала объяснять людям как это работает... у голодных собак в клетках приютов больше достоинства и надежды в глазах, чем у собеседника, при попытке понять значение термина «метасимвол». Черт... этот инструмент в массе бесполезен.
Поэтому единственное решение проблемы поиска информации на ресурсах – это усложнение поисковых алгоритмов, основанных на семантическом анализе текстов. Об этом пишут много, иногда очень хорошо. Например, статья «Семантический анализ для автоматической обработки естественного языка» (Автор: Татьяна Корешкова). Хороший навигатор-обзор проблемы и способов решений.
Из этой статьи приведу только один абзац
Семантический анализ применяется, например, для создания чат-ботов, поисковых систем и в задачах анализа тональности текста. В ходе семантического анализа с помощью векторного представления слов также может осуществляться поиск смысловых копий как между отдельными предложениями, так и между текстами.
Потому, что именно он дает направление размышлений о нынешних проблемах читателей и блогеров на Дзене.
Это был первый «элемент пазла». Второй «элемент»
Дзен, как часть платформы Яндекс
Дзен, в отличие от старых блогерских платформ, имел возможность использовать современные алгоритмы семантического разбора тектов. Мамой здесь не поклянусь, инсайдерской информации нет, но в основе этого рассуждения лежит примитивная логика. Если организуется ресурс при поисковике, то зачем «изобретать велосипед» и строить что-то свое: писать новые алгоритмы, когда можно использовать уже существующие. Алгоритмы – не дорогой фарфоровый сервиз, который достают для гостей или праздничное платье, утрачивающее свой лоск при стирке.
Какая разница что индексирует поисковик? Для компьютеров вообще не имеет значения с чьими текстами рботать, сайт высшего органа власти, новостной сайт или блог про «парней в помаде»... чем разнообразнее контент, тем лучше обучается ИИ.
А в России, программисты Яндекса имели лучший опыт работы поисковых систем. Краткая история поисковых алгоритмов в одной статье «У «Яндекса» почти 30 поименованных алгоритмов: рассказали обо всех в одной статье». Здесь очень интересным является вот этот абзац
YATI (Yet Another Transformer with Improvements) — технология оценки текстов, которую запустили в сентябре 2020 года.
Как работает. В основу нового алгоритма легли «Палех» и «Королёв». YATI может оценивать до десяти предложений целиком: смыслы заголовков, структуру текста, контекст и фрагменты текста. Так алгоритм лучше сопоставляет запрос пользователя с контентом на сайте.
Вот эти алгоритмы были «прикручены» к Дзену. Поисковый запрос на ресурсах Дзена, формировался на основании явного или не явного запроса пользователя или автора. Явно, когда задали текст в поисковой строке, не явно – список подписок, история просмотров, отметки «больше таких материалов», время проведенное на странице, просмотренные материалы. Чем больше история, тем лучше рекомендации.
Например, после публикации статьи
в моих рекомендациях «парни в помаде» ушли на второй план и появились статьи о Голливуде, джазе и реклама одежды из интернет-магазинов.
Но этот прекрасный мир науки техники существует в реальном мире. У программистов две проблемы: пользователи и заказчики. Если бы не они, то в каждом дворе на планете был бы пруд с золотыми рыбками, на траве паслись павлины, а из динамиков Тэхен пел про любовь и дождь.
К миру науки и техники прилагается нормативно-правовая база, авторы и надзорные органы.
Нормативно-правовая база
Полный текст здесь
КоАП РФ Статья 13.41. Нарушение порядка ограничения доступа к информации, информационным ресурсам, доступ к которым подлежит ограничению в соответствии с законодательством Российской Федерации об информации, информационных технологиях и о защите информации, и (или) порядка удаления указанной информации
(введена Федеральным законом от 30.12.2020 N 511-ФЗ)
1. Непринятие провайдером хостинга или иным лицом, обеспечивающим размещение в информационно-телекоммуникационных сетях, в том числе в сети "Интернет", информационного ресурса, мер по ограничению доступа к информации, информационному ресурсу или сайту в сети "Интернет" в случае, если обязанность по принятию таких мер предусмотрена законодательством Российской Федерации об информации, информационных технологиях и о защите информации, за исключением случаев, предусмотренных частью 3 настоящей статьи, -
влечет наложение административного штрафа на граждан в размере от пятидесяти тысяч до ста тысяч рублей; на должностных лиц - от двухсот тысяч до четырехсот тысяч рублей; на юридических лиц - от восьмисот тысяч до четырех миллионов рублей.
...
6. Повторное совершение административного правонарушения, предусмотренного частью 3 или 4 настоящей статьи, -
влечет наложение административного штрафа на граждан в размере от двухсот тысяч до пятисот тысяч рублей; на должностных лиц - от восьмисот тысяч до одного миллиона рублей; на юридических лиц - от одной десятой до одной пятой совокупного размера суммы выручки, полученной от реализации всех товаров (работ, услуг), за календарный год, предшествующий году, в котором было выявлено административное правонарушение, либо за предшествующую дате выявленного административного правонарушения часть календарного года, в котором было выявлено административное правонарушение, если правонарушитель не осуществлял деятельность по реализации товаров (работ, услуг) в предшествующем календарном году, но не менее восьми миллионов рублей.
Вот здесь начинается все самое интересное и занимательное... Самовыражение пользователей на ресурсах, при неудачном раскладе событий, для владельцев могут закончиться штрафами «от одной десятой до одной пятой совокупного размера суммы выручки, полученной от реализации всех товаров (работ, услуг), за календарный год, предшествующий году, в котором было выявлено административное правонарушение...»
Поэтому к кнопке «Опубликовать» в админке авторов прикручены самые современные алгоритмы анализа контента, здесь сосредоточены все интеллектуальные и организационные ресурсы Дзена, чтобы даже знаки препинания не несли никакой крамолы.
Поэтому все остальные вопросы: развитие, удобство пользователей, расширение площадки в системе приоритетных направлений имеют двузначный порядковый номер... если не на порядок выше.
Кадры решают все
«Яндекс» закрыл сделку по продаже сервисов «Новости» и «Дзен», они перешли в собственность холдинга VK, сообщили в пресс-службах компаний. Одновременно с этим «Яндекс» приобрел у VK сервис по доставке еды и продуктов Delivery Club.
«Все изменения в сервисах «Яндекса», связанные с продажей «Дзена» и «Новостей», будут появляться у пользователей постепенно, начиная с сегодняшнего дня», – говорится в сообщении «Яндекса».
Подробнее на РБК
Это не просто информационное сообщение, это означает, что во время сделки Дзен потерял доступ к современным поисковым технологиям. Чтобы не говорили, но проблемы согласований всегда решаются проще в одной организации, чем между двумя, даже дружественными (см. историю корейских чеболей).
Я очень хорошо понимаю менеджеров Яндекса, избавившихся от такой «головной боли», которую порождает крамола и борьба с ней. Решать проблемы ИИ интереснее, чем копаться в плодах, порожденных «отсутствием интеллекта».
В то же время «Дзен» развивается в сторону социальных сетей, а агрегатор новостей вызывал «много критики со всех сторон», пояснял источник.
Подробнее на РБК
А еще Дзен утратил «радости» портала (опять см. историю корейских чеболей): теперь деньги на разработку поисковых алгоритмов, размещение и обслуживание серверов и проч. проч. проч. приходится искать у блогеров и читателей, а раньше в доле были в т.ч. доставщики еды, таксисты и интернет-магазины на Яндекс.Маркете. Теперь только реклама... (если есть еще какие-то источники, то они мне неведомы, может есть еще что-то). Отсюда интерфейс первой страницы – накрутка счетчиков показов рекламы.
Такие изменения прежде всего, хорошо «встряхнули» разработчиков программного обеспечения... со всем этим «букетом» из, собственно, технологических проблем поиска, ужесточением нормативно-правовых ограничений, передачей прав собственности нужно что-то делать...
Поэтому, утром проверяя свой блог, всегда удивляюсь, что он еще работает... боги...
Продолжение
P.S. Статья родилась после посиделок в комментах с автором замечательного блога. Огромное спасибо за вдохновение и «причесывания мыслей».
P.P.S. К блогу приложен чат, в котором сейчас сконцентрировано все веселое... поют и пляшут «парни в помаде»
вот такие... :)))