Найти в Дзене
Когда нейросети перестанут галлюцинировать? И почему на «что за дичь» они несут ещё большую дичь?
Каждый, кто работал с большими языковыми моделями (LLM), знает эту боль. Ты задаёшь вопрос. Бот выдаёт уверенный, красивый, но абсолютно ложный ответ. Ты пишешь: «Что за дичь ты несёшь?» Бот извиняется: «Вы абсолютно правы, вот исправленный вариант». И выдаёт ещё большую дичь, чем в первый раз. Прямо как студент не экзамене. Сегодня разбираемся, почему так происходит, и когда это наконец починят. Спойлер: не скоро и не полностью. Начнём с выдуманного примера классического диалога: Пользователь: Кто написал роман «Солярис» в 1972 году? ИИ: Роман «Солярис» написал Артур Кларк в 1972 году...
1 неделю назад
ClickHouse не тормозит, но не умеет в DML. Часть 2. Append-only.
Append-only — целебная пилюля для ClickHouse. Разберем что это, и как этим пользоваться. Напоминаю, что ClickHouse очень плохо умеет в DML — рекомендую к прочтению первую статью. Ну а решение очень простое — Append-only. Это концепция, согласно которой данные в таблицы только добавляются. Никаких обновлений. Создадим таблицу для теста: create table t1 engine=MergeTree order by id as (select 1 as id, 'qq' as name union all select 2 as id, 'bb' as name); А теперь представим, что при id=1 хотим, чтобы name='xx' вместо 'qq'...
2 недели назад
ClickHouse не тормозит, но не умеет в DML. Часть 1. Мутации.
Нет, клик не превратится в этого монстра. В него превратитесь вы, если не будете знать того, о чем эта статья. Про особенность хранения данных в клике сказано многое, но сегодня мы взглянем своими на глазами на то, как один элементарный запрос на изменение одной строки может практически убить сервер. Для начала стоит сказать, что мутации - это механизм, через который реализовано изменение, удаление, добавление данных (DML). Один из них вполне безобидный, а вот два других могут доставить много проблем...
2 недели назад
Почему 70% BI-систем не окупаются: 5 фатальных ошибок
Каждый год компании по всему миру тратят миллиарды долларов на внедрение BI-систем (Tableau, Power BI, Qlik, Looker). Аналитики Gartner и Forrester упорно твердят, что рынок растёт. Но есть цифра, о которой говорят немногие: до 70% проектов по внедрению бизнес-аналитики так и не выходят в окупаемость. Почему? Ведь BI звучит как панацея: «Данные — это новая нефть», «Управление на основе KPI», «Дашборды первого лица». Проблема в том, что бизнес путает нефть с бензином, а бензин заливает не в тот бак...
1 месяц назад
ClickHouse не тормозит, но заставляет глаз дергаться. Materialized views.
Вы пришли из мира PostgreSQL, Oracle или MSSQL. Вы знаете: материализованное представление — это «замороженный» результат запроса. Удобно. Предсказуемо. Вы открываете документацию ClickHouse. Видите знакомые слова. Радуетесь. Пишете свой первый MATERIALIZED VIEW. Запускаете. И... получаете не то, что ожидали. Потому что в ClickHouse материализованные представления работают СОВСЕМ не так, как везде. И сегодня я расскажу, в чём подвох. Напоминание для тех, кто пришёл не из мира БД: Классическое материализованное...
1 месяц назад
Big Data больше не для гигантов: почему связка Airflow + ClickHouse вытеснила Airflow + PostgreSQL
Открываю ноутбук. Захожу в метрики своего интернет-магазина. 500 тысяч посетителей в день. Каждый клик — событие. Каждый просмотр товара — строка в логах. Каждое добавление в корзину — ещё одна строка. За месяц — 15 миллионов событий. За год — почти 200 миллионов. Это не Google. Не Amazon. Это обычный средний магазин на ~100 человек. А теперь умножьте это на количество таблиц: пользователи, заказы, платежи, доставки, отзывы, просмотры, лайки, рефералы, купоны, возвраты... Поздравляю. Вы уже работаете с Big Data...
1 месяц назад
Apache Superset — боремся с фильтрами по дате. Часть 2
В этой статье продолжаем борьбу с фильтрами по дате в Apache Superset. Сегодня разберем, как реализовать подобие логики remove_filter в старых версиях (до 5), чтобы виртуальный датасет не оборачивался фильтрами. Обязательно прочитайте первую часть, чтобы понимать, откуда взялись на дашборде фильтры и почему они именно такие. Довольно часто мы используем виртуальные датасеты. И порой бывает нужда как-то покастомить ту дату, которую передают фильтры. Давайте же сразу наиграем такой кейс: select *...
2 месяца назад
Apache Superset — как выбрать желаемую колонку даты в фильтре?
В этой статье хотелось бы начать раскрытие больной для многих пользователей Apache Superset темы: фильтры по дате. Начнем с малого: как суперсет выбирает колонку даты; как выбрать желаемую колонку вместо той, которую он выбирает; каким образом это реализовано; какие баги породили этим решением; почему КОП не доведет до добра. Сразу скажу - объяснений, что такое суперсет, дашборд, чарт и т.д. не будет. Имеется: установленная версия 3.1.1. Да, я знаю, что уже есть аж 6. Но версии 3-4 на рынке встречается...
2 месяца назад
ClickHouse не тормозит, но не умеет джойнить. Убиваем миф.
Есть один миф про ClickHouse - он плохо джойнит. Подавляющее большинство не знает, с чем это утверждение связано, и просто верят на слово. А дальше срабатывает эффект сарафанного радио. В итоге в IT-сообществе есть твердое убеждение, что ClickHouse плохо джойнит. Но апогеем стала статья от школы обучения программированию, в которой написано, что ClickHouse вообще не умеет джойнить: В этот момент стало понятно, что пора внести ясность в происходящее (я на этот бред только недавно наткнулся, хотя статья 2023 года)...
2 месяца назад
Как вайб-кодер и Claude чуть не убили стартап
Каждый день из каждого утюга мы слышим про вайб-кодинг и сказки о невероятных возможностях AI. Слышим, что программисты скоро будут не нужны. Да и вообще ИИ заменит всех кожаных, держащих в руках мышку. Долго тянуть не будем, хотя можно распеть тирады о том, что ИИ не заменит человека. Как минимум потому, что НАДО НА КОГО-ТО В СЛУЧАЕ ЧЕГО СВАЛИТЬ ОТВЕТСТВЕННОСТЬ. И так, история о том, как вайб-кодер почти убил стартап. Ну, формально он еще живой, но ни один здравомыслящий человек с ним более не свяжется...
2 месяца назад
Почему IT-отрасль — феномен XXI века?
В любой традиционной профессии путь в специальность выглядит одинаково: школа → пту/вуз → работа. Врачи учатся порой аж 9 лет, прежде чем получить право лечить людей. Инженеры-строители. Учителя. Юристы. И многие другие профессии, требующие высококвалифицированные навыки от сотрудника, учатся не менее 4 лет. И только в IT всё работает иначе. Здесь люди приходят отовсюду: из физики и лингвистики, из продаж и маркетинга, из «гаражных» проектов (привет амазон) и самообразования. Здесь можно за полгода стать востребованным специалистом без единого профильного диплома...
123 читали · 3 месяца назад
Семеро с ложкой – один с сошкой. Как инженера данных превратили в раба
Автор статьи является инженером данных, поэтому об этой специальности и пойдет речь. Но, более чем уверен, что специальностей и вакансий с подобными проблемами предостаточно. И так, рассмотрим пример подобных вакансий. Заранее скажу: к Анастасии претензий нет. Она делает свою работу - ищет человека под техзадание, которое ей дали. Вопрос к тем, кто это техзадание составлял. Давайте посмотрим, кого же они ищут. Звучит обычно. Но давайте читать между строк. Смотрим раздел "Задачи": ▪️Разработка низкоуровневой...
3 месяца назад