Лекция 1 | Машинное обучение (2012) | Игорь Кураленок | CSC | Лекториум
🚀 Google Research представила GIST — новый этап в “умной” выборке данных
Google Research опубликовала блог-пост о GIST — алгоритме, который помогает выбирать высококачественную подвыборку данных из огромных датасетов так, чтобы она была и разнообразной, и полезной для обучения моделей. 📌 Зачем это нужно При обучении современных моделей (LLM, CV) данные становятся слишком большими, и обрабатывать всё сразу дорого по памяти и времени. Часто выбирают подмножество данных, но это непросто: нужно найти баланс между: - разнообразием (не выбирать похожие примеры), и - полезностью (высокая информативность выбранных точек)...