Google Research опубликовала блог-пост о GIST — алгоритме, который помогает выбирать высококачественную подвыборку данных из огромных датасетов так, чтобы она была и разнообразной, и полезной для обучения моделей. 📌 Зачем это нужно При обучении современных моделей (LLM, CV) данные становятся слишком большими, и обрабатывать всё сразу дорого по памяти и времени. Часто выбирают подмножество данных, но это непросто: нужно найти баланс между: - разнообразием (не выбирать похожие примеры), и - полезностью (высокая информативность выбранных точек). 📌 Как работает GIST Алгоритм GIST (Greedy Independent Set Thresholding) формулирует задачу как сочетание двух целей — максимизации полезности и минимизации избыточности. Он: - строит граф, где точки данных слишком близкие по расстоянию считаются “связанными”, - затем находит независимые подмножества, которые максимизируют полезность, не выбирая очень похожие данные. 📌 Гарантии и результаты GIST — это не просто эвристика, а алгоритм с теорети
🚀 Google Research представила GIST — новый этап в “умной” выборке данных
2 дня назад2 дня назад
13
1 мин