4 дня назад
Векторизация датасета: полное руководство по преобразованию данных в числа для машинного обучения
Векторизация датасета — это фундаментальный процесс преобразования необработанных, часто неструктурированных сведений, в числовой формат, который могут интерпретировать и обрабатывать алгоритмы машинного обучения. Компьютерные модели, какими бы сложными они ни были, оперируют исключительно числами. Они не понимают текст, изображения или категории в их исходном виде. Поэтому перевод любой информации в упорядоченные наборы чисел, или векторы, является обязательным шагом для построения эффективных ML-решений...
249 читали · 2 дня назад
55 букв в слове — не предел. Самые необычные слова русского языка
Недавно Институт Пушкина вновь напомнил нам о невероятном богатстве и гибкости русского языка, назвав самое длинное слово. Им оказалось прилагательное «тетрагидропиранилциклопентилтетрагидропиридопиридиновые», состоящее из 55 букв. Означает оно сложное химическое название, описывающее соединение с разветвлённой молекулярной структурой. Но это слово — лишь верхушка айсберга. На самом деле понятие «самого длинного слова» условно, так как в русском языке, особенно в научной терминологии, можно создавать практически бесконечные составные конструкции...