NASA в сотрудничестве с IBM разработала INDUS — мощный инструмент на основе больших языковых моделей (LLMs), специализированный для научных областей. INDUS включает в себя два типа моделей: кодеры и модели преобразования предложений. Кодеры обучены на корпусе из 60 миллиардов токенов, охватывающем астрофизику, планетологию, науку о Земле, биологию и физику. Использование специализированного токенизатора позволяет моделям лучше распознавать научные термины, такие как «биомаркеры» и «фосфорилированные». INDUS успешно превзошел общедоступные LLMs в биомедицинских задачах, вопросно-ответных бенчмарках и распознавании сущностей в науке о Земле. Модели INDUS обеспечивают высокую скорость работы и точность, что особенно важно для задач с низкой задержкой. Они интегрированы в системы NASA для улучшения доступа к научным данным и повышения производительности кураторов. INDUS также используется для категоризации публикаций и поиска данных GES-DISC, что улучшает пользовательский опыт и эффективно