Добавить в корзинуПозвонить
Найти в Дзене
DigiNews

Microsoft Azure OpenAI Service ушел на незапланированный выходной в Швеции

Каскадные сбои серверных компонентов в Azure OpenAI Service в регионе Sweden Central привели к длительному простою, затронувшему работу GPT-моделей и API. Проблемы с нехваткой памяти устраняли почти весь рабочий день. Microsoft Azure, а точнее его сегмент, отвечающий за сервис OpenAI в регионе Sweden Central, вчера потерпел полный крах, оставив пользователей сталкиваться с ошибками на протяжении большей части рабочего дня. Microsoft впервые признала наличие проблем в 09:00 UTC (хотя на странице статуса сервиса было указано, что проблема обнаружена в 09:22 UTC). В тот момент Microsoft объяснила сбои доступности службы Azure OpenAI «неисправностью зависимого серверного компонента, что привело к каскадным отказам». Гигант из Редмонда зафиксировал проблемы при использовании таких режимов, как GPT-5.2, GPT-5 Mini, GPT-4.1, и связанных с ними API. Команда приняла меры по смягчению последствий, как заявила Microsoft. Иными словами, была задействована старая IT-стратегия: затронутый IRM-сервис

Каскадные сбои серверных компонентов в Azure OpenAI Service в регионе Sweden Central привели к длительному простою, затронувшему работу GPT-моделей и API. Проблемы с нехваткой памяти устраняли почти весь рабочий день.

Microsoft Azure, а точнее его сегмент, отвечающий за сервис OpenAI в регионе Sweden Central, вчера потерпел полный крах, оставив пользователей сталкиваться с ошибками на протяжении большей части рабочего дня.

Microsoft впервые признала наличие проблем в 09:00 UTC (хотя на странице статуса сервиса было указано, что проблема обнаружена в 09:22 UTC). В тот момент Microsoft объяснила сбои доступности службы Azure OpenAI «неисправностью зависимого серверного компонента, что привело к каскадным отказам».

Гигант из Редмонда зафиксировал проблемы при использовании таких режимов, как GPT-5.2, GPT-5 Mini, GPT-4.1, и связанных с ними API.

Команда приняла меры по смягчению последствий, как заявила Microsoft. Иными словами, была задействована старая IT-стратегия: затронутый IRM-сервис был перезапущен в 12:36 UTC.

Однако проблема не исчезла. В 12:46 UTC Microsoft сообщила, что поды (контейнеры) аварийно завершают работу с ошибками нехватки памяти в кластере Швеции. Компания начала масштабировать узлы в кластере «для улучшения обработки запросов и повышения отказоустойчивости», а в 15:30 UTC приступила к увеличению доступной памяти для подов, что было завершено к 15:53 UTC.

Наконец, в 16:12 UTC, когда многие шведы уже заканчивали рабочий день, Microsoft подтвердила устранение неполадок.

Хотя прозрачность Microsoft в признании проблемы заслуживает похвалы, продолжительность устранения того, что выглядит как программный сбой, оставляет желать лучшего.

Один острослов в социальных сетях прокомментировал: «Устойчивость ЕС снова проходит живое испытание», в то время как другие восприняли это как повод для обучения: «Использовал это как принуждающий фактор: развернуто в нескольких регионах с автоматическим переключением при отказе».

«Урок: не ждите, пока продакшен рухнет, чтобы заняться отказоустойчивостью».

И, поскольку это Швеция, прозвучал и такой комментарий: «Azure OAI Sweden Central глючит!»

Сегодня сервис снова работает, но тот факт, что OpenAI от Azure «подавился шведской фрикаделькой» и восстанавливался целый рабочий день, не делает чести компании, стремящейся к максимальному использованию своих AI-сервисов клиентами. ®

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Richard Speed

Оригинал статьи