Радостный клиент получает новый компьютер, бежит домой что волосы назад. Подключает… а тот не работает, ну или работает хуже ожидаемого. Для компании, продающей лучшие в России игровые компьютеры, это даже не проблема, это настоящая драматическая ситуация. А если он проехал половину самой большой страны в мире, вот честное слово, в холодный пот бросает.
Были ли подобные случаи конкретно у нас? – за 8-летний опыт работы и десятки тысяч проданных компьютеров было всякое: заводской брак, «предельная аккуратность» почтовых служб, положение выкл. на блоке питания, да и просто какая-то необъяснимая мистика.
Чтобы такие ситуации возникали как можно реже, наш отдел технического контроля, а это буквально настоящее ОТК со своим штампом и ответственностью, накопил опыта и поднялся на несколько уровней.
В этом материале поделимся накопленным опытом. Приоткроем закулисье «кухни» DigitalRazor и расскажем о процессе проверки и настройки каждого нашего компьютера.
А зачем это всё вообще нужно?
Сразу же ответим на ключевой вопрос, а зачем вообще проверять и тщательно тестировать комплектующие, если только-только из заводской плёнки распакованы? Собрал, включил, увидел картинку – ну всё, 99% успеха есть, оставшийся 1% вылезет в процессе установки Windows и различных драйверов.
Если говорить по-честному, в рамках самостоятельной сборки компьютера оно примерно так есть. Но здесь вступает в силу закон больших цифр и даже теорема Ферми: практически невозможное событие с увеличением масштабов становится фактически неизбежным.
Вероятность попасть на брак в случае условных 10 комплектующих, а примерно из такого количества состоит компьютер, сильно-сильно сложнее, чем когда их проходит 10 000.
Говоря о показателях брака в современных реалиях, есть замечательная статистика по видеокартам от Mindfactory – крупнейшего ритейлера Германии. Немножко старовата, речь идёт про видеокарты времён первой «суперсемейки» NVIDIA (~2020 год), зато выборка аж из 120 тысяч экземпляров.
Видеокарты NVIDIA возвращали в среднем в 2,11% случаев, а AMD в 3,29%. Самыми ненадёжными оказались тогдашние флагманы: GeForce RTX 2080 Ti (5,35%) и RX 5700 XT (3,6%). К слову, самыми надёжными бюджетные решения: Radeon RX 5500 XT (0,95%) и GeForce GTX 1660 Ti (1,2%).
Что самое интересное, статистика охватывает все случаи, которые были признаны заводским браком. Не просто клиент вернул видеокарту по своим причинам, а именно заводской брак. Он не всегда выражен в совсем мёртвой карте. В том числе учитывается частичная работоспособность.
Частичная работоспособность – вторая и очень большая проблема. Одно дело, когда совсем не запускается. Совсем другое, когда работает, но хуже ожидаемого.
К примеру, процессор в целом работает, но одно/два ядра почему-то «не алё». Или частота не достигает положенных значений. Может часть контроллеров PCI-Express отвалилась, и видеокарта берёт только 4/8 линий вместо положенных 16. Или отвалились 2 слота для оперативной памяти. Или контроллер памяти у конкретно этого образца получился невдалый, при загрузке оперативки свыше условных 10 гигабайт начинаются ошибки.
Битая память – вообще легко. Она работает, даже запускается при заявленных частотах (XMP-профиль активируется), и даже не вылазит «синька» (он же синий экран смерти, он же BSOD), но есть скрытые ошибки, которые сказываются на производительности. Архитектура Windows позволяет как бы принудительно удержать компьютер в рабочем состоянии, но быстродействие неявно падает (детальнее про это по запросу «WHEA»).
Битая память у видеокарты – тоже вообще легко. Опять-таки, вроде всё работает, но в требовательных играх/программах память загружается вся, на каком-нибудь последнем гигабайте вылазят ошибки. Несколько ошибок система может съесть/стерпеть, но рано или поздно они наслаиваются друг на друга, и потом «Видеодрайвер перестал отвечать и был восстановлен».
Блок питания может себя странно вести. У современных видеокарт выросли не только лимиты мощности, и 300+ ватт уже никого не удивляют, но и скорость наращивания частот. В доли секунды частота может увеличиться с 400 МГц до 3 ГГц, вместе с тем потребление с 50 до 350 Вт. Такой резкий скачек некоторые БП воспринимают как короткое замыкание и уходят в защиту. При чём с условной RTX 4080 от условной ASUS такая проблема может вылезти, а у условной Palit не вылезти (по-разному реализована схема питания ядра, разные компоненты, контроллеры и т.д).
И так со всем. Выделяются только корпусные вентиляторы. Вот где действительно проблем не было вообще никогда.
Заводской брак в районе 2%, возможные скрытые дефекты, крайне дорогая репутация в среде высоких технологий и корпоративные клиенты с соответствующей степенью ответственности просто обязывают углубляться в вопрос тщательной проверки всего и всегда.
Ну и конечно никто не отменял человеческий фактор. Речь не о том, что с девизом «зато сильный» планку памяти вставили наоборот, а о гораздо более тонких вещах. Самое банальное – пылинка в слот оперативной памяти попала.
P.S. Ну и парочка занимательных случаев из лично моей практики обзоров: Core i5 с характеристиками как у Core i3; Ryzen 5, который как Ryzen 7; в XMP-профилях оперативной памяти вообще не то, что на наклейке; SSD с объёмом 1/8 от заявленного (и это была не китайская паль); полностью отсутствовавший комплект поставки процессорного кулера; у корпуса не работали все разъёмы; прямо в тестах умер SSD, дорогущая видеокарта, материнская плата; блок питания не выдержал перегрузки в 10% (это стандартный тест у обзорщиков); поплавились провода блока питания (Thermaltake BX, гори в аду); от нагрузки выгорел разъём PCI-E Power на видеокарте.
Настройка
Этап сборки пропускаем просто потому, что статья не о том. Условно предположим, что в плане физической сборки проблем нет, и компьютер как минимум включается, показывает картинку и заходит в BIOS. Тогда следует этап настройки.
Самым первым делом сотрудник обновляет BIOS материнской платы. Не то, чтобы это было необходимостью, про что детальнее в этой статье, но лишним уж точно не будет, да и вообще правило хорошего тона.
Прошивка видеокарты как правило не обновляется. Только в исключительных случаях, когда AMD или NVIDIA выпускают значительные исправления для какой-то конкретной модели. Бывает, но это редкость.
Далее первичная настройка BIOS. В неё входит:
- Активация модуля безопасности TPM (иначе Windows ругается, но сейчас TPM почти всегда включён по умолчанию);
- Активация профилей оперативной памяти (XMP для Intel и EXMO у AMD);
- Активация установки Windows по Сети;
- Установка лимитов мощности и теплопакета процессора в случаях, когда это нужно (не для всех процессоров);
- Настройка зависимости температура/обороты у вентиляторов и помпы;
- Настройка RAID-массивов если такие есть.
В ходе последующего тестирования ОТК если потребуется донастраивает BIOS. К примеру, если получился уж сильно хороший запас по температуре, то можно снизить обороты вентиляторов и сделать компьютер тише. Конечно же бывают и обратные ситуации.
Далее устанавливается Windows. Уже в его оболочке все базовые программы:
- Драйверы видеокарты, чипсета материнской платы, Wi-Fi, звук и другие;
- Все необходимые утилиты для управления подсветкой в зависимости от комплектующих;
- Фирменное ПО SSD-накопителя, вроде Samsung Magician и Kingston Manager. Если требуется сразу же обновляется прошивка диска;
- Различный дополнительный софт исходя из ТЗ.
Тестирование
Если компьютер прошёл все вышеописанные процедуры, скорее всего с ним всё в порядке. Но чтобы говорить наверняка используется автоматический 8-часовой стресс-тест.
В ходе этого тестирования в случайном порядке запускаются различные популярные и не очень бенчмарки, стресс-тесты и проверки. Они имитируют как повседневное использование, так и жёсткую нагрузку, иногда даже выходящую за пределы спецификаций. К примеру, в ходе тестирования в стресс-тесте OCCT видеокарта может не просто выедать весь лимит мощности, что невозможно в играх и рабочих приложениях, но и немного превышать его.
Список программ для тестов:
- OCCT Power – номинально тест блока питания, поскольку максимально загружает все компоненты компьютера. По сути можно назвать общим тестом компьютера на стабильность, перегрев и отказоустойчивость;
- LinX6.5 – проверка процессора и оперативной памяти;
- AIDA64 – тест быстродействия оперативной памяти, задержек и кэш-памяти процессора;
- AIDA64 – общий отчёт о системе;
- Furmark – стресс-тест видеокарты;
- 3DMark PCI-Express – тест пропускной способности шины PCI-Express (проверка скорости связи с видеокартой, грубо говоря);
- Cinebench 15 – тест связки из процессора и видеокарты;
- Cinebench 20 – проверка процессора в рендеринге;
- Cinebench 23 – проверка процессора в рендеринге (длительная версия);
- Octan1 – проверка видеокарты в рендеринге;
- Crystal Disk Mark – проверка скорости накопителя при различных нагрузках;
- Crystal Disk Info – проверка SMART и показателей «самочувствия» накопителей;
- Iperf – тест сетевых соединений (Wi-Fi и Ethernet).
Автотест «дружит» с внутренним API перечисленных тестов/бенчмарков и выдаёт предупреждение в случае обнаружения неполадок и несоответствий. Ситуации разные: обороты вентиляторов или температуры сильно выше ожидаемых (не только процессора/видеокарты, но и памяти, узлов питания – всех доступных термодатчиков); проблемы со SMART-показателями; ошибки памяти и WHEA; проверяется соответствие результатов с эталонными.
Во всех режимах периодически оценивается уровень шума. После прохождения автотеста проверяются логи на отсутствие ошибок и отклонений от нормы.
Нетрудно заметить, что есть почти дублирующие тесты. У технически неподкованной аудитории наверняка витает вопрос: а зачем гонять тот же процессор по несколько раз? Казалось бы, 100% загрузки есть – и нормально. Дело в том, что ядро процессора – это не просто поле из миллиона транзисторов. Внутри оно разбито на блоки с разным функционалом: блоки инструкций, кодирования/декодирования, безопасности, вычислительные ALU- и FPU-блоки, контроллеры памяти и питания, кэш-память, регистры, и в довесок шина для общения с другими ядрами и чипсетом.
Тесты загружают разные блоки по-разному. Суть не в том, чтобы создать максимально возможную нагрузку (хотя и это тоже), а в максимально обширной проверке. Именно разноплановая нагрузка позволяет выявить проблемы.
После этого проверяются все разъёмы, кнопки, работа подсветки (в том числе мерцание и отсутствие синхронизации). Напоследок финальный взгляд на кабель-менеджмент, общее качество сборки, наличие визуальных дефектов а-ля откуда-то вылезла царапина, ещё раз сверка со сборочным листом (всё ли соответствует ТЗ), и передача на упаковку.
Топ проблем
Возглавляет список банальный брак: комплектующая либо совсем не работает, либо возникают проблемы в режиме нагрузки.
Очень частая проблема – оперативная память не хочет работать при настройках, прописанных в XMP-профиле. Редко может быть виновата материнская плата, но почти всегда корень проблемы именно в памяти.
Мерцание подсветки, отсутствие синхронизации. Тоже не редкость, лечится переустановкой соответствующего ПО.
Если в процессе тестирования компьютер перезагружается – скорее всего проблема с оперативной памятью или видеокартой.
Троттлинг процессора – душный корпус, слабое охлаждение, либо ошибки при установке кулера.
Итоги
Такая дотошная проверка и тестирование – не сказать, что прямо жёстко обязательная вещь, поэтому большинство производителей компьютеров этим и не занимается. Долго, трудозатратно, да и можно обойтись сильно меньшим: парой популярных-основных тестов в течении получаса. В основном все именно так и делают.
Мы в DigitalRazor выбрали более сложный, зато более качественный путь выявления проблем по максимуму ещё «на берегу». Безусловно, это не даёт 100-процентную гарантию, что проблемы не появятся в будущем. Зато гарантирует, что на момент выхода из магазина DigitalRazor компьютер полностью здоров.
В конце концов, с позицией «Третий сорт – не брак. Приедет по гарантии – ответим “сам дурак!”» можно выиграть на короткую, но на дистанции это всегда проигрыш.