Однажды вечером, когда все уже разошлись, я заметил, что один сервер издает странный прерывистый звук. Мониторинг показывал нормальную нагрузку CPU, но диск работал на 100%. Оказалось, какой-то процесс зациклился и пытался записать логи в несуществующую директорию. Система не падала, но тихо умирала от перегрузки. С тех пор я всегда проверяю не только общую нагрузку, но и детали: кто потребляет диск, как ведут себя конкретные процессы, нет ли аномалий в памяти.
Самое важное открытие для меня — научиться задавать правильные вопросы. Вместо "почему сервер тормозит?" я теперь спрашиваю "что изменилось за последние два часа?" Часто ответ кроется в обновлениях, новых подключениях или даже в погоде — один раз мы ловили странные падения именно по вечерам, когда включалось кондиционирование и создавало помехи в сети. Иногда решение лежит совсем не там, где ты его ищешь.