Все виды временной почты.Одна платформа.

12/05/2024

Post Mortem: Хаос с временной почтой в Черную пятницу - что бы нам хотелось знать заранее

Хаос временной почты в Черную пятницу: выводы

Черная пятница - то самое время года, когда почтовые ящики по всему миру задыхаются от нагрузки. Но для нас в Müllmail, вашего надежного сервиса временной почты, эта Черная пятница стала настоящим испытанием. Что произошло? Почему наша система дала сбой? И как мы с этим справились? В этом пост-мортеме делимся подробностями.

Черная пятница и шквал писем

Мы ожидали, что Черная пятница станет напряжённым днем для нашей системы, но реальность превзошла любые ожидания. Типичная ситуация: крупный ритейлер засыпал нас 12000 письмами за пять минут - можно сказать, мы были к этому «Lidl» готовы. Наша система в тот момент просто не выдержала такой нагрузки и вышла из строя.

Паника, баги и бессонные ночи

Мы столкнулись с двумя задачами одновременно: выяснить, была ли причина только в ажиотаже Черной пятницы или это была атака, и как можно скорее вернуть систему к жизни. Этот кризис наглядно показал, как даже маленькие узкие места в инфраструктуре могут привести к большим последствиям.

Наши шаги: Trial, Panic! & Error

Чтобы решить проблему и избежать будущих сбоев, мы провели ряд технических изменений. Вот основные из них:

1. Упрощение структуры базы данных

Сначала мы упростили структуру базы данных, чтобы снизить нагрузку на CPU. Это дало небольшой эффект, но помогло понять, где настоящие узкие места.

2. Увеличение мощности почтового сервера

Мы расширили ресурсы для почтовика: с 8 ядер до 16. Улучшение было, но всё ещё недостаточно.

3. Упрощение обработки писем

Обработка входящих писем оказалась ещё одним узким местом. Мы временно упростили логику обработки, но при массовом потоке писем - снова упёрлись в лимиты. Печаль.

4. Апгрейд сервера

В экстренном режиме мы переехали с 32-ядерного на 96-ядерный сервер. Это помогло, но не решило проблему целиком.

Настоящее решение: разумный Rate Limiting

Ключевым шагом стало внедрение разумного ограничения скорости (Rate Limiting) на входящую почту. Это дало системе передышку, чтобы обрабатывать письма стабильно, не создавая снежный ком из очередей. С тех пор всё снова работает стабильно.

Спасибо каждому пользователю

Мы благодарны всем, кто продолжал пользоваться Müllmail во время сбоя. Мы извлекли уроки из этого инцидента и будем продолжать укреплять систему. Если у вас всё же возникнут проблемы с доставкой писем, пишите нам в любое время на kontakt@team.muellmail.com.

Что мы усвоили

Черная пятница показала нам: даже самые продуманные и проверенные системы могут не выдержать неожиданной перегрузки. Благодаря принятым мерам и полной самоотдаче команды мы вышли из этого сильнее (постучим по дереву). И мы по-прежнему стремимся оставаться вашим первым выбором, когда речь идёт о временной почте.