
Wszystkie rodzaje tymczasowego emaila.Jedna platforma.
Post Mortem: Chaos z mailami tymczasowymi w Black Friday - czego wolelibyśmy dowiedzieć się wcześniej

Black Friday to ten moment w roku, gdy skrzynki mailowe rozgrzewają się do czerwoności. Dla nas, w Müllmail, czyli waszym niezawodnym dostawcy tymczasowych maili, tegoroczny Black Friday okazał się prawdziwą próbą ognia. Co dokładnie się wydarzyło? Dlaczego nasze systemy padły? I jak udało nam się wyjść z kryzysu? O tym właśnie jest ten post mortem.
Black Friday i zalew tymczasowych maili
Wiedzieliśmy, że Black Friday będzie obciążeniem dla systemu - ale to, co się wydarzyło, przerosło nasze najśmielsze (czytaj: najgorsze) przewidywania. Idealny przykład: pewna znana sieć dyskontów wysłała w ciągu 5 minut ponad 12000 e-maili - można powiedzieć, że byliśmy na to zbyt „Lidl” przygotowani. Nasz system nie był w stanie poradzić sobie z takim zalewem i zwyczajnie odmówił współpracy.
Nerwowy czas poszukiwania błędu
Mieliśmy podwójne wyzwanie: po pierwsze - znaleźć przyczynę (czy to tylko wzmożony ruch czy może atak?), po drugie - jak najszybciej przywrócić usługę do działania. Szybko przekonaliśmy się, że nawet najmniejsze wąskie gardło w infrastrukturze może mieć ogromne konsekwencje.
Nasze działania: Trial, Panic! & Error
Aby poradzić sobie z przeciążeniem i zapobiec podobnym sytuacjom w przyszłości, wdrożyliśmy kilka zmian. Oto najważniejsze:
1. Uproszczenie struktury bazy danych
Na początek uprościliśmy układ naszej bazy danych, by zmniejszyć obciążenie CPU. Efekt? Niewielka poprawa, ale dzięki niej zidentyfikowaliśmy prawdziwe problemy.
2. Zwiększenie zasobów serwera pocztowego
Dodaliśmy naszemu serwerowi pocztowemu więcej mocy - zamiast 8 rdzeni miał teraz 16. Niestety: to wciąż było za mało.
3. Uproszczenie przetwarzania maili
Kolejnym wąskim gardłem była sama obróbka wiadomości. Tymczasowo uprościliśmy procesy, ale przy zbyt wielu mailach system znów się dławił. Słowem: meh.
4. Awaryjna migracja na nowy serwer
W środku nocy przenieśliśmy usługę na zupełnie nowy serwer - z 32 rdzeni przeskoczyliśmy na 96. Ogromny skok, ale to nadal była tylko część rozwiązania.
Prawdziwe rozwiązanie: rozsądny rate limiting
Przełomowym krokiem okazało się wprowadzenie rozsądnego ograniczenia liczby wiadomości (rate limiting). Dzięki niemu nasz system zyskał nieco „czasu na oddech” przy przetwarzaniu maili, a niekończące się kolejki nie zawieszały już usługi. Od tamtej pory system działa stabilnie.
Wielkie podziękowania dla naszych użytkowników
Dziękujemy wszystkim użytkownikom Müllmail za cierpliwość i zaufanie. Wyciągnęliśmy z tej sytuacji wnioski i wciąż pracujemy nad tym, by nasz system był jeszcze bardziej niezawodny. Jeśli mimo wszystko napotkasz problemy z dostarczaniem wiadomości - napisz do nas na kontakt@team.muellmail.com.
Co z tego wynika
Black Friday pokazał nam jedno: nawet dobrze zaprojektowany i sprawdzony system może się potknąć, gdy napotka coś niespodziewanego. Dzięki determinacji naszego zespołu i wdrożonym działaniom udało się opanować sytuację (odpukać). Nadal chcemy być Twoim pierwszym wyborem, jeśli chodzi o temp mail - nie tylko w Black Friday.