
Cloudflare heeft al zijn diensten hersteld na een grote storing op 18 november die wereldwijd duizenden websites onbereikbaar maakte. CEO Matthew Prince heeft publiekelijk zijn excuses aangeboden en noemde de storing “de ernstigste sinds 2019”. Volgens hem heeft het bedrijf “het internet in de steek gelaten”.
De storing begon om 12:20 uur CEST toen een fout in een interne update één van Cloudflare’s kernsystemen verstoorde, dat verantwoordelijk is voor het routeren van internetverkeer. Geen cyberaanval dus, maar een routinewijziging in de toegangsrechten van een database. Deze wijziging leidde ertoe dat het botsysteem van Cloudflare een extreem groot configuratiebestand genereerde. Toen dit bestand over het wereldwijde netwerk werd uitgerold, konden veel servers het niet verwerken, wat resulteerde in massale 5xx-foutmeldingen op websites die van Cloudflare afhankelijk zijn.
Voor gebruikers leek het op een gewone foutpagina, maar achter de schermen raakten diensten als Cloudflare’s CDN, inlogsysteem, beveiligingsproducten en ontwikkeltools verstoord. Sommige gebruikers konden niet inloggen, anderen konden geen dashboards of apps openen, en veel websites gingen tijdelijk offline.
Aanvankelijk dacht Cloudflare dat het om een grootschalige DDoS-aanval ging, omdat het netwerk in korte cycli uitviel en weer herstelde. Uiteindelijk bleek het probleem te liggen bij het corrupte configuratiebestand. Om 15:30 uur CEST werd de uitrol stopgezet en vervangen door een veilige versie. Tegen 18:06 uur CEST waren alle diensten volledig hersteld.
Cloudflare belooft maatregelen te nemen om herhaling te voorkomen, waaronder strengere controle op interne configuratiebestanden, meer noodstopsystemen en verbeterde foutafhandeling.
“Gezien de rol van Cloudflare binnen het internetecosysteem is elke storing in onze systemen onaanvaardbaar,” schreef Prince. “We bieden onze oprechte excuses aan voor de impact op onze klanten en het internet als geheel.”
Het bedrijf zegt dat het incident zal leiden tot structurele aanpassingen en strengere interne processen, zodat een enkele fout niet opnieuw het hele netwerk plat kan leggen.









