Znamo što je uzrokovalo nedavni veliki kvar Google Cloud-a – i malo je neugodno

Google Cloud Outage: Uzroci i Buduće Mjere

Uvod

Nakon nedavno velikog kvara na Google Cloud-u, koji je onemogućio pristup popularnim uslugama poput Spotify-a, Cloudflare-a i Discord-a, tvrtka je objavila detaljno izvješće u kojem objašnjava razloge svog neuspjeha prema korisnicima. Ova situacija ističe važnost robusnosti infrastrukture i učinkovitosti upravljanja API-jima.

Glavni Uzroci Kvara

Prema izjavama Google Clouda, osnovni uzrok problema leži u grešci u kodu unutar usluge Service Control, koja je dio sustava za upravljanje API-jima i provjeru pravila. Specifično, došlo je do neispravnog automatskog ažuriranja kvota i nedostatka adekvatnog upravljanja greškama, što je izazvalo globalni kvar. Ova greška rezultirala je pojavom 503 grešaka, ne samo na Google Cloud uslugama, već i na uslugama koje koriste njegove API-je.

Utjecaj na Popularne Usluge

Kvar nije pogodio samo infrastrukturu Google Clouda već i druge popularne aplikacije poput Google Drive-a, Docs-a, Gmail-a i Kalendara. Osim toga, treće strane koje pristupaju Google Cloud-ovim API-jima, uključujući popularnu platformu za streaming muzike Spotify sa svojih 678 milijuna korisnika, također su osjetile posljedice.

Brzina Reakcije i Oporavak

U izvješću o incidentu, Google Cloud se pohvalio kako je tim za pouzdanost web stranica (Site Reliability Engineering) započeo proces rješavanja problema unutar dva minuta, a osnovni uzrok identificirali su u roku od 10 minuta. “Crveni gumb [za onemogućavanje puta posluživanja] bio je spreman za primjenu otprilike 25 minuta nakon početka incidenta,” izjavio je Google, dodajući da je cijeli proces bio završeno unutar 40 minuta. Iako su se manji regiji relativno brzo oporavili, veće regije, poput us-central-1, trebale su dulje vrijeme da se vrate online – u ovom slučaju, otprilike dva sata i 40 minuta.

Buduće Mjere i Istezanje Obećanja

U svom sažetku incidenta, Google Cloud je obećao da će “poboljšati svoje performanse.” U detaljnijem izvješću naglašavaju se uobičajene mjere za buduće incidente, kao što su poboljšanje statičke analize i prakse testiranja, te revizija i modularizacija arhitekture Service Control-a kako bi se spriječili budući problemi. Također su se obvezali na “poboljšanje komunikacije prema van” kako bi bolje obavijestili korisnike i osigurali da njihova komunikacijska infrastruktura ostane online čak i tijekom budućih prekida.

Zaključak

Iako je nedavni kvar na Google Cloud-u otkrio ozbiljne slabosti u infrastrukturi, tvrtka je poduzela brze korake ka oporavku i osigurala da će u budućnosti poboljšati svoje sustave i komunikaciju. Ovakvi incidenti naglašavaju važnost neprestanog unapređivanja i jačanja tehnologije koju tvrtke koriste, kako bi se osigurala stabilnost i pouzdanost usluga za sve korisnike.

Total
0
Shares
Odgovori

Vaša adresa e-pošte neće biti objavljena. Obavezna polja su označena sa * (obavezno)

Previous Post

Spotify je upravo dobio veliko ažuriranje za offline playliste – i to je posebno dobra vijest za korisnike Androida

Next Post

Hoće li se iPadOS i macOS ikada spojiti? Apple je upravo objasnio zašto to vjerojatno nikada neće dogoditi

Related Posts