GitHub har bekreftet at den opplevde svekket ytelse for andre dag på rad, som følge av en oppdatering som betydelig forstyrret plattformens drift. Den Microsoft-eide kodesamarbeidstjenesten har rapportert problemer som primært påvirker Pull Requests, med brukere som opplever forsinkelser på opptil ti minutter. Forsinkelsene har gjort det vanskelig for teammedlemmene å se forpliktelser som er gjort og presset til avdelinger umiddelbart. Den første erkjennelsen av problemet kom klokken 23:39 UTC 12. mars. Deretter kunngjorde GitHub at de hadde identifisert et avbøtende tiltak, og innen 00:34 UTC erklærte det at hendelsen var løst, om enn uten å gi en detaljert forklaring på det tidspunktet.

Root Cause and Impact

Dagen før, 11. mars, sto GitHub overfor et strømbrudd som begynte kl. 22:45 UTC, som varte til 00:48 UTC dagen etter. Dette strømbruddet påvirket flere tjenester, inkludert Secret Scanning og 2FA via GitHub Mobile, som så feilratene til 100 prosent før de stabiliserte seg på rundt 30 prosent. I tillegg ble Copilot berørt med feilrater som nådde 17 prosent, og API-feilene økte til én prosent.

Vi ser et økt antall pull-forespørsler som ikke er synkronisert ved sideinnlasting. https://t.co/BreARYBWUj

— GitHub Status (@githubstatus) 12. mars 2024

I følge GitHubs Status History-side utløste en distribusjon som involverte nettverksrelatert konfigurasjon feilaktig brukt på feil miljø disse problemene. Mens et forsøk på å tilbakestille endringene ble gjort innen fire minutter etter at feilen ble oppdaget, mislyktes det i ett datasenter på grunn av et tidligere ikke-relatert problem som forurenset konfigurasjonstjenestens datalager. Dette krevde manuell inngripen for å korrigere, med full tilbakeføring endelig gjenopprettet tjenesten innen 00:48 UTC.

Fremtidige forebyggende tiltak

Som svar på disse hendelsene, GitHub har forpliktet seg til å implementere ulike beskyttelsestiltak for å unngå lignende fremtidige forstyrrelser. Disse inkluderer å forbedre sikkerhetsprotokollene for konfigurasjonsendringer, forbedre overvåkingen av undersystemer for raskere problemdeteksjon og styrke motstandskraften til konfigurasjonssystemet. Det vil bli tatt skritt for å forhindre og automatisk rense eventuelle korrupte poster, med sikte på en automatisk gjenoppretting fra lignende dataproblemer i fremtiden.

GitHubs innsats for å forstå og rette opp årsakene bak distribusjonsfeilene fremhever utfordringene med å administrere komplekse distribuerte systemer. Siden utviklere og selskaper over hele verden stoler på GitHub for kodesamarbeid og versjonskontroll, er løsningen av disse problemene og forebygging av fremtidige hendelser fortsatt en toppprioritet for GitHub og Microsoft.

Categories: IT Info