CloudFlare, ein wichtiges Internetdienstleistungsunternehmen, sah am Montag, den 14. Juli 2025, weltweit global scheitert. Für etwa eine Stunde lang stand die Benutzer auf der ganzen Welt mit großen Verbindungsproblemen und entschuldigten sich schnell für den Ausfall. In ein Follow-up-Bericht erklärte das Unternehmen, dass die Ursache kein Cyberattack, sondern ein interner Fehler sei. Ein versteckter Konfigurationsfehler, der im letzten Monat in einem älteren System gemacht wurde, wurde durch ein Routine-Update ausgeschaltet. Diese Aktion hat den DNS-Dienst offline gezogen. Es wirft auch kritische Fragen zur Systemreduktion und zu den Prozessen auf, die Änderungen an den Missionskritischen Diensten regieren.
Cloudflares detaillierte Post-Mortem enthüllte eine komplexe Ausfallsequenz. Das Problem begann am 6. Juni, als ein Konfigurationsfehler in ein Legacy-System eingeführt wurde. Dieser Fehler hat fälschlicherweise die IP-Adressbereiche für den 1.1.1.1-Resolver mit einem neuen Nicht-Produktionsdienst zugeordnet. Es wurde erst am 14. Juli ausgelöst, als Ingenieure einen unabhängigen Wechsel zum Testdienst vorgenommen haben. Diese Aktion führte zu einer globalen Konfigurations-Aktualisierung, die dann die fehlerhafte Regel fälschlicherweise angewendet hat. Das System begann, die BGP-Routen für 1.1.1.1 zu ziehen. In ihrem technischen Zusammenbruch erklärte CloudFlare-Mitarbeiter: „Der Ausfall trat aufgrund einer Missverständnis von Legacy-Systemen auf, die zur Aufrechterhaltung der Infrastruktur verwendet wurden, die die IP-Adressen von Cloudflare für das Internet bewirbt.”Der Ausfall begann um 21:52 UTC, wobei Überwachungsdienste wie Downdetektor sofort ein massive Spike In Benutzerbeschwerden . Präfix von einem anderen Unternehmen. Cloudflare wurde schnell klargestellt, dass dies nicht die Ursache war und sagte:”Es tut uns sehr leid für diesen Ausfall. Die Hauptursache war ein interner Konfigurationsfehler und nicht das Ergebnis eines Angriffs oder eines BGP-Hijack.”Das Unternehmen erklärte einen Vorfall um 22:01 UTC und setzte eine Lösung bis 22:20 UTC ein, wobei der Full-Service bei 22:54 UTC wiederhergestellt wurde. In Foren wie Hacker News, Entwickler und Netzwerkingenieure, die den Vorfall disenierten. Die Natur der DNS-Redundanz. Ein Benutzer stellte fest:”Die vorgeschlagene Konfiguration von CloudFlare besteht darin, den Backup-Server 1.0.0.1 als sekundäre DNS zu verwenden, das auch von diesem Vorfall betroffen war.”Der Vorfall diente als starke Erinnerung daran, dass die Verwendung von zwei IP-Adressen desselben Anbieters, die von denselben Systemen verwaltet wurden, keine echte Fehlertoleranz garantiert. Ein Hacker-Nachrichtenbenutzer kommentierte:”Ich bin überrascht über die Verzögerung der Impact-Erkennung: Der interne Gesundheitsdienst dauerte mehr als fünf Minuten, um zu bemerken (oder zumindest aufmerksam).”Dies unterstreicht die Herausforderung, eine Überwachung zu erstellen, die schnell und widerstandsfähig gegen falsch-positives ist. Der Konsens in vielen Diskussionen bestand darin, dass eine robuste Widerstandsfähigkeit die Verwendung von Resolver aus verschiedenen Anbietern erfordert. Wie ein Benutzer es ausdrückte:”Es ist verrückt, dass sowohl 1.1.1.1 als auch 1.0.0.1 von der gleichen Änderung betroffen sind. Ich denke, wir sollten jetzt einen völlig anderen Anbieter als DNS-Backup verwenden. Der Kern des Plans besteht darin, sich von den Systemen zu entfernen, die es ermöglichten, dies nicht zu erreichen. Das Unternehmen erkannte die Risiken seiner älteren Bereitstellungsmethoden an, bei denen es fehlte, moderne Sicherheitskontrollen zu haben. Das Team von Cloudflares stellte fest: „Legacy-Komponenten nutzen keine allmähliche, inszenierte Bereitstellungsmethode. Cloudflare wird diese Systeme, die ein modernes progressives und gesundheitsvermitteltes Verfahren ermöglichen. Ein solcher Prozess würde zuerst Änderungen an einem kleinen Teil des Netzwerks veröffentlichen und Probleme vor einem globalen Einsatz überwachen.
Dieser Vorfall ist nicht der erste hochkarätige Ausfall für das Unternehmen. Eine separate DNS-Ausgabe im Juni 2024 wurde auf ein BGP-Hijacking-Event zurückgeführt. Während sich die Ursachen unterscheiden, stellen diese Ereignisse die Rolle von CloudFlare als kritische Internetinfrastruktur unter intensiver Prüfung. Die Transparenz des Unternehmens in seinem Post-Mortem ist ein positiver Schritt, aber sein Erfolg wird an der Fähigkeit gemessen, zukünftige großflächige Ausfälle zu verhindern. Diese Funktion ermöglicht es Ihnen, auf alle Ihre bevorzugten Websites und Dienste zuzugreifen, ohne die IP-Adresse manuell zu tippen. Leider sind jedoch nicht alle DNS-Server gleich geschaffen. Es gibt mehrere Gründe, warum Sie in Windows 10 den DNS ändern möchten, aber es ist notwendig zu erfahren, was sie sind und wie sie funktionieren, damit Sie eine fundierte Entscheidung treffen können. In unserem anderen Handbuch zeigen wir Ihnen, wie Sie DNS-Server über das Bedienfeld, die Einstellungen und die Eingabeaufforderung unter Windows ändern.