MeinImmoPortal - Fehlgeschlagenes Update des Datenbankclusters – Details zu Vorfällen

Alles in Ordnung

Fehlgeschlagenes Update des Datenbankclusters

Gelöst
Vollständiger Ausfall
Aufgetreten vor etwa 1 MonatDauerte etwa 4 Stunden

Betroffen

Plattform

Vollständiger Ausfall aus 5:02 AM zu 8:36 AM, Funktionsfähig aus 8:36 AM zu 9:30 AM

Webseiten

Vollständiger Ausfall aus 5:02 AM zu 8:36 AM, Funktionsfähig aus 8:36 AM zu 9:30 AM

Objekt Import

Vollständiger Ausfall aus 5:02 AM zu 8:36 AM, Funktionsfähig aus 8:36 AM zu 9:30 AM

onOffice API

Vollständiger Ausfall aus 5:02 AM zu 8:36 AM, Funktionsfähig aus 8:36 AM zu 9:30 AM

Propstack Webhooks

Vollständiger Ausfall aus 5:02 AM zu 8:36 AM, Funktionsfähig aus 8:36 AM zu 9:30 AM

OpenImmo Import

Vollständiger Ausfall aus 5:02 AM zu 8:36 AM, Funktionsfähig aus 8:36 AM zu 9:30 AM

Aktualisierung
  • Postmortem
    Postmortem

    Vor dem Update des Datenbankclusters haben wir dieses mit der offiziellen Anleitung auf einem Test-Cluster den wir dafür extra eingerichtet haben getestet.
    Bei dem Test des Prozesses ist alles richtig gelaufen und während des Upgrades kam es zu keinen Unterbrechungen der Verbindung.
     
    Den Prozess haben wir anschließend dokumentiert und heute Morgen um 06:30 Uhr mit der Umsetzung begonnen.


    Das erste von drei Upgrades ist auf einem Großteil der Datenbankserver wie erwartet problemlos verlaufen.
    Beim Update von einem der letzten Datenbankserver kam es beim identischen Prozess jedoch zu einem Fehler der das gesamte Cluster unerwartet in einen Fail-State versetzte.
     
    Versuche das Cluster dann wiederherzustellen verliefen erfolglos und auch der Versuch nur einen einzelnen Datenbankserver kurzfristig ohne Cluster wieder aktiv zu nehmen schlug fehl.
     
    Auf solch einen grundlegenden Fehler waren wir bei dem erwarteten Standard-Upgrade-Prozess nicht vorbereitet und mussten somit das weitere Vorgehen planen. Zur Sicherheit wurde an diesem Zeitpunkt auf ein 4-Augen Prinzip gewechselt, was Zeit gekostet hat, um den nötigen Kollegen ins Büro zu holen.
     
    Wir haben uns dann dazu entschieden das Datenbank-Cluster komplett neu aufzubauen was dann erfolgreich verlaufen ist. In diesem Zuge wurde dann direkt das Upgrade auf die neuste Version mit ausgeführt.
     
    Bei erneuter Überprüfung des Prozesses konnten wir keinen Fehler bei der Umsetzung laut offizieller Dokumentation feststellen und können aktuell anhand des Logs auch nicht nachvollziehen was den Fail-State verursacht hat.
     
    Um zukünftig schneller eingreifen zu können, falls es erneut zu unerwarteten kritischen Fehlern kommt, werden wir auch bei vermeintlichen risikoarmen Standard Updates die Antwortzeiten der Bereitschaft reduzieren.

  • Gelöst
    Gelöst

    Die letzten Synchronisationen sind abgeschlossn. Alle Systeme laufen wieder ohne Auffälligkeiten mit den gewohnten Antwortzeiten.

  • Unter Beobachtung
    Unter Beobachtung

    Die Wiederherstellung ist auf einem Großteil der Datenbank-Server abgeschlossen, sodass wir das Cluster wieder in Betrieb nehmen konnten.

    Es wird noch eine kurze Zeit zu "Timeouts" und längeren Ladezeiten kommen, während der Datenstand über die verbleibenen Server synchronisiert wird.

    Bitte beachten Sie, dass Objektübertragungen zwischen 07:02 Uhr and 10:27 Uhr unter Umständen erneut angestoßen werden müssen.

    Wir werden die Situation weiter beobachten.

  • Identifiziert
    Identifiziert

    Durch unerwartete Fehler beim geplanten Update des Datenbankclusters ist der gesamten Betrieb derzeit massiv gestört. Da der Fehler im Kernsystem des Clusters aufgetreten ist, griffen leider auch die vorhandenen Sicherungssysteme nicht. Vorherige Testläufe auf unserer Entwicklungsumgebung liefen problemlos.

    Wir arbeiten derzeit intensiv an der Wiederherstellung des Datenbankclusters. Dies wird jedoch noch einige Zeit in Anspruch nehmen.

    Wir bitten um Ihre Geduld und halten Sie auf dem Laufenden.

    Bitte entschuldigen Sie die Unannehmlichkeiten.