Font1 Font2 Font3 Style1 Style2 Style3
9. März 2016
Kategorien: 1/2016, staff, student, netzwerk

Störfallbehebung und -analyse

Ein Einblick in die komplexen Zusammenhänge in der IT.


Serverraum

[da] Mit der laufend steigenden Digitalisierung von Vorgängen in unserem privaten und beruflichen Umfeld nimmt unsere Abhängigkeit von IT-Systemen zu. Die IT-Infrastruktur wird daher zunehmend auf Hochverfügbarkeit und große Leistungsfähigkeit ausgelegt.

Viele Systeme werden heute redundant betrieben, d. h. ein zweiter Server, eine zusätzliche Datenleitung oder eine zweite Datenbank steht bereit, um im Störfall sofort die Aufgaben zu übernehmen. Dadurch nehmen Komplexität und Aufwand im IT-Bereich zu: Es braucht Systeme zum permanenten Datenabgleich, sowie Mechanismen, um zwischen den redundanten Geräten umzuschalten.

Die Parallelisierung von zwei Systemen wird auch durch das Erreichen von physikalischen Grenzen notwendig. Wenn beispielsweise ein Prozessor (CPU) nicht mehr kleiner gefertigt oder beschleunigt werden kann, kommen Multi-Core-CPUs zum Einsatz. In der Datenübertragung wiederum werden gleichzeitig mehrere Wellenlängen über ein Glasfaserkabel geschickt, wenn die Geschwindigkeit einer einzelnen Übertragung nicht mehr ausreicht. Im Rechenzentrum schließlich wird bei steigender Belastung eines einzelnen Servers mit Hilfe von Load-Balancern die Last auf mehrere verteilt.

Wenn in diesen mehrfach redundant ausgelegten Systemen trotzdem ein Störfall entsteht, ist die Komplexität bei der Fehlersuche hoch. Zum Beispiel muss im Fall einer fehlerhaften Datenübertragung von einem lastverteilten Server nicht nur ein Gerät überprüft werden, sondern auch eine Reihe von Servern, der zugehörige Load-Balancer und die Firewall, die das Rechenzentrum schützt.

Ein weiteres Beispiel für hochkomplexe Systeme ist die Telefonie, wo bereits vorhandene Verkabelungen und Redundanzen in der Netzwerkinfrastruktur und in der Server-Virtualisierung für den Umstieg auf Voice-over-IP genutzt wurden. Anstelle von einzelnen Telefon­­anlagen werden heute Server in klimatisierten Rechenzentren betrieben, die gegen Stromausfälle geschützt sind. Im Störfall müssen die MitarbeiterInnen der Telefonie mit den Betreibern vom Rechenzentrum und Netzwerk eng zusammenarbeiten.

Bei der Analyse von schwerwiegenden Störfällen arbeiten die IT-TechnikerInnen des ZID bereichsübergreifend an der Lokalisierung des Fehlers. Mit den ersten technischen Arbeiten beginnt gleichzeitig auch die interne und externe Kommunikation, z. B. über Opens external link in new windowWartungsmeldungen. Höchste Priorität haben immer die zeitnahe Wiederherstellung der Services und eine Datensammlung für spätere Detailanalysen und die Weitergabe an Partner und Hersteller.

Die Reproduktionen (das bedeutet das Nachvollziehen der Störung), Labortests und Softwarekorrekturen nach einem Störfall laufen oft über Monate, bis eine endgültige Lösung in der produktiven IT-Infrastruktur implementiert werden kann. Bis zu diesem Zeitpunkt werden Systeme mit kleinen internen Änderungen oder Ersatzgeräten betrieben, um die Servicequalität für die BenutzerInnen in vollem Funktionsumfang zu erhalten.

Infos über Störfälle erhalten Sie unter Opens external link in new windowzid.univie.ac.at/wartungsarbeiten/ bzw. über die Opens external link in new windowZID-Tech-Mailingliste, in die Sie sich jederzeit eintragen können.


uni-it-Logo
Student