IT-Ausfallsicherheit für KMU: Redundanz, Failover & Hochverfügbarkeit

Dienstagmorgen, 9:30 Uhr: Der zentrale Switch fällt aus. 35 Mitarbeiter sitzen ohne Netzwerk, ohne ERP, ohne Telefon. Der Geschäftsführer eines Produktionsbetriebs in Südbaden greift zum Handy und ruft seinen IT-Dienstleister an. Die Antwort: Ersatzgerät muss bestellt werden, Lieferzeit zwei Werktage. Zwei Tage Stillstand. Umsatzverlust: über 80.000 Euro.

Dieses Szenario erleben wir bei MiMann.net regelmäßig – allerdings nur bei Unternehmen, die noch kein Ausfallsicherheit Konzept umgesetzt haben. Denn das Problem ist nicht der Ausfall an sich. Hardware geht kaputt, Software hat Fehler, Stromnetze schwanken. Das Problem ist die fehlende Redundanz. Wer nur einen Switch, nur eine Internetleitung und nur eine Stromversorgung hat, akzeptiert stillschweigend das Risiko eines Totalausfalls.

In diesem Artikel zeigen wir Ihnen die technischen Maßnahmen, mit denen Sie Ihre IT-Infrastruktur ausfallsicher machen. Es geht nicht um den organisatorischen Notfallplan (den haben wir in einem eigenen Artikel behandelt) und nicht um die Backup-Strategie für den Ernstfall. Hier geht es darum, Ausfälle von vornherein zu verhindern – oder sie so abzufangen, dass Ihre Mitarbeiter nichts davon merken.

Was kostet eine Stunde IT-Ausfall wirklich?

Bevor wir über Lösungen sprechen, müssen wir über Zahlen sprechen. Denn IT-Ausfallsicherheit ist eine Investition, die sich rechnen muss. Die tatsächlichen Kosten eines IT-Ausfalls setzen sich aus mehreren Faktoren zusammen: Produktivitätsverlust der Mitarbeiter, entgangene Aufträge, verpasste Deadlines, Vertragsstrafen und – oft unterschätzt – der Reputationsschaden bei Kunden.

Unternehmensgröße	Mitarbeiter	Kosten pro Stunde Ausfall	Kosten pro Tag Ausfall
Handwerksbetrieb	10–15	1.500–3.000 €	12.000–24.000 €
Kleines Dienstleistungsunternehmen	20–30	4.000–8.000 €	32.000–64.000 €
Mittelständischer Produktionsbetrieb	50–100	15.000–40.000 €	120.000–320.000 €
Online-Handel / E-Commerce	10–50	5.000–25.000 €	40.000–200.000 €

Diese Zahlen basieren auf Erfahrungswerten aus unserer Beratungspraxis in Südbaden und decken sich mit Erhebungen des Bundesamts für Sicherheit in der Informationstechnik (BSI). Entscheidend ist: Die Kosten steigen nicht linear. Die erste Stunde ist ärgerlich, nach vier Stunden stocken Lieferketten, nach einem Tag drohen Vertragsstrafen, und nach drei Tagen beginnen Kunden abzuwandern.

                        Eine einzige Maßnahme – ein redundanter Switch für 800 Euro – hätte den oben beschriebenen 80.000-Euro-Ausfall verhindert. IT-Ausfallsicherheit ist keine Frage des Budgets, sondern der richtigen Prioritäten.                    

RTO und RPO verstehen: Die zwei wichtigsten Kennzahlen

Jedes Ausfallsicherheit Konzept beginnt mit zwei Fragen: Wie lange darf ein System maximal ausfallen? Und: Wie viele Daten dürfen maximal verloren gehen? Die Antworten auf diese Fragen definieren zwei Kennzahlen, die Sie kennen müssen.

RTO – Recovery Time Objective

Die maximale Zeitspanne, die ein System ausfallen darf, bevor der Geschäftsbetrieb kritisch beeinträchtigt wird. Ein RTO von 4 Stunden bedeutet: Innerhalb von 4 Stunden muss das System wieder laufen – egal wie.

RPO – Recovery Point Objective

Der maximale Zeitraum, für den Datenverlust akzeptabel ist. Ein RPO von 1 Stunde bedeutet: Sie dürfen maximal die Daten der letzten 60 Minuten verlieren. Alles davor muss wiederherstellbar sein.

Je niedriger Ihr RTO, desto mehr müssen Sie in Ausfallsicherheit investieren. Ein RTO von 24 Stunden lässt sich mit guten Backups erreichen. Ein RTO von 15 Minuten erfordert Hochverfügbarkeitscluster und automatisches Failover. Ein RTO von null – also gar kein spürbarer Ausfall – erfordert vollständig redundante Systeme mit Echtzeit-Replikation.

System	Typischer RTO	Typischer RPO	Maßnahme
Telefonanlage	30 Min.	Kein Datenverlust	Redundante VoIP mit Cloud-Fallback
ERP-System	2–4 Std.	1 Stunde	Cluster oder VM-Replikation
E-Mail (Microsoft 365)	0 Min.*	0 Min.*	Cloud-Redundanz durch Microsoft
Fileserver	1–4 Std.	15 Min.–1 Std.	RAID + Replikation auf zweites NAS
Webshop	15–30 Min.	5 Min.	Load Balancer + Auto-Failover
Produktionssteuerung	15 Min.	0 Min.	Echtzeit-Cluster mit gespiegelter DB

RTO und RPO bestimmen Ihr Budget

Definieren Sie RTO und RPO gemeinsam mit Ihrer Geschäftsführung – nicht nur mit der IT. Denn die Frage ist betriebswirtschaftlich: Was kostet eine Stunde Ausfall im Vergleich zu den Kosten für die Absicherung? Bei einem Produktionsbetrieb mit 40.000 Euro Ausfallkosten pro Stunde rechnet sich ein Hochverfügbarkeitscluster für 15.000 Euro bereits nach 23 Minuten vermiedenem Ausfall.

Die 5 Säulen der IT-Ausfallsicherheit

Ein robustes Ausfallsicherheit Konzept beruht auf fünf technischen Säulen. Jede für sich beseitigt einen typischen Single Point of Failure – also eine Stelle, an der ein einziger Defekt den gesamten Betrieb lahmlegen kann.

Stromversorgung

USV-Anlagen, redundante Netzteile und Notstromkonzepte stellen sicher, dass Ihre IT auch bei Netzausfällen weiterläuft – oder zumindest sauber herunterfährt.

Internetkonnektivität

Zwei unabhängige Internetleitungen mit automatischem Failover sorgen dafür, dass Cloud-Dienste, VoIP und VPN auch bei einem Providerausfall erreichbar bleiben.

Server & Compute

Virtualisierung, Cluster und Replikation verhindern, dass ein einzelner Hardwaredefekt den Geschäftsbetrieb stoppt. Fällt ein Host aus, übernimmt automatisch der nächste.

Speicher & Daten

RAID-Systeme, gespiegelte Storage-Pools und Echtzeit-Replikation auf ein zweites System schützen Ihre Daten vor Festplattenausfällen und Speicherfehlern.

Netzwerk & Switching

Redundante Switches, gestackte Konfigurationen und Spanning Tree Protocol (STP) sorgen dafür, dass ein defekter Switch nicht das gesamte Firmennetzwerk lahmlegt.

Redundanz auf jeder Ebene: Konkrete Maßnahmen

Internetanbindung: Dual-WAN und SD-WAN

Die Internetanbindung ist für die meisten Unternehmen heute geschäftskritisch: VoIP-Telefonie, Cloud-Dienste wie Microsoft 365, VPN-Verbindungen für Außendienst und Homeoffice. Fällt die Leitung aus, steht der Betrieb. Die Lösung ist einfach und vergleichsweise günstig.

Zweite Internetleitung beauftragen

Wählen Sie bewusst einen anderen Provider und eine andere Technologie. Haben Sie Glasfaser als Hauptleitung, nehmen Sie als Backup eine LTE/5G-Verbindung oder einen Kabelanschluss. So sind Sie auch bei einem Baggerschaden an der Glasfaser abgesichert. Kosten: 30–80 € monatlich für die Zweitanbindung.

Dual-WAN-fähige Firewall einsetzen

Moderne Business-Firewalls von Sophos, Fortinet oder pfSense unterstützen Dual-WAN nativ. Konfigurieren Sie automatisches Failover: Fällt Leitung 1 aus, schaltet die Firewall innerhalb von Sekunden auf Leitung 2 um.

SD-WAN für intelligentes Routing

Für größere Unternehmen oder Standortvernetzungen bietet SD-WAN zusätzliche Vorteile: Lastverteilung zwischen beiden Leitungen im Normalbetrieb, priorisierte Bandbreite für VoIP und geschäftskritische Anwendungen, und automatisches Rerouting bei Teilausfällen.

Server-Redundanz: Virtualisierung und Failover-Cluster

In den meisten KMU läuft die gesamte IT auf einem einzigen physischen Server. Fällt dieser aus – sei es durch einen Festplattendefekt, ein defektes Netzteil oder einen Mainboard-Schaden – steht alles still. Moderne Virtualisierung löst dieses Problem elegant.

Mit Hyper-V (Microsoft) oder VMware vSphere laufen mehrere virtuelle Server auf einem oder mehreren physischen Hosts. Fällt ein Host aus, werden die virtuellen Maschinen automatisch auf dem zweiten Host gestartet. Je nach Konfiguration dauert das zwischen 30 Sekunden und 5 Minuten – ein Bruchteil der Zeit, die ein Hardware-Austausch benötigen würde.

Lösung	RTO	Kosten (Hardware + Lizenzen)	Geeignet für
Einzelner Server mit RAID	4–24 Std.	3.000–6.000 €	Kleinbetrieb bis 10 MA
Zwei Hosts mit Hyper-V Replica	5–15 Min.	8.000–15.000 €	KMU mit 10–50 MA
Hochverfügbarkeitscluster (3+ Nodes)	< 1 Min.	25.000–60.000 €	Produktionsbetriebe, Handel
Cloud-basiertes Failover (Azure/AWS)	5–30 Min.	200–800 €/Monat	Unternehmen mit Cloud-Strategie

Netzwerk: Redundante Switches und Stacking

Ein häufig übersehener Single Point of Failure ist der zentrale Netzwerk-Switch. In vielen KMU verbindet ein einziger Switch alle Arbeitsplätze, den Server, die Telefonanlage und das WLAN. Fällt dieses Gerät aus, ist nichts mehr erreichbar – auch wenn Server und Internet einwandfrei funktionieren.

Die Lösung: Switch-Stacking. Dabei werden zwei oder mehr Switches zu einer logischen Einheit verbunden. Jeder Switch kann den gesamten Datenverkehr alleine bewältigen. Fällt einer aus, übernimmt der andere nahtlos. Kosten für ein redundantes Switch-Paar im KMU-Segment: 800–2.500 Euro – eine der wirtschaftlichsten Maßnahmen für Ihre IT-Ausfallsicherheit überhaupt.

Speicher: RAID, Replikation und gespiegelte Systeme

RAID-Systeme (Redundant Array of Independent Disks) sind seit Jahrzehnten Standard – aber nicht jedes RAID schützt gleich gut. RAID 1 spiegelt Daten auf zwei Festplatten. RAID 5 verteilt Daten mit Paritätsinformation über drei oder mehr Platten. RAID 6 verkraftet sogar den gleichzeitigen Ausfall von zwei Platten. Für maximale Sicherheit empfehlen wir RAID 6 oder RAID 10 in Kombination mit einer Echtzeit-Replikation auf ein zweites NAS oder einen zweiten Server – idealerweise in einem anderen Raum oder Gebäude.

USV und Notstromversorgung richtig dimensionieren

Eine unterbrechungsfreie Stromversorgung (USV) ist das Fundament jeder IT-Ausfallsicherheit. Ohne USV führt bereits ein kurzer Spannungseinbruch – etwa durch ein Gewitter oder eine Baustellenaktivität in der Nachbarschaft – zu einem unkontrollierten Serverabsturz. Dabei können Datenbanken beschädigt, RAID-Arrays inkonsistent und virtuelle Maschinen korrumpiert werden.

Doch USV ist nicht gleich USV. Für einen professionellen IT-Betrieb gibt es drei Typen:

USV-Typ	Schutz vor	Umschaltzeit	Empfehlung	Kosten
Offline/Standby	Stromausfall	5–10 ms	Nur für einzelne Arbeitsplätze	80–200 €
Line-Interactive	Stromausfall + Spannungsschwankungen	2–4 ms	Standard für KMU-Server	400–1.500 €
Online/Double-Conversion	Alle Stromprobleme	0 ms	Server, Storage, Produktionssteuerung	1.500–5.000 €

⚠️ Wichtig: Eine USV, deren Batterien nie getestet oder gewechselt werden, ist eine Schein-Sicherheit. USV-Batterien haben eine typische Lebensdauer von 3–5 Jahren. Planen Sie den Batterietausch fest ein und testen Sie die USV mindestens halbjährlich unter Last. Wir erleben regelmäßig Fälle, in denen die USV im Ernstfall nach 30 Sekunden statt der angegebenen 20 Minuten abschaltet – weil die Batterien längst am Ende waren.

USV-Dimensionierung: So berechnen Sie den Bedarf

Die richtige Dimensionierung entscheidet darüber, ob Ihre USV im Ernstfall 5 Minuten oder 30 Minuten überbrückt. Berechnen Sie den Bedarf in drei Schritten:

Verbraucher erfassen

Listen Sie alle Geräte auf, die an der USV hängen sollen: Server (300–600 W), NAS (100–250 W), Switch (30–80 W), Firewall (20–50 W), Telefonanlage (50–100 W). Addieren Sie die Leistungsaufnahme aller Geräte.

Pufferzuschlag einrechnen

Addieren Sie 30 % Puffer auf die Gesamtleistung. Eine USV sollte nie über 70 % Last betrieben werden – das verkürzt die Lebensdauer der Batterien und reduziert die Überbrückungszeit massiv.

Überbrückungszeit definieren

Für die meisten KMU reichen 15–20 Minuten. Das genügt, um Server sauber herunterzufahren oder einen kurzen Stromausfall zu überbrücken. Wer längere Ausfälle abfangen will, braucht zusätzliche Batteriepacks oder einen Dieselgenerator.

Praxisbeispiel: USV für einen typischen KMU-Serverraum

Ein Server (500 W) + NAS (200 W) + Switch (60 W) + Firewall (40 W) = 800 W Grundlast. Mit 30 % Puffer: 1.040 W benötigte USV-Kapazität. Eine Line-Interactive USV mit 1.500 VA / 1.350 W (z. B. APC Smart-UPS 1500) liefert bei dieser Last ca. 20 Minuten Überbrückungszeit. Kosten: ca. 700–900 Euro – eine Investition, die sich beim ersten Stromausfall bezahlt macht.

Hochverfügbarkeit: Cluster, Failover und Load Balancing

Hochverfügbarkeit (HA) bezeichnet IT-Systeme, die eine Verfügbarkeit von 99,9 % oder höher garantieren. Das klingt nach viel – aber 99,9 % bedeuten immer noch knapp 9 Stunden ungeplante Ausfallzeit pro Jahr. Für viele Produktionsbetriebe oder den Online-Handel ist das zu viel. Die nächste Stufe – 99,99 % – erlaubt nur noch 52 Minuten Ausfall pro Jahr.

Verfügbarkeit	Ausfallzeit pro Jahr	Ausfallzeit pro Monat	Typische Maßnahmen
99 %	3,65 Tage	7,3 Stunden	Einzelserver mit Backup
99,9 %	8,76 Stunden	43,8 Minuten	Virtualisierung + Replikation
99,99 %	52,6 Minuten	4,4 Minuten	HA-Cluster mit Auto-Failover
99,999 %	5,26 Minuten	26,3 Sekunden	Geo-redundante Cluster

Die drei wichtigsten Technologien für Hochverfügbarkeit im Mittelstand:

Failover-Cluster

Zwei oder mehr Server überwachen sich gegenseitig. Fällt der aktive Server aus, übernimmt der passive Server innerhalb von Sekunden alle Dienste. Windows Server bietet mit dem Windows Server Failover Clustering (WSFC) eine eingebaute Lösung. Hyper-V Replica ermöglicht eine asynchrone Replikation mit nur 5–15 Minuten Wiederanlaufzeit – und ist bereits in der Standard-Lizenz enthalten.

Load Balancing

Ein Lastverteiler verteilt Anfragen auf mehrere Server gleichzeitig. Fällt ein Server aus, werden die Anfragen automatisch auf die verbleibenden Server umgeleitet. Besonders relevant für Webshops, Portale und Anwendungsserver. Lösungen wie HAProxy (Open Source) oder Kemp LoadMaster sind auch für KMU erschwinglich.

Datenbank-Clustering

Für geschäftskritische Datenbanken (SQL Server, PostgreSQL) gibt es spezielle Hochverfügbarkeitslösungen: SQL Server Always On, PostgreSQL Streaming Replication oder MySQL Group Replication. Diese sorgen dafür, dass bei einem Datenbankausfall automatisch eine Replik übernimmt – ohne Datenverlust.

Cloud-basierte Ausfallsicherheit

Nicht jedes Unternehmen kann oder will einen zweiten physischen Server im Serverraum stehen haben. Hier bieten Cloud-Dienste eine kosteneffiziente Alternative für die IT-Ausfallsicherheit. Das Prinzip: Ihre lokale Infrastruktur wird kontinuierlich in die Cloud repliziert. Im Normalbetrieb dient die Cloud nur als Standby-Kopie. Fällt die lokale Umgebung aus, starten Sie die Systeme in der Cloud – innerhalb von Minuten.

Azure Site Recovery

Microsofts Disaster-Recovery-Dienst repliziert Ihre Hyper-V- oder VMware-VMs kontinuierlich nach Azure. Im Ernstfall starten Sie die VMs in Azure und arbeiten von dort weiter. RTO: 15–30 Minuten. Kosten: ca. 22 € pro geschützte VM/Monat plus Speicher- und Compute-Kosten im Failover-Fall.

AWS Elastic Disaster Recovery

Amazons Pendant zu Azure Site Recovery. Kontinuierliche Block-Level-Replikation mit Sub-Sekunden-RPO. Besonders interessant für Linux-basierte Infrastrukturen. Kosten: ca. 0,028 €/Stunde pro repliziertem Server.

Veeam Cloud Connect

Wenn Sie bereits Veeam für Backups nutzen, können Sie über Cloud Connect Ihre Backup-Kopien bei einem lokalen Rechenzentrum oder Cloud-Provider lagern und im Notfall als VMs starten. Kombiniert Backup und Disaster Recovery in einem Werkzeug.

Datensouveränität: Cloud-Standort beachten

Für Unternehmen mit strengen Compliance-Anforderungen ist der Standort der Cloud-Rechenzentren relevant. Sowohl Azure als auch AWS betreiben Rechenzentren in Deutschland (Azure: Frankfurt und Berlin, AWS: Frankfurt). Achten Sie bei der Konfiguration darauf, dass Ihre Daten ausschließlich in der EU – idealerweise in Deutschland – repliziert werden.

Ausfallsicherheit nach Budget: Drei Stufen für KMU

Nicht jedes Unternehmen braucht eine Verfügbarkeit von 99,99 %. Und nicht jedes Budget erlaubt einen Hochverfügbarkeitscluster. Deshalb haben wir drei Ausbaustufen definiert, die sich an der Unternehmensgröße und dem tatsächlichen Schutzbedarf orientieren. Alle Preise sind Richtwerte für die einmalige Investition plus laufende Kosten im ersten Jahr.

Maßnahme	Basic (3.000–6.000 €)	Standard (8.000–20.000 €)	Premium (25.000–60.000 €)
USV	Line-Interactive 1.500 VA	Online-USV 3.000 VA	Online-USV + ext. Batteriepacks
Internet	Einzelleitung + LTE-Stick als Notfall	Dual-WAN mit Auto-Failover	SD-WAN mit zwei Glasfaserleitungen
Server	Einzelserver mit RAID 6	Zwei Hosts mit Hyper-V Replica	HA-Cluster mit 3+ Nodes
Netzwerk	Managed Switch mit Ersatzgerät auf Lager	Redundante Switches (Stacking)	Redundantes Core-/Access-Layer-Design
Speicher	RAID 6 im Server	NAS-zu-NAS-Replikation	SAN mit synchroner Spiegelung
Cloud-Failover	Keine	Azure Site Recovery für kritische VMs	Vollständiges Cloud-DR für alle Systeme
Monitoring	Basis-Monitoring (PRTG Free)	Professionelles RMM-Monitoring	24/7 Monitoring mit NOC-Anbindung
Verfügbarkeit	~99 % (ca. 3,6 Tage Ausfall/Jahr)	~99,9 % (ca. 8,8 Std. Ausfall/Jahr)	~99,99 % (ca. 52 Min. Ausfall/Jahr)

⚠️ Wichtig: Sparen Sie nicht an der falschen Stelle. Wir empfehlen jedem Unternehmen ab 10 Mitarbeitern mindestens die Stufe "Standard". Die Mehrkosten von 5.000–15.000 Euro gegenüber "Basic" amortisieren sich bereits bei einem einzigen verhinderten Ausfalltag. Ein Handwerksbetrieb mit 20 Mitarbeitern, der einen Tag stillsteht, verliert leicht 15.000–25.000 Euro an Produktivität und Aufträgen.

Praxisbeispiel: Handwerksbetrieb vs. Produktionsunternehmen

Schreinerei Müller, 18 Mitarbeiter, Emmendingen

Ausgangslage: Ein physischer Server mit Windows Server 2022, ERP für Auftragsplanung, NAS für Planzeichnungen, VoIP-Telefonanlage. Keine USV, keine redundante Internetleitung. Gesamte IT über einen einzigen Switch angebunden.

Umgesetzte Maßnahmen (Budget: ca. 9.500 €): Line-Interactive USV mit 20 Minuten Überbrückung (850 €), zweite Internetleitung über LTE mit Dual-WAN-Failover auf der vorhandenen Sophos-Firewall (65 €/Monat), zweiter identischer Managed Switch im Stack (750 €), zweiter Server als Hyper-V Replica Ziel für die ERP- und Fileserver-VM (5.200 €), NAS-zu-NAS-Replikation über Synology Hyper Backup (NAS bereits vorhanden, Konfigurationsaufwand). Ergebnis: RTO von vorher 8–24 Stunden auf unter 15 Minuten reduziert. Bereits im ersten Jahr ein abgefangener Stromausfall (3 Stunden) und ein Switch-Defekt ohne Auswirkung auf den Betrieb.

Metalltechnik GmbH, 65 Mitarbeiter, Lörrach

Ausgangslage: Produktionsnetzwerk mit CNC-Maschinen, die über ein MES-System (Manufacturing Execution System) gesteuert werden. ERP-System SAP Business One, 3 physische Server, zentraler Storage. Bereits eine USV vorhanden, aber unterdimensioniert und Batterien 6 Jahre alt.

Umgesetzte Maßnahmen (Budget: ca. 42.000 €): Online-USV 6.000 VA mit externem Batteriepack für 45 Minuten Überbrückung (4.800 €), zwei Glasfaserleitungen von unterschiedlichen Providern mit SD-WAN (Setup 2.500 €, 280 €/Monat), 3-Node Hyper-V Failover-Cluster mit Shared Storage (28.000 €), redundantes Core-Switch-Design mit Link Aggregation (3.200 €), Azure Site Recovery für alle kritischen VMs als zweite Absicherungsebene (ca. 350 €/Monat), 24/7 Monitoring mit automatischer Alarmierung (180 €/Monat). Ergebnis: Verfügbarkeit von 99,99 %. Produktionsstillstand durch IT-Ausfall: null Stunden in den letzten 14 Monaten.

Monitoring: Ausfälle erkennen, bevor sie passieren

Die beste Redundanz nützt wenig, wenn niemand merkt, dass eine Komponente bereits ausgefallen ist. Wenn der primäre Switch im Stack defekt ist, läuft zwar alles über den Backup-Switch weiter – aber Ihre Redundanz ist weg. Fällt jetzt auch der zweite aus, stehen Sie ohne Schutz da. Deshalb gehört professionelles Monitoring zu jedem Ausfallsicherheit Konzept.

Für die IT-Ausfallsicherheit sind folgende Monitoring-Aspekte besonders kritisch:

Hardware-Gesundheit

S.M.A.R.T.-Werte der Festplatten, RAID-Status, Lüfterdrehzahlen und Temperaturen. Eine Festplatte, die erste Warnsignale zeigt, kann getauscht werden, bevor das RAID degradiert.

USV-Status

Batteriealterung, Ladestand, aktuelle Last und Selbsttest-Ergebnisse. Viele USV-Systeme melden Batterieprobleme über SNMP an das Monitoring – wenn man es konfiguriert.

Redundanz-Überwachung

Ist der Failover-Partner online? Läuft die Replikation? Ist die zweite WAN-Leitung aktiv? Monitoring muss nicht nur den Betrieb überwachen, sondern auch die Schutzmaßnahmen selbst.

Kapazitätsplanung

Festplatten, die 90 % voll sind, RAM-Auslastung nahe am Limit, CPU-Dauerlast. Diese Trends kündigen Engpässe an, bevor sie zu Ausfällen führen.

Bei MiMann.net setzen wir für unsere Managed-Service-Kunden ein umfassendes RMM-System ein, das alle diese Parameter überwacht und bei Anomalien automatisch Alarm schlägt. In vielen Fällen können wir Probleme beheben, bevor der Kunde überhaupt etwas bemerkt. Mehr dazu erfahren Sie in unserem Artikel zum Thema IT-Monitoring.

Checkliste: IT-Ausfallsicherheit für Ihr Unternehmen

Ist Ihre IT wirklich ausfallsicher?

RTO und RPO für alle geschäftskritischen Systeme definiert
Alle Single Points of Failure identifiziert und dokumentiert
USV vorhanden, korrekt dimensioniert und Batterien aktuell (< 3 Jahre)
Redundante Internetanbindung mit automatischem Failover konfiguriert
Server virtualisiert mit Replikation auf zweiten Host oder in die Cloud
RAID-Level mindestens RAID 5, besser RAID 6 oder RAID 10
Redundante Netzwerk-Switches im Stack oder Ring-Topologie
Cloud-Failover für kritischste Systeme eingerichtet und getestet
Monitoring überwacht nicht nur den Betrieb, sondern auch die Redundanz
Failover regelmäßig getestet (mindestens halbjährlich)
ESkalationspfade dokumentiert: Wer wird wann informiert?
Wartungsverträge mit garantierten Reaktionszeiten für kritische Hardware

Fazit: Ausfallsicherheit ist eine Investition, kein Kostenfaktor

IT-Ausfallsicherheit ist kein Luxus für Großkonzerne. Jedes Unternehmen, das auf funktionierende IT angewiesen ist – und das ist heute praktisch jedes – braucht ein durchdachtes Ausfallsicherheit Konzept. Die gute Nachricht: Sie müssen nicht alles auf einmal umsetzen. Beginnen Sie mit den Maßnahmen, die das beste Verhältnis von Kosten zu Risikoreduktion bieten.

Unsere Empfehlung für den Einstieg: USV, redundante Internetleitung und ein zweiter Server mit Hyper-V Replica. Diese drei Maßnahmen zusammen kosten zwischen 7.000 und 12.000 Euro – und reduzieren Ihr Ausfallrisiko um geschätzt 80 %. Jeder weitere Euro, den Sie in Redundanz investieren, schützt Ihr Unternehmen vor Ausfallkosten, die um ein Vielfaches höher liegen.

Als IT-Dienstleister für Ausfallsicherheit in Südbaden analysieren wir Ihre bestehende Infrastruktur, identifizieren die kritischen Schwachstellen und entwickeln ein Konzept, das zu Ihrem Budget und Ihren Anforderungen passt. Von der USV-Dimensionierung bis zum Hochverfügbarkeitscluster – wir setzen die Maßnahmen um und überwachen sie dauerhaft.

IT-Ausfallsicherheit: So machen Sie Ihr Unternehmen resilient