Dienstagmorgen, 9:30 Uhr: Der zentrale Switch fällt aus. 35 Mitarbeiter sitzen ohne Netzwerk, ohne ERP, ohne Telefon. Der Geschäftsführer eines Produktionsbetriebs in Südbaden greift zum Handy und ruft seinen IT-Dienstleister an. Die Antwort: Ersatzgerät muss bestellt werden, Lieferzeit zwei Werktage. Zwei Tage Stillstand. Umsatzverlust: über 80.000 Euro.
Dieses Szenario erleben wir bei MiMann.net regelmäßig – allerdings nur bei Unternehmen, die noch kein Ausfallsicherheit Konzept umgesetzt haben. Denn das Problem ist nicht der Ausfall an sich. Hardware geht kaputt, Software hat Fehler, Stromnetze schwanken. Das Problem ist die fehlende Redundanz. Wer nur einen Switch, nur eine Internetleitung und nur eine Stromversorgung hat, akzeptiert stillschweigend das Risiko eines Totalausfalls.
In diesem Artikel zeigen wir Ihnen die technischen Maßnahmen, mit denen Sie Ihre IT-Infrastruktur ausfallsicher machen. Es geht nicht um den organisatorischen Notfallplan (den haben wir in einem eigenen Artikel behandelt) und nicht um die Backup-Strategie für den Ernstfall. Hier geht es darum, Ausfälle von vornherein zu verhindern – oder sie so abzufangen, dass Ihre Mitarbeiter nichts davon merken.
Was kostet eine Stunde IT-Ausfall wirklich?
Bevor wir über Lösungen sprechen, müssen wir über Zahlen sprechen. Denn IT-Ausfallsicherheit ist eine Investition, die sich rechnen muss. Die tatsächlichen Kosten eines IT-Ausfalls setzen sich aus mehreren Faktoren zusammen: Produktivitätsverlust der Mitarbeiter, entgangene Aufträge, verpasste Deadlines, Vertragsstrafen und – oft unterschätzt – der Reputationsschaden bei Kunden.
| Unternehmensgröße | Mitarbeiter | Kosten pro Stunde Ausfall | Kosten pro Tag Ausfall |
|---|---|---|---|
| Handwerksbetrieb | 10–15 | 1.500–3.000 € | 12.000–24.000 € |
| Kleines Dienstleistungsunternehmen | 20–30 | 4.000–8.000 € | 32.000–64.000 € |
| Mittelständischer Produktionsbetrieb | 50–100 | 15.000–40.000 € | 120.000–320.000 € |
| Online-Handel / E-Commerce | 10–50 | 5.000–25.000 € | 40.000–200.000 € |
Diese Zahlen basieren auf Erfahrungswerten aus unserer Beratungspraxis in Südbaden und decken sich mit Erhebungen des Bundesamts für Sicherheit in der Informationstechnik (BSI). Entscheidend ist: Die Kosten steigen nicht linear. Die erste Stunde ist ärgerlich, nach vier Stunden stocken Lieferketten, nach einem Tag drohen Vertragsstrafen, und nach drei Tagen beginnen Kunden abzuwandern.
RTO und RPO verstehen: Die zwei wichtigsten Kennzahlen
Jedes Ausfallsicherheit Konzept beginnt mit zwei Fragen: Wie lange darf ein System maximal ausfallen? Und: Wie viele Daten dürfen maximal verloren gehen? Die Antworten auf diese Fragen definieren zwei Kennzahlen, die Sie kennen müssen.
RTO – Recovery Time Objective
Die maximale Zeitspanne, die ein System ausfallen darf, bevor der Geschäftsbetrieb kritisch beeinträchtigt wird. Ein RTO von 4 Stunden bedeutet: Innerhalb von 4 Stunden muss das System wieder laufen – egal wie.
RPO – Recovery Point Objective
Der maximale Zeitraum, für den Datenverlust akzeptabel ist. Ein RPO von 1 Stunde bedeutet: Sie dürfen maximal die Daten der letzten 60 Minuten verlieren. Alles davor muss wiederherstellbar sein.
Je niedriger Ihr RTO, desto mehr müssen Sie in Ausfallsicherheit investieren. Ein RTO von 24 Stunden lässt sich mit guten Backups erreichen. Ein RTO von 15 Minuten erfordert Hochverfügbarkeitscluster und automatisches Failover. Ein RTO von null – also gar kein spürbarer Ausfall – erfordert vollständig redundante Systeme mit Echtzeit-Replikation.
| System | Typischer RTO | Typischer RPO | Maßnahme |
|---|---|---|---|
| Telefonanlage | 30 Min. | Kein Datenverlust | Redundante VoIP mit Cloud-Fallback |
| ERP-System | 2–4 Std. | 1 Stunde | Cluster oder VM-Replikation |
| E-Mail (Microsoft 365) | 0 Min.* | 0 Min.* | Cloud-Redundanz durch Microsoft |
| Fileserver | 1–4 Std. | 15 Min.–1 Std. | RAID + Replikation auf zweites NAS |
| Webshop | 15–30 Min. | 5 Min. | Load Balancer + Auto-Failover |
| Produktionssteuerung | 15 Min. | 0 Min. | Echtzeit-Cluster mit gespiegelter DB |
Definieren Sie RTO und RPO gemeinsam mit Ihrer Geschäftsführung – nicht nur mit der IT. Denn die Frage ist betriebswirtschaftlich: Was kostet eine Stunde Ausfall im Vergleich zu den Kosten für die Absicherung? Bei einem Produktionsbetrieb mit 40.000 Euro Ausfallkosten pro Stunde rechnet sich ein Hochverfügbarkeitscluster für 15.000 Euro bereits nach 23 Minuten vermiedenem Ausfall.
Die 5 Säulen der IT-Ausfallsicherheit
Ein robustes Ausfallsicherheit Konzept beruht auf fünf technischen Säulen. Jede für sich beseitigt einen typischen Single Point of Failure – also eine Stelle, an der ein einziger Defekt den gesamten Betrieb lahmlegen kann.
Stromversorgung
USV-Anlagen, redundante Netzteile und Notstromkonzepte stellen sicher, dass Ihre IT auch bei Netzausfällen weiterläuft – oder zumindest sauber herunterfährt.
Internetkonnektivität
Zwei unabhängige Internetleitungen mit automatischem Failover sorgen dafür, dass Cloud-Dienste, VoIP und VPN auch bei einem Providerausfall erreichbar bleiben.
Server & Compute
Virtualisierung, Cluster und Replikation verhindern, dass ein einzelner Hardwaredefekt den Geschäftsbetrieb stoppt. Fällt ein Host aus, übernimmt automatisch der nächste.
Speicher & Daten
RAID-Systeme, gespiegelte Storage-Pools und Echtzeit-Replikation auf ein zweites System schützen Ihre Daten vor Festplattenausfällen und Speicherfehlern.
Netzwerk & Switching
Redundante Switches, gestackte Konfigurationen und Spanning Tree Protocol (STP) sorgen dafür, dass ein defekter Switch nicht das gesamte Firmennetzwerk lahmlegt.
Redundanz auf jeder Ebene: Konkrete Maßnahmen
Internetanbindung: Dual-WAN und SD-WAN
Die Internetanbindung ist für die meisten Unternehmen heute geschäftskritisch: VoIP-Telefonie, Cloud-Dienste wie Microsoft 365, VPN-Verbindungen für Außendienst und Homeoffice. Fällt die Leitung aus, steht der Betrieb. Die Lösung ist einfach und vergleichsweise günstig.
Zweite Internetleitung beauftragen
Wählen Sie bewusst einen anderen Provider und eine andere Technologie. Haben Sie Glasfaser als Hauptleitung, nehmen Sie als Backup eine LTE/5G-Verbindung oder einen Kabelanschluss. So sind Sie auch bei einem Baggerschaden an der Glasfaser abgesichert. Kosten: 30–80 € monatlich für die Zweitanbindung.
Dual-WAN-fähige Firewall einsetzen
Moderne Business-Firewalls von Sophos, Fortinet oder pfSense unterstützen Dual-WAN nativ. Konfigurieren Sie automatisches Failover: Fällt Leitung 1 aus, schaltet die Firewall innerhalb von Sekunden auf Leitung 2 um.
SD-WAN für intelligentes Routing
Für größere Unternehmen oder Standortvernetzungen bietet SD-WAN zusätzliche Vorteile: Lastverteilung zwischen beiden Leitungen im Normalbetrieb, priorisierte Bandbreite für VoIP und geschäftskritische Anwendungen, und automatisches Rerouting bei Teilausfällen.
Server-Redundanz: Virtualisierung und Failover-Cluster
In den meisten KMU läuft die gesamte IT auf einem einzigen physischen Server. Fällt dieser aus – sei es durch einen Festplattendefekt, ein defektes Netzteil oder einen Mainboard-Schaden – steht alles still. Moderne Virtualisierung löst dieses Problem elegant.
Mit Hyper-V (Microsoft) oder VMware vSphere laufen mehrere virtuelle Server auf einem oder mehreren physischen Hosts. Fällt ein Host aus, werden die virtuellen Maschinen automatisch auf dem zweiten Host gestartet. Je nach Konfiguration dauert das zwischen 30 Sekunden und 5 Minuten – ein Bruchteil der Zeit, die ein Hardware-Austausch benötigen würde.
| Lösung | RTO | Kosten (Hardware + Lizenzen) | Geeignet für |
|---|---|---|---|
| Einzelner Server mit RAID | 4–24 Std. | 3.000–6.000 € | Kleinbetrieb bis 10 MA |
| Zwei Hosts mit Hyper-V Replica | 5–15 Min. | 8.000–15.000 € | KMU mit 10–50 MA |
| Hochverfügbarkeitscluster (3+ Nodes) | < 1 Min. | 25.000–60.000 € | Produktionsbetriebe, Handel |
| Cloud-basiertes Failover (Azure/AWS) | 5–30 Min. | 200–800 €/Monat | Unternehmen mit Cloud-Strategie |
Netzwerk: Redundante Switches und Stacking
Ein häufig übersehener Single Point of Failure ist der zentrale Netzwerk-Switch. In vielen KMU verbindet ein einziger Switch alle Arbeitsplätze, den Server, die Telefonanlage und das WLAN. Fällt dieses Gerät aus, ist nichts mehr erreichbar – auch wenn Server und Internet einwandfrei funktionieren.
Die Lösung: Switch-Stacking. Dabei werden zwei oder mehr Switches zu einer logischen Einheit verbunden. Jeder Switch kann den gesamten Datenverkehr alleine bewältigen. Fällt einer aus, übernimmt der andere nahtlos. Kosten für ein redundantes Switch-Paar im KMU-Segment: 800–2.500 Euro – eine der wirtschaftlichsten Maßnahmen für Ihre IT-Ausfallsicherheit überhaupt.
Speicher: RAID, Replikation und gespiegelte Systeme
RAID-Systeme (Redundant Array of Independent Disks) sind seit Jahrzehnten Standard – aber nicht jedes RAID schützt gleich gut. RAID 1 spiegelt Daten auf zwei Festplatten. RAID 5 verteilt Daten mit Paritätsinformation über drei oder mehr Platten. RAID 6 verkraftet sogar den gleichzeitigen Ausfall von zwei Platten. Für maximale Sicherheit empfehlen wir RAID 6 oder RAID 10 in Kombination mit einer Echtzeit-Replikation auf ein zweites NAS oder einen zweiten Server – idealerweise in einem anderen Raum oder Gebäude.
USV und Notstromversorgung richtig dimensionieren
Eine unterbrechungsfreie Stromversorgung (USV) ist das Fundament jeder IT-Ausfallsicherheit. Ohne USV führt bereits ein kurzer Spannungseinbruch – etwa durch ein Gewitter oder eine Baustellenaktivität in der Nachbarschaft – zu einem unkontrollierten Serverabsturz. Dabei können Datenbanken beschädigt, RAID-Arrays inkonsistent und virtuelle Maschinen korrumpiert werden.
Doch USV ist nicht gleich USV. Für einen professionellen IT-Betrieb gibt es drei Typen:
| USV-Typ | Schutz vor | Umschaltzeit | Empfehlung | Kosten |
|---|---|---|---|---|
| Offline/Standby | Stromausfall | 5–10 ms | Nur für einzelne Arbeitsplätze | 80–200 € |
| Line-Interactive | Stromausfall + Spannungsschwankungen | 2–4 ms | Standard für KMU-Server | 400–1.500 € |
| Online/Double-Conversion | Alle Stromprobleme | 0 ms | Server, Storage, Produktionssteuerung | 1.500–5.000 € |
⚠️ Wichtig: Eine USV, deren Batterien nie getestet oder gewechselt werden, ist eine Schein-Sicherheit. USV-Batterien haben eine typische Lebensdauer von 3–5 Jahren. Planen Sie den Batterietausch fest ein und testen Sie die USV mindestens halbjährlich unter Last. Wir erleben regelmäßig Fälle, in denen die USV im Ernstfall nach 30 Sekunden statt der angegebenen 20 Minuten abschaltet – weil die Batterien längst am Ende waren.
USV-Dimensionierung: So berechnen Sie den Bedarf
Die richtige Dimensionierung entscheidet darüber, ob Ihre USV im Ernstfall 5 Minuten oder 30 Minuten überbrückt. Berechnen Sie den Bedarf in drei Schritten:
Verbraucher erfassen
Listen Sie alle Geräte auf, die an der USV hängen sollen: Server (300–600 W), NAS (100–250 W), Switch (30–80 W), Firewall (20–50 W), Telefonanlage (50–100 W). Addieren Sie die Leistungsaufnahme aller Geräte.
Pufferzuschlag einrechnen
Addieren Sie 30 % Puffer auf die Gesamtleistung. Eine USV sollte nie über 70 % Last betrieben werden – das verkürzt die Lebensdauer der Batterien und reduziert die Überbrückungszeit massiv.
Überbrückungszeit definieren
Für die meisten KMU reichen 15–20 Minuten. Das genügt, um Server sauber herunterzufahren oder einen kurzen Stromausfall zu überbrücken. Wer längere Ausfälle abfangen will, braucht zusätzliche Batteriepacks oder einen Dieselgenerator.
Ein Server (500 W) + NAS (200 W) + Switch (60 W) + Firewall (40 W) = 800 W Grundlast. Mit 30 % Puffer: 1.040 W benötigte USV-Kapazität. Eine Line-Interactive USV mit 1.500 VA / 1.350 W (z. B. APC Smart-UPS 1500) liefert bei dieser Last ca. 20 Minuten Überbrückungszeit. Kosten: ca. 700–900 Euro – eine Investition, die sich beim ersten Stromausfall bezahlt macht.
Hochverfügbarkeit: Cluster, Failover und Load Balancing
Hochverfügbarkeit (HA) bezeichnet IT-Systeme, die eine Verfügbarkeit von 99,9 % oder höher garantieren. Das klingt nach viel – aber 99,9 % bedeuten immer noch knapp 9 Stunden ungeplante Ausfallzeit pro Jahr. Für viele Produktionsbetriebe oder den Online-Handel ist das zu viel. Die nächste Stufe – 99,99 % – erlaubt nur noch 52 Minuten Ausfall pro Jahr.
| Verfügbarkeit | Ausfallzeit pro Jahr | Ausfallzeit pro Monat | Typische Maßnahmen |
|---|---|---|---|
| 99 % | 3,65 Tage | 7,3 Stunden | Einzelserver mit Backup |
| 99,9 % | 8,76 Stunden | 43,8 Minuten | Virtualisierung + Replikation |
| 99,99 % | 52,6 Minuten | 4,4 Minuten | HA-Cluster mit Auto-Failover |
| 99,999 % | 5,26 Minuten | 26,3 Sekunden | Geo-redundante Cluster |
Die drei wichtigsten Technologien für Hochverfügbarkeit im Mittelstand:
Failover-Cluster
Zwei oder mehr Server überwachen sich gegenseitig. Fällt der aktive Server aus, übernimmt der passive Server innerhalb von Sekunden alle Dienste. Windows Server bietet mit dem Windows Server Failover Clustering (WSFC) eine eingebaute Lösung. Hyper-V Replica ermöglicht eine asynchrone Replikation mit nur 5–15 Minuten Wiederanlaufzeit – und ist bereits in der Standard-Lizenz enthalten.
Load Balancing
Ein Lastverteiler verteilt Anfragen auf mehrere Server gleichzeitig. Fällt ein Server aus, werden die Anfragen automatisch auf die verbleibenden Server umgeleitet. Besonders relevant für Webshops, Portale und Anwendungsserver. Lösungen wie HAProxy (Open Source) oder Kemp LoadMaster sind auch für KMU erschwinglich.
Datenbank-Clustering
Für geschäftskritische Datenbanken (SQL Server, PostgreSQL) gibt es spezielle Hochverfügbarkeitslösungen: SQL Server Always On, PostgreSQL Streaming Replication oder MySQL Group Replication. Diese sorgen dafür, dass bei einem Datenbankausfall automatisch eine Replik übernimmt – ohne Datenverlust.
Cloud-basierte Ausfallsicherheit
Nicht jedes Unternehmen kann oder will einen zweiten physischen Server im Serverraum stehen haben. Hier bieten Cloud-Dienste eine kosteneffiziente Alternative für die IT-Ausfallsicherheit. Das Prinzip: Ihre lokale Infrastruktur wird kontinuierlich in die Cloud repliziert. Im Normalbetrieb dient die Cloud nur als Standby-Kopie. Fällt die lokale Umgebung aus, starten Sie die Systeme in der Cloud – innerhalb von Minuten.
Azure Site Recovery
Microsofts Disaster-Recovery-Dienst repliziert Ihre Hyper-V- oder VMware-VMs kontinuierlich nach Azure. Im Ernstfall starten Sie die VMs in Azure und arbeiten von dort weiter. RTO: 15–30 Minuten. Kosten: ca. 22 € pro geschützte VM/Monat plus Speicher- und Compute-Kosten im Failover-Fall.
AWS Elastic Disaster Recovery
Amazons Pendant zu Azure Site Recovery. Kontinuierliche Block-Level-Replikation mit Sub-Sekunden-RPO. Besonders interessant für Linux-basierte Infrastrukturen. Kosten: ca. 0,028 €/Stunde pro repliziertem Server.
Veeam Cloud Connect
Wenn Sie bereits Veeam für Backups nutzen, können Sie über Cloud Connect Ihre Backup-Kopien bei einem lokalen Rechenzentrum oder Cloud-Provider lagern und im Notfall als VMs starten. Kombiniert Backup und Disaster Recovery in einem Werkzeug.
Für Unternehmen mit strengen Compliance-Anforderungen ist der Standort der Cloud-Rechenzentren relevant. Sowohl Azure als auch AWS betreiben Rechenzentren in Deutschland (Azure: Frankfurt und Berlin, AWS: Frankfurt). Achten Sie bei der Konfiguration darauf, dass Ihre Daten ausschließlich in der EU – idealerweise in Deutschland – repliziert werden.
Ausfallsicherheit nach Budget: Drei Stufen für KMU
Nicht jedes Unternehmen braucht eine Verfügbarkeit von 99,99 %. Und nicht jedes Budget erlaubt einen Hochverfügbarkeitscluster. Deshalb haben wir drei Ausbaustufen definiert, die sich an der Unternehmensgröße und dem tatsächlichen Schutzbedarf orientieren. Alle Preise sind Richtwerte für die einmalige Investition plus laufende Kosten im ersten Jahr.
| Maßnahme | Basic (3.000–6.000 €) | Standard (8.000–20.000 €) | Premium (25.000–60.000 €) |
|---|---|---|---|
| USV | Line-Interactive 1.500 VA | Online-USV 3.000 VA | Online-USV + ext. Batteriepacks |
| Internet | Einzelleitung + LTE-Stick als Notfall | Dual-WAN mit Auto-Failover | SD-WAN mit zwei Glasfaserleitungen |
| Server | Einzelserver mit RAID 6 | Zwei Hosts mit Hyper-V Replica | HA-Cluster mit 3+ Nodes |
| Netzwerk | Managed Switch mit Ersatzgerät auf Lager | Redundante Switches (Stacking) | Redundantes Core-/Access-Layer-Design |
| Speicher | RAID 6 im Server | NAS-zu-NAS-Replikation | SAN mit synchroner Spiegelung |
| Cloud-Failover | Keine | Azure Site Recovery für kritische VMs | Vollständiges Cloud-DR für alle Systeme |
| Monitoring | Basis-Monitoring (PRTG Free) | Professionelles RMM-Monitoring | 24/7 Monitoring mit NOC-Anbindung |
| Verfügbarkeit | ~99 % (ca. 3,6 Tage Ausfall/Jahr) | ~99,9 % (ca. 8,8 Std. Ausfall/Jahr) | ~99,99 % (ca. 52 Min. Ausfall/Jahr) |
⚠️ Wichtig: Sparen Sie nicht an der falschen Stelle. Wir empfehlen jedem Unternehmen ab 10 Mitarbeitern mindestens die Stufe "Standard". Die Mehrkosten von 5.000–15.000 Euro gegenüber "Basic" amortisieren sich bereits bei einem einzigen verhinderten Ausfalltag. Ein Handwerksbetrieb mit 20 Mitarbeitern, der einen Tag stillsteht, verliert leicht 15.000–25.000 Euro an Produktivität und Aufträgen.
Praxisbeispiel: Handwerksbetrieb vs. Produktionsunternehmen
Schreinerei Müller, 18 Mitarbeiter, Emmendingen
Ausgangslage: Ein physischer Server mit Windows Server 2022, ERP für Auftragsplanung, NAS für Planzeichnungen, VoIP-Telefonanlage. Keine USV, keine redundante Internetleitung. Gesamte IT über einen einzigen Switch angebunden.
Umgesetzte Maßnahmen (Budget: ca. 9.500 €): Line-Interactive USV mit 20 Minuten Überbrückung (850 €), zweite Internetleitung über LTE mit Dual-WAN-Failover auf der vorhandenen Sophos-Firewall (65 €/Monat), zweiter identischer Managed Switch im Stack (750 €), zweiter Server als Hyper-V Replica Ziel für die ERP- und Fileserver-VM (5.200 €), NAS-zu-NAS-Replikation über Synology Hyper Backup (NAS bereits vorhanden, Konfigurationsaufwand). Ergebnis: RTO von vorher 8–24 Stunden auf unter 15 Minuten reduziert. Bereits im ersten Jahr ein abgefangener Stromausfall (3 Stunden) und ein Switch-Defekt ohne Auswirkung auf den Betrieb.
Metalltechnik GmbH, 65 Mitarbeiter, Lörrach
Ausgangslage: Produktionsnetzwerk mit CNC-Maschinen, die über ein MES-System (Manufacturing Execution System) gesteuert werden. ERP-System SAP Business One, 3 physische Server, zentraler Storage. Bereits eine USV vorhanden, aber unterdimensioniert und Batterien 6 Jahre alt.
Umgesetzte Maßnahmen (Budget: ca. 42.000 €): Online-USV 6.000 VA mit externem Batteriepack für 45 Minuten Überbrückung (4.800 €), zwei Glasfaserleitungen von unterschiedlichen Providern mit SD-WAN (Setup 2.500 €, 280 €/Monat), 3-Node Hyper-V Failover-Cluster mit Shared Storage (28.000 €), redundantes Core-Switch-Design mit Link Aggregation (3.200 €), Azure Site Recovery für alle kritischen VMs als zweite Absicherungsebene (ca. 350 €/Monat), 24/7 Monitoring mit automatischer Alarmierung (180 €/Monat). Ergebnis: Verfügbarkeit von 99,99 %. Produktionsstillstand durch IT-Ausfall: null Stunden in den letzten 14 Monaten.
Monitoring: Ausfälle erkennen, bevor sie passieren
Die beste Redundanz nützt wenig, wenn niemand merkt, dass eine Komponente bereits ausgefallen ist. Wenn der primäre Switch im Stack defekt ist, läuft zwar alles über den Backup-Switch weiter – aber Ihre Redundanz ist weg. Fällt jetzt auch der zweite aus, stehen Sie ohne Schutz da. Deshalb gehört professionelles Monitoring zu jedem Ausfallsicherheit Konzept.
Für die IT-Ausfallsicherheit sind folgende Monitoring-Aspekte besonders kritisch:
Hardware-Gesundheit
S.M.A.R.T.-Werte der Festplatten, RAID-Status, Lüfterdrehzahlen und Temperaturen. Eine Festplatte, die erste Warnsignale zeigt, kann getauscht werden, bevor das RAID degradiert.
USV-Status
Batteriealterung, Ladestand, aktuelle Last und Selbsttest-Ergebnisse. Viele USV-Systeme melden Batterieprobleme über SNMP an das Monitoring – wenn man es konfiguriert.
Redundanz-Überwachung
Ist der Failover-Partner online? Läuft die Replikation? Ist die zweite WAN-Leitung aktiv? Monitoring muss nicht nur den Betrieb überwachen, sondern auch die Schutzmaßnahmen selbst.
Kapazitätsplanung
Festplatten, die 90 % voll sind, RAM-Auslastung nahe am Limit, CPU-Dauerlast. Diese Trends kündigen Engpässe an, bevor sie zu Ausfällen führen.
Bei MiMann.net setzen wir für unsere Managed-Service-Kunden ein umfassendes RMM-System ein, das alle diese Parameter überwacht und bei Anomalien automatisch Alarm schlägt. In vielen Fällen können wir Probleme beheben, bevor der Kunde überhaupt etwas bemerkt. Mehr dazu erfahren Sie in unserem Artikel zum Thema IT-Monitoring.
Checkliste: IT-Ausfallsicherheit für Ihr Unternehmen
Ist Ihre IT wirklich ausfallsicher?
- RTO und RPO für alle geschäftskritischen Systeme definiert
- Alle Single Points of Failure identifiziert und dokumentiert
- USV vorhanden, korrekt dimensioniert und Batterien aktuell (< 3 Jahre)
- Redundante Internetanbindung mit automatischem Failover konfiguriert
- Server virtualisiert mit Replikation auf zweiten Host oder in die Cloud
- RAID-Level mindestens RAID 5, besser RAID 6 oder RAID 10
- Redundante Netzwerk-Switches im Stack oder Ring-Topologie
- Cloud-Failover für kritischste Systeme eingerichtet und getestet
- Monitoring überwacht nicht nur den Betrieb, sondern auch die Redundanz
- Failover regelmäßig getestet (mindestens halbjährlich)
- ESkalationspfade dokumentiert: Wer wird wann informiert?
- Wartungsverträge mit garantierten Reaktionszeiten für kritische Hardware
Fazit: Ausfallsicherheit ist eine Investition, kein Kostenfaktor
IT-Ausfallsicherheit ist kein Luxus für Großkonzerne. Jedes Unternehmen, das auf funktionierende IT angewiesen ist – und das ist heute praktisch jedes – braucht ein durchdachtes Ausfallsicherheit Konzept. Die gute Nachricht: Sie müssen nicht alles auf einmal umsetzen. Beginnen Sie mit den Maßnahmen, die das beste Verhältnis von Kosten zu Risikoreduktion bieten.
Unsere Empfehlung für den Einstieg: USV, redundante Internetleitung und ein zweiter Server mit Hyper-V Replica. Diese drei Maßnahmen zusammen kosten zwischen 7.000 und 12.000 Euro – und reduzieren Ihr Ausfallrisiko um geschätzt 80 %. Jeder weitere Euro, den Sie in Redundanz investieren, schützt Ihr Unternehmen vor Ausfallkosten, die um ein Vielfaches höher liegen.
Als IT-Dienstleister für Ausfallsicherheit in Südbaden analysieren wir Ihre bestehende Infrastruktur, identifizieren die kritischen Schwachstellen und entwickeln ein Konzept, das zu Ihrem Budget und Ihren Anforderungen passt. Von der USV-Dimensionierung bis zum Hochverfügbarkeitscluster – wir setzen die Maßnahmen um und überwachen sie dauerhaft.