Vom Lieferservice über Apps bis hin zum eigenen Innovation Hub – REWE Digital, das Digitalisierungszentrum der REWE Group, spielt eine wesentliche Rolle bei der Transformation und Weiterentwicklung der E-Commerce-Plattformen des Unternehmens.
Ausfälle im Online-Shop, im Bestellprozess oder in der Logistik können sich direkt auf das Kundenerlebnis und den Umsatz auswirken. Das spürt auch das Support-Team täglich. IT-Störungen zu erkennen und zu beheben gehört zu ihren Kernaufgaben. Hierfür ist ein gutes Incident-Management Pflicht. Doch welche Lösungsansätze und Tools sind für den Branchenriesen wirklich hilfreich? Und wie genau schaffte REWE Digital in den vergangenen Jahren den Sprung von unstrukturierten Prozessen zu einem effizienten Störungsmanagement?
Im Einsatz: Die digitale Feuerwehr der REWE Group
Obwohl die meisten IT-Unternehmen heute um die Bedeutung des Themas Incident-Management wissen, scheitern selbst Marktgrößen oft an der Umsetzung effizienter Prozesse im Problemfall. Auch bei REWE Digital herrschte lange Zeit eine eher „unstrukturierte Herangehensweise“, wenn es um das Steuern von Störvorfällen ging. Mit diesen Worten beschreibt Patrick Esser, Leiter der Supportabteilung bei REWE Digital, die Arbeitsweise des Einsatzteams für IT-Vorfälle bis zum Jahr 2020. Bereits im Jahr 2012 war Patrick bei der REWE Group als Incident-Manager gestartet und gestaltete seit 2018 als Teamleiter den Umgang mit technischen Störungen im täglichen Betrieb mit. Er und seine acht Mitarbeitenden sind zur Stelle, wenn die IT-Infrastruktur des E-Commerce-Konzerns ins Wanken gerät.
„Sobald eine größere Störung auftrat, erfuhr mein Team per Telefon, E-Mail oder Ticketsystem davon und leitete den Firefighting-Modus ein, um die Störung schnellstmöglich wieder zu beheben,” so Patrick Esser, Teamleiter Support bei REWE Digital.
Patrick und sein Team sind die zentrale Anlaufstelle für die Bearbeitung von Störungen im Bereich „Online & Mobile“. Bis 2020 trafen Störungsmeldungen beim Support über jegliche Kanäle ein: E-Mail, Chat, Telefon oder das Ticket-Tool. Lange Zeit gab es weder eindeutig geregelte Abläufe noch feste Prozesse. Die Zuständigkeiten waren unübersichtlich und dezentral verteilt, das sorgte für Chaos. „Wenn eine Störung auftrat, war das Team oft gezwungen, auf gut Glück Hilfe zu suchen“, erklärt Patrick. Man griff zum Hörer oder schrieb Mails – immer in der Hoffnung, jemanden zu erreichen, der weiterhelfen konnte. Mit dem rasanten Wachstum von REWE Digital und spätestens mit der Einführung von SRE-Teams (Site Reliability Engineering) wurde klar, dass sich etwas ändern musste.
Hilfe aus der Heimat: REWE Digital vertraut auf Kölner Unterstützung
Die Suche nach einem geeigneten Ansatz für das Incident-Management bei REWE Digital war keine Top-down-Entscheidung. CTO Robert Zores war es wichtig, diejenigen in die Lösungsfindung einzubeziehen, denen sie auch nutzen würde: Die Entwicklerinnen und Entwickler bei REWE Digital. Denn auf dem globalen Markt gibt es eine Vielzahl von Anbietern, wenn es um die Abwicklung und Steuerung von IT-Störungen geht. Am Ende fiel die Wahl auf ein SaaS-Unternehmen aus Köln, das sich mit seiner Plattform durchsetzte. ilert bot dem Konzern eine vollständige Lösung für den gesamte Incident-Response-Lifecycle – von der Erkennung und Benachrichtigung von Vorfällen bis zur Eskalation und Analyse.
Vor allem der zuverlässige und schnelle Support des ilert-Teams sowie der klare Fokus auf Datenschutz, der durch die Nutzung deutscher Server sichergestellt wird, überzeugten die Entscheider, denn REWE Digital verpflichtet sich selbst höchsten Datenschutzanforderungen. Aber auch mit der einfachen Implementierung der Software und der guten Integration im Bereich der Alarmierung konnte ilert punkten. Die Kölner halfen, die Unternehmensabläufe und Erwartungen bei REWE Digital zu definieren und etablierten ein strukturiertes Werkzeug, um effiziente Prozesse aufzubauen. Robert Zores blickt heute auf die Entscheidung zurück:
„Bei einem Unternehmen wie REWE sind eine große Menge an IT-Services zur gleichen Zeit und rund um die Uhr im Einsatz. Bei Störungen können tausend und abertausend Kund:innen davon betroffen werden. Heute nutzen wir ilert, um unsere Incidents so schnell zu beheben, dass sie unsere Nutzer:innen gar nicht erst bemerken. ilert gibt unseren Engineering-, Entwicklungs- und Betriebsteams das Vertrauen, dass wir rechtzeitig und so schnell wie möglich reagieren,” so Robert Zores, CTO REWE Digital.
Die Reaktionszeiten im Griff: ilert sorgt für Effizienz
Durch den Einsatz und die schnelle Erreichbarkeit des ilert-Teams bei technischen Herausforderungen, verbesserten sich die Abläufe bei Störfällen deutlich. Die Reaktionszeiten verkürzten sich, während die Up-Time stieg, was sich auch in finanzieller Hinsicht bemerkbar machte. Gleichzeitig waren die Mitarbeitenden aus dem Incident-Management bei ihrer Arbeit weniger Stress ausgesetzt, da Probleme schneller behoben wurden. Im “Firefighting-Modus” war es plötzlich viel einfacher, die richtigen Ansprechpartner:innen zu erreichen. Das Alarmsystem von ilert ermöglicht es zudem, Störungen frühzeitig zu erkennen und so Schäden zu minimieren oder gar zu vermeiden. Einige Teams entdeckten sogar, dass ilert als praktischer Dienstplan genutzt werden kann – eine unerwartete, aber willkommene Funktion.
Rückblickend ist Patrick Esser überzeugt davon, dass sich ilerts Unterstützung im Incident-Management auszahlt. Das Tool ist so einfach zu bedienen, dass es von Teams jeder Größe und mit jedem Kenntnisstand eingesetzt werden kann. Außerdem ist ilert ein ständig wachsendes Projekt, das auch auf dem Feedback seiner Kunden basiert. Unternehmen können ihre Wünsche für neue Features einbringen und die individuelle Anpassung an spezielle Anforderungen und Situationen ist jederzeit möglich. Die Kommunikation mit den Köpfen hinter ilert schätzt Patrick besonders. „Auf unsere Fragen bekommen wir immer innerhalb weniger Minuten eine Antwort.“ Für ihn steht fest: Für REWE digital ist ilert ein verlässlicher Partner für die Zukunft.