Vom Lieferservice über Apps bis hin zum eigenen Innovation Hub – REWE digital, das Digitalisierungszentrum der REWE Group, spielt eine wesentliche Rolle bei der Transformation und Weiterentwicklung der E-Commerce-Plattformen des Unternehmens.
Ausfälle im Online-Shop, im Bestellprozess oder in der Logistik können sich direkt auf das Kundenerlebnis und den Umsatz auswirken. Das spürt auch das Support-Team täglich. IT-Störungen zu erkennen und zu beheben gehört zu seinen Kernaufgaben. Hierfür ist ein gutes Incident-Management Pflicht. Doch welche Lösungsansätze und Tools sind für den Branchenriesen wirklich hilfreich? Und wie genau schaffte REWE digital in den vergangenen Jahren die Entwicklung zu einem effizienteren Störungsmanagement?
Im Einsatz: Die digitale Feuerwehr der REWE Group
Obwohl die meisten IT-Unternehmen heute um die Bedeutung des Themas Incident-Management wissen, scheitern selbst Marktgrößen oft an der Umsetzung effizienter Prozesse im Problemfall. Auch bei REWE digital herrschte lange Zeit eine eher „unstrukturierte Herangehensweise“, wenn es um das Steuern von Störvorfällen ging. Mit diesen Worten beschreibt Patrick Esser, Leiter der Supportabteilung bei REWE digital, die Arbeitsweise des Einsatzteams für IT-Vorfälle bis zum Jahr 2020. Bereits im Jahr 2012 war Patrick Esser bei der REWE Group als Incident-Manager gestartet und gestaltete seit 2018 als Teamleiter den Umgang mit technischen Störungen im täglichen Betrieb mit. Er und seine acht Mitarbeitenden sind zur Stelle, wenn die IT-Infrastruktur des E-Commerce-Konzerns vor größeren Herausforderungen steht.
„Sobald eine größere Störung auftrat, erfuhr mein Team per Telefon, E-Mail oder Ticketsystem davon und leitete den Firefighting-Modus ein, um die Störung schnellstmöglich wieder zu beheben,” so Patrick Esser, Teamleiter Support bei REWE digital.
Patrick Esser und sein Team sind die zentrale Anlaufstelle für die Bearbeitung von Störungen im Bereich „Online & Mobile“. Bis 2020 trafen Störungsmeldungen beim Support über jegliche Kanäle ein: E-Mail, Chat, Telefon oder das Ticket-Tool. Lange Zeit gab es keine eindeutig geregelten Abläufe und Prozesse. Die Zuständigkeiten waren dezentral verteilt. „Wenn eine Störung auftrat, musste das Team oft gezwungen, ad hoc Hilfe suchen“, erklärt Patrick Esser. Auf der Suche nach Unterstützung griff man zum Hörer oder schrieb Mails – immer in der Hoffnung, jemanden zu erreichen, der weiterhelfen konnte. Mit dem rasanten Wachstum von REWE digital und spätestens mit der Einführung von SRE-Teams (Site Reliability Engineering) wurde klar, dass sich etwas ändern musste.
Hilfe aus der Heimat: REWE Digital vertraut auf Kölner Unterstützung
Die Suche nach einem geeigneten Ansatz für das Incident-Management bei REWE digital war keine Top-down-Entscheidung. CTO Robert Zores war es wichtig, diejenigen in die Lösungsfindung einzubeziehen, denen sie auch nutzen würde: die Entwicklerinnen und Entwickler bei REWE digital. Denn auf dem globalen Markt gibt es eine Vielzahl von Anbietern, wenn es um die Abwicklung und Steuerung von IT-Störungen geht. Am Ende fiel die Wahl auf ein SaaS-Unternehmen aus Köln, das sich mit seiner Plattform durchsetzte. ilert bot dem Konzern eine Lösung für den gesamte Incident-Response-Lifecycle – von der Erkennung und Benachrichtigung von Vorfällen bis zur Eskalation und Analyse.
Vor allem der zuverlässige und schnelle Support des ilert-Teams sowie der klare Fokus auf Datenschutz, der durch die Nutzung deutscher Server sichergestellt wird, überzeugten die Entscheider, denn REWE digital verpflichtet sich selbst höchsten Datenschutzanforderungen. Aber auch mit der einfachen Implementierung der Software und der guten Integration im Bereich der Alarmierung konnte ilert punkten. Die Kölner halfen, die Unternehmensabläufe und Erwartungen bei REWE digital zu definieren und etablierten ein strukturiertes Werkzeug, um effiziente Prozesse aufzubauen. Robert Zores blickt heute auf die Entscheidung zurück:
„Bei einem Unternehmen wie der REWE Group sind eine große Menge an IT-Services zur gleichen Zeit und rund um die Uhr im Einsatz. Von einer Störung können tausende Kund:innen betroffen sein. Heute nutzen wir ilert, um unsere Incidents so schnell zu beheben, dass sie unsere Nutzer:innen gar nicht erst bemerken. ilert versetzt unsere Engineering-, Entwicklungs- und Betriebsteams in die Lage, rechtzeitig und schnell zu reagieren,” so Robert Zores, CTO REWE digital.
Die Reaktionszeiten im Griff: ilert sorgt für Effizienz
Durch den Einsatz und die schnelle Erreichbarkeit des ilert-Teams bei technischen Herausforderungen, verbesserten sich die Abläufe bei Störfällen deutlich. Die Reaktionszeiten verkürzten sich, während die Up-Time stieg und Probleme schneller behoben werden konnten. Im Ernstfall war es nun einfacher, die richtigen Ansprechpartner:innen zu erreichen. Das Alarmsystem von ilert ermöglicht es zudem, Störungen frühzeitig zu erkennen und so Schäden zu minimieren oder gar zu vermeiden.
Rückblickend ist Patrick Esser überzeugt, dass sich ilerts Unterstützung im Incident-Management auszahlt. Das Tool ist so einfach zu bedienen, dass es von Teams jeder Größe und mit jedem Kenntnisstand eingesetzt werden kann. Außerdem ist ilert ein ständig wachsendes Projekt, das auch auf dem Feedback seiner Kunden basiert. Unternehmen können ihre Wünsche für neue Features einbringen und die individuelle Anpassung an spezielle Anforderungen und Situationen ist jederzeit möglich. Die Kommunikation mit den Köpfen hinter ilert schätzt Patrick Esser besonders. „Auf unsere Fragen bekommen wir immer schnell eine Antwort.“