Aktuelle Entwicklungen rund um das Thema künstliche Intelligenz beschäftigen viele Unternehmen. Dazu gehören auch die Auswirkungen einer Umstellung einer KI-Infrastruktur von alten parallelen Dateisystemen auf moderne All-Flash-Plattformen.

Workloads von High Performance Computing (HPC) werden aufgrund ihrer großen Block- und sequenziellen I/O-Muster traditionell auf parallelen Dateisystemen ausgeführt. AI-Workloads erfordern jedoch eine andere Art von System und basieren im Gegensatz dazu hauptsächlich auf Lese-I/O-Mustern, insbesondere auf zufälligem Lesen.

Um dieser Entwicklung Rechnung zu tragen, geht die Branche jetzt zu All-Flash-Systemen über, die von SSDs (Solid State Drives) angetrieben werden. All-Flash-Systeme sind besser geeignet, um sowohl HPC-, als auch AI-Workloads zu bewältigen.

Darüber hinaus bieten SSDs einen einfacheren Zugriff auf den gesamten Namespace, was mit klassischen Festplatten (HDDs) nur schwer zu erreichen wäre. Vor allem die folgenden Aspekte, die sich im Zusammenhang mit diesem jüngsten Wandel bei Workloads, Speicher und Infrastruktur ergeben, sind dabei zu beachten.

Bei parallelen Dateisystemen ist hohe Leistung gleichbedeutend mit hoher Komplexität

Während parallele Dateisysteme die erste Wahl für HPC-Workloads sind, bringen sie aber auch Herausforderungen mit sich. Denn parallele Dateisysteme sind schwierig zu warten und erfordern zusätzliche Maßnahmen auf der Client-Seite. Upgrade-Aufgaben werden durch ihre Komplexität erschwert.
Die Technologie von VAST Data bietet dagegen hohe Performance ohne diese Komplexität oder spezielle Netzwerke. Der Durchsatz von VAST-Clustern kann Terabytes pro Sekunde an Lesedurchsatz für Tausende von Clients liefern, sowie individuell ausgerichtete Beträge von 170 Gigabyte/Sekunde für einzelne Mount Points (Verbindungen zwischen Dateisystemen) bei einem einzigen Client.

NFS- und S3-Protokolle verfügen über vergleichbare Performance-Werte wie VAST, während S3 aufgrund seiner Verwendung in Ökosystemen von Hadoop, Deep Learning, Apache Spark, Cassandra und Spark-Ökosystemen immer beliebter wird

Erfordern AI-Workloads nicht eine hohe Schreib-Performance?

Für diejenigen, die sich fragen, ob VAST eine ausreichende Schreib-Performance für AI liefern kann, ist es wichtig zu wissen, dass 95 Prozent der AI-Workloads lese-intensiv sind, wenn sie mit Kunden zu tun haben. Dies steht im Widerspruch zu dem vermeintlichen Bedarf an einem ausgewogenen Verhältnis zwischen Lese- und Schreibvorgängen. Es gibt zwar Ausnahmen (zum Beispiel HPC oder Kontrollpunkte bei Large Language Models), aber bei AI-Workloads überwiegt der Anteil der Lesevorgänge. Das richtige Maß an Lese-/Schreib-Bandbreite muss vorhanden sein, um Prozesse erfolgreich abzuschließen.

Darüber hinaus wird die Flash-Technologie immer erschwinglicher und übertrifft die Fähigkeiten von Festplatten, während sie gleichzeitig die Umwelt weniger belastet und eine höhere Speicherdichte aufweist.

Parallele Dateisysteme sind nicht für unterbrechungsfreie Abläufe konstruiert

Dateisysteme, die parallel oder in Clustern laufen, sind anfällig, was unterbrechungsfreie Abläufe angeht. VAST hingegen rühmt sich einer Architektur, die eine 100-prozentige Betriebszeit garantiert, ohne dass es zu Unterbrechungen bei den Wartungsarbeiten kommt. Wie kann das funktionieren? Der Single Class Storage von VAST ist für Cluster jeder Größe geeignet, ohne dass manuelle Eingriffe beim Layout der Daten oder das Optimieren von Einstellungen erforderlich sind. VAST stellt Protokolle für Industriestandards zur Verfügung, wobei keine eigenen Clients erforderlich sind.

Kunden von PowerScale (Isilon) haben die Vorteile des Produkts bereits kennengelernt: VAST speichert den Status für zustandsorientierte Protokolle in dauerhaften NVMe-Produkten und stellt so sicher, dass selbst SMB-2-Sitzungen bei einem gerade stattfindenden Upgrade nicht unterbrochen werden.
Die Docker-Container von VAST beseitigen die Komplexität der Technologie und ermöglichen schnelle Upgrades und neue Startpunkte, ohne dass man sich Gedanken über Metadaten-Server oder die Auslagerung von Daten machen muss. Zusätzlich gehen die Einrichtung von Dateiquoten oder der Export von Daten mühelos vonstatten.

Sobald VAST in eine bestehende Installation integriert ist, kann man sich darauf verlassen, dass es so gut wie keine Problemfälle geben wird und dass die Systeme mit minimalem Aufwand reibungslos funktionieren werden.

Proprietäre Clients bei Dateisystemen sind ein notwendiges Übel

Proprietäre Clients bei Dateisystemen können als notwendiges Übel angesehen werden, um eine optimale Performance zu erzielen. Dieses System von ursprünglichen Clients ist jedoch mit einer Reihe von besonderen Einschränkungen verbunden wie zum Beispiel der Kompatibilität mit nur einer Speicherplattform und der Notwendigkeit von Upgrades, wenn das zugrunde liegende System geändert wird.

Glücklicherweise wurden fortgeschrittene Methoden entwickelt, die Clients auf Basis von Industriestandards verwenden. Die Anwender können nun ohne Probleme zwischen den Plattformen wechseln, ohne Änderungen auf der Client-Seite vornehmen zu müssen. Die Ingenieure von VAST verfügen über praktische Erfahrungen mit diesem speziellen Problem und kennen einige besondere Situationen, in denen der Client ein Teil des Dateisystems werden und auf besondere Weise interagieren kann.

Alphafold zum Beispiel, ein DeepMind-Programm, das komplexe mathematische Probleme bei der Proteinfaltung löst, verwendet in besonderem Ausmaß „mmap()“-Dateien. Wenn es auf einem System von VAST läuft, erzielt Alphafold eine enorme Verbesserung von 500 bis 700 Prozent im Vergleich zu einem parallelen Dateisystem. VAST verfügt über umfangreiche Erfahrungen in diesem Bereich, die den Kunden dabei helfen, sich in der komplexen Welt der Dateisysteme zurechtzufinden.

Wissenschaftliche Projekteinsätze

Für die Entwicklung und den Einsatz von parallelen Dateisystemen, die stark beansprucht werden, ist ein Team von Experten mit einem tiefen Verständnis von Code- und Betriebssystemen erforderlich. Dies gilt insbesondere für parallele Dateisysteme, die wegen des notwendigen Fachwissens eher in großen staatlichen Institutionen zu finden sind.

Leider verfügen viele kommerzielle Unternehmen nicht über diese Ressourcen, so dass ein besonderer Bedarf an nachhaltigen Lösungen besteht, mit denen Unternehmen wettbewerbsfähig sein können. Sogar Institutionen des höheren Ausbildungswesens oder von Universitäten profitieren vom Einsatz paralleler Dateisysteme, da sie über Studenten und Spezialisten verfügen, die beim Betrieb solcher Systeme helfen können.

Der Einsatz von solchen Lösungen erfordert jedoch weit mehr als nur technisches Know-how. Es geht auch um ein gründliches Verständnis der Belastungen, die sie für Dateisysteme darstellen können, damit sie wirkungsvoll eingestellt, verwaltet und gewartet werden.

Subramanian Kartik ist Vice President of Systems Engineering bei VAST Data.

VAST Data