Erste Einblicke in die Architektur und die Performance-Daten des POWER10-Prozessors hat IBM gegeben: Gefertigt von Samsung in einem 7-Nanometer-Prozess, gespickt mit technischen Verbesserungen, zusätzliche Sicherheitsfunktionen speziell für Container-basierte Umgebungen, wird erwartet, dass es die ersten Systeme im vierten Quartal 2021 geben wird. Im ersten Teil dieser Serie liegt der Fokus auf dem Speicher-Interface.

Die Chips der aktuellen POWER9-Prozessoren hat IBM bei Globalfoundries in einem 14-Nanometer-Prozess fertigen lassen. Die künftige Prozessorarchitektur, POWER10, wird bei Samsung in einem 7-Nanometer-Prozess gefertigt. Waren es beim POWER9 noch 8 Milliarden „Transistoren“ auf einem Singlechip-Modul, passen beim POWER10 auf die Chipfläche von 602 mm2 ganze 18 Milliarden „Transistoren“. Künftig sollen Singlechip- und Dualchip-Module verfügbar sein. Experten erwarten die ersten Systeme, die auf POWER10 basieren, in vierten Quartal 2021.

Quelle: IBM
Erste Aussagen zur Performance-Verbesserung (bezogen auf „Prozessorsockel“) versprechen den Faktor 3 für viele Operationen; in Sachen AI-Beschleunigung spricht IBM sogar von einem Faktor 20. Wesentliche Bereiche, in denen die Architektur verbessert wurden, sind das Speicher-Interface mit dem neuartigen Poweraxon-Interface, sowie die Sicherheitsfunktionalitäten auf dem Chip (wie transparente „Memory-Datenverschlüsselung“ ohne Performance-Einbußen, die Absicherung in Container-basierten Umgebungen und die Unterstützung von neuartigen Verschlüsselungstechniken).

Memory Clustering nutzt Poweraxon

Quelle: IBM
Datenbewegung und Datenberechnungen spielen in heutigen „Data Driven“-Anwendungen eine große. Damit wird die Bandbreite extrem wichtig, die ein Prozessor bietet, um die Daten „bewegen“ zu können. Beim POWER10-Prozessor sind 16 Prozessor-Cores auf dem Chip integriert, 15 davon werden als SMT8-Core mit 2 MByte L2-Cache genutzt, dazu bis zu 128 MByte L3-Cache (NUMA mit geringer Latency).

Bei den Speicher-Interfaces kommt mit der Poweraxon-Schnittstelle eine Neuigkeit ins Spiel. Über dieses Interface lassen sich SMP-Konfigurationen bilden, Beschleuniger-Hardware anbinden sowie das Memory-Pooling realisieren. Dabei bietet Poweraxon eine Bandbreite von 1 TByte/s bzw. 32 GTransfers/s.

Als eine weitere Besonderheit der Poweraxon-Funktionalität bezeichnet IBM das Memory Clustering. Dazu wird die Technologie des Memory Inception verwendet. Mit ihr kann man einem System vormachen, dass Speicher in einem anderen System zu seinem eigenen Speicher gehört. Das muss nicht mehr über eine eigenständige Verbindung wie Infiniband gemacht werden – mit all den Verzögerungen, die dieses Protokollsystem mit sich bringt.

Denn die Memory Inception fügt nur einen kleinen Overhead von 50 bis 100 ns hinzu, wenn die Verkabelung entsprechend kurz gehalten wird. Für die Anwendungen ist diese Verteilung des Speichers komplett transparent: Die Programme bemerken es nicht, dass der Arbeitsspeicher eines anderen Systems herangezogen wird. Es treten keine Probleme mit der Cache-Kohärenz auf. Speziell in Cloud-basierten Konfigurationen – mit bis zu Tausenden von Knoten, lassen sich damit äußert flexible Strukturen aufbauen.

Open Memory Interface

Quelle: IBM
Zudem kommt OMI, das Open Memory Interface, als Schnittstelle zum traditionellen Hauptspeicher mit DDR-Speichermodulen zum Einsatz. Es kann künftige DDR5- und heutige DDR4-Module unterstützen: Bis zu 16 DDR-Ports pro Prozessorsockel sind machbar. Auch hier spricht IBM von bis zu 32 GTransfers/s und von 410 GByte/s Peak Bandbreite pro Prozessorsockel. Wer auf die künftigen DDR5-Module umsteigen will, der braucht laut IBM nur diese neuen Module gegen die DDR4-DIMMS austauschen, alles andere im System könne ohne Änderung weiter verwendet werden.

Doch das OMI bietet noch weitere Optionen: Diese Schnittstelle kann auch segmentiert werden, um zum Beispiel eine besonders schnelle Anbindung (mit z.B. 800 GByte/s) von GDDR-DIMMs (mit sehr geringer Zugriffszeit aber keiner allzu hohen Speicherdichte) zu erlauben, zusätzlich zum normalen DDR-Hauptspeicher.

Insgesamt lassen sich ein einem einzelnen POWER10-basierten System 2 Petabyte an physischen Speicherbereich ansprechen – natürlich nur, wenn man so viel Speicher in das System eingesteckt bekommt.

Rainer Huttenloher

IBM