Beschreibung
Anforderungen an die Hardware 4.1 Rechenknoten Alle Rechenknoten müssen über Service Prozessoren verfügen (mindestens IPMI 2.0). Der Hauptspeicher aller Knoten muss über Fehlererkennung und -korrektur verfügen (ECC). Alle Knoten müssen an die globalen Filesysteme (siehe 4.4) mit einem Hochgeschwindigkeitsnetzwerk angebunden sein. Es muss im Bedarfsfall möglich sein, den Hauptspeicher (RAM) später unter Verwendung der vorhandenen Speicherbausteine zu erweitern. Die Rechenknoten sollen über Netzwerk gebootet (PXE-boot) werden. Falls noch ein interner Datenspeicher notwendig ist, muss dieser als SSD-Speicher ausgeführt werden. Die Rechen-Knoten dürfen nur aus einer Architektur bestehen (Intel oder AMD x86/64). Jeder Knoten soll mit mindestens 4 GByte Memory pro CPU-core ausgestattet sein. Jeder Knoten muss auf insgesamt mindestens 1TB RAM auch nachträglich bestückbar sein. Bei Vollauslastung eines Rechenknotens muss eine Mindestrechenleistung von 45 Gflops pro Core erreicht werden. Es müssen außerdem mindestens 40 GPUs der Architektur Nvidia (H100 oder H200) in dedizierten GPU-Knoten angeboten werden. Dabei sollen mindestens 4 GPUs in einem Knoten betrieben werden. Diese Knoten sollen ansonsten identisch (CPU-Cores, Speicher pro CPU-Core etc.) mit den anderen Rechenknoten ohne GPUs konfiguriert sein. 10 weitere Rechen-Knoten müssen mit jeweils 4 GPUs erweitert werden können. Alle GPU-Knoten müssen sowohl für H100 als auch für H200 GPUs zertifiziert sein. 4.2 Management-Server Es sind zwei separate, identisch konfigurierte Management-Server in HA- Konfiguration mit der gleichen Hardware-Architektur wie die Rechenknoten geliefert und aufgesetzt werden. Diese dienen der Nutzerverwaltung, sowie der allgemeinen Administration des gesamten Systems (Konfiguration, Monitoring, Scheduling). Ein Zugang durch Nutzer zu diesen Servern ist nicht vorgesehen. Die Rechenleistung und Speicherausstattung dieser Server ist an die zu erledigenden Managementaufgaben anzupassen. Die Management-Server müssen an alle Netzwerke und Festplattensysteme innerhalb des Clusters angebunden sein. Für die HA-Konfiguration dürfen keine Virtualisierungs-Systeme eingesetzt werden. Außerdem müssen die lokalen SSD-Speicher der Management Server gespiegelt werden und in das Backup- und Archivsystem des Auftraggebers eingebunden werden. 4.3 Frontend- und Postprocessing Server Es müssen mindestens zwei Server geliefert und aufgesetzt werden, die als login (Frontend) Server sowie als Pre-und Postprocessing Server für die Nutzer bereitgestellt werden. Es ist sicherzustellen, dass die bestehende Nutzerschaft auf diesen Server komfortable Pre- und Postprocessing sowie die dazugehörigen grafischen Anwendungen betreiben können. In der Regelarbeitszeit arbeiten ca. 50 Nutzer gleichzeitig mit unterschiedlicher Intensität auf den Frontend- und Postprocessing-Servern. Die Anzahl der CPU-Cores, GPUs als auch der Speicher des Servers müssen entsprechend gewählt werden. Es ist geplant, diesen Server mit Linux-Terminal- Server Funktionalität auszustatten (NoMachine). Lizenzen für NoMachine sind auftraggeberseitig vorhanden. 4.4 Globale Filesysteme Hardware (Festplattentausch bzw. SSD-Tausch), Software- und Konfigurationsarbeiten (zum Beispiel die Erhöhung von i-nodes) müssen im laufenden Betrieb möglich sein und damit die Nutzer nicht behindern. Die unten genannten Dateisysteme unter 4.4.1 und 4.4.2 müssen über konfigurierbare disk quotas und i-node quotas für Gruppen und Nutzer verfügen, die auf allen Knoten wirksam sind. Es müssen mindestens Hard- und Softlimits und "grace periods" unterstützt werden und konfigurierbar sein. Alle Dateisysteme müssen über ein verteiltes Filesystem (z.B. GPFS) auf allen Knoten des Gesamtsystems verfügbar sein. Die Bereitstellung der Dateisysteme versteht sich einschließlich der zum Betrieb notwendigen I/O und Metadaten Servern. 4.5 Netzwerke Das System muss über die oben erwähnten Frontend und Management-Server nach außen mit mindestens 2x 10GBit/s pro Server mit Lastverteilung und Failover an das Hereon-Netzwerk angebunden werden. Zwei weitere Verbindungen müssen als Hot-Standby-Failover verfügbar sein. Die Rechenknoten und die notwendigen Server für die globalen Filesysteme sollen nicht direkt im Hereon-Netzwerk sichtbar sein. Folgende Netzwerke müssen mit der notwendigen Infrastruktur eingerichtet werden: - Ein cluster-internes Management-Netzwerk für die Steuerung und das Hardware- Monitoring aller Komponenten des Systems über deren Serviceprozessoren (z.B. IPMI 2.0) (Mindestbandbreite 1GBit/s). - Konfigurations- und Monitoring Netzwerk für die Übermittlung von Jobs an die Rechenknoten und den allgemeinen Netzwerkverkehr der verschiedenen Client- Server Dienste. (Mindestbandbreite 1GBit/s). - Hochgeschwindigkeitsnetzwerk mit geringer Latenz (Omni-Path oder Infiniband) zwischen allen Rechenknoten, Login-Knoten, Postprocessing-Servern, Management-Knoten und globalen Dateisystemen zur ausschließlichen Nutzung für Filesystem I/O und den MPI - Datenverkehr zwischen den Rechenknoten. Mindestbandbreite pro Adapter 200 Gbit/s. 4.6 Serverschränke Für das gesamte System werden Serverschränke mit netzwerkfähigen PDUs geliefert. Die PDUs sollen konfiguriert sein und ein Monitoring (Spannung, Stromstärke, Leistung für jeden Ein- und Ausgangsport) wird über ein geeignetes Managementtool eingerichtet. Die Serverschränke müssen den einschlägigen deutschen und europäischen Normen entsprechen (CE, DIN/VDE, ElekroG, EMV-Richtlinie).