HP behebt PC-Speicherengpässe für Rückschlüsse und Analysen

HP behebt PC-Speicherengpässe für Rückschlüsse und Analysen
HP behebt PC-Speicherengpässe für Rückschlüsse und Analysen
-
Die Nutzung von Daten ist zu einem wesentlichen Hebel für die Wettbewerbsfähigkeit von Unternehmen geworden. Aber traditionelle Computerarchitekturen und Mikroarchitekturen haben, abgesehen von der massiven GPU-Parallelität (und selbst dann mit einigen Einschränkungen), Schwierigkeiten, den wachsenden Anforderungen von Analysen und auf künstlicher Intelligenz basierenden Arbeitslasten gerecht zu werden. Tatsächlich sind diese herkömmlichen Architekturen nicht für komplexe Vektor- und Matrizenberechnungen ausgelegt.

In diesem Zusammenhang enthüllte HP im Rahmen seiner jährlichen Veranstaltung HP Imagine eine Reihe technologischer Innovationen, darunter die Einführung einer neuen Speicherarchitektur zur Optimierung der künstlichen Intelligenz. eingebettet in PCs.

Die angekündigten 64-GB-LPDDR5x-Speichermodule von HP wurden speziell für die Bewältigung intensiver Arbeitsabläufe und anspruchsvollster Aufgaben entwickelt und erreichen Übertragungsgeschwindigkeiten von 80 GB/s. Verstärkte Rechenleistung durch die Integration der AMD Ryzen PRO NPU (Neural Processing Unit) der neuen Generation, die eine Rechenleistung von bis zu 55 TOPS (Teraoperationen pro Sekunde oder 1000 Milliarden Operationen pro Sekunde) liefern kann. Zur Erinnerung: Kürzlich veröffentlichte KI-PC-Computer erreichen 45 TOPS.

Energieeffizienter Speicher

Im Vergleich zu Systemen auf Basis von LPDDR4x, DDR4 oder sogar LPDDR5 (ohne das „x“), die immer noch den Markt dominieren, erreichen diese Systeme typische Bandbreitengeschwindigkeiten von bis zu 64 GB/s für LPDDR5. Während diese Geschwindigkeiten für typische Anwendungen wie Büro oder Spiele ausreichend sind, werden sie für KI- oder Datenanalyse-gesteuerte Workloads, bei denen riesige Datenmengen in Echtzeit verarbeitet werden müssen, schnell zu einer Einschränkung.

HP hat bei der Gestaltung dieser Speicherarchitektur auch die Auswirkungen auf die Umwelt berücksichtigt. Das System ist energieeffizienter und optimiert die Ressourcennutzung, um den Stromverbrauch zu minimieren und gleichzeitig die Leistung zu maximieren. Zusätzlich zur Übertragungsgeschwindigkeit sorgt die 40-W-TDP in Verbindung mit Turbolüftern für eine hohe Leistung bei gleichzeitig stabilen Temperaturen. Dieses intelligente Wärmemanagement wird mit der HP Smart Sense-Technologie kombiniert, um ein reaktionsschnelles und leises System zu gewährleisten.

X86, eine veraltete Architektur für KI und Analytics

Herkömmliche x86-Architekturen basieren auf einem CISC-Modell (Complex Instruction Set Computing), bei dem jeder Befehl komplex ist und möglicherweise mehrere Taktzyklen zur Ausführung erfordert. Obwohl moderne Prozessoren über mehrere Kerne verfügen, können sie nur eine begrenzte Anzahl von Anweisungen gleichzeitig effizient verarbeiten. Dies schränkt ihre Fähigkeit ein, die massiv parallelen Berechnungen durchzuführen, die für Matrixoperationen oder Faltungen in neuronalen Netzen erforderlich sind.

Die funktionalen Anforderungen einer herkömmlichen Architektur, die für die Verarbeitung einer Folge sequenzieller Anweisungen ausgelegt ist, unterscheiden sich erheblich von denen einer Architektur, die für die parallele Verarbeitung großer Datenmengen für maschinelles Lernen und Inferenz konzipiert ist. Diese Unterschiede erklären sich aus der Art der auszuführenden Aufgaben und den Anforderungen an Berechnung, Speicher und massive Parallelität. Kurz gesagt: x86- und SOC-Architekturen, die derzeit den Computermarkt dominieren, sind nicht für Matrix- und Vektorberechnungen optimiert.

Sie basieren auf einem CISC-Modell (Complex Instruction Set Computing), bei dem jeder Befehl komplex ist und zur Ausführung mehrere Taktzyklen erfordern kann. Obwohl moderne Prozessoren über mehrere Kerne verfügen (bis zu 64 bei High-End-Serverprozessoren), können sie nur eine begrenzte Anzahl von Anweisungen gleichzeitig effizient verarbeiten. Dies schränkt ihre Fähigkeit ein, die massiv parallelen Berechnungen durchzuführen, die für Matrixoperationen oder Faltungen in neuronalen Netzen erforderlich sind.

Der sequentielle Modus dominiert

Diese Architekturen sind für die Ausführung sequenzieller Anweisungen konzipiert und wurden entwickelt, um allgemeine Anforderungen zu erfüllen, beispielsweise die Bearbeitung von Büroaufgaben, die Verwaltung von Datenbanken oder die Ausführung interaktiver Anwendungen. CPUs arbeiten auch im sequentiellen Modus und führen Anweisungen in Pipelines aus. Ein Prozess, der in Etappen abläuft, wie z bringen, dekodieren et ausführen. Zwar ermöglicht Multithreading (Hyperthreading bei Intel) die parallele Ausführung von Anweisungen, für eine Verarbeitung im großen Maßstab reicht dies jedoch nicht aus.

Was die Speicher- und Bandbreitenverwaltung auf dem Motherboard betrifft, also die gesamte Verbindungsinfrastruktur, die die Komponenten miteinander verbindet, die Kommunikationsbusse und die Controller, weist sie Engpässe auf und umfasst mehrere Phasen des Datenzugriffs und der Datenverarbeitung. Diese Schaltung, die es ermöglicht, Daten über Busse (DMI, PCIe usw.) vom Langzeitspeicher (Festplatte oder SSD) über RAM zur CPU zu übertragen, ist voller Engpässe, wie z. B. die unterschiedlichen Latenzen der Speichermedien, die von RAM- und Cache-Speicher (erweitert über drei Ebenen, L1, L2 und L3).

Eine echte architektonische Überarbeitung ist notwendig

Moderne Architekturen integrieren spezialisierte Verarbeitungseinheiten wie Tensorkerne in NVIDIA-GPUs, TPUs (Tensor Processing Units) und NPUs (Neural Processing Units) in bestimmten Architekturen (unter anderem SIMD, Systolic, NoC oder MIMD). ). Dadurch können mehrere Befehlsströme gleichzeitig auf unterschiedlichen Datenströmen ausgeführt werden. Sie sind effektiver bei der Beschleunigung von Matrixberechnungen, die in tiefen neuronalen Netzen verwendet werden (z. B. Multiplikation von 4×4-Matrizen in einem einzigen Taktzyklus), und bei der Verarbeitung riesiger Mengen
Daten gleichzeitig.

Während traditionelle Systeme die Unterstützung standardmäßiger IT-Aufgaben ermöglicht haben, stoßen sie angesichts des Umfangs und der Komplexität riesiger Datenmengen und der Anforderungen an intensive Rechenleistung heute an ihre Grenzen. Im Moment begnügen sich die Anbieter damit, vereinzelte Entwicklungen einzuführen, um hier und da und in verstreuter Reihenfolge traditionelle Architekturen zu verbessern. Diese arbeiten jedoch immer noch in einem veralteten sequentiellen Modus. Es fällt ihnen schwer, massiv parallele Berechnungen effizient und umweltfreundlich durchzuführen. HP geht den Speicherengpass direkt an, aber was PCs brauchen, ist eine echte architektonische und mikroarchitektonische Überarbeitung, damit sie zu echten KI-PCs werden.

-

PREV ein technologischer „Dreier“ für ein Smartphone, das wiegt
NEXT Dieses lustige Apple-Gerät soll 2025 auf den Markt kommen