Ist es möglich, ein französisches ChatGPT in einer souveränen Cloud bereitzustellen?

Friday 10th January 2025 04:53 AM

Im Rahmen der Bereitstellung seines Open-Source-Sprachmodells Lucie führt Linagora Gespräche mit Exaion, Outscale, OVH und Scaleway, um eine geeignete Infrastruktur einzurichten.

Für einen Akteur, der seinen generativen KI-Assistenten im großen Stil verbreiten möchte, stellen die Cloud-Angebote von Gafam eine fertige Lösung dar. Tatsächlich bieten Hyperscaler angepasste Maschinenressourcen mit einer nahezu unbegrenzten Kapazität zur Aufnahme sehr großer Volumina. Die zugrunde liegende Herausforderung besteht darin, eine enorme Verkehrslast bei relativ hoher Verarbeitungsgeschwindigkeit bewältigen zu können.

„Wir arbeiten derzeit mit Exaion (Cloud-Tochtergesellschaft von EDF, Anmerkung der Redaktion), Outscale, OVH und Scaleway mit dem Ziel, unser Open-Source-Sprachmodell Lucie mit 7 Milliarden Parametern in großem Maßstab einzusetzen“, vertraut Michel-Marie Maudet, General Manager des Unternehmens für freie Softwaredienste (SS2L) Linagora. Ein Modell Das vom CEO als SLM für kleine Sprachen beschriebene Ziel des Unternehmens Issy-les-Moulineaux: auf dem Pariser Open-Source-KI-Gipfel zu beweisen, dass der Akteur am 22. Januar organisiert. Darüber hinaus ist es möglich, ein Open-Source-Äquivalent zu ChatGPT auf Basis einer souveränen Cloud-Infrastruktur anzubieten.

Angesichts dieser Herausforderung bleibt der CEO von Linagora klar. „Noch keine französische Cloud hat eine solche Operation durchgeführt. Wir werden daher den Putz abwischen“, sagt er unverblümt. „Der fortschrittlichste von ihnen bleibt aus unserer Sicht Scaleway (mit mehr als 1000 GPUs vom Typ Nvidia H100, die bereits im Einsatz sind, Anmerkung des Herausgebers). Es tendiert zu einem Erlebnis, das dem von Amazon Bedrock ziemlich ähnlich ist (der AWS-Service für generative KI, Anmerkung des Herausgebers).”

Ist der Multicloud-Pfad unerlässlich?…

Um seinen Infrastrukturbedarf zu definieren, begann Linagora mit der Bewertung von Verkehrsszenarien, insbesondere durch die Schätzung der Anzahl der Anfragen sowie des Volumens der Token-Eingabe und -Ausgabe pro Benutzer. Von da an evaluierte SS2L mehrere Nvidia-Karten: die RTX A4000, die L4, die L40S und die H100. Es wurde jeweils ein Standard-Benchmark festgelegt. Die Herausforderung für Linagora besteht darin, eine Architektur mit Web-Frontends zu erreichen, die die Chat-Schnittstelle unterstützen, und hinter den Kulissen einen Load Balancer auf Basis des Open-Source-Bausteins LiteLLM, der für die Weiterleitung der Verarbeitung an die GPU-Inferenzpunkte der am besten geeigneten souveränen Cloud verantwortlich ist. Wenn der Benutzer beispielsweise seine Daten in einer vertrauenswürdigen Cloud speichern möchte, wird der Datenfluss an Outscale weitergeleitet und von dessen mit SecNumCloud gekennzeichneten GPUs unterstützt.

„Wir bewegen uns derzeit in Richtung einer Multi-Cloud-Architektur, da wir glauben, dass eine einzelne souveräne Cloud nicht alle unsere Anwendungsfälle abdecken kann und auch nicht in der Lage sein wird, die für einen allgemeinen öffentlichen Start erforderliche Leistung allein bereitzustellen.“ , unterstreicht Michel-Marie Maudet. „Von da an besteht die Herausforderung darin, unsere Fähigkeit zu demonstrieren, unser Modell auf mehrere französische Cloud-Betreiber zu übertragen.“

… „Nein“, antworten die souveränen Wolken

Auf der Scaleway-Seite behalten wir die Kapazität bei, Laststeigerungen von mehreren hundert oder sogar mehreren tausend gleichzeitigen Benutzern zu bewältigen, auch auf einem LLM (für großes Sprachmodell) mit mehr als 100 Milliarden Parametern. „Wir haben die weltweite Einführung des Moshi-Voice-Chats der Kyutai Foundation sichergestellt, was eine deutliche Steigerung der Unterstützung darstellt“, erinnert sich Frédéric Bardolle, AI Lead Product Manager bei Scaleway. Hinter den Kulissen verlässt sich Moshi auf ein Modell namens Helium, das Lucie recht ähnlich ist, da es wie dieses über 7 Milliarden Parameter verfügt.

„Wir können bis zu mehrere hunderttausend Anfragen pro Sekunde bearbeiten“

Was ist mit OVHcloud? Die Roubaix-Cloud bietet KI-Endpunkte. Ein derzeit in der Betaphase befindlicher Dienst, der für die Bereitstellung von Sprachmodellen per Token-Abrechnung konzipiert ist. Unter der Haube vermarktet der Anbieter bereits rund vierzig, darunter Llama-3.1-70B-Instruct oder Mixtral-8x22b-Instruct. „Dieses Angebot ist vollständig auf Lucie zugeschnitten“, betont Gilles Closset, globaler Leiter des KI-Ökosystems bei OVHcloud. „Wir unterstützen die zugrunde liegende Infrastrukturschicht vollständig und wissen, dass wir in der Lage sind, bis zu mehrere hunderttausend Anfragen pro Sekunde problemlos zu bearbeiten.“

Bei den Grafikkarten nutzt OVHcloud je nach Modell angepasste Ressourcen. „Wir bieten L4-Grafikkarten für kleine Modelle, L4S für mittlere Modelle und H100 für große Modelle“, erklärt Gilles Closset. In den kommenden Monaten plant OVHcloud außerdem, AMD MI325X, AMD Blackwell und Nvidia H200 verfügbar zu machen.

Auch wir bei Outscale (Dassault Systèmes-Gruppe) wollen zuversichtlich sein. „Seit September 2024 bieten wir die Premium-Sprachmodelle von Mistral als Teil eines LLM-as-a-Service-Angebots an, das darauf abzielt, in Zukunft auch andere generative KIs zu unterstützen“, erklärt David Chassan, Strategiedirektor bei Outscale. Inferenzorientiert integriert das vorliegende Angebot Codestral Mistral AI, Mistral Small, Ministral 8B 24.10 und Mistral Large. Für jedes Modell implementiert der Lieferant eine Ad-hoc-Maschineninfrastruktur. Der Stack umfasst beispielsweise zwei L40-Grafikkarten für Mistral Small und vier H200-GPUs für Mistral Large. Konfigurationen, die für den geschäftlichen Gebrauch konzipiert sind, aber bei weitem nicht für den allgemeinen öffentlichen Gebrauch und das Publikumsvolumen geeignet sind.

Auf die Frage, ob Outscale in der Lage sei, den Vorsprung in größerem Maßstab zu halten, ist David Chassan beruhigend. „Dassault Systèmes hat mehr als 350.000 Kunden auf der ganzen Welt (und 24 % des Umsatzes werden in der Cloud generiert, Anmerkung der Redaktion). Dadurch verfügen wir über eine erhebliche Schlagkraft hinsichtlich der Maschinenleistung“, betont er. „Unser größter Mehrwert in der KI wie in der Cloud im Allgemeinen besteht jedoch in der Bereitstellung eines dedizierten Stacks für jeden Kunden.“ Unter diesem Gesichtspunkt bleibt Outscale die einzige Cloud, die mit SecNumCloud-zertifizierten GPUs ausgestattet ist“, fasst David Chassan zusammen. „Unser Hauptziel ist es, Organisationen und Institutionen zu bedienen, die ihre Daten und ihr geistiges Eigentum schützen möchten.“ Eine Botschaft, die den Wert hat klar sein.