LLM bereitstellen
Anschließend können Sie mit dem OCI Block Volumes-Service Daten, Objekte und unstrukturierte Modelldaten speichern. Befolgen Sie die Anweisungen zum Abschließen der einzelnen Aufgaben:
- Instanz erstellen
- Block-Volumes erstellen
- Block-Volumes an eine Instanz anhängen
- Mit einem Block-Volume verbinden
- OCI Object Storage-Bucket erstellen
Dadurch wird ein Modell aus OCI Object Storage in einem OKE-Cluster bereitgestellt, das auf OCI ausgeführt wird.
OKE-Cluster erstellen
Um ein OKE-Cluster zu erstellen, verwenden Sie den folgenden Befehl:
oci ce cluster create --compartment-id ocid1.compartment.oc1..aaaaaaaay______t6q
--kubernetes-version v1.24.1 --name amd-mi300x-ai-cluster --vcn-id
ocid1.vcn.oc1.iad.aaaaaae___yja
So verwenden Sie die Konsolenoption:
vLLM-Funktionen in ROCm
verwenden
ROCm
zu verwenden:
LLM bedienen
llm
und SamplingParams
für die Offline-Inferenzierung mit einem Batch von Prompts. Anschließend können Sie das Modell laden und aufrufen.
Im Folgenden finden Sie ein Beispiel für ein Meta Llama 3 70B-Modell, für das mehrere GPUs mit Tensor-Parallelität ausgeführt werden müssen. vLLM verwendet den Tensor-Parallelitätsalgorithmus von Megatron-LM und das Multiprozessing von Python, um die verteilte Laufzeit auf einzelnen Knoten zu verwalten.