Okay, Leute, jetzt wirklich Schluss. Ich höre ständig Begriffe wie „Tokens“ und „Modelle“, die herumgeworfen werden wie Slang bei TikTok, und meistens wird dabei viel falsch verstanden.
Ich habe ausgesprochen, worauf ich bestehe.
Es wird Zeit, klar darzustellen, wie inferenzbasierte Anwendungen erstellt werden, wo Tokens entstehen und genutzt werden, und wie alle Teile nahtlos zusammenpassen. Also holen Sie sich einen Kaffee und tauchen wir direkt ein.
Eigentlich müsste ich hier nicht anfangen, aber ich tue es. Mit „Inferenz“ meinen wir, wie ein großes Sprachmodell (LLM) seine umfangreichen Daten verarbeitet. Du kannst einen LLM nicht direkt ansteuern. Eine „LLM-API“ gibt es in Wirklichkeit nicht – und ich werde dich scharf anblicken, wenn du das so nennst.
Die APIs, mit denen Sie die Inferenz aufrufen, laufen über einen Inferenzserver – ja, genau.
Inferenzserver bilden die Laufzeitumgebung für KI-Modelle, vergleichbar mit App-Servern, die die Laufzeitumgebung für Java und viele andere Programmiersprachen bereitstellen. Ohne Inferenzserver betreiben Sie Modelle in der Regel nicht lokal. Zu den bewährten Lösungen zählen Ollama, vLLM, NVIDIA Triton und die HuggingFace Text Generation Interface (TGI).
Wie bei App-Servern, auf denen Sie normalerweise ein Anwendungspaket bereitstellen, setzen Sie ein „KI-Paket“ (ein Modell) auf einem Inferenzserver ein. Der Server stellt KI-Modellfunktionen über eine API bereit, die mit wenigen Endpunkten (z. B. /generate, /completions oder /embeddings in REST oder gRPC) gezielt auf Modellinferenzaufgaben wie Textgenerierung, Tokenisierung oder Einbettungen ausgerichtet ist.
Um mit einem Inferenzserver zu arbeiten, erstellen Sie eine Anwendung. Ja, eine traditionelle Anwendung (die natürlich modern sein kann) und sie kommuniziert mit dem Inferenzserver.
Sie erhalten ebenfalls eine App, entweder im Browser oder auf dem Handy, die in der Regel eine herkömmliche API nutzt, um mit der von Ihnen entwickelten Anwendung zu kommunizieren. Und schon ist der Ablauf fertig! Sie haben einen kompletten Nachrichtenaustausch vom Client über die App bis zum Inferenzserver und zurück.
Ja, im Grunde ist es nur eine moderne Variante der dreistufigen Webanwendung, bei der die Datenebene durch die Inferenzebene ersetzt wird. Ich weiß, enttäuschend, oder?
Die einfachste Form einer KI-Anwendung ist eine dreistufige Webanwendung, bei der die Datenschicht durch einen Inferenzserver ersetzt wird.
Das ist Schlussfolgern. Eine neue Form der Anwendungslast, die dieselbe bewährte betriebliche Disziplin fordert – jetzt jedoch anhand von Token, Kontext und Streams statt Sitzungen, Cookies und Abfragen.
Hier stolpern viele und verwenden Begriffe so, dass sie die wichtigste Regel der Terminologie brechen. Tokens sind einzelnen Wortbausteine, die ein LLM verarbeitet. Ein Tokenizer auf dem Inferenzserver erzeugt sie offiziell.
Sie können einen Tokenizer in Ihre App integrieren, um Tokens bereits im Vorfeld für die Kostenvorhersage und lokale Ratenbegrenzungen zu zählen, doch die genaue Tokenanzahl ermitteln wir im Inferenz-Stack. Tokens sind eine Modellrepräsentation, kein Netzwerkverkehr; übertragen wird in der Leitung JSON-Text. Token-IDs sehen Sie nur, wenn die API diese ausdrücklich zurückliefert.
Standardmäßig sieht die Infrastruktur keine Token. Sie sieht JSON. Token werden nicht über das Netz übertragen. Wenn die Infrastruktur auf Token reagieren soll, müssen Sie sie am Gateway mit dem gleichen Tokenizer zählen oder die Zähler nutzen, die der Modellserver ausgibt. Token sind die Währung der KI, doch sie existieren meist ausschließlich im Inferenz-Stack, sofern Sie sie nicht gezielt sichtbar machen.
Inference ist keine Mystik. Es handelt sich um eine Anwendungs-Workload mit neuen Einstellmöglichkeiten. Der Datenverkehr besteht aus JSON. Token sind Modellelemente. Embeddings sind Vektoren. Wenn Sie diese vermischen, entwerfen Sie falsche Steuerungen, bewerten das Falsche und fehleranalysieren die falsche Ebene. Beispielsweise kann Routing nach JSON-Größe statt Tokenanzahl ein Modell mit Anfragen zu langem Kontext überlasten.
Wenn Sie möchten, dass Ihre Infrastruktur auf Token reagiert, zeigen Sie ihr den Weg. Setzen Sie einen Tokenizer am Gateway ein oder verarbeiten Sie die Zählwerte, die der Modellserver liefert. Sonst behandeln Ihre Router Text statt Token und treffen Entscheidungen auf Textebene, während Ihre Kosten auf Tokenbasis entstehen. Stellen Sie sicher, dass der Tokenizer zum Modell passt (beispielsweise unterscheidet sich der Tokenizer von GPT-4 vom LLaMA-Tokenizer), damit die Zählungen exakt sind. Andernfalls drohen falsche Kosten- oder Grenzwerteinschätzungen.
Betrachten Sie Verfügbarkeit als nutzbar und korrekt, nicht nur als erreichbar. Verfolgen Sie Tokens pro Sekunde, Zeit bis zum ersten Token und Kontextfehler (wie Überschreitung der Kontextfenstergrenzen oder inkohärente Ausgaben bei überlastetem Kontext) genauso präzise wie Abfragen pro Sekunde und Cache-Treffer. Führen Sie Protokolle sorgfältig und zuverlässig. Behandeln Sie Inferenzverkehr nicht als Trainingsdaten, solange Sie es nicht explizit so festlegen. Wenn Sie Eingaben und Ausgaben speichern, sorgen Sie für ihren Schutz.
Benennen Sie Dinge treffend. Messen Sie die relevante Ebene. Setzen Sie Limits genau dort, wo sie zählen – etwa tokenbasierte Kontingente am Gateway, um Kostenüberschreitungen zu vermeiden. So verhält sich die Inferenz wie der Rest Ihrer Infrastruktur: verlässlich, bezahlbar und auf angenehme Weise unspektakulär. Tokens steuern Entscheidungen im Modell, nicht den Datenverkehr in Ihrem Netzwerk. Benennen Sie die Sache klar, und Sie halten Ihre Nutzer zufrieden und Ihre Rechnungen überschaubar.