Frei von Tokenizern zur digitalen Souveränität

Mehr Effizienz und Qualität bei Natural Language Processing

Natürliche Sprache so zu verarbeiten, dass Computer und digitale Geräte sie erkennen und verstehen, ist das Ziel von Natural Language Processing (NLP). Für diesen Zweig der künstlichen Intelligenz (KI) kommen typischerweise Tokenizer zum Einsatz. Es handelt sich um Programme, die Text in kleinere Einheiten zerlegen. Diese benötigen viel Rechenleistung und Energie. Welche Alternative es gibt und was dies für die digitale Souveränität von Unternehmen bedeutet, zeigte sich bei einer Präsentation von Aleph Alpha am Rande des Weltwirtschaftsforums 2025 in Davos.

Digitale Souveränität wird für Unternehmen strategisch relevant. Es geht darum, Kontrolle über über die eigenen Daten und die eigene Wertschöpfungskette zu behalten. „Wer Künstliche Intelligenz baut, entscheidet darüber, was Wahrheit oder Fälschung ist“, sagte Jonas Andrulis in Davos während des Weltwirtschaftsforums 2025. Dies gelte z.B. auch mit Blick auf Daten in der industriellen Produktion, so der Gründer des deutschen KI-Unternehmens Aleph Alpha. Um digitale Souveränität zu sichern, brauche es technologische Unabhängigkeit. Und dabei geht es um eine technische Besonderheit von Large Language Models (LLM), die als Deep-Learning-Algorithmen oft im Bereich der Textverarbeitung mittels NLP eingesetzt werden.

Zum Hintergrund

Um einen Text für Maschinen verständlich zu machen, sind mehrere Schritte erforderlich. Zuerst werden Stoppwörter und Sonderzeichen entfernt oder Textinhalte z.B. durch Konvertierung in Kleinbuchstaben normalisiert. Daraufhin zerlegt ein als „Tokenizer“ bezeichnetes Programm den Text in kleinere Einheiten; diese werden „Token“ genannt. Ein Token kann z.B. ein Wort, ein Satzzeichen oder ein Symbol sein. Nach der Zerlegung werden die Tokens aufgebaut und klassifiziert. Dies kann auch das Anhängen von Metadaten wie der Position im Text oder die Wortart umfassen. Schließlich werden die Tokens in einer Struktur gespeichert, die für die nachfolgenden Schritte der NLP-Pipeline verwendet werden kann. Tokenizer sind für verschiedene Anwendungen von Bedeutung:

– Textklassifikation: Text wird in vordefinierte Kategorien eingeordnet. Tokenizer spielen eine entscheidende Rolle, da sie den Text in analysierbare Einheiten zerlegen, die dann von KI-Modellen klassifiziert werden können.

– Maschinelle Übersetzung: Text wird von einer Sprache in eine andere übersetzt. Tokenizer helfen dabei, den Text in der Ausgangssprache zu analysieren und in der Zielsprache neu zu formulieren.

– Sprachgenerierung: neue Texte werden durch KI-Modelle erzeugt. Tokenizer sind hierbei wichtig, um sicherzustellen, dass die erzeugten Texte grammatikalisch korrekt und kohärent sind.

Mithilfe von Tokenizern können z.B. Chatbots oder Übersetzungsdienste präziser und effizienter arbeiten.

Zur Problemstellung

Tokenizer sind Bestandteil der sog. Transformer-Architektur. Diese wird von herkömmlichen Large Language Modellen (LLM) praktiziert. LLM sind Deep-Learning-Algorithmen, die oft im Bereich des NLP eingesetzt werden – Beispiele sind Llama 3.1 8B von Meta, das insbesondere auf englische Sprache fokussiert oder Viking-7B von SiloAT, das vor allem nordische Sprachen verarbeitet. Das Llama-Modell enthält etwa 128.000 Token – eine Sammlung, die man sich wie ein Wörterbuch vorstellen kann. Enthalten sind Kombinationen von Buchstaben, Zahlen, Leer- und Satzzeichen. Wenn ein LLM – wie es größtenteils der Fall ist – anhand von englischsprachigen Texten trainiert wird, kann es mit relativ wenig Aufwand und guter Qualität Texte auf Englisch formulieren. Soll das Modell hingegen für andere Sprachen trainiert werden, ist dafür mehr Rechenleistung erforderlich – was höheren Stromverbrauch, somit mehr Kosten und erhöhten CO2-Ausstoß bedeutet. In Ländern wie Indien mit etwa 800 Sprachen führt dies praktisch zu Umsetzungsproblemen.

Zur Lösung

Vor dem Hintergrund dieses Problems hat Aleph Alpha nun in Zusammenarbeit mit dem amerikanischen Chipkonzern AMD und dessen KI-Tochtergesellschaft SiloAI einen „T-Free-Ansatz“ entwickelt, den Jonas Andrulis anlässlich des Weltwirtschaftsforums 2025 vorstellte. Dabei wird auf den Einsatz von Tokenizern verzichtet. Stattdessen verarbeitet die KI permanent Gruppen aus drei nebeneinander liegenden Zeichen eines Worts. Auf diese Weise lässt sich ein LLM, das für eine bestimmte Sprache trainiert wurde, an eine andere Sprache anpassen. Zudem bietet dieser Ansatz den Vorteil, das Modell effizienter mit spezifischen Fachbegriffen aus einem Unternehmen oder einer Branche zu trainieren. Aleph Alpha verweist auf eine bis zu 400-prozentige Leistungssteigerung im Vergleich zu Llama auf H100 im Bereich der finnischen Sprache. Bei Englisch sei der T-Free-Ansatz um 150 Prozent besser als Llama. Darüber hinaus lasse sich durch Verwendung des AMD-Chips MI3000X signifikant die Effizienz steigern: so hätten sich die Trainingskosten und der CO2-Ausstoß mit Blick auf die Anwendung auf finnische Sprache um 70 Prozent reduzieren lassen im Vergleich mit alternativen Lösungen.

Ansatz für Kooperation

Aleph Alpha, AMD und SiloAI wollen den T-Free-Ansatz nun mit Unternehmen aus verschiedenen Branchen zum Einsatz bringen. Daraus ergibt sich für Unternehmer und Manager die Chance, generative KI effizient in ihre Geschäftsprozesse einzubinden und sowohl unternehmens- als auch branchenspezifisch zu trainieren. Zugleich kann dies der Startpunkt sein, um die digitale Souveränität als strategisches Thema voranzutreiben.