Kann man durch die Verwendung von klassischem Chinesisch im Gespräch mit KI Token sparen? Ein Screenshot löst eine hitzige Diskussion aus, Ingenieur: Tatsächlich ist Englisch der beste Weg.

ChainNewsAbmedia

「用文言,可減 token 乎?」—— diese Frage, begleitet von einem Screenshot, in dem Claude Haiku 4.5 in klassischer chinesischer Sprache antwortet: „可也。文言較為簡潔,用詞凝練,確能減損 token 之耗損“, hat eine ernsthafte und interessante technische Diskussion in der Gemeinschaft ausgelöst.

Die Logik dieser Frage

Intuitiv ist die klassische chinesische Sprache prägnanter als die moderne Sprache — „蝶“ benötigt nur ein Zeichen, während die moderne Sprache „蝴蝶“ sagen muss; „可“ benötigt ein Zeichen, während die moderne Sprache „可以“ sagt. Wenn jedes chinesische Zeichen als ein Token zählt, kann die klassische Sprache theoretisch tatsächlich Token sparen. Grok hat in der Diskussion ebenfalls in klassischer Sprache geantwortet und diese Aussage bestätigt.

Die Gegenargumentation der Ingenieure: Der Tokenizer ist der Schlüssel

Mehrere Ingenieure wiesen jedoch auf ein oft übersehenes technisches Detail hin — Token sind nicht gleich Zeichenanzahl. Die Tokenizer westlicher Modelle wie OpenAI sind für Englisch optimiert, und beim Umgang mit Chinesisch benötigt ein chinesisches Zeichen oft 1-2 Tokens, und traditionelle Zeichen verbrauchen manchmal mehr Tokens als vereinfachte Zeichen. Mit anderen Worten, „可“ und „可以“ könnten in bestimmten Modellen beide 2 Tokens sein; die Zeichenanzahl ist niedriger, aber die Tokenanzahl nicht unbedingt geringer.

Die Schlussfolgerung nach praktischen Tests ist: US-Modelle sparen Tokens am meisten mit Englisch, während chinesische Modelle am meisten mit modernem Chinesisch sparen; der Token-Kostenaufwand für denselben Inhalt in nationalen Modellen kann etwa 20% günstiger sein als in Englisch.

Eine weitere unerwartete Entdeckung: Klassische chinesische Sprache könnte leichter „ausbrechen“

In der Diskussion tauchte eine noch interessantere Beobachtung auf — gängige LLMs haben kaum Sicherheitsvorkehrungen gegen klassische chinesische Sprache; Fragen in klassischer Sprache stellen es einfacher, Sicherheitsbeschränkungen zu umgehen und sogar Inhalte zu erhalten, die das Modell normalerweise ablehnen würde. Es wird berichtet, dass es dazu Papiere bei ICML oder ICLR gibt.

Die Qualitätsproblematik der Denkketten in klassischer chinesischer Sprache

Ein weiteres Gegenargument stammt aus praktischen Erfahrungen: „Das Denken in klassischer Sprache führt zu einem Qualitätsverlust. Normale Denkketten können richtig antworten, aber in klassischer Sprache kommt es zu Fehlern.“ Der Grund ist einfach: Die Trainingsdaten der LLMs basieren hauptsächlich auf modernem Englisch und modernem Chinesisch, während die Daten in klassischer Sprache weniger als ein Zehntel ausmachen; sie mit klassischer Sprache denken zu lassen, entspricht dem Versuch, sie in einer ihnen fremden Sprache zu argumentieren, was die Halluzinationsrate natürlich auch beidseitig erhöht.

Fazit: Ein gutes Meme, keine gute Ingenieursstrategie

Das Ergebnis dieser Diskussion ist im Großen und Ganzen: Für westliche Modelle ist es in der Tat die beste Methode, Token mit Englisch zu sparen; für nationale Modelle ist modernes Chinesisch stabiler als klassische Sprache. Der „Token sparen“-Effekt der klassischen Sprache könnte auf der Tokenizer-Ebene stark neutralisiert werden und birgt das Risiko einer verringerten Denkqualität. Dennoch hat dieser Screenshot tatsächlich ein weiteres Ziel erreicht: Ein trockenes AI-Kostenproblem in eine interessante Diskussion zu verwandeln, an der jeder teilnehmen kann.

Dieser Artikel „Kann man mit klassischer chinesischer Sprache und AI Tokens sparen? Ein Screenshot entfacht die Diskussion, Ingenieure: Tatsächlich ist Englisch der Weg“ erschien zuerst auf Chain News ABMedia.

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.
Kommentieren
0/400
Keine Kommentare