Dengan menggunakan bahasa klasik dan AI, apakah dapat menghemat Token? Sebuah tangkapan layar memicu perdebatan, insinyur: sebenarnya menggunakan bahasa Inggris adalah jalan yang benar.

ChainNewsAbmedia

「用文言,可減 token 乎?」——pertanyaan ini disertai dengan balasan dalam bahasa klasik dari Claude Haiku 4.5 yang berbunyi「可也。文言較為簡潔,用詞凝練,確能減損 token 之耗損」menyulut diskusi teknis yang serius dan menarik di komunitas.

Logika dari pertanyaan ini

Secara intuitif, bahasa klasik lebih ringkas dibandingkan bahasa sehari-hari——satu karakter「蝶」seharusnya bisa diungkapkan dalam bahasa sehari-hari sebagai「蝴蝶」; satu karakter「可」dalam bahasa sehari-hari harus diucapkan sebagai「可以」. Jika setiap karakter dihitung sebagai satu token, secara teori bahasa klasik memang bisa menghemat token. Grok juga mengkonfirmasi pernyataan ini dalam thread diskusi.

Sanggahan dari insinyur: tokenizer adalah kunci

Namun, banyak insinyur menunjukkan detail teknis yang sering diabaikan——token tidak sama dengan jumlah karakter. Tokenizer model-model Barat seperti OpenAI dioptimalkan untuk bahasa Inggris; saat menangani bahasa Mandarin, satu karakter sering kali membutuhkan 1-2 token, dan karakter tradisional kadang-kadang menggunakan lebih banyak token dibandingkan karakter sederhana. Dengan kata lain,「可」dan「可以」dalam beberapa model mungkin keduanya adalah 2 token, jumlah karakter berkurang, tetapi token belum tentu berkurang.

Kesimpulan setelah pengujian: model Amerika paling hemat menggunakan bahasa Inggris, model Tiongkok paling hemat menggunakan bahasa Mandarin modern, biaya token bahasa Mandarin pada model lokal untuk konten yang sama bisa lebih murah sekitar 20% dibandingkan bahasa Inggris.

Penemuan tak terduga lainnya: bahasa klasik mungkin lebih mudah untuk “melanggar batas”

Sebuah pengamatan yang lebih menarik muncul dalam diskusi——LLM arus utama hampir tidak memiliki pertahanan terhadap bahasa klasik, mengajukan pertanyaan dalam bahasa klasik lebih mudah untuk melewati batasan keamanan, bahkan dapat mengungkap konten yang biasanya ditolak oleh model. Dikatakan bahwa ada makalah ICML atau ICLR yang mencatat fenomena ini.

Masalah kualitas rantai pemikiran dalam bahasa klasik

Sanggahan lainnya datang dari pengalaman penggunaan nyata:「用文言文思維鏈會造成質量下降。正常思維鏈能答對的,用文言文思維鏈就會出錯。」Alasannya sederhana: data pelatihan LLM sebagian besar terdiri dari bahasa Inggris modern dan bahasa Mandarin modern, korpus bahasa klasik tidak mencakup sepuluh persen, memintanya berpikir dalam bahasa klasik sama dengan memintanya menggunakan bahasa yang tidak dikenal untuk bernalar, tingkat ilusi secara alami juga meningkat dua arah.

Kesimpulan: ini adalah meme yang bagus, bukan strategi teknik yang baik

Hasil diskusi ini pada dasarnya adalah: untuk model Barat, menggunakan bahasa Inggris adalah cara yang benar-benar menghemat token; untuk model lokal, bahasa Mandarin modern lebih stabil daripada bahasa klasik. Efek “hemat token” dalam bahasa klasik kemungkinan besar akan diimbangi di tingkat tokenizer, dan malah membawa risiko penurunan kualitas penalaran. Namun, tangkapan layar ini memang mencapai tujuan lain: mengubah masalah biaya AI yang membosankan menjadi diskusi menarik yang bisa diikuti oleh semua orang.

Artikel ini berjudul 用文言文和 AI 對話能省 Token 嗎?一個截圖引爆討論,工程師:其實用英文才是王道 pertama kali muncul di 鏈新聞 ABMedia.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.
Komentar
0/400
Tidak ada komentar