QVAC Genesis II Membuka Kunci 148 Miliar Token AI untuk Penelitian AI Terbuka

Data Tether secara fundamental telah mengubah cara dunia mengakses sumber daya pelatihan untuk kecerdasan buatan. Dengan memperluas dataset QVAC Genesis II menjadi 148 miliar token AI di 19 bidang akademik, inisiatif ini mengatasi kesenjangan struktural dalam ekosistem AI: sebagian besar data pelatihan canggih tetap terkunci dalam sistem kepemilikan yang dikendalikan oleh segelintir perusahaan besar. Rilis ini menempatkan QVAC Genesis II sebagai sumber pendidikan sintetis terbesar yang tersedia secara gratis di planet ini, menambahkan 107 miliar token ke Genesis I sebelumnya dan mendemokratisasi akses ke fondasi pelatihan berkualitas tinggi.

Waktunya sangat penting. Seiring sistem AI semakin mempengaruhi keputusan di bidang pendidikan, keuangan, kesehatan, dan penelitian, kemampuan untuk melatih model secara independen dari platform cloud terpusat menjadi sangat krusial. Data Tether memanfaatkan momen ini untuk merilis apa yang dapat dikatakan sebagai barang publik—korpus besar yang dirancang tidak hanya untuk kefasihan, tetapi juga untuk penalaran dan penjelasan.

Fondasi Pelatihan Massal: Bagaimana 148 Miliar Token AI Mengubah Permainan

Skala besar dari QVAC Genesis II mengubah batasan apa yang mungkin bagi peneliti yang bekerja di luar ekosistem tertutup. Dataset ini yang berisi 148 miliar token AI mencakup 19 bidang akademik terstruktur, masing-masing dirancang secara cermat untuk mendukung model yang perlu menjelaskan proses berpikir mereka daripada sekadar memprediksi kata berikutnya. Perbedaan ini terbukti sangat mendasar.

Dataset tradisional berfokus pada kefasihan—kemampuan menghasilkan teks yang masuk akal. QVAC Genesis II membalik prioritas tersebut. Setiap dari 148 miliar token berkontribusi pada pipeline pelatihan yang dirancang untuk mengembangkan kejelasan penalaran dan pemahaman sebab-akibat. Ini berarti peneliti dapat membangun sistem AI yang menunjukkan proses mereka, membenarkan kesimpulan, dan mengakui ketidakpastian daripada berbicara dengan kepercayaan yang tidak berdasar.

Perluasan dari Genesis I merupakan lonjakan sebesar 107 miliar token. Skala ini penting tidak hanya dari segi volume, tetapi juga konsistensi. Model yang dilatih pada repositori token AI yang lebih besar dan dikurasi dengan cermat mencapai tingkat akurasi penalaran yang lebih tinggi dan menghasilkan output yang lebih andal di berbagai domain.

Dataset ini tetap terbuka sepenuhnya melalui Hugging Face, lengkap dengan dokumentasi dan alat akses. Data Tether merilisnya di bawah lisensi Creative Commons Attribution–NonCommercial 4.0, menjaga penggunaan untuk keperluan akademik dan penelitian sambil memenuhi persyaratan atribusi.

Lebih dari Sekadar Pencocokan Pola: Penalaran Tingkat Opsi Mengubah Kualitas Pelatihan

Di inti Genesis II terdapat metode generasi data baru yang disebut Penalaran Tingkat Opsi. Alih-alih memperlakukan pertanyaan pilihan ganda sebagai memiliki satu jawaban benar, pendekatan ini mengevaluasi setiap opsi—jawaban benar dan kesalahan umum sekaligus. Setiap pilihan yang salah diperiksa mengapa gagal; setiap jawaban benar mengapa berhasil.

Metodologi ini langsung mengembangkan teknik analisis kegagalan yang diperkenalkan di Genesis I. Bersama-sama, mereka menciptakan arsitektur pipeline ganda yang memastikan setiap item pelatihan yang dihasilkan memberikan nilai instruksional. Teknik ini memaksa model untuk berinteraksi dengan logika di balik keputusan, bukan sekadar menghafal pola.

Evaluasi independen menunjukkan hasilnya. Model yang dilatih dengan data Genesis II menghasilkan jawaban yang lebih jelas, mempertahankan tingkat akurasi penalaran yang lebih tinggi, dan menunjukkan performa yang lebih konsisten di berbagai tugas. Dengan mengarahkan pelatihan ke arah pemahaman terstruktur daripada sekadar kefasihan, Penalaran Tingkat Opsi mengubah apa yang dapat dilakukan sistem AI secara andal.

Menghancurkan Sentralisasi: Bagaimana Token AI Terbuka Memungkinkan Penelitian Terdistribusi

Misi lebih luas Data Tether sejalan dengan keyakinan yang berkembang: pengembangan AI terdesentralisasi merupakan masa depan bidang ini. Sebagian besar pelatihan model saat ini bergantung pada infrastruktur cloud terpusat yang dikendalikan oleh segelintir raksasa teknologi. Ini menciptakan hambatan struktural bagi kelompok riset kecil, institusi akademik, dan pengembang independen.

Dengan memperluas akses ke 148 miliar token AI terbuka, Data Tether menghilangkan salah satu hambatan utama. Peneliti kini dapat melatih dan menerapkan model canggih tanpa bergantung pada platform proprietary atau sistem terpusat. Peneliti lokal di pasar berkembang, laboratorium universitas dengan sumber daya terbatas, dan tim independen dapat bersaing secara setara.

Paolo Ardoino, CEO Tether, menyatakan secara tegas: “Sebagian besar pelatihan AI saat ini mengoptimalkan kefasihan, bukan pemahaman. Dengan rilis ini, kami mendorong melampaui volume menuju struktur, penalaran, dan kejelasan.” Akses terbuka, katanya, memberi komunitas riset alat untuk mengembangkan sistem AI yang tetap dapat dijelaskan dan dipercaya.

Makalah teknis—QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training—tersedia di blog riset QVAC, didukung oleh FAQ terperinci dan panduan implementasi.

Seiring kecerdasan buatan semakin meresap ke dalam pendidikan, penemuan ilmiah, layanan keuangan, dan bidang lainnya, dataset seperti ini kemungkinan besar akan menentukan apakah sistem AI melayani kekuasaan terkonsentrasi atau pengetahuan yang tersebar. Keputusan Data Tether untuk merilis 148 miliar token AI secara terbuka menandai posisi salah satu pemain utama dalam pertanyaan tersebut.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan

Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)