QVAC Genesis II розблоковує 148 мільярдів AI-токенів для відкритих досліджень у сфері штучного інтелекту

2026-03-01 05:07:43

Дані Tether Data кардинально змінили спосіб доступу світу до навчальних ресурсів для штучного інтелекту. Розширивши свій набір даних QVAC Genesis II до 148 мільярдів AI-токенів у 19 академічних галузях, ініціатива вирішує структурний пробіл в екосистемі ШІ: більшість передових навчальних даних залишається заблокованою у власницьких системах, контрольованих кількома великими корпораціями. Цей реліз позиціонує QVAC Genesis II як найбільший у світі безкоштовний синтетичний освітній ресурс, додавши 107 мільярдів токенів до попереднього Genesis I і демократизуючи доступ до високоякісних навчальних основ.

Часовий фактор важливий. Оскільки системи ШІ дедалі більше формують рішення в освіті, фінансах, охороні здоров’я та дослідженнях, здатність самостійно тренувати моделі без залежності від централізованих хмарних платформ стала критичною. Tether Data використала цей момент для випуску ресурсу, що є своєрідним суспільним благом — масивного корпусу даних, розробленого не лише для досягнення високої мовної плавності, а й для логічного мислення та пояснення.

Масштабна основа для навчання: як 148 мільярдів AI-токенів змінюють гру

Величезний масштаб QVAC Genesis II змінює можливості дослідників, що працюють поза закритими екосистемами. Набір даних з 148 мільярдами AI-токенів охоплює 19 структурованих академічних галузей, кожна з яких ретельно побудована для підтримки моделей, що мають пояснювати свої думки, а не просто передбачати наступне слово. Це розрізняє їх від традиційних наборів даних, що зосереджені на мовній плавності.

Традиційні набори даних орієнтовані на здатність генерувати правдоподібний текст. QVAC Genesis II змінює цю пріоритетність. Кожен з 148 мільярдів токенів сприяє тренувальному процесу, що розвиває ясність логіки та причинне розуміння. Це дозволяє дослідникам створювати системи ШІ, які демонструють свою логіку, обґрунтовують висновки та визнають невизначеність, а не говорять із необґрунтованою впевненістю.

Розширення від Genesis I становить приріст у 107 мільярдів токенів. Такий масштаб важливий не лише за обсягом, а й за стабільністю. Моделі, треновані на більших, ретельно відібраних репозиторіях AI-токенів, досягають вищої точності логічних висновків і забезпечують більш надійні результати у різних сферах.

Набір даних залишається відкритим через Hugging Face, з документацією та інструментами доступу. Tether Data випустила його під ліцензією Creative Commons Attribution–NonCommercial 4.0, що зберігає можливість академічного та дослідницького використання з обов’язковим зазначенням авторства.

Більше ніж шаблонне співвідношення: рівень міркувань у варіантах змінює якість тренування

У центрі Genesis II — новий метод генерації даних, званий Option-Level Reasoning. Замість того, щоб вважати питання з множинним вибором з одним правильним відповіддю, цей підхід оцінює кожен варіант — правильний і поширені помилки. Кожна неправильна відповідь аналізується, чому вона не підходить; кожна правильна — чому вона успішна.

Ця методика базується на аналізі невдач, впровадженому в Genesis I. Разом вони створюють двовузлову архітектуру, що гарантує, що кожен згенерований навчальний елемент має навчальну цінність. Техніка змушує моделі аналізувати логіку рішень, а не просто запам’ятовувати шаблони.

Незалежні оцінки підтверджують ефективність. Моделі, треновані на даних Genesis II, дають більш чіткі відповіді, зберігають вищу точність логічних висновків і демонструють стабільнішу продуктивність у різних завданнях. Перенаправляючи тренування на структуроване розуміння, а не лише мовну плавність, Option-Level Reasoning змінює можливості систем ШІ.

Ломка централізації: як відкриті AI-токени сприяють розподіленим дослідженням

Місія Tether Data узгоджується з зростаючою впевненістю: децентралізований розвиток ШІ — майбутнє галузі. Сучасне тренування моделей здебільшого залежить від централізованої хмарної інфраструктури, контрольованої кількома технологічними гігантами. Це створює структурні бар’єри для менших дослідницьких груп, академічних інститутів і незалежних розробників.

Розширивши доступ до 148 мільярдів відкритих AI-токенів, Tether Data усуває один із головних бар’єрів. Тепер дослідники можуть тренувати та розгортати складні моделі без залежності від власницьких платформ або централізованих систем. Місцеві дослідники у країнах, що розвиваються, університетські лабораторії з обмеженими ресурсами та незалежні команди можуть конкурувати на рівних умовах.

Павло Ардойно, генеральний директор Tether, прямо сформулював цю ідею: «Сьогоднішнє тренування ШІ орієнтоване на мовну плавність, а не на розуміння. З цим релізом ми рухаємося за межі обсягу до структури, логіки та ясності». Відкритий доступ, підкреслив він, дає дослідницькій спільноті інструменти для створення систем ШІ, що залишаються пояснюваними та надійними.

Технічний документ — QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training — доступний на блозі досліджень QVAC, підтримується детальними FAQ та рекомендаціями щодо впровадження.

Зі зростанням штучного інтелекту у сфері освіти, наукових відкриттів, фінансових послуг і не лише, такі набори даних, ймовірно, визначатимуть, чи служитимуть системи ШІ концентрованій владі, чи розподіленим знанням. Вирішення Tether Data про відкритий реліз 148 мільярдів AI-токенів сигналізує про позицію одного з головних гравців щодо цього питання.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.