Оцінка AI з точки зору кількісного аналізу: очікування прибутку для всіх менше 1, наскільки далеко штучний інтелект від заміни трейдерів?

PANews

2025-11-24 06:43:22

Автор: Френк, PANews

Якщо б вам дали 10000 доларів, в якого штучного інтелекту ви б обрали вірити, щоб він керував вашими інвестиціями?

Раніше PANews проводив огляд AI-торгового конкурсу nof1.ai (додаткова інформація: Шість великих AI “трейдерів” - десятиденне змагання: відкритий урок про тенденції, дисципліну та жадібність). Однак, під час конкурсу nof1.ai термін дії стосувався певного періоду ринку, і фінансові можливості різних великих AI-моделей, здається, не можуть бути повністю продемонстровані в межах певного торгового циклу. Крім того, людям терміново потрібна відповідь щодо фактичних прогнозувальних можливостей AI-моделей за різних умов. До того ж, нещодавно різні AI-компанії випустили нові великі моделі, і рейтинг їхніх можливостей знову переглядається.

Щоб розкрити цю загадку, PANews організував «Змагання трейдерів на основі ШІ». Досліджуйте, як великі моделі ШІ визначають ринкову ситуацію та планують торгівлю в різних сценаріях. Наприклад, в якій часовій рамці вони краще аналізують ринок, а також чи покращує використання індикаторів як допоміжних умов ймовірність успіху прогнозу від ШІ.

Ми продовжили часову лінію з 2017 року до сьогодні, випадковим чином вибравши 100 реальних фрагментів ринку з історичних даних BTC на Binance, створивши три надскладні тестові сценарії: “4-годинні голі свічки”, “15-хвилинна коротка торгівля”, “4-годинні повні індикатори”. Шестеро учасників змагання представляють найвищу потужність обчислень у Китаї та США: Gemini-3-pro, Doubao-1.6-vision, DeepSeek V3.2, Grok 4.1, GPT-5.1, Qwen3-max.

Цей тест зібрав 15-хвилинні дані свічок для парів торгівлі BTC на Binance з серпня 2017 року до теперішнього часу, а також 4-годинні дані свічок з 2021 року до сьогодні. Для кожного періоду випадковим чином генерувалося 50 зображень, що складаються з 100 свічок. 4-годинний період поділяється на два типи: одне зображення тільки з свічками та обсягом торгівлі, а інше - з графіками свічок, що містять інформацію про EMA, SMA, смуги Боллінджера, MACD, RSI та інші індикатори. 15-хвилинні графіки свічок є голими графіками (з обсягом торгівлі). І синхронно надається AI конкретні значення цін або значення індикаторів, відповідних поточному графіку свічок. Всі результати, що виходять з AI, можна переглянути тут.

Схема з індикаторами на 4 години

Схема чистих свічок за 4 години

Під час тестування інформація про дані та команди, яку отримує кожна велика модель, абсолютно однакова. З іншого боку, це також досить випробовує мультимодальні можливості цих великих моделей (DeepSeek має лише текстову велику модель, тому в кінцевому підсумку отримує лише інформацію про дані, без передачі зображень).

Gemini 3 : Король голого K, закритий «індикаторами»

Gemini 3 є найпопулярнішою моделлю штучного інтелекту великого формату на сьогоднішній день. Судячи з медіа-коментарів та тестів, що відбулися після випуску 18 листопада, це, безсумнівно, найсильніша багатомодальна модель AI. Проте, у тестуванні прогнозів торгівлі результати Gemini 3 не є найкращими, а скоріше середніми. У трьох сценаріях (4 години без індикаторів, 4 години з індикаторами, 15 хвилин без індикаторів) Gemini 3 показав найкращі результати у сценарії 4 години без індикаторів, з відсотком виграшу 39,58%. Наступним йде сценарій 15 хвилин без індикаторів з 34,04%, тоді як у випадку з індикаторами (в той же часовий проміжок) точність 4 години зменшилася до 31%, що є найгіршим результатом серед трьох сценаріїв.

З цієї точки зору, Gemini 3, здається, краще справляється з чистими свічковими паттернами, а з додаванням індикаторів легше піддаватися впливу. У конкретному процесі торгівлі, без індикаторів, Gemini 3, здається, більше готовий відкривати позиції; в умовах чистих свічок 95% ринків вибирають вхід, тоді як після додавання індикаторів цей відсоток знижується до 71%. Варто зазначити, що Gemini 3 є єдиною прибутковою моделлю в умовах 4-годинних чистих свічок.

У сценарії за 15 хвилин загальний прибуток Gemini 3 є найкращим, загальна прибутковість становить 15,34%, у ситуації з індикаторами, навпаки, зазнала збитків у розмірі 21,18%. Проте цей прибуток також є короткостроковим везінням, якщо врахувати дані про співвідношення прибутків і збитків, очікування прибутку Gemini 3 (коефіцієнт виграшу*співвідношення прибутків і збитків) завжди менше 1, що означає, що в довгостроковій перспективі це завжди буде збитковим станом.

DeepSeek V3.2: стабільний як стара собака “суперкороткостроковий торговий бот”

DeepSeek є найкращою моделлю за загальним показником виграшу серед шести моделей, і, відповідно, також є найстабільнішою. У трьох сценаріях (4 години без індикаторів, 4 години з індикаторами, 15 хвилин без індикаторів) показники виграшу становлять відповідно 40%, 41,38%, 42,86%. З цього можна зробити висновок, що прогностична здатність DeepSeek є відносно стабільною в різних періодах та за наявності або відсутності індикаторів.

Проте, фінансові результати DeepSeek в кінцевому підсумку не є хорошими, оскільки їх співвідношення прибутків і збитків занадто низьке, середнє значення становить лише 1,25. Це співвідношення прибутків і збитків, яке свідчить про те, що DeepSeek не має можливості дозволити прибутку зростати під час торгівлі. Таким чином, в цілому це призводить до того, що їх очікуване значення прибутку майже дорівнює 0,5, а в довгостроковій перспективі також не має можливостей для отримання прибутку. Крім того, DeepSeek також відносно обережний у своєму рішенні щодо відкриття позицій, загальний відсоток відкритих позицій становить лише 58%.

Doubao (豆包): Цей конкурс “Універсальний MVP”

У цьому тестовому матчі загальний результат Doubao1.6-vision був найкращим. У сценарії з індикатором на 4 години, рівень виграшу Doubao1.6-vision досяг найвищих даних у тесті, склавши 50%, а кінцевий дохід склав 22.2%. Водночас у короткостроковому періоді в 15 хвилин загальний дохід також становив 8.2%. Це єдиний модел, який стабільно приносить прибуток в двох різних вимірах (короткостроковому та 4-годинному індикаторі).

І, результат Doubao1.6-vision не був досягнутий у відносно консервативному стилі, а був досягнутий при середньому співвідношенні відкриття позицій понад 92%. Це означає, що Doubao1.6-vision у більшості сценаріїв вибирає відкриття позицій. Проте, в порівнянні, можливості Doubao1.6-vision також сильно залежать від індикаторних сигналів, без індикаторів загальний прибуток відрізняється на 38%. Крім того, згідно з даними про співвідношення прибутку до збитку, Doubao1.6-vision має високе співвідношення збитків у двох періодах позитивного прибутку, що також є причиною його загальною відмінної продуктивності.

Grok 4.1: “радикальний гравець” від xAI

Загальний стиль Grok 4.1 є сміливим, але залежним від показників кварталу, в той же час готовим переслідувати більший прибуток. У трьох сценаріях лише з показниками за 4 години на тиждень Grok 4.1 отримав 34,69% рівня виграшу, тоді як у двох інших сценаріях рівень виграшу був вкрай низьким. У випадку чистих свічок за 4 години рівень виграшу становить лише 14,58%, а за 15-хвилинний період – 26,53%. Але середній відсоток відкриття позицій досягає 98%, майже у всіх сценаріях з свічками готовий відкривати позиції. З цієї точки зору стиль Grok 4.1 більше нагадує гравця, який не може стримати своїх рук.

Проте, співвідношення прибутку та збитку Grok 4.1 зазвичай досить високе, середнє значення становить 2, що є найвищим серед усіх моделей. Але в цілому, якщо ви довірите свої кошти Grok 4.1, це не буде розумним вибором.

GPT 5.1: надзвичайно обережний “мертвий ведмідь” песиміст

Стиль відкриття угод GPT 5.1 і Grok 4.1 абсолютно протилежні. GPT 5.1 є вкрай обережним, у більшості випадків він обирає вичікувальну тактику. В результаті з 150 тестів було відкрито лише 52 угоди, середній показник відкриття становив лише 0,34%.

Проте навіть така обережність не змогла забезпечити GPT 5.1 кращі результати у відсотках виграшу. У найкращому випадку він отримав лише 35% виграшу. І, порівняно з 4-годинними та 15-хвилинними періодами, GPT 5.1 явно не дуже добре справляється з відкриттям позицій на довгих періодах; навіть з додаванням технічних індикаторів, виграш у 4-годинному періоді становить лише 27%. А в 15-хвилинному періоді, завдяки високому співвідношенню виграшу до збитків (2.02), він отримав позитивний відгук, а кінцевий результат склав 9.9%.

Крім того, GPT 5.1 має ще одну особливість - явний песимізм, дуже захоплюється шортингом. Понад 70% замовлень є короткими.

Qwen 3: економічні “анти-ризикові” особи

Qwen 3, безумовно, є найобережнішою великою моделлю, яка за всіма тестами відкрила всього 44 позиції, а коефіцієнт відкриття позицій становить лише 29%. Однак, як і у випадку з GPT, ця крайня обережність не принесла вищого рівня виграшу. Його середній рівень виграшу також становить лише 34%, а найкращим сценарієм є ситуація з індикаторами на 4 години.

Крім того, коефіцієнт прибутковості Qwen 3 також досить високий. Він становить 1,96. Схоже, що він належить до гравців, які уникають ризику, краще зменшуючи кількість угод, але дозволяючи прибутку рости. А в сценарії з 4-годинними індикаторами, очікуване значення прибутку Qwen 3 також є найбільш наближеним до прибутковості, досягнувши 0,95, що є найвищим серед усіх моделей.

Зведення даних

Підсумок:

В цілому, ми, можливо, отримали кілька висновків з цих симуляційних торгів AI.

По-перше, для більшості моделей наявність індикаторів є більш надійним, ніж чисті свічкові графіки. За наявності індикаторів середня ймовірність виграшу шести моделей досягла 38%, в той час як без індикаторів ймовірність виграшу становила лише 30%.

По-друге, ШІ, можливо, краще підходить для короткострокової торгівлі, а не для довгострокової. У сценарії з чистими свічками на 15 хвилин середній відсоток виграшу шести великих моделей досягає 34%, що вище за 30% на 4-годинному періоді. Серед шести моделей три мають прибуток (Gemini, GPT, Doubao), а середнє співвідношення прибутку до збитків загалом досить хороше.

По-перше, повністю довіряти AI в управлінні позиціями не є доцільним. Під час цього тестування всі моделі AI мали очікувану прибутковість нижче 1, що також свідчить про те, що при тривалому використанні такої ймовірності виграшу та співвідношення прибутку і збитків їхні фінальні результати будуть збитковими. Лише різниця в швидкості втрат (однак, тут не проводилася спеціальна настройка моделей AI, а використовувалися лише досить прості стандартні показники). Тому, якщо ви хочете, щоб AI замінив вас у торгівлі, можливо, знадобиться складніший процес налаштування та більше даних для бектестування.

Коли ця битва обчислювальної потужності підійшла до завершення, дивлячись на фінальну цифру на рахунку, найважливіший висновок, який ми отримали, можливо, не в тому, “яка модель найсильніша”, а в тому, “де межі AI-торгівлі”. Остаточний висновок полягає в тому, що сьогоднішній AI, можливо, ще не може безпосередньо замінити відмінного керуючого фондом, але він вже еволюціонував у відносно зрілого торгового асистента, деякі з яких вміють аналізувати графіки, деякі – управляти ризиками, а деякі – аналізувати дані для досягнення стабільної виграшної ставки. Що стосується зростаючих очікувань людей щодо AI, бажання замінити людину в торгівлі залишається складною задачею.

BTC1.24%

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.