Хто найкраще використовує Claude Code? Відповідь може бути не програмістом

> Оригінальна назва: Агентне кодування та постійні повернення до експертизи
> Автор оригіналу: Anthropoic
> Переклад: Peggy
>

Редакторський коментар: цей звіт базується на близько 400 000 сесіях Claude Code, і обговорює, як інструменти штучного інтелекту для програмування змінюють стосунки між людиною і кодом.

Найсуттєвіше відкриття полягає в тому: у програмуванні з використанням агентів людина здебільшого визначає «що робити», а Claude — «як робити». Користувач несе основну відповідальність за планування, а Claude — за виконання. Іншими словами, ШІ бере на себе написання коду, зміну файлів, запуск команд, налагодження тощо, але цілі та оцінка результату все ще залежать від людини.

Ще важливіше, що ефективність використання Claude Code не залежить лише від того, чи є користувач програмістом. Звіт показує, що у задачах генерації коду успіхи користувачів із нефаховими професіями — юристів, фінансистів, менеджерів, науковців — вже майже досягають рівня програмістів. Справжнім чинником, що впливає на результат, є розуміння користувачем проблеми, яку потрібно вирішити.

Це означає, що ШІ у програмуванні знижує бар’єр входу для реалізації, але не для суджень. У майбутньому, ті, хто розуміє бізнес, сценарії, чітко формулює вимоги та оцінює результати, можливо, зможуть краще використовувати ШІ, ніж ті, хто просто вміє писати код. ШІ не автоматично замінить галузеві знання, навпаки — він посилить цінність галузевих знань.

Нижче наведено оригінал:

Ключові відкриття

На основі попередніх досліджень ми запропонували рамкову модель для вивчення інтерактивного програмування агентів. Вона базується на аналізі конфіденційності близько 400 000 сесій Claude Code, проведених з жовтня 2025 по квітень 2026 року, і оцінює склад задач, спосіб співпраці людини і ШІ, а також рівень успішності задач.

У типовій сесії людина відповідає за більшу частину планування — визначає «що робити», тоді як Claude — за «як зробити». Чим більше професійних знань у користувача в конкретній галузі, тим більше роботи виконує Claude за командою. У задачах кодування середній рівень успіху у різних професійних груп — тобто чи було виконано початкову задачу, підтверджену тестами, зданим кодом тощо — майже не відрізняється від рівня програмістів.

Чим сильніше професійна компетентність користувача, тим більше шансів, що сесія завершиться успіхом. Однак різниця між користувачами середнього рівня і експертами незначна. За сім місяців спостережень частка сесій, що використовують налагодження, майже наполовину зменшилася, натомість зросла кількість випадків роботи з агентами «від кінця до кінця»: розгортання і запуск коду, аналіз даних, створення нефункціональної документації.

За цей період цінність типових задач майже у всіх сферах зросла. Ми оцінили цю цінність, порівнюючи з цінами на фріланс-ринку, і отримали середнє зростання близько 25%.

Вступ

Програмування агентами швидко набирає популярності. З кінця 2025 року кількість проектів на GitHub із активністю у цій сфері подвоїлася, а середній час використання Claude Code — 20 годин на тиждень. Чи зможуть люди без формального досвіду програмування успішно керувати агентами для виконання складних технічних завдань? Як швидке впровадження цих інструментів і їх здатність до зростання вплинуть на ширше коло знаннєвої праці? Відповідь поки що не цілком ясна, але з даних використання Claude Code можна почати бачити перші сигнали.

Цей звіт базується на аналізі конфіденційності близько 235 000 користувачів і 400 000 інтерактивних сесій у період з жовтня 2025 по квітень 2026 року, і дає докази реального використання Claude Code. Він продовжує дослідження автономності Claude Code у сесіях і того, як він змінює внутрішню роботу Anthropic. У ньому пропонується рамкова модель для опису використання інтерактивних AI-асистентів: що роблять люди, хто саме виконує роботу, і чи вона успішна. Ми зосереджені на використанні Claude Code через командний рядок, Claude.ai або настільний додаток. Аналізуючи, як змінюється спосіб використання агентів із зростанням можливостей моделей, ми краще зрозуміємо їхній вплив на професіоналів і ринок знань.

Події на Claude Code, можливо, передвістя майбутнього знаннєвої праці: агенти все більше інтегруються у нефункціональні задачі. Ми бачимо, що Claude виконує дедалі складніші і цінніші задачі. Водночас, у програмуванні агентами зберігається чіткий розподіл праці: людина визначає, що потрібно побудувати, а агент — як саме.

Ми також маємо дані, що справді посилює ефективність інструментів — це галузеві знання, а не навички програмування. Зокрема, експерти у галузі легше досягають успіху і швидше відновлюються після помилок. Однак різниця між середнім користувачем і експертом незначна. Це свідчить, що достатньо мати високий рівень знань у галузі, щоб ефективно використовувати такі інструменти.

Ці відкриття дають змогу зробити попередні висновки щодо можливих змін на ринку праці. У наших даних успіх залежить від того, чи розуміє користувач проблему, яку потрібно вирішити, а не від його програмістського досвіду. Якщо ці моделі підтвердяться й у ширшому масштабі, це означатиме, що інструменти програмування агентами, хоча й частково замінюють реалізаційні роботи, водночас винагороджують тих, хто справді розуміє свою задачу. Створення коду агентами не замінює галузеві знання. Навпаки, чим більше розуміння має користувач у конкретній галузі, тим більше якісної роботи може виконати агент.

Розподіл праці

Що роблять люди з Claude Code

Щоб зрозуміти, як саме використовують Claude Code, ми класифікували кожну сесію за дев’ятьма моделями роботи, що найкраще описують ціль сесії. Чотири з них безпосередньо стосуються написання або підтримки коду: створення нового, виправлення пошкодженого, тестування, а також оркестрування інших агентів або автоматичних ліній. Ще одна група — операції з програмним забезпеченням: розгортання, налаштування, запуск і моніторинг систем. Дві інші — більш орієнтовані на визначення «що робити»: розуміння роботи існуючої системи і планування змін перед початком роботи. Останні дві — не пов’язані безпосередньо з кодом або лише допоміжні: аналіз даних і комунікація через презентації та інші текстові документи.

Близько 56% сесій складаються з написання коду (25%), виправлення коду (26%) або тестування і оркестрування (5%). Операції з програмним забезпеченням — 17%, планування або дослідження — 14%, аналіз даних і створення текстових документів — 13% (див. малюнок 1).

> Малюнок 1: Дев’ять моделей роботи. Кожна інтерактивна сесія класифікується за моделлю, що найкраще описує її ціль.

Спершу модель читає запис сесії і класифікує її; потім за допомогою нашого інструменту аналізу конфіденційності порівнює результати класифікації з телеметричними даними кожної сесії, зокрема, чи додавалися або видалялися рядки коду. Ці два джерела дуже часто збігаються. Наприклад, у сесіях, позначених класифікатором як створення або зміна коду, понад 90% у телеметричних даних також показують зміни у коді. Деталі — у додатку.

Хто приймає рішення

Наскільки автономний Claude Code? Оцінки показують, що його потенціал уже дуже високий і продовжує зростати. Наприклад, у тестах на базі METR сучасні моделі вже здатні самостійно виконувати складні програмні задачі, що раніше вимагали кількох годин роботи людини, і самостійно долати перешкоди. Але як це виглядає на практиці? Тут ми зосереджені на тому, скільки керування процесом здійснює людина і скільки — агент.

Ми досліджуємо це з двох точок зору. По-перше, наскільки людина делегує рішення Claude; по-друге, скільки дій він йому доручає. Щоб зрозуміти розподіл ролевих функцій у сесії, ми створили приватний класифікатор для визначення причинно-наслідкових зв’язків. Він виділяє всі важливі рішення у сесії і класифікує їх на планувальні та виконавчі. Планувальні — що робити, яким методом, що вважається завершеним; виконавчі — які файли змінювати, що писати, якою мовою, які команди запускати. Потім класифікатор визначає, чи належить рішення Claude або користувачу, і генерує для кожної сесії два числа: частку планувальних рішень, що їх прийняв користувач, і частку виконавчих.

В середньому людина приймає близько 70% планувальних рішень, але лише 20% виконавчих (див. малюнок 2). У реальності, у процесі роботи, чітке розподілення праці проявляється у тому, що людина визначає, що потрібно побудувати, а агент — як саме.

Щоб зрозуміти, наскільки делеговані дії у сесії, ми дивимося не на зміст, а на структуру. Сесії Claude складаються з чергувань запитів користувача і відповідей агента: користувач дає підказки, агент виконує дії; потім знову користувач — і так далі. У типовій сесії таких раундів близько чотирьох. За нашими даними з жовтня по квітень, кожного разу, коли користувач дає підказку, Claude виконує в середньому близько 10 дій, іноді — понад 100. У кожному раунді Claude читає файли, редагує код, запускає команди і в середньому видає 2400 слів.

Обсяг роботи, яку виконує Claude між двома перевірками користувача, значною мірою залежить від того, хто приймає рішення. Якщо користувач зберігає контроль над процесом, тобто приймає понад 80% виконавчих рішень, тоді кожен раунд містить близько 8 дій. Якщо ж Claude бере на себе більшу частину планувальних рішень — понад 80%, — кількість дій зростає до приблизно 16.

> Малюнок 2: Частки планувальних і виконавчих рішень у Claude. Показано, яку частку рішень щодо «що робити» і «як робити» приймає Claude, а яку — користувач, у типовій сесії. В середньому, користувач приймає близько 70% планувальних рішень, а Claude — близько 80% виконавчих.

Професійний рівень

За кожною сесією Claude оцінює рівень професійної компетентності користувача за п’ятибальною шкалою — від новачка до експерта. Класифікатор рівня враховує три сигнали: точність команд користувача, що саме він просить перевірити, і хто частіше виправляє помилки — користувач чи Claude. Важливо зазначити, що цей рівень не співвідноситься з посадою або загальними навичками, а є конкретним для задачі. Наприклад, досвідчений інженер, що вперше запитує про Rust, може бути новачком у цій мові. А бухгалтер, що ніколи не працював з Python, але може точно описати, які правила перевірки потрібно застосувати для конкретного скрипта, і виявити помилки при місячних закриттях, — буде експертом у цій задачі.

У таблиці нижче наведено, як ми визначаємо рівні професійної компетентності у класифікаторі, і приклади запитів із відкритих даних SWE-chat. Розмови, класифіковані як «новачки», містять загальні інструкції без специфічних галузевих знань; ті, що — «експерти», — демонструють глибоке розуміння кодової бази і технічного середовища.

> Таблиця 1: Класифікатор рівнів професійної компетентності. Приклад запитів із реальних сесій, змінений, анонімізований і стиснутий для зручності. Більшість прикладів — із відкритого датасету SWE-chat.

Ми кількісно оцінювали залежність між рівнем професійної компетентності і кількістю вихідних даних та активності Claude. У типових сесіях новачків кожен запит викликає близько 5 дій і приблизно 600 слів відповіді; у сесіях експертів — довжина ланцюга дій удвічі більша, близько 12 дій, а обсяг відповіді — близько 3200 слів, що у п’ять разів більше (див. малюнок 3). Різниця між рівнями експерт і новачок проявляється у всіх типах робіт і для всіх цінових сегментів.

Ці показники доповнюють наші попередні дослідження автономності Claude Code. Там ми відстежували тривалість роботи агентів і частоту автоматичного схвалення їхніх дій. У цьому дослідженні ми зосереджені на причинно-наслідкових зв’язках у прийнятті рішень під час сесії, а також на тому, скільки активності викликає кожен людський запит.

> Малюнок 3: Чим більш професійний користувач, тим більше роботи виконує Claude на кожен запит. Чим вищий рівень, тим більше дій (ліворуч) і тексту (праворуч), що генерує Claude. В межах коробки — між квартилями, лінії — 5-й і 95-й перцентилі, крапки — геометричне середнє. Обидві тенденції — статистично значущі (p < 0.001). Навіть з урахуванням режиму роботи, цінності задач, місяця, професії і серії моделі, а також кластеризації користувачів, ця тенденція залишається значущою: кожен рівень підвищується, кількість дій зростає на 9%, обсяг відповіді — на 13%.

Хто використовує Claude Code і для чого

Користувачі

Щоб зрозуміти, хто саме використовує ці інструменти, ми за допомогою аналізу сесій визначили професію кожного користувача і співвіднесли її з 23 основними категоріями стандартної класифікації професій (SOC) США. Класифікатор базується лише на таких сигналах: контексті, файлах і структурах, що завантажуються на початку сесії, назвах файлів, посиланнях на джерела або результати, наприклад, юридичних документів, клінічних даних, фінансових звітів, навчальних матеріалів, а також на словнику користувача. Вказано, що «писання коду» самі по собі не є ознакою програмістської професії. Лише якщо є явні сигнали, що робота пов’язана з програмуванням або обробкою даних, сесія потрапляє до відповідної категорії «інформаційних технологій і математики». Наприклад, якщо юрист створює скрипт для автоматичної перевірки контрактів, то навіть якщо основна діяльність — юридична, сесія класифікується як юридична. Якщо ж немає жодних ознак професії, сесія не класифікується.

Ми можемо визначити професію приблизно у 70% випадків. У цих випадках найбільша група — «інформаційні технології і математика», що цілком логічно, оскільки ця категорія охоплює більшість програмістів. Другі за чисельністю — бізнес і фінанси, мистецтво і медіа, менеджмент, а також біологія, фізика і соціальні науки. У нашому зразку швидко зростають у чисельності менеджери, продавці і юристи.

Робота

З жовтня 2025 до квітня 2026 року структура задач, що виконуються з Claude Code, зазнала значних змін. Найпомітніше — частка сесій, що стосуються виправлення пошкодженого коду, знизилася з 33% до 19% (див. малюнок 4). Замість цього зросла кількість сесій, пов’язаних із роботою з кодом. Операції з програмним забезпеченням — з 14% до 21%. Написання і аналіз даних — майже вдвічі більше, з 10% до 20%.

Цінність задач також зросла. Ми оцінили її, порівнюючи з цінами на фріланс-ринку, і отримали середнє зростання близько 27%. Це зростання спостерігається у різних типах робіт: створення, обслуговування і виправлення — відповідно, на 43%, 34% і 32%. Оцінки цін є досить приблизними, тому їх використовуємо переважно для порівняння трендів, а не для визначення точних доларових значень. Детальніше — у додатку.

> Малюнок 4: Зміни у структурі роботи з Claude Code з жовтня 2025 по квітень 2026. Показано, як змінювалися пропорції різних моделей роботи за сім місяців. Частка сесій з виправлення пошкодженого коду знизилася з 33% до 19%, натомість зросли операції з програмним забезпеченням, аналіз даних і створення документації.

Успіх залежить від того, що приносить користувач

Оцінка цінності задач — один із способів зрозуміти, як Claude Code допомагає виконувати роботу. Інший — подивитися, скільки сесій закінчуються успіхом і які характеристики цих сесій сприяють успіху. У всіх показниках успіху ми бачимо чіткий тренд: чим вищий професійний рівень користувача, тим більша ймовірність успіху. Найбільший приріст — у користувачів із низьким рівнем, тобто різниця між новачками і середнім рівнем більша, ніж між середнім і експертами.

Перед аналізом характеристик успішних сесій потрібно чітко визначити, що таке успіх. Ми не можемо бачити реальні результати у світі, і не можемо прямо запитати користувачів, чи досягли вони цілей. Тому використовуємо два доповнювальні методи, що базуються на записах сесій. Перший — «визначення успіху»: класифікатор читає весь запис і визначає, чи досяг користувач своєї цілі — успіх, частковий успіх, невдача або без цілі. Потім два додаткові класифікатори оцінюють, наскільки ця оцінка підтверджена доказами, і визначають «перевірений успіх». Вони шукають підтвердження успіху, зокрема, у git-активності (коміти, пул-реквести, проходження тестів) і явних підтверджень користувача. Оцінюють рівень — від «жодних сигналів» до «кількох сильних». Аналогічно, є класифікатор для невдач, що оцінює наявність помилок, тестових невдач, повторних спроб і невдоволення користувача. Умовою «перевіреного успіху» є одночасне виконання обох — позитивної оцінки і наявності сильних доказів. У цьому аналізі ми розглядаємо лише сесії, де є підтверджений успіх або невдача, і виключаємо ті, що без чіткої цілі (7.7% усіх).

Віддача від професійного рівня

Які сесії найчастіше закінчуються успіхом? Виявляється, що рівень професійної компетентності має значний вплив на результат.

Можливо, експерти просто працюють із іншими задачами або мають інші характеристики. У цьому розділі ми порівнюємо сесії з однаковими типами задач, однаковою цінністю, тим самим місяцем, темою і професією, щоб частково відповісти на цю критику і подивитися, як рівень впливає на результат.

> Таблиця 2: Визначення успіху і невдачі за допомогою класифікатора. Приклад із реальної сесії SWE-chat, змінений, анонімізований і стиснутий для зручності. Більшість — із відкритого датасету.

У всіх показниках успіху, чим вищий рівень користувача, тим більша ймовірність успіху. Сесії, класифіковані як «новачки», мають 15% успіху за найжорсткішою оцінкою «перевірений успіх», і 77% — часткового. Сесії з рівнем «середній» і вище — 28–33% підтвердженого успіху і 91–92% часткового (див. малюнок 5).

Більшість виграшів — у підвищенні з новачка до середнього рівня; підвищення до експерта дає менший приріст. Деталі — у додатку.

> Малюнок 5: Залежність рівня професійної компетентності і результату сесії. Показано, як змінюється результат залежно від рівня — від новачка до експерта. Лівий графік — усі сесії, середній і правий — лише ті, що закінчилися невдачею, з високим рівнем «проблеми». Кожна точка — скориговане співвідношення. Ми порівнюємо лише сесії з однаковими моделями роботи, цінністю задач, місяцем, темою і професією, щоб оцінити вплив рівня. Деталі — у додатку. Відрізки — довірчі інтервали, більші через малий обсяг даних. Ці графіки не враховують сесії без цілі.

У сесіях із проблемами також видно схожий градієнт. Коли фіксується підтверджена невдача, вважаємо, що сесія «зазнала проблем». Це може бути помилка, невдача тесту, повторна спроба або невдоволення користувача. У таких сесіях, після контролю всіх змінних, підтверджена невдача зростає з 4% у новачків до 15% у експертів (див. малюнок 5). За більш м’якими критеріями, частка часткових невдач у новачків — 60%, у середніх і експертів — 80–81%.

Ми також відстежували зворотний зв’язок: рівень професійної компетентності і різні показники невдач. Зверніть увагу, що у цій частині аналізу сесії, що вважаються невдалими, — ті, що не досягли навіть часткового успіху. Якщо сесія з проблемою і без написаного коду вважається «забутою», то у новачків таких — 19%, у інших — 5–7%. Це означає, що менш досвідчені користувачі частіше здаються, коли стикаються з труднощами. Частина цінності професійної компетентності — у здатності повернути агентів у правильний напрямок.

Можливо, професія не так важлива, як рівень компетентності

У користувачів із сфери програмування і IT рівень підтвердженого успіху у всіх сесіях — близько 30%, у інших — 26%. У сесіях із генерацією коду (хоча б один рядок додано або змінено) ці показники — 34% і 29% відповідно (див. малюнок 6). За більш м’якими критеріями, різниця між цими групами ще менша. У сесіях із генерацією коду, частка часткових успіхів у обох групах — 88–89%. П’ять відсотків — незначна різниця, яка не змінювалася за сім місяців, хоча рівень успіху обох груп зростав. У найбільших групах професій у нашому датасеті різниця у рівнях успіху між програмістами і іншими не перевищує семи відсотків. Найвищий рівень підтвердженого успіху — у менеджерів, можливо, через їхні навички керування, що можна застосувати і до керівництва агентами. Це також може частково залежати від нашої методики — підтвердження у сесіях залежить від явної згоди користувача, а менеджери звикли висловлювати задоволення.

> Малюнок 6: Залежність підтвердженого успіху і рівня професійної компетентності у сесіях з програмуванням. Показано, що у найбільших групах професій, що виконують код, рівень підтвердженого успіху і успіху за класифікатором — у межах семи відсотків. Помилки — довірчі інтервали 95%, розраховані для різних акаунтів.

Перспективи

Результати цього звіту малюють картину, що формується: програмування агентами посилює окремі знання і навички, одночасно замінюючи інші. У задачах генерації коду рівень успіху у різних професійних групах майже не відрізняється від рівня програмістів. Здається, що агентне кодування зменшує значущість наявності програмістського досвіду для успішного виконання задач.

Водночас, успіх у сесіях частіше залежить від галузевих знань. Експерти у галузі мають удвічі вищий рівень підтвердженого успіху, ніж новачки. У разі проблем, новачки частіше здаються і відмовляються від роботи. Співпраця сама по собі робить цю картину більш очевидною: експерти можуть керувати Claude кожною командою і отримувати більше роботи. Тому здатність вести агентів до успіху більше залежить від галузевих знань, ніж від навичок писати код. Той, хто добре розуміє свою галузь, може виконати раніше недосяжні технічні задачі. А хто не має такого розуміння — використовує інструменти менш ефективно. Вигода здебільшого полягає у компетентності, а не у глибокій спеціалізації. Достатньо мати операційне розуміння галузі, щоб отримати більшу частку вигод; глибока спеціалізація дає додаткові переваги, але у меншій мірі.

Ці відкриття залишаються попередніми. Як і більшість досліджень, ми не можемо оцінити реальні результати у світі — наприклад, чи використані створені сесією коди потім застосовувалися, чи мали економічну цінність. Також у звіті виключені неінтерактивні способи роботи, що становлять значну частину активності. Створення рамки для їхнього вимірювання — одна з цілей майбутніх досліджень. Водночас, усі класифікації у цьому звіті базуються на аналізі записів сесій моделлю. У додатку показано, що класифікатор і незалежні телеметричні дані узгоджуються у більшості випадків і співпадають із висновками сильних моделей. Однак у масштабних сценаріях автоматична класифікація залишається складною, а сесії Claude Code — особливо довгими і складними — ускладнюють ручне маркування.

З розвитком моделей, змінюється і спосіб роботи користувачів і агентів, і картина, описана у цьому звіті, буде оновлюватися. Сподіваємося, що ці показники допоможуть відстежувати важливі трансформації: якщо рівень професійної компетентності почне давати менший приріст, це означатиме, що моделі вже починають приймати ключові рішення замість користувачів, і їхній внесок розширюється від вузьких фахівців до ширшої аудиторії. Якщо ж частка успішних сесій поза професійною сферою зросте, це може свідчити, що створення коду стає частиною звичайної роботи у різних галузях, а не лише у вузьких професіях. Це змінить, хто і скільки може отримати користі від агентного програмування, і які навички будуть найбільш цінними на ринку праці.

[Посилання на оригінал]

Клікніть, щоб дізнатися про вакансії в BlockBeats

Запрошуємо приєднатися до офіційної спільноти BlockBeats:

Телеграм-канал: https://t.me/theblockbeats

Телеграм-чат: https://t.me/BlockBeats_App

Офіційний акаунт у Twitter: https://twitter.com/BlockBeatsAsia

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено