Ai ai ai,ai ai ai,谁最会用Claude Code?答案可能不是程序员

Tác giả: Anthropoic;Biên dịch: Peggy, Blockchain Movement

Bài báo này dựa trên khoảng 400.000 cuộc trò chuyện Claude Code, thảo luận về cách các công cụ lập trình AI đang thay đổi mối quan hệ giữa con người và mã nguồn như thế nào.

Phát hiện cốt lõi nhất của bài viết là: Trong lập trình bằng trí tuệ nhân tạo, con người chủ yếu quyết định "làm gì", Claude chịu trách nhiệm "làm thế nào". Người dùng đảm nhận phần lớn các quyết định lập kế hoạch, còn Claude đảm nhận phần lớn công việc thực thi. Nói cách khác, AI đang tiếp quản các bước thực hiện như viết mã, sửa đổi tệp, chạy lệnh, gỡ lỗi, nhưng mục tiêu đặt ra và đánh giá kết quả vẫn dựa vào con người.

Quan trọng hơn, hiệu quả khi sử dụng Claude Code không chỉ phụ thuộc vào việc người dùng có phải là lập trình viên hay không. Báo cáo cho thấy, trong các nhiệm vụ sinh mã, người dùng thuộc các ngành nghề phi kỹ thuật như pháp lý, tài chính, quản lý, nghiên cứu khoa học đã đạt tỷ lệ thành công gần bằng các kỹ sư phần mềm. Thực tế ảnh hưởng đến kết quả là khả năng hiểu rõ vấn đề cần giải quyết của người dùng.

Điều này có nghĩa là, AI giảm thiểu rào cản về khả năng thực hiện, chứ không phải khả năng đánh giá. Trong tương lai, những người hiểu về kinh doanh, hiểu về bối cảnh, có thể rõ ràng đề xuất yêu cầu và đánh giá kết quả, có thể sẽ sử dụng AI hiệu quả hơn những người chỉ biết viết mã. AI sẽ không tự động thay thế kiến thức lĩnh vực, mà còn làm tăng giá trị của kiến thức đó.

Dưới đây là nguyên bản:

Phát hiện chính

Dựa trên các nghiên cứu trước, chúng tôi đề xuất một khung nghiên cứu về lập trình trí tuệ nhân tạo tương tác. Khung này dựa trên phân tích bảo vệ quyền riêng tư của khoảng 400.000 cuộc trò chuyện Claude Code từ tháng 10 năm 2025 đến tháng 4 năm 2026, nhằm đánh giá cấu trúc nhiệm vụ, cách con người và AI hợp tác, cũng như tỷ lệ thành công của nhiệm vụ.

Trong một cuộc trò chuyện điển hình, con người chịu trách nhiệm phần lớn các quyết định lập kế hoạch, tức là quyết định "làm gì"; Claude chịu trách nhiệm phần lớn các quyết định thực thi, tức là quyết định "làm thế nào". Mức độ chuyên môn của người dùng trong lĩnh vực càng cao, thì lượng công việc Claude thực hiện theo lệnh càng lớn. Trong các nhiệm vụ lập trình, tỷ lệ thành công trung bình của các nhóm nghề nghiệp chính — tức là liệu họ có hoàn thành đúng ý định ban đầu của người dùng, có thể xác minh qua kiểm thử, gửi mã — gần như ngang bằng với các kỹ sư phần mềm.

Khả năng chuyên môn của người dùng càng cao, cuộc trò chuyện càng có khả năng thành công. Tuy nhiên, khoảng cách giữa người dùng trung cấp và chuyên gia không lớn. Trong bảy tháng quan sát, tỷ lệ các cuộc trò chuyện dùng để gỡ lỗi đã giảm gần một nửa, và cách sử dụng chuyển sang dạng end-to-end nhiều hơn: triển khai và vận hành mã, phân tích dữ liệu, viết tài liệu không mã.

Trong bảy tháng này, giá trị của các nhiệm vụ điển hình đã tăng gần như ở tất cả các loại công việc. Chúng tôi ước tính giá trị nhiệm vụ dựa trên chi phí tương đương trên thị trường tự do, đã điều chỉnh theo dữ liệu thực tế từ các vị trí tuyển dụng công khai. Theo đó, trung bình giá trị của mỗi cuộc trò chuyện đã tăng khoảng 25%.

Giới thiệu

Lập trình bằng trí tuệ nhân tạo đang phát triển nhanh chóng. Từ cuối năm 2025, tỷ lệ các dự án mã hóa có hoạt động AI trong các dự án trên GitHub đã tăng gấp đôi, và người dùng Claude Code trung bình sử dụng công cụ này 20 giờ mỗi tuần. Người không có kinh nghiệm lập trình chính thức có thể thành công trong việc chỉ huy một trí tuệ nhân tạo hoàn thành các công việc kỹ thuật phức tạp không? Việc áp dụng nhanh các công cụ này và khả năng nâng cao của chúng sẽ ảnh hưởng như thế nào đến các công việc tri thức rộng hơn? Hiện tại, chúng tôi chưa thể đưa ra câu trả lời hoàn chỉnh, nhưng có thể nhận thấy một số tín hiệu sớm từ dữ liệu sử dụng Claude Code.

Báo cáo này dựa trên phân tích bảo vệ quyền riêng tư của khoảng 235.000 người dùng, khoảng 400.000 cuộc trò chuyện tương tác trong giai đoạn từ tháng 10 năm 2025 đến tháng 4 năm 2026, cung cấp bằng chứng về cách Claude Code được sử dụng thực tế. Nó tiếp nối các nghiên cứu trước về các chỉ số tự chủ trong các cuộc trò chuyện Claude Code, cũng như cách Claude Code thay đổi cách làm việc nội bộ của Anthropic. Bài viết này đề xuất một khung mô tả cách sử dụng trợ lý lập trình AI tương tác: mọi người đang làm gì, ai đang làm, và công việc có thành công hay không. Chúng tôi tập trung vào việc người dùng sử dụng Claude Code qua giao diện dòng lệnh (CLI), Claude.ai hoặc ứng dụng desktop Claude Code. Bằng cách theo dõi cách lập trình trí tuệ nhân tạo thay đổi theo khả năng của mô hình, chúng tôi có thể hiểu rõ hơn tác động của các công cụ này đối với các chuyên gia lập trình và thị trường lao động công việc tri thức.

Những gì xảy ra trên Claude Code có thể dự báo xu hướng tương lai của công việc tri thức: trí tuệ nhân tạo sẽ dần dần tích hợp vào các công việc không liên quan đến mã nguồn. Chúng tôi nhận thấy Claude đang xử lý các nhiệm vụ phức tạp, có giá trị cao hơn. Đồng thời, vẫn còn rõ ràng về phân chia lao động trong lập trình AI: con người quyết định xây dựng gì, trí tuệ nhân tạo quyết định cách xây dựng.

Chúng tôi cũng thấy bằng chứng cho thấy, thực sự làm tăng hiệu quả sử dụng công cụ là kiến thức chuyên ngành, chứ không phải kỹ năng lập trình thuần thục. Đặc biệt, các chuyên gia lĩnh vực dễ thành công hơn và dễ phục hồi sau lỗi hoặc hiểu lầm hơn. Tuy nhiên, khoảng cách giữa người dùng trung cấp và chuyên gia không lớn. Điều này cho thấy, chỉ cần có đủ thành thạo trong một lĩnh vực, gần như có thể sử dụng các công cụ này một cách hiệu quả như các chuyên gia sâu.

Những phát hiện này giúp chúng tôi sơ bộ hình dung về những thay đổi có thể xảy ra trên thị trường lao động. Trong dữ liệu của chúng tôi, thành công phụ thuộc vào việc người đó có hiểu rõ vấn đề cần giải quyết hay không, chứ không phải họ có được đào tạo lập trình hay không. Nếu các mô hình này đúng trong toàn bộ nền kinh tế, điều đó có nghĩa là, trong khi các công cụ lập trình AI có thể đang tiếp nhận một số công việc chủ yếu về thực hiện, thì chúng cũng đang thưởng cho những người thực sự hiểu rõ vấn đề của mình. Việc lập trình trí tuệ nhân tạo không thay thế kiến thức lĩnh vực. Ngược lại, càng hiểu rõ lĩnh vực, người làm việc càng có thể hướng dẫn AI hoàn thành các công việc chất lượng cao hơn.

Phân chia lao động

Người dùng Claude Code làm gì

Để hiểu rõ ai đang làm những công việc này, chúng tôi phân loại từng cuộc trò chuyện vào một trong chín mô hình công việc, dựa trên hoạt động mô tả mục tiêu của cuộc trò chuyện đó. Trong đó, bốn mô hình liên quan trực tiếp đến viết hoặc bảo trì mã: xây dựng thứ mới, sửa chữa thứ hỏng, kiểm thử mã, và phối hợp các trí tuệ nhân tạo hoặc tự động hóa dòng chảy công việc. Một nhóm khác liên quan đến thao tác phần mềm: triển khai, cấu hình, vận hành dòng chảy, giám sát hệ thống. Hai nhóm nữa tập trung vào việc hiểu "cần làm gì": hiểu cách hoạt động của hệ thống hiện có, và lập kế hoạch thay đổi trước khi bắt đầu. Cuối cùng, hai nhóm không liên quan đến mã nguồn hoặc chỉ dùng mã như một phần hỗ trợ trong phân tích dữ liệu hoặc giao tiếp qua trình bày, tài liệu dựa trên văn bản.

Khoảng 56% các cuộc trò chuyện gồm viết mã (25%), sửa mã (26%), hoặc kiểm thử và phối hợp mã (5%). Thao tác phần mềm chiếm 17%, lập kế hoạch hoặc khám phá chiếm 14%, phân tích hoặc viết văn bản chiếm 13% (xem Hình 1).

> Hình 1: Chín mô hình công việc. Mỗi cuộc trò chuyện tương tác đều được phân loại theo mô hình công việc phù hợp nhất với mục tiêu của nó.

Chúng tôi bắt đầu bằng cách để mô hình đọc toàn bộ hồ sơ cuộc trò chuyện, sau đó phân loại từng cuộc dựa trên đó; tiếp theo, dùng công cụ phân tích bảo vệ quyền riêng tư của chúng tôi để so sánh kết quả phân loại với dữ liệu telemetry tự ghi của mỗi cuộc, bao gồm việc có thêm hoặc bớt dòng mã hay không. Hai nguồn này có độ nhất quán cao. Ví dụ, trong các cuộc trò chuyện được phân loại là tạo hoặc chỉnh sửa mã, hơn 90% trong telemetry cũng cho thấy có thay đổi mã nguồn. Chi tiết xem phụ lục.

Ai quyết định

Khả năng tự chủ của Claude Code mạnh đến mức nào? Đánh giá khả năng cho thấy, giới hạn của nó đã rất cao và vẫn đang tăng lên. Ví dụ, trong các bài kiểm tra tiêu chuẩn như METR, các mô hình tiên tiến hiện có thể tự hoàn thành các nhiệm vụ phần mềm vốn cần hàng giờ của con người, và tự vượt qua các trở ngại trong quá trình đó. Nhưng trong thực tế, tình hình ra sao? Ở đây, chúng tôi tập trung vào việc trong các cuộc trò chuyện thực tế, con người và Claude đã dẫn dắt nhau như thế nào.

Chúng tôi nghiên cứu vấn đề này từ hai góc độ. Thứ nhất, mức độ người dùng giao quyết định cho Claude; thứ hai, họ phân bổ bao nhiêu hành động cho Claude. Để hiểu phân chia quyết định trong một cuộc trò chuyện, chúng tôi xây dựng một bộ phân loại dựa trên nội dung cuộc trò chuyện, có bảo vệ quyền riêng tư. Bộ phân loại này liệt kê tất cả các quyết định có ý nghĩa, rồi phân chúng thành quyết định lập kế hoạch và quyết định thực thi. Quyết định lập kế hoạch gồm: làm gì, chọn phương pháp nào, xem xét hoàn thành ra sao; quyết định thực thi gồm: sửa những tệp nào, viết mã gì, dùng ngôn ngữ nào, chạy lệnh nào. Sau đó, bộ phân loại sẽ gán mỗi quyết định cho Claude hoặc người dùng, và tạo ra hai số: tỷ lệ quyết định lập kế hoạch do người dùng đảm nhận, và tỷ lệ quyết định thực thi do người dùng đảm nhận.

Trung bình, con người thực hiện khoảng 70% các quyết định lập kế hoạch, nhưng chỉ khoảng 20% các quyết định thực thi (xem Hình 2). Trong thực tế, lập trình AI tạo ra phân chia rõ ràng về lao động: con người quyết định xây dựng gì, AI quyết định cách xây dựng.

Để hiểu mức độ ủy thác hành động trong một cuộc trò chuyện, chúng tôi không xem nội dung, mà xem cấu trúc cuộc trò chuyện. Các cuộc trò chuyện Claude thường gồm các vòng trao đổi giữa Claude và người dùng: người gửi lệnh, Claude thực hiện hành động; rồi người dùng gửi lệnh tiếp theo, cứ thế lặp lại. Trong các cuộc điển hình, số vòng khoảng bốn. Trong dữ liệu từ tháng 10 đến tháng 4, mỗi lệnh của người dùng trung bình kích hoạt Claude thực hiện khoảng 10 hành động, thậm chí có lúc hơn 100. Trong mỗi vòng, Claude đọc tệp, chỉnh sửa mã, chạy lệnh, trung bình xuất ra khoảng 2400 từ.

Khối lượng công việc Claude hoàn thành giữa hai lần kiểm tra của người dùng phụ thuộc lớn vào ai đang dẫn dắt. Khi người dùng giữ quyền kiểm soát thực thi, tức là họ quyết định hơn 80% các hành động, thì Claude thực hiện ít hơn, khoảng 8 hành động mỗi vòng. Ngược lại, khi Claude nắm quyền lập kế hoạch, tức là nó quyết định hơn 80% các quyết định lập kế hoạch, thì số hành động cao nhất, khoảng 16.

> Hình 2: Tỷ lệ phân chia quyết định lập kế hoạch và thực thi của Claude. Hình này thể hiện tỷ lệ các quyết định lập kế hoạch (làm gì) và thực thi (làm thế nào) do Claude hoặc người dùng đảm nhận trong các cuộc trò chuyện điển hình. Trong đó, người dùng thực hiện khoảng 70% các quyết định lập kế hoạch, còn Claude thực hiện khoảng 80% các quyết định thực thi.

Chuyên môn

Dựa trên từng cuộc trò chuyện, Claude sẽ đánh giá mức độ chuyên môn của người dùng theo thang năm cấp độ, từ mới bắt đầu đến chuyên gia. Bộ phân loại mức độ chuyên môn dựa trên ba tín hiệu: độ chính xác của lệnh người dùng đưa ra, yêu cầu Claude xác minh gì, và ai thường sửa lỗi hơn: người dùng hay Claude. Cần lưu ý rằng, mức độ chuyên môn này hoàn toàn khác với chức vụ hoặc năng lực chung, và quan trọng là nó phù hợp với từng nhiệm vụ cụ thể. Một kỹ sư dày dạn lần đầu hỏi về Rust, vẫn có thể là người mới bắt đầu trong nhiệm vụ Rust. Một kế toán chưa từng dùng Python, nhưng có thể chính xác chỉ rõ các quy tắc đối soát trong một script Python, và nhận biết các trường hợp sai sót trong tháng cuối, thì người này là chuyên gia trong nhiệm vụ đó.

Bảng dưới đây mô tả cách chúng tôi định nghĩa các cấp độ chuyên môn trong bộ phân loại, cùng ví dụ yêu cầu từ bộ dữ liệu mở về các cuộc trò chuyện lập trình trí tuệ nhân tạo SWE-chat. Các cuộc trò chuyện được phân loại là "mới bắt đầu" thường chỉ đưa ra các lệnh chung chung, không thể hiện kiến thức lĩnh vực rõ ràng; còn các cuộc trò chuyện "chuyên gia" thể hiện hiểu biết sâu về mã nguồn và môi trường kỹ thuật.

> Bảng 1: Bộ phân loại mức độ chuyên môn. Các ví dụ về cuộc trò chuyện thực tế đã được chỉnh sửa, ẩn danh và nén, và được bộ phân loại của chúng tôi gán nhãn. Nhiều ví dụ đến từ bộ dữ liệu mở về các cuộc trò chuyện lập trình trí tuệ nhân tạo SWE-chat.

Chúng tôi đo lường mối quan hệ giữa mức độ chuyên môn và số lượng hoạt động, cũng như output của Claude mỗi lệnh. Trong các cuộc trò chuyện của người mới bắt đầu, mỗi lệnh kích hoạt Claude thực hiện khoảng 5 hành động, và xuất ra khoảng 600 từ; còn trong các cuộc trò chuyện của chuyên gia, chuỗi hành động dài gấp đôi, khoảng 12 hành động, và lượng output đạt khoảng 3200 từ, gấp năm lần so với người mới (xem Hình 3). Khoảng cách này giữa mới bắt đầu và chuyên gia xuất hiện trong mọi loại công việc và mọi mức giá trị nhiệm vụ.

Các chỉ số này bổ sung cho các nghiên cứu trước về tự chủ của Claude Code. Trước đó, chúng tôi theo dõi thời gian hoạt động của trí tuệ nhân tạo, và tần suất người dùng tự phê duyệt các hành động của nó. Ngược lại, các chỉ số phân tích quyết định của chúng tôi tập trung vào ai thực hiện các quyết định quan trọng trong toàn bộ cuộc trò chuyện, còn số lượng output và hành động mỗi lệnh kích hoạt đo lường mức độ tự chủ của Claude khi nhận lệnh của con người.

> Hình 3: Người dùng chuyên nghiệp hơn, Claude thực hiện nhiều công việc hơn mỗi lệnh. Mức độ chuyên môn cao hơn, thì số hành động (trục trái) và lượng văn bản (trục phải) do Claude tạo ra mỗi lệnh nhiều hơn. Hộp thể hiện phân vị bốn phần tư, chia tại trung vị. Dấu cộng trắng là trung bình hình học. Cả hai xu hướng tăng đều có ý nghĩa thống kê (p < 0.001), và sự khác biệt giữa các cấp độ chuyên môn liền kề cũng có ý nghĩa thống kê. Khi kiểm soát các mô hình công việc, giá trị nhiệm vụ, tháng, nghề nghiệp và dòng mô hình, cũng như theo tiêu chuẩn phân nhóm người dùng, xu hướng này vẫn rõ ràng: mỗi cấp độ chuyên môn tăng một bậc, số hành động tăng 9%, lượng output tăng 13%.

Ai đang sử dụng Claude Code, và họ làm gì với nó

Người dùng

Để hiểu rõ ai đang làm các công việc này, chúng tôi dựa trên hồ sơ cuộc trò chuyện để suy ra nghề nghiệp của từng người dùng, rồi ánh xạ vào một trong 23 nhóm nghề chính của hệ thống phân loại nghề nghiệp Hoa Kỳ (SOC). Bộ phân loại này chỉ dựa trên các tín hiệu sau: bối cảnh dự án tải vào đầu cuộc trò chuyện, tên và cấu trúc tệp, tài liệu hoặc sản phẩm người dùng trích dẫn, như tài liệu pháp lý, dữ liệu lâm sàng, báo cáo tài chính, tài liệu học tập, v.v., và từ vựng người dùng sử dụng. Bộ phân loại được yêu cầu không coi "đang viết mã" là bằng chứng nghề nghiệp lập trình. Chỉ khi có tín hiệu rõ ràng cho thấy công việc của người dùng liên quan đến phần mềm hoặc dữ liệu, thì cuộc trò chuyện mới được phân vào nhóm nghề liên quan đến lập trình, như "nghề nghiệp trong lĩnh vực máy tính và toán học". Ví dụ, một luật sư viết script để tự kiểm tra các điều khoản thiếu trong hợp đồng, dù chủ yếu là viết phần mềm, vẫn sẽ được phân vào nghề luật. Nếu không có tín hiệu nào về nghề nghiệp của người dùng, cuộc trò chuyện sẽ không được phân loại.

Chúng tôi có thể suy ra nghề nghiệp trong khoảng 70% các cuộc trò chuyện. Trong các cuộc phân loại này, "nghề nghiệp trong lĩnh vực máy tính và toán học" là lớn nhất, không có gì ngạc nhiên vì nhóm này bao gồm phần lớn các công việc liên quan đến phần mềm. Tiếp theo là các lĩnh vực hoạt động kinh doanh và tài chính, nghệ thuật truyền thông, quản lý, cùng các ngành khoa học đời sống, vật lý, xã hội. Trong mẫu dữ liệu của chúng tôi, nhóm nghề không liên quan đến phần mềm phát triển nhanh nhất là quản lý, bán hàng và pháp lý.

Công việc

Từ tháng 10 năm 2025 đến tháng 4 năm 2026, cấu trúc các công việc thực hiện bằng Claude Code đã thay đổi rõ rệt. Thay đổi rõ nhất là tỷ lệ các cuộc trò chuyện sửa mã hỏng giảm từ 33% xuống còn 19% (xem Hình 4). Thay vào đó, các công việc liên quan đến mã tăng lên. Tỷ lệ thao tác phần mềm tăng từ 14% lên 21%. Các nhiệm vụ viết và phân tích dữ liệu gần như gấp đôi, từ khoảng 10% lên khoảng 20%.

Giá trị của các nhiệm vụ cũng tăng lên. Chúng tôi ước tính giá trị kinh tế của mỗi cuộc trò chuyện dựa trên chi phí tương đương trên thị trường tự do, đã điều chỉnh theo dữ liệu tuyển dụng thực tế. Theo chỉ số này, giá trị trung bình của mỗi cuộc trò chuyện đã tăng 27% từ tháng 10 đến tháng 4. Sự tăng này xuất hiện trong nhiều loại công việc. Các nhiệm vụ xây dựng, vận hành, sửa chữa tăng lần lượt khoảng 43%, 34% và 32%. Các ước tính này khá sơ bộ, chủ yếu để so sánh xu hướng thay đổi theo thời gian giữa các nhiệm vụ, chứ không phải để xác định giá trị đô la trực tiếp. Chi tiết về cách xây dựng bộ ước lượng giá trị nhiệm vụ xem trong phụ lục.

> Hình 4: Thay đổi cấu trúc công việc và giá trị của Claude Code từ tháng 10 năm 2025 đến tháng 4 năm 2026. Hình này thể hiện tỷ lệ các mô hình công việc trong các cuộc trò chuyện trong vòng bảy tháng. Tỷ lệ sửa mã hỏng giảm từ 33% xuống còn 19%, trong khi tỷ lệ thao tác phần mềm, phân tích dữ liệu và viết tài liệu tăng lên.

Thành công phụ thuộc vào những gì người dùng mang lại

Ước lượng giá trị nhiệm vụ là một cách để hiểu cách Claude Code giúp mọi người hoàn thành công việc. Một cách khác là quan sát tỷ lệ thành công của các cuộc trò chuyện, và các đặc điểm của chúng liên quan đến thành công. Trong tất cả các chỉ số thành công, chúng tôi nhận thấy một mẫu rõ ràng: mức độ chuyên môn của người dùng thể hiện trong cuộc trò chuyện càng cao, khả năng thành công càng lớn. Phần lớn lợi ích tập trung ở mức độ thấp hơn, nghĩa là, khoảng cách giữa mới bắt đầu và trung cấp lớn hơn khoảng cách từ trung cấp đến chuyên gia.

Trước khi phân tích các đặc điểm của các cuộc trò chuyện thành công, chúng tôi cần xác định chính xác cách đo lường thành công. Chúng tôi không thể quan sát kết quả thực tế trong thế giới thực của người dùng, cũng không thể hỏi trực tiếp họ đã hoàn thành mục tiêu của mình qua Claude hay chưa. Do đó, chúng tôi dựa vào hai phương pháp đo lường dựa trên hồ sơ cuộc trò chuyện, bổ sung cho nhau. Phương pháp thứ nhất là "xác định thành công", sau khi bộ phân loại đọc toàn bộ hồ sơ, sẽ đánh giá xem người dùng đã hoàn thành mục tiêu ban đầu hay chưa, với các mức: thành công, phần thành công, thất bại, không rõ mục tiêu. Sau đó, hai bộ phân loại bổ sung sẽ đánh giá độ tin cậy của kết luận này để xác định "thành công đã được xác nhận". Bộ phân loại tín hiệu thành công sẽ tìm kiếm các bằng chứng xác thực về thành công, đặc biệt là các hoạt động git phù hợp như gửi commit, pull request, kiểm thử thành công, hoặc người dùng rõ ràng xác nhận. Nó sẽ chấm điểm cuộc trò chuyện theo thang từ "không có tín hiệu" đến "tín hiệu yếu" (1 điểm) và "nhiều tín hiệu cứng" (5 điểm). Bộ phân loại tín hiệu thất bại sẽ chấm điểm các bằng chứng lỗi, như lỗi, thất bại kiểm thử, cố gắng nhiều lần, hoặc phản đối kết quả của người dùng. Thành công xác thực đòi hỏi cả hai điều kiện: cuộc trò chuyện được đánh giá là thành công, và ít nhất có một bằng chứng xác thực thành công cứng. Phân tích này tập trung vào mức độ thành công hoặc thất bại của cuộc trò chuyện, do đó loại trừ các cuộc được bộ phân loại thành công không rõ mục tiêu, chiếm khoảng 7.7% tổng mẫu.

Phần thưởng theo trình độ chuyên môn

Vậy, những cuộc trò chuyện nào dễ thành công nhất? Kết quả cho thấy, điểm đánh giá mức độ chuyên môn của người dùng như đã đề cập, có ảnh hưởng lớn đến khả năng thành công của cuộc trò chuyện.

Có thể có lo ngại rằng, trình độ chuyên môn không phải là yếu tố thực sự quyết định. Có thể các chuyên gia chỉ chọn các nhiệm vụ khác, hoặc có các đặc điểm khác biệt. Trong phần này, chúng tôi so sánh các cuộc trò chuyện cùng loại công việc, cùng giá trị ước tính, cùng tháng, cùng chủ đề, cùng nhóm nghề nghiệp, để phần nào phản hồi mối lo này, và xem xét cách các mức độ chuyên môn khác nhau ảnh hưởng đến kết quả.

> Bảng 2: Định nghĩa thành công và thất bại dựa trên bộ phân loại. Ví dụ từ bộ dữ liệu cuộc trò chuyện tương tác mở SWE-chat, đã được chỉnh sửa, ẩn danh và rút gọn, và được bộ phân loại của chúng tôi gán nhãn.

Trong tất cả các chỉ số thành công, mức độ chuyên môn cao hơn của người dùng trong cuộc trò chuyện làm tăng khả năng thành công. Các cuộc trò chuyện được đánh giá là "mới bắt đầu" có tỷ lệ thành công theo tiêu chuẩn "thành công đã được xác nhận" là 15%, và ít nhất phần thành công là 77%. Trong khi đó, các cuộc trò chuyện "trung cấp" trở lên có tỷ lệ thành công xác thực từ 28% đến 33%, và phần thành công từ 91% đến 92% (xem Hình 5).

Trong từng chỉ số, phần lớn lợi ích đến từ việc nâng cấp từ mới bắt đầu lên trung cấp; còn từ trung cấp đến chuyên gia, độ dốc sẽ giảm. Chi tiết phân tích hồi quy phía sau Hình 5 xem trong phụ lục.

> Hình 5: Mối quan hệ giữa trình độ chuyên môn và kết quả cuộc trò chuyện. Hình này thể hiện kết quả cuộc trò chuyện theo năm cấp độ đánh giá của người dùng, từ mới bắt đầu đến chuyên gia. Hình trái gồm tất cả các cuộc trò chuyện. Hình giữa và phải chỉ gồm các cuộc gặp vấn đề, tức là các cuộc có tín hiệu thất bại lớn hơn 3, và thể hiện tỷ lệ các cuộc đạt các mức thành công hoặc thất bại khác nhau. Mỗi điểm là tỷ lệ đã điều chỉnh. Chúng tôi so sánh các cuộc có cùng mô hình công việc, cùng giá trị nhiệm vụ, cùng tháng, cùng chủ đề, và cùng loại người dùng (liên quan đến phần mềm hay không), để ước lượng sự khác biệt giữa các trình độ. Chi tiết hồi quy xem trong phụ lục. Dải lỗi là khoảng tin cậy 95% dựa trên các tài khoản khác nhau; phần lớn không thấy rõ do quá nhỏ. Các hình này loại trừ các cuộc được phân loại là "không rõ mục tiêu" trong kết quả thành công.

Trong các cuộc gặp khó khăn, cũng có thể thấy xu hướng tương tự. Khi tín hiệu thất bại xác thực xuất hiện, chúng tôi gọi là "gặp vấn đề". Điều này có thể bao gồm lỗi, thất bại kiểm thử, nhiều lần thử, hoặc người dùng thể hiện thất vọng, không hài lòng. Trong các cuộc gặp vấn đề, sau khi kiểm soát các biến, tỷ lệ thành công xác thực tăng từ 4% ở người mới bắt đầu lên 15% ở người chuyên gia (xem Hình 5). Nếu dùng các tiêu chuẩn thành công rộng hơn, tỷ lệ ít nhất phần thành công ở người mới bắt đầu là 60%, còn ở các nhóm trung cấp đến chuyên gia là 80-81%.

Chúng tôi cũng theo dõi mối quan hệ ngược lại, giữa trình độ chuyên môn và các chỉ số thất bại. Lưu ý rằng, trong phân tích này, các cuộc gọi là thất bại là những cuộc không đạt được phần nào thành công. Nếu một cuộc gặp vấn đề mà không viết ra dòng mã nào, gọi là "bỏ cuộc". Trong các cuộc của người mới bắt đầu, có 19% cuối cùng bị bỏ cuộc; còn các nhóm khác, tỷ lệ này là 5-7%. Nói cách khác, người ít kinh nghiệm hơn dễ bỏ cuộc hơn khi gặp khó khăn. Một phần giá trị của trình độ chuyên môn là khả năng hướng dẫn AI trở lại đúng hướng.

Nghề nghiệp có thể không quan trọng bằng trình độ chuyên môn

Người dùng thuộc các nghề liên quan đến phần mềm có tỷ lệ thành công xác thực khoảng 30%, còn các nghề khác là 26%. Trong các cuộc sinh mã, tức ít nhất có thêm hoặc sửa đổi một dòng mã, tỷ lệ này lần lượt là 34% và 29% (xem Hình 6). Nếu dùng các tiêu chuẩn thành công rộng hơn, sự chênh lệch giữa các nghề này sẽ nhỏ hơn nữa. Trong các cuộc sinh mã, tỷ lệ đạt ít nhất phần thành công của hai nhóm là 89% và 88%. Chênh lệch 5 điểm phần trăm này không lớn, và trong bảy tháng, không mở rộng cũng không thu hẹp, mặc dù tỷ lệ thành công của cả hai nhóm đều tăng. Trong 10 nhóm nghề lớn nhất trong dữ liệu của chúng tôi, mỗi nhóm đều có tỷ lệ thành công trong phạm vi chênh lệch dưới 7 điểm phần trăm so với kỹ sư phần mềm. Nghề quản lý có tỷ lệ thành công xác thực cao nhất, cao hơn một chút so với nghề phần mềm. Tỷ lệ thành công cao hơn của quản lý có thể phản ánh khả năng chuyển giao kỹ năng quản lý sang chỉ huy AI. Nhưng cũng có thể một phần do cách đo lường của chúng tôi: việc xác nhận phần lớn dựa vào xác nhận rõ ràng của người dùng trong cuộc trò chuyện, và quản lý có thể quen thể hiện rõ khi đạt được kết quả mong muốn.

> Hình 6: Tỷ lệ thành công của các cuộc sinh mã theo nghề nghiệp dự đoán. Hình này thể hiện tỷ lệ thành công theo tiêu chuẩn chặt chẽ, gồm cả xác định thành công và xác nhận thành công, trong các cuộc có ít nhất một dòng mã mới hoặc sửa đổi, phân theo nghề nghiệp dự đoán của người dùng. Trong đó, 10 nhóm nghề lớn nhất được thể hiện. Mỗi nhóm, so với nhóm nghề "máy tính và toán học" (SOC), chênh lệch tỷ lệ thành công đều dưới 7 điểm phần trăm. Dải lỗi thể hiện khoảng tin cậy 95% dựa trên các tài khoản khác nhau.

Triển vọng

Báo cáo này phác thảo một bức tranh đang hình thành: lập trình AI đang mở rộng một số kiến thức và kỹ năng, đồng thời thay thế một số kỹ năng khác. Trong các cuộc trò chuyện sinh mã, các nghề chính đều có tỷ lệ thành công gần như ngang bằng nghề liên quan đến phần mềm. Có vẻ như, việc lập trình trí tuệ nhân tạo đang làm cho việc có nền tảng lập trình trở nên ít quan trọng hơn để hoàn thành nhiệm vụ lập trình.

Cùng lúc, các cuộc trò chuyện thành công thường thể hiện rõ kiến thức chuyên ngành. Các cuộc trò chuyện của chuyên gia có tỷ lệ thành công xác thực gấp hơn hai lần các cuộc của người mới bắt đầu. Khi gặp vấn đề, tỷ lệ người mới bỏ cuộc cao gấp nhiều lần các nhóm khác. Phương thức hợp tác này làm rõ hơn bức tranh: các chuyên gia lĩnh vực có thể dùng từng lệnh để hướng dẫn Claude hoàn thành nhiều công việc hơn. Do đó, khả năng dẫn dắt Claude thành công phần lớn dựa vào kiến thức lĩnh vực, chứ không phải khả năng viết mã. Những người có kiến thức lĩnh vực vững chắc, hiện nay có thể hoàn thành các công việc kỹ thuật trước đây không thể làm được. Trong khi đó, những người thiếu hiểu biết chuyên sâu, dù dùng cùng công cụ, sẽ thu được ít lợi ích hơn nhiều. Và, lợi ích chủ yếu đến từ khả năng vận dụng, chứ không phải từ trình độ chuyên sâu. Có thể hiểu rõ một lĩnh vực đã đủ để đạt phần lớn lợi ích; chuyên sâu hơn chỉ mang lại lợi ích nhỏ thêm.

Các phát hiện này vẫn còn sơ bộ. Giống như nhiều nghiên cứu khác của chúng tôi, chúng tôi chưa thể đo lường kết quả thực tế trong thế giới thật, như mã nguồn viết ra có được sử dụng hay bị bỏ đi, hoặc có tạo ra giá trị kinh tế hay không. Thêm vào đó, các hoạt động không tương tác, chiếm phần lớn hoạt động tổng thể, chưa được đo lường. Việc xây dựng một khung để đo lường các dạng sử dụng này là một hướng nghiên cứu trong tương lai. Và, tất cả các phân loại cuộc trò chuyện của chúng tôi đều dựa trên việc mô hình đọc hồ sơ cuộc trò chuyện. Trong phụ lục, chúng tôi trình bày rằng bộ phân loại của chúng tôi phù hợp với các dữ liệu telemetry độc lập, và trong đa số cuộc, đều phù hợp với các đánh giá tham khảo mạnh mẽ. Tuy nhiên, trong các kịch bản quy mô lớn, việc xác nhận bộ phân loại vẫn còn khó khăn; các cuộc trò chuyện Claude Code cũng phức tạp hơn, có thể dài và phức tạp quá mức để dựa vào đánh giá thủ công làm chuẩn.

Khi mô hình, người dùng, và cách phân chia lao động giữa họ tiếp tục thay đổi, các hình ảnh trong báo cáo này cũng sẽ liên tục cập nhật. Chúng tôi hy vọng các chỉ số này sẽ giúp chúng ta theo dõi các biến đổi lớn đang diễn ra. Ví dụ, nếu trong tương lai, phần thưởng dựa trên trình độ chuyên môn bắt đầu giảm, điều đó sẽ cho thấy mô hình bắt đầu cung cấp các quyết định then chốt mà người dùng hiện tại cần, và lợi ích của các công cụ này sẽ mở rộng từ các chuyên gia lĩnh vực sang nhiều người hơn. Nếu tỷ lệ thành công của người dùng ngoài lĩnh vực phần mềm tiếp tục tăng, có thể hiểu rằng, quá trình sản xuất phần mềm đang trở thành một phần của công việc phổ biến trong các lĩnh vực khác, không còn là đặc thù của một nghề. Những biến đổi này sẽ thay đổi ai sẽ hưởng lợi từ lập trình AI, và mức độ lợi ích, cũng như ảnh hưởng đến các kỹ năng được coi trọng nhất trong thị trường lao động.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim