Google chính thức phát hành Gemma 4 vào ngày 2 tháng 4 năm 2026, như một trong những mô hình mã nguồn mở mạnh mẽ nhất cho đến nay. Gemma 4 đạt những bước đột phá quan trọng về gọi hàm nguyên sinh, quy trình làm việc của tác nhân (agent) và nhận thức đa phương thức, đồng thời áp dụng giấy phép Apache 2.0 thân thiện với doanh nghiệp, mang lại mức độ tự do và linh hoạt chưa từng có cho các nhà phát triển và doanh nghiệp trên toàn cầu.
Gemma 4 là gì? Nắm ngay các đặc điểm cốt lõi
Gemma 4 là dòng mô hình ngôn ngữ lớn mã nguồn mở do Google DeepMind giới thiệu, dùng chung công nghệ với các mô hình thuộc hệ Gemini. Các điểm nổi bật cốt lõi bao gồm:
Khả năng suy luận nâng cao: Hỗ trợ lập kế hoạch theo nhiều bước và suy luận logic sâu, vượt trội đáng kể so với các mô hình mã nguồn mở cùng phân khúc trong các bài kiểm tra chuẩn về toán học và tuân thủ lệnh.
Quy trình tác nhân nguyên sinh: Tích hợp sẵn gọi hàm, đầu ra JSON có cấu trúc và hỗ trợ chỉ dẫn hệ thống, có thể trực tiếp điều khiển các tác nhân AI tự chủ và thực thi các nhiệm vụ nhiều bước.
Triển khai tại chỗ: Các phiên bản E2B và E4B được tối ưu riêng cho điện thoại và các thiết bị khác, có thể chạy hoàn toàn khi không có mạng.
Hỗ trợ đa phương thức toàn diện: Tất cả các phiên bản đều hỗ trợ đầu vào hình ảnh và video nguyên sinh; E2B và E4B bổ sung hỗ trợ đầu vào âm thanh nguyên sinh.
Cửa sổ ngữ cảnh siêu dài: Mô hình biên (edge) hỗ trợ 128K token, trong khi các mô hình lớn hơn đạt tối đa 256K token, cho phép đưa toàn bộ kho mã nguồn hoặc tài liệu dài vào một lần nhắc.
Tạo mã nguồn chất lượng cao: Hỗ trợ viết mã nguồn khi không cần mạng, có thể biến máy trạm cá nhân thành một trợ lý thiết kế AI thiên về cục bộ.
Huấn luyện nguyên sinh hơn 140 ngôn ngữ: Hỗ trợ hơn 140 ngôn ngữ trên toàn cầu, giúp nhà phát triển xây dựng các ứng dụng đa ngôn ngữ để phục vụ người dùng quốc tế.
Bốn loại mô hình, tối đa hóa hỗ trợ mọi tình huống ứng dụng
Gemma 4 ra mắt bốn phiên bản, được tối ưu cho các môi trường phần cứng và kịch bản ứng dụng khác nhau:
Effective 2B (E2B): Được thiết kế riêng cho thiết bị di động và IoT, hỗ trợ cửa sổ ngữ cảnh 128K, đầu vào âm thanh nguyên sinh, và có thể chạy hoàn toàn offline trên các thiết bị biên như điện thoại Android, Raspberry Pi.
Effective 4B (E4B): Cũng được tối ưu cho phía biên, có năng lực đa phương thức, cân bằng xuất sắc giữa hiệu năng suy luận và mức sử dụng bộ nhớ.
26B Mixture of Experts (MoE): Khi suy luận chỉ kích hoạt 3,8 tỷ tham số, đạt suy luận tốc độ cao với độ trễ rất thấp, phù hợp cho triển khai trên máy trạm cục bộ chú trọng thông lượng.
31B Dense: Phiên bản flagship, xếp thứ ba trên bảng xếp hạng chữ Arena AI, cung cấp đầu ra chất lượng cao nhất, và có thể chạy đầy đủ trên 1 GPU NVIDIA H100 80GB.
Các phiên bản lượng tử hóa của 26B MoE và 31B Dense còn có thể thực thi nguyên sinh trên card đồ họa phổ thông, giúp năng lực suy luận AI mạnh mẽ được phổ cập thực sự tới máy tính để bàn của nhà phát triển cá nhân.
Bước đột phá lớn cho suy luận tại chỗ: Tạm biệt sự phụ thuộc vào API
Một trong những điểm được chú ý nhất của Gemma 4 là nhấn mạnh vào năng lực “suy luận tại thiết bị (On-device)”. Các mô hình E2B và E4B được thiết kế nhằm tối đa hóa hiệu quả tính toán và hiệu quả bộ nhớ, có thể chạy gần như độ trễ bằng không trên các thiết bị biên như điện thoại, Raspberry Pi, NVIDIA Jetson Orin Nano và các nền tảng tương tự.
Điều này ảnh hưởng rất lớn đến nhà phát triển. Trước đây, việc gọi các API AI trên đám mây phải chịu chi phí cho mỗi lần yêu cầu, đồng thời tồn tại rủi ro độ trễ mạng và quyền riêng tư dữ liệu. Năng lực suy luận tại chỗ của Gemma 4 cho phép nhà phát triển chạy mô hình trên phần cứng của chính mình, giảm đáng kể chi phí gọi API, đồng thời có được toàn quyền dữ liệu và khả năng dùng offline.
Google cũng hợp tác chặt chẽ hơn với nhóm Pixel và các đối tác phần cứng di động như Qualcomm, MediaTek… để đảm bảo E2B/E4B đạt hiệu năng tối ưu trên các thiết bị Android phổ biến, đồng thời mở AICore Developer Preview cho các nhà phát triển Android nhằm giúp họ phát triển để tích hợp Gemini Nano 4.
Tăng cường quy trình làm việc của tác nhân AI, gọi hàm nguyên sinh giúp nâng cao hiệu quả
Gemma 4 cũng đạt hỗ trợ nguyên sinh trong lĩnh vực quy trình tác nhân (Agentic Workflows), đây là một trong những bước nhảy chức năng rõ rệt nhất so với thế hệ trước. Mô hình hỗ trợ:
Gọi hàm nguyên sinh (Function Calling): Mô hình có thể trực tiếp gọi các công cụ và API bên ngoài để thực hiện thao tác thực tế, ví dụ như truy vấn cơ sở dữ liệu, gọi dịch vụ bên thứ ba,…
Đầu ra JSON có cấu trúc: Đảm bảo đầu ra của mô hình tuân theo định dạng cụ thể, giúp tích hợp liền mạch với hệ thống phía sau.
Chỉ dẫn hệ thống nguyên sinh (System Instructions): Nhà phát triển có thể đặt hành vi của mô hình ở cấp hệ thống, giúp cài đặt vai trò cho tác nhân AI ổn định và nhất quán hơn.
Những năng lực này giúp Gemma 4 trở thành một tác nhân AI tự chủ “đa năng”: không chỉ trả lời câu hỏi mà còn chủ động tương tác với công cụ, tự động thực thi các quy trình công việc nhiều bước.
Nâng cấp toàn diện đa phương thức: thị giác, âm thanh, tài liệu dài đều có
Toàn bộ các mô hình trong hệ Gemma 4 đều có năng lực đa phương thức nguyên sinh, mở rộng đáng kể các loại nhiệm vụ có thể xử lý.
Hình ảnh và video
Về khả năng hiểu thị giác, tất cả các mô hình đều hỗ trợ xử lý nguyên sinh hình ảnh và video, hỗ trợ độ phân giải thay đổi, và thể hiện nổi bật trong các tác vụ thị giác như OCR (nhận dạng ký tự quang học) và hiểu biểu đồ.
Đầu vào âm thanh
Về âm thanh, các mô hình biên E2B và E4B bổ sung hỗ trợ đầu vào âm thanh nguyên sinh, có thể trực tiếp thực hiện nhận dạng và hiểu giọng nói, không cần thêm bước chuyển giọng nói thành chữ.
Ngữ cảnh siêu dài
Về tài liệu, các mô hình biên hỗ trợ cửa sổ ngữ cảnh 128K token, trong khi các mô hình lớn hơn cung cấp lên đến 256K token, giúp nhà phát triển truyền vào toàn bộ kho mã nguồn hoặc các tài liệu dài trong một lần nhắc.
Tạo mã nguồn khi offline
Hỗ trợ viết mã nguồn offline chất lượng cao, có thể biến máy trạm cá nhân thành một trợ lý thiết kế AI ưu tiên cục bộ.
Hỗ trợ hơn 140 ngôn ngữ
Huấn luyện nguyên sinh hơn 140 ngôn ngữ, hỗ trợ nhà phát triển xây dựng ứng dụng phục vụ người dùng toàn cầu.
Giấy phép Apache 2.0: Mốc quan trọng trong hệ sinh thái mã nguồn mở
Gemma 4 được phát hành theo giấy phép Apache 2.0, là một trong những giấy phép thân thiện với doanh nghiệp nhất trong cộng đồng mã nguồn mở. Nhà phát triển và doanh nghiệp có thể tự do sử dụng, sửa đổi và phân phối mô hình; dù triển khai trên hạ tầng riêng, môi trường đám mây lai, hay nhúng vào sản phẩm thương mại, đều không bị ràng buộc thêm.
Hỗ trợ toàn diện hệ sinh thái
Gemma 4 đồng thời nhận được sự hỗ trợ toàn diện từ các công cụ chủ chốt trong ngành, bao gồm Hugging Face (Transformers, TRL, Transformers.js), Ollama, vLLM, llama.cpp, MLX, LM Studio, NVIDIA NIM và NeMo, Keras, Vertex AI và nhiều công cụ khác.
Nhà phát triển có thể tải trực tiếp trọng số mô hình thông qua Hugging Face, Kaggle hoặc Ollama, và trải nghiệm trực tuyến các phiên bản 31B và 26B MoE trong Google AI Studio, hoặc dùng thử các phiên bản E2B và E4B thông qua Google AI Edge Gallery.
Đối với các doanh nghiệp cần triển khai quy mô lớn, Google Cloud cung cấp giải pháp đám mây đầy đủ, bao gồm Vertex AI, Cloud Run, GKE, Sovereign Cloud và dịch vụ suy luận gia tốc bằng TPU, loại bỏ giới hạn về năng lực tính toán tại chỗ.
Giảm chi phí nhưng không hy sinh năng lực: Gemma 4 là lựa chọn mới của các nhà phát triển
Việc phát hành Gemma 4 là một cột mốc trong các mô hình AI mã nguồn mở. Là công cụ cấp doanh nghiệp có khả năng triển khai sản xuất, nó có thể chạy offline trên điện thoại, gọi các công cụ bên ngoài để tự động hoàn thành nhiệm vụ, xử lý tài liệu dài và đầu vào đa phương thức, đồng thời cho phép mọi người sử dụng tự do.
Đối với các nhà phát triển và doanh nghiệp muốn vừa giảm chi phí gọi API vừa vẫn giữ được năng lực AI, Gemma 4 cung cấp một lộ trình cực kỳ hấp dẫn.
Bài viết việc Google ra mắt mô hình mã nguồn mở Gemma 4: “Tăng cường quy trình làm việc của tác nhân AI nhờ năng lực suy luận tại chỗ” xuất hiện sớm nhất trên truyền thông ABMedia.