Google DeepMind vừa chính thức trình làng Gemma 4 12B, phiên bản mới nhất trong dòng mô hình AI mã nguồn mở Gemma. Sản phẩm gây chú ý khi tích hợp khả năng xử lý văn bản, hình ảnh và âm thanh trong một kiến trúc thống nhất, đồng thời có thể chạy cục bộ trên các laptop phổ thông chỉ với 16GB bộ nhớ. Đây được xem là bước tiến quan trọng giúp AI đa phương thức trở nên dễ tiếp cận hơn với cộng đồng phát triển.
Gemma 4 12B là gì?
Gemma 4 12B là mô hình AI mới do Google DeepMind phát triển, nằm giữa phiên bản Gemma 4B tối ưu cho thiết bị biên (edge devices) và mô hình Gemma 26B Mixture of Experts (MoE) có hiệu năng cao hơn.
Theo Google, mục tiêu của Gemma 4 12B là mang năng lực AI đa phương thức (multimodal AI) đến trực tiếp các thiết bị cá nhân như laptop, thay vì phụ thuộc hoàn toàn vào hạ tầng đám mây.
Điểm nổi bật của mô hình này là khả năng xử lý đồng thời nhiều loại dữ liệu như: Văn bản, hình ảnh và âm thanh. Đặc biệt, đây là phiên bản Gemma tầm trung đầu tiên hỗ trợ đầu vào âm thanh gốc (native audio input).

Kiến trúc encoder-free giúp Gemma 4 12B hoạt động hiệu quả hơn
Một trong những cải tiến lớn nhất của Gemma 4 12B nằm ở kiến trúc “encoder-free” hoàn toàn mới.
Thông thường, các mô hình AI đa phương thức sẽ cần những bộ mã hóa (encoder) riêng biệt để chuyển đổi hình ảnh hoặc âm thanh thành dữ liệu mà mô hình ngôn ngữ có thể hiểu được. Tuy nhiên, cách tiếp cận này thường làm tăng độ trễ và tiêu tốn nhiều bộ nhớ.
Xử lý hình ảnh trực tiếp
Với Gemma 4 12B, Google đã loại bỏ vision encoder truyền thống, thay thế bằng một lớp nhúng (embedding) nhẹ chỉ bao gồm phép nhân ma trận, mã hóa vị trí và chuẩn hóa dữ liệu. Sau đó, toàn bộ quá trình phân tích được giao cho mô hình ngôn ngữ chính đảm nhiệm.
Xử lý âm thanh không cần encoder
Ở phần âm thanh, Google còn đi xa hơn khi loại bỏ hoàn toàn audio encoder. Tín hiệu âm thanh thô sẽ được ánh xạ trực tiếp vào cùng không gian biểu diễn với các token văn bản. Nhờ đó, Gemma 4 12B có thể thực hiện các tác vụ như ghi âm, phiên âm, định dạng và dịch thuật ngoại tuyến mà không cần kết nối Internet.
Hiệu năng mạnh mẽ nhưng vẫn phù hợp với laptop phổ thông
Google cho biết Gemma 4 12B đạt hiệu suất gần tương đương với mô hình Gemma 26B trên nhiều bài kiểm tra tiêu chuẩn, trong khi chỉ yêu cầu chưa đến một nửa dung lượng bộ nhớ. Mô hình có thể hoạt động cục bộ trên các thiết bị sở hữu khoảng 16GB VRAM hoặc bộ nhớ hợp nhất (Unified Memory), mở ra khả năng xây dựng các ứng dụng AI ngay trên laptop cá nhân.
Ngoài ra, Gemma 4 12B còn được tích hợp công nghệ Multi-Token Prediction (MTP), giúp giảm độ trễ trong quá trình sinh nội dung và tăng tốc phản hồi của hệ thống. Đây là yếu tố quan trọng đối với các ứng dụng AI tác nhân (AI Agent), vốn cần xử lý nhiều bước suy luận liên tiếp.

Google mở rộng hệ sinh thái Gemma cho cộng đồng phát triển
Google cho biết dòng Gemma hiện đã vượt mốc 150 triệu lượt tải xuống trên toàn cầu. Cộng đồng phát triển đã sử dụng các mô hình này để xây dựng nhiều dự án đa dạng, từ cánh tay robot hỗ trợ người khuyết tật cho đến các hệ thống bảo mật AI cấp doanh nghiệp.
Cùng với Gemma 4 12B, Google cũng giới thiệu kho mã nguồn Gemma Skills Repository, tập hợp các thư viện kỹ năng dành riêng cho việc xây dựng AI Agent.
Nhà phát triển có thể dễ dàng triển khai Gemma 4 12B thông qua nhiều công cụ phổ biến như:
Các nền tảng hỗ trợ
- LM Studio
- Ollama
- Google AI Edge Gallery
- Google AI Edge Eloquent
- LiteRT-LM CLI
Framework phát triển
- Hugging Face Transformers
- llama.cpp
- MLX
- SGLang
- vLLM
- Unsloth
Ngoài ra, mô hình cũng được phát hành theo giấy phép mã nguồn mở Apache 2.0, cho phép cộng đồng tự do nghiên cứu, tinh chỉnh và triển khai trong nhiều môi trường khác nhau.
Sự xuất hiện của Gemma 4 12B phản ánh xu hướng mới của ngành AI: đưa các mô hình mạnh mẽ từ đám mây xuống trực tiếp thiết bị cá nhân. Thay vì phụ thuộc hoàn toàn vào máy chủ từ xa, người dùng và doanh nghiệp có thể triển khai AI ngay trên laptop với chi phí thấp hơn, độ trễ nhỏ hơn và quyền riêng tư được đảm bảo tốt hơn.
Với khả năng xử lý đa phương thức, hỗ trợ AI Agent và vận hành trên phần cứng phổ thông, Gemma 4 12B được kỳ vọng sẽ trở thành một trong những nền tảng AI mã nguồn mở đáng chú ý nhất trong năm 2026.
