Voice agent từ lâu đã tốn kém để vận hành và phức tạp để tích hợp — không phải vì các mô hình không xử lý được hội thoại, mà vì giới hạn ngữ cảnh buộc các doanh nghiệp phải xây dựng thêm các lớp reset phiên, nén trạng thái và tái cấu trúc vào mỗi lần triển khai. Ba mô hình giọng nói mới của OpenAI được thiết kế để giảm bớt gánh nặng đó, và thay đổi cách kỹ sư có thể tư duy về việc tích hợp giọng nói vào một hệ thống agent lớn hơn.
Ba mô hình mới, ba vai trò chuyên biệt
GPT-Realtime-2, GPT-Realtime-Translate và GPT-Realtime-Whisper tích hợp âm thanh thời gian thực vào hệ thống quản lý mô hình dưới dạng các thành phần điều phối độc lập — tách biệt lý luận hội thoại, dịch thuật và phiên âm thành các thành phần chuyên biệt thay vì gói gọn tất cả trong một sản phẩm giọng nói duy nhất.
OpenAI mô tả Realtime-2 là mô hình giọng nói đầu tiên của họ “với khả năng suy luận ngang tầm GPT-5,” có thể xử lý các yêu cầu phức tạp và duy trì cuộc trò chuyện tự nhiên. Realtime-Translate hỗ trợ hiểu hơn 70 ngôn ngữ và dịch sang 13 ngôn ngữ khác theo nhịp nói của người dùng. Realtime-Whisper là mô hình phiên âm giọng nói thành văn bản mới nhất của công ty.
Ba tác vụ này không còn nằm trong một hệ thống hay mô hình duy nhất. Dù GPT-Realtime-2 về mặt kỹ thuật có thể xử lý cả phiên âm, OpenAI đã chủ động phân tách: Realtime-Translate đảm nhận giọng nói đa ngôn ngữ, còn Realtime-Whisper chuyên về phiên âm. Doanh nghiệp có thể phân công từng tác vụ cho mô hình phù hợp thay vì dồn tất cả qua một hệ thống giọng nói tổng hợp duy nhất.

Bối cảnh cạnh tranh
Các mô hình mới của OpenAI cạnh tranh trực tiếp với dòng Voxtral của Mistral AI — cũng áp dụng cách tiếp cận tách biệt hóa phiên âm và nhắm đến các ứng dụng doanh nghiệp.
Ngày càng nhiều doanh nghiệp nhận ra giá trị của voice agent khi người dùng dần quen thuộc hơn với việc trao đổi cùng AI, đồng thời nhờ vào độ phong phú của dữ liệu từ các tương tác giọng nói với khách hàng.
Các tổ chức đang đánh giá những mô hình này cần xem xét kiến trúc điều phối của mình — không chỉ chất lượng mô hình. Cụ thể, liệu hệ thống hiện tại có thể định tuyến các tác vụ giọng nói riêng biệt đến đúng mô hình chuyên biệt và quản lý trạng thái xuyên suốt cửa sổ ngữ cảnh 128K token hay không. Đây là yếu tố kỹ thuật quan trọng quyết định mức độ hiệu quả khi triển khai thực tế.
