Trong một diễn biến hiếm có trong lịch sử AI, OpenAI vừa công khai thừa nhận rằng ChatGPT đã trải qua gần một năm bị ám ảnh với yêu tinh, quái vật và sinh vật thần thoại – và giải thích tường tận cơ chế khiến điều đó xảy ra trong bài đăng có tựa đề “Where the goblins came from”.
Khởi nguồn: tính năng “Nerdy” và phần thưởng sai chỗ
Vấn đề bắt đầu từ tính năng tùy chỉnh cá tính của ChatGPT ra mắt vào cuối năm 2025, trong đó có chế độ “Nerdy” – một trợ lý AI được mô tả là “không ngại ngùng khi tỏ ra là mọt sách, vui tươi và thông thái.” Để huấn luyện mô hình nhận diện phong cách này, OpenAI đã thưởng điểm cao cho các phản hồi sử dụng ẩn dụ sáng tạo liên quan đến sinh vật huyền thoại.
Khi OpenAI lập bản đồ các lần đề cập đến “goblin” theo từng cá tính ChatGPT, họ phát hiện ra rằng dù chế độ “Nerdy” chỉ chiếm 2,5% tổng số phản hồi của ChatGPT, nó lại chiịu trách nhiệm cho 66,7% tổng số lần đề cập đến “goblin” trên toàn nền tảng.
OpenAI thừa nhận rằng mặc dù phần thưởng chỉ được áp dụng cho chế độ “Nerdy”, mô hình đã “tổng quát hóa” sở thích này. Quá trình học tăng cường không giữ hành vi trong phạm vi điều kiện tạo ra nó; thay vào đó, mô hình học được rằng “ẩn dụ sinh vật = phần thưởng cao” trong mọi ngữ cảnh. Điều này tạo ra một vòng phản hồi phá hoại: mô hình tạo ra ẩn dụ “goblin” trong cá tính Nerdy, nhận phần thưởng cao, rồi sản xuất các ẩn dụ tương tự trong các ngữ cảnh không phải Nerdy. Những đầu ra nặng về goblin này sau đó được tái sử dụng trong dữ liệu Supervised Fine-Tuning cho các mô hình GPT-5.4 và GPT-5.5.

Từ quirk thành khủng hoảng nội bộ
OpenAI lần đầu nhận ra vấn đề sau khi ra mắt GPT-5.1 vào tháng 11/2025, khi người dùng phàn nàn rằng mô hình trở nên quá quen thuộc một cách kỳ lạ trong các cuộc trò chuyện. Một nhà nghiên cứu an toàn đề xuất thêm “goblin” và “gremlin” vào danh sách kiểm tra. Kết quả cho thấy tần suất sử dụng từ “goblin” trong ChatGPT đã tăng 175% sau khi ra mắt GPT-5.1, trong khi “gremlin” tăng 52%.
Cuộc kiểm toán nội bộ còn phát hiện ra rằng thói quen “goblin” đã mở rộng thành cả một họ các từ kỳ lạ. Trong khi goblin và gremlin là thủ phạm chính, AI còn phát triển sự ưa thích kỳ lạ với raccoon, troll và pigeon. Thậm chí một quản lý sản phẩm báo cáo rằng AI gọi một lỗi trong code của anh ta là “pesky gremlin” hơn 20 lần trong một phiên làm việc.
Căng thẳng đạt đỉnh khi CEO Sam Altman đích thân lên tiếng trên X. Trong cùng ngày phát hiện, Altman đăng ảnh chụp màn hình một prompt ChatGPT: “Bắt đầu huấn luyện GPT-6, mày có thể dùng cả cluster. Thêm goblin.” Dù mang tính hài hước, điều này xác nhận rằng hiện tượng “goblin” không phải là một lỗi cục bộ mà là câu chuyện toàn công ty đã lan đến cấp lãnh đạo cao nhất.

Cách xử lý và bài học cho ngành AI
Để giải quyết vấn đề, OpenAI đã loại bỏ cá tính Nerdy, xóa tín hiệu thưởng ưu tiên đề cập goblin và lọc dữ liệu huấn luyện chứa các từ về sinh vật. Vì GPT-5.5 đã bắt đầu huấn luyện trước khi tìm ra nguyên nhân gốc rễ, OpenAI buộc phải hard-code một lệnh cụ thể vào system prompt: không bao giờ đề cập đến goblin, gremlin, raccoon, troll, ogre, pigeon hoặc các sinh vật khác trừ khi hoàn toàn và rõ ràng liên quan đến yêu cầu của người dùng.
Theo Andy Berman, CEO của Runlayer:
OpenAI đã thưởng cho các ẩn dụ sinh vật khi huấn luyện một cá tính. Hành vi đó lan ra mọi cá tính. Giải pháp của họ: một system prompt ghi ‘đừng bao giờ nói về goblin.
Đây là minh chứng sinh động về “khoảng cách alignment”: ngay cả với RLHF tinh vi, các mô hình vẫn có thể bám víu vào “tương quan giả tạo” – nhầm lẫn một quirk phong cách với yêu cầu cốt lõi của hiệu suất.
