Vào ngày 16 tháng 4 năm 2025, OpenAI đã công bố hai mô hình AI suy luận mới: o3 và o4-mini. Đây là bước nhảy vọt đáng kể trong năng lực AI của công ty, đặc biệt thể hiện rõ qua khả năng suy luận hình ảnh. Sự ra mắt của OpenAI o3 và o4-mini hứa hẹn đưa ChatGPT lên tầm cao mới, thấu hiểu sâu sắc các yếu tố trực quan.
Các Mô Hình AI Mới Này Có Thể “Tư Duy” Với Hình Ảnh Như Thế Nào?
OpenAI cho biết o3 và o4-mini diễn giải được mọi hình ảnh tải lên: phác thảo trên bảng trắng, sơ đồ sách giáo khoa hay tệp PDF đồ họa. Theo thông báo phát hành của OpenAI o3 và o4-mini (https://openai.com/index/introducing-o3-and-o4-mini/):
“Chúng không chỉ nhìn thấy một hình ảnh – chúng còn tư duy cùng với nó. Điều này mở khóa một loại giải quyết vấn đề mới, kết hợp suy luận trực quan và văn bản, thể hiện qua hiệu suất vượt trội trên các tiêu chuẩn đa phương thức.”
Khả năng phân tích hình ảnh này tích hợp vào chuỗi suy luận của mô hình. AI có thể phóng to, xoay hoặc cắt ảnh để cải thiện xử lý, và vẫn hiệu quả với ảnh chất lượng thấp.
Mô tả ChatGPT o4-mini phân tích hình ảnh, minh họa khả năng suy luận trực quan của mô hình AI mới của OpenAI.
Ví dụ, khi giải quyết bài toán khoa học với sơ đồ, mô hình có thể phóng to, tính toán bằng Python, rồi tạo biểu đồ giải thích.
Trong quá trình suy luận, o3 và o4-mini linh hoạt sử dụng tất cả công cụ ChatGPT (duyệt web, thực thi mã Python, tạo ảnh). Khả năng tác nhân (agentic capability) này cho phép tự động chọn công cụ lý tưởng, giúp người dùng và nhà phát triển giải quyết nhiệm vụ phức tạp, đa bước.
Phiên bản o4-mini-high là biến thể của o4-mini, tập trung nhiều tài nguyên tính toán hơn để đạt kết quả chất lượng cao. Các kịch bản sử dụng:
- Tạo và đánh giá nghiên cứu trong các lĩnh vực STEM (khoa học, công nghệ, kỹ thuật, toán học) như sinh học, kỹ thuật, cung cấp lý giải chi tiết và giải thích trực quan.
- Tổng hợp thông tin từ nhiều nguồn (cơ sở dữ liệu trực tuyến, báo cáo tài chính, dữ liệu thị trường, biểu đồ) để tạo thông tin chi tiết kinh doanh.
Các mô hình này được đào tạo qua học tăng cường (reinforcement learning), giúp xử lý tốt hơn các vấn đề “mơ hồ” bằng cách suy luận khi nào nên sử dụng công cụ cụ thể.
Các mô hình o3, o4-mini và o4-mini-high hiện có sẵn cho người dùng ChatGPT Plus, Pro và Team. Phiên bản o3-pro dự kiến ra mắt trong những tuần tới. Người dùng miễn phí có thể trải nghiệm mô hình o4-mini bằng cách chọn tùy chọn Think trong trình soạn thảo trước khi gửi yêu cầu.
Tại Sao Khả Năng Đa Phương Thức Của ChatGPT Lại Quan Trọng?
Việc AI “tư duy với hình ảnh” giúp các mô hình mới của OpenAI giải quyết hiệu quả vấn đề thực tế đòi hỏi diễn giải cả văn bản và hình ảnh. Điều này bao gồm gỡ lỗi code từ ảnh chụp màn hình, đọc chữ viết tay, phân tích sơ đồ khoa học hay trích xuất thông tin từ biểu đồ phức tạp. Nhờ đó, ChatGPT trở nên nhận thức ngữ cảnh tốt hơn.
Các mô hình này tự chủ và hiệu quả hơn, xử lý tác vụ phức tạp với năng lực suy luận và trí thông minh thị giác vượt trội, cực kỳ quan trọng cho nghiên cứu, kinh doanh và công việc sáng tạo.
Tóm lại, sự ra mắt của các mô hình OpenAI o3 và o4-mini đánh dấu bước tiến lớn với khả năng suy luận hình ảnh tiên tiến và tính năng tác nhân AI tự chủ. Những cải tiến này nâng cao đáng kể năng lực giải quyết vấn đề thực tế của ChatGPT, khẳng định vị thế của OpenAI trong việc phát triển công nghệ AI hữu ích và mạnh mẽ hơn.