Mới đây, OpenAI đã công bố các mô hình o1 mới, cho phép người dùng ChatGPT lần đầu tiên trải nghiệm AI với khả năng "suy nghĩ" trước khi trả lời. Các mô hình này được gọi là "Strawberry" trong nội bộ OpenAI. Mô hình này đã được nhiều người dùng, giới chuyên gia hết mực ngợi ca. Nhưng liệu Strawberry có thực sự xứng đáng với sự kỳ vọng đó?
So với GPT-4o, các mô hình o1 dường như đang "tiến một, lùi hai". Mặc dù OpenAI o1 nổi bật trong việc lý luận và trả lời các câu hỏi phức tạp, nhưng chi phí sử dụng mô hình này cao gấp khoảng bốn lần so với GPT-4o. Hơn nữa, o1 thiếu các công cụ hỗ trợ, khả năng đa phương thức và tốc độ phản hồi nhanh chóng mà GPT-4o cung cấp. Trên thực tế, OpenAI thừa nhận rằng “GPT-4o vẫn là lựa chọn tốt nhất cho hầu hết các yêu cầu” và lưu ý rằng o1 gặp khó khăn trong các tác vụ đơn giản hơn.
"Đây là một sự cải tiến ấn tượng, nhưng tôi không thấy sự khác biệt đáng kể. Mô hình tốt hơn ở một số vấn đề nhất định, nhưng không mang lại sự cải thiện toàn diện", Ravid Shwartz Ziv, giáo sư tại NYU và chuyên gia nghiên cứu các mô hình AI, nhận xét.
Vì vậy, o1 nên được sử dụng chủ yếu cho các câu hỏi phức tạp mà nó được thiết kế để giải quyết. Hầu hết người dùng hiện tại không sử dụng AI để trả lời các câu hỏi kiểu này vì các mô hình AI hiện tại không thật sự giỏi trong việc đó. Tuy nhiên, o1 là một bước thử nghiệm quan trọng trong việc giải quyết các vấn đề lớn.
Khả năng tư duy và lý luận nhiều bước
OpenAI o1 có khả năng "suy nghĩ" trước khi trả lời, chia nhỏ các vấn đề lớn thành các bước nhỏ và xác định khi nào nó thực hiện đúng hoặc sai ở mỗi bước. Khái niệm "lý luận nhiều bước" không hoàn toàn mới, nhưng nó mới chỉ được áp dụng gần đây.
“Có nhiều sự phấn khích trong cộng đồng AI. Nếu bạn có thể kết hợp thuật toán tăng cường với các kỹ thuật mô hình ngôn ngữ như OpenAI đang làm, bạn có thể tạo ra khả năng tư duy từng bước” Kian Katanforoosh, CEO của Workera và giảng viên tại Stanford, cho biết.
Tuy nhiên, mô hình o1 cũng có giá rất cao. Trong các mô hình AI thông thường, người dùng chỉ phải trả tiền cho 1 câu trả lời duy nhất đối với mỗi truy vấn. Tuy nhiên, o1 bổ sung một quy trình tính toán mới, khiến ngay cả những câu hỏi đơn giản cũng sẽ được chia thành nhiều bước và từ đó đưa ra các câu trả lời, do vậy mức phí cũng cao hơn các mô hình AI cũ. Do đó, cần phải cẩn trọng khi sử dụng o1 để tránh tốn chi phí cho các câu hỏi đơn giản như "Thủ đô của Nevada là gì?"
Tuy vậy, khả năng "suy luận" của o1 là rất mạnh mẽ. Trong một thử nghiệm, ChatGPT o1 đã giúp lập kế hoạch cho bữa tối Lễ Tạ ơn, đưa ra giải pháp cụ thể về cách sử dụng hai lò nướng hiệu quả. Mô hình này cung cấp một phản hồi chi tiết với chiến lược hợp lý, vượt trội hơn nhiều so với GPT-4o.
Tuy nhiên, đối với các câu hỏi đơn giản hơn, o1 có xu hướng làm quá mức cần thiết. Ví dụ, khi được hỏi về sự phân bố của cây tuyết tùng ở Mỹ, mô hình này đã cung cấp một câu trả lời dài hơn 800 từ. Trong khi đó, GPT-4o đã trả lời ngắn gọn và hiệu quả hơn nhiều.
Theo Tech Crunch