|
Sundar Pichai, Giám đốc điều hành của Alphabet Inc., trong hội nghị các nhà phát triển Google I/O ở Mountain View, California, ngày 10/5/2023. Ảnh CNBC |
Google cho biết Robotics Transformer 2 (RT-2) là một mô hình nhìn nhận-ngôn ngữ-hành động được đào tạo trên dữ liệu thông tin và hình ảnh từ internet, chuyển hóa thành hành động cho robot.
Theo Google, đây một bước phát triển mới trong lĩnh vực chế tạo robot, tiến gần hơn đến tương lai của những robot hữu ích, linh hoạt. Robotics Transformer 2, hay RT-2 là mô hình hành động ngôn ngữ hình ảnh (VLA) đầu tiên thuộc loại mô hình đào tạo này.
Một mô hình dựa trên Sự chuyển đổi được đào tạo trên cơ sở khối lượng khổng lồ thông tin và hình ảnh từ web, RT-2 có thể trực tiếp đưa ra những hành động cụ thể của robot. Tương tự như các mô hình ngôn ngữ lớn (LLM) được đào tạo trên cơ sở văn bản từ web để rút ra những ý tưởng và khái niệm, RT-2 chuyển kiến thức từ dữ liệu web để thông báo hành vi của robot. Nói cách khác, RT-2 có thể làm việc với robot và hướng dẫn hành vi của robot.
Những thách thức trong đào tạo robot
Phát triển các robot hữu ích luôn là một nhiệm vụ khó khăn vượt sức tưởng tượng, do một robot có khả năng thực hiện các công việc thông thường trên thế giới cần có khả năng xử lý những nhiệm vụ trừu tượng, phức tạp trong các môi trường luôn thay đổi, có những môi trường chưa từng thấy trước đây.
Không giống như chatbot, robot cần “nền tảng nhận thức” trong thế giới thực và khả năng nhận biết. Robot cần có khả năng nhận dạng một quả táo trong ngữ cảnh, phân biệt với quả bóng đỏ, hiểu quả táo với những đặc điểm đặc trưng và quan trọng nhất là biết cách nhặt nó lên.
Để huấn luyện robot thực hiện được hành động này, đòi hỏi phải trực tiếp đào tạo robot trên hàng tỉ điểm dữ liệu trên mọi đối tượng, môi trường, nhiệm vụ và tình huống trong thế giới vật chất, một công việc tốn rất nhiều nhiều thời gian và chi phí đến mức không thực tế đối với sự phát triển công nghệ robot mục đích chung.
Phương thức tiếp cận mới với RT-2
Những phát triển công nghệ gần đây đã tăng cường khả năng suy luận của robot, cho phép sử dụng nhắc nhở theo chuỗi suy luận, một phương pháp phân tích các vấn đề nhiều bước.
Bài viết trên blog của Google giải thích: Sự ra đời của các mô hình AI nhìn nhận như PaLM-E giúp robot có nhận thức rõ hơn về môi trường xung quanh. RT-1 đã cho thấy Transformers, với khả năng khái quát hóa thông tin giữa các hệ thống, có thể giúp các loại robot học hỏi lẫn nhau.
Cho đến nay, robot chạy trên các hệ thống phức tạp, sử dụng các hệ thống suy luận cấp cao và thao tác cấp thấp. RT-2 loại bỏ sự phức tạp đó và cho phép một mô hình AI duy nhất không chỉ thực hiện những suy luận phức tạp trong các mô hình nền tảng mà còn đưa ra các hành động của robot. Với một lượng nhỏ dữ liệu huấn luyện robot, hệ thống có thể chuyển các khái niệm, được nhúng trong dữ liệu huấn luyện ngôn ngữ và thị giác để điều khiển các hành động của robot, ngay cả đối với những nhiệm vụ mà robot chưa bao giờ được huấn luyện để thực hiện.
Giả thiết là một hành động vứt rác, như trước đây, cần phải huấn luyện robot xác định thế nào là rác, thùng rác. Đó là một khối lượng dữ liệu đào tạo rất lớn. Nhưng RT-2 có thể thu thập kiến thức từ kho dữ liệu web lớn nên có thể biết thùng rác là gì và xác định mà không cần đào tạo rõ ràng. Đồng thời, RT-2 đưa ra hành động vứt rác, dù chưa bao giờ được huấn luyện để thực hiện hành động đó. Bản chất trừu tượng của rác - một túi khoai tây chiên hoặc vỏ chuối sẽ trở thành rác sau khi sử dụng. RT-2 có thể hiểu được khái niệm rác này từ dữ liệu đào tạo ngôn ngữ thị giác và thực hiện công việc.
Một tương lai tươi sáng hơn cho robot
Google trong bài viết trên blog cho biết, khả năng chuyển thông tin thành hành động của RT-2 cho phép robot thích ứng nhanh hơn với những tình huống và môi trường mới.
Khi thử nghiệm các mẫu RT-2 với robot trong hơn 6.000 lần, nhóm nghiên cứu nhận thấy RT-2 hoạt động hiệu quả hơn RT-1 trong những nhiệm vụ được nhúng trong dữ liệu đào tạo hoặc các nhiệm vụ “đã nhìn thấy”. Đồng thời RT-2 gần như tăng gấp đôi hiệu suất hành động của robot trong những tình huống mới chưa từng thấy, đạt 62% so với 32% của RT-1.
Áp dụng mô hình RT-2, robot có được khả năng học hỏi nhiều hơn tương tự như con người, chuyển các khái niệm đã học sang hành vi trong các tình huống mới. Phiên bản mới có thể sử dụng mô hình AI nhìn nhận–ngôn ngữ-hành động để phản hồi các lệnh của người dùng trên cơ sở dữ liệu Internet, Google cho biết thêm.
Tờ New York Times đưa tin , công ty hiện chưa có kế hoạch tung ra robot với công nghệ mới. Theo Google, RT-2 không chỉ cho thấy những tiến bộ trong AI đang lan nhanh thế nào vào ngành chế tạo robot, mà còn cho thấy những tiềm năng rất lớn đối với các robot có mục đích chung. Đây mới chỉ là bước đầu tiên trong phát triển robot hữu ích trong môi trường lấy con người làm trung tâm, nhưng RT-2 mở ra một tương lai rộng lớn cho công nghệ chế tạo robot mục đích chung linh hoạt.
Theo CNBC