Trình tạo ảnh từ văn bản DALL-E, nghệ thuật từ Trí tuệ Nhân tạo (AI)

VietTimes – Phần mềm tạo ra hình ảnh DALL-E trên cơ sở AI gây chấn động lớn khi ra mắt vào đầu năm 2022. Công cụ này cung cấp kết xuất hình ảnh chính xác đáng kinh ngạc từ mọi mô tả văn bản được viết.

Ảnh được tạo bằng DALL-E từ lời nhắc "đầu người trừu tượng chứa bảng mạch phát sáng". Ảnh Ars Technica

Ảnh được tạo bằng DALL-E từ lời nhắc "đầu người trừu tượng chứa bảng mạch phát sáng". Ảnh Ars Technica

Hiện nay người dùng có thể truy cập vào DALL-E miễn phí và không phải chờ đợi. Điều này không phải là không có giới hạn, nhưng OpenAI sẽ bán các tín dụng cho người dùng tạo những bức ảnh yêu thích với sự hỗ trợ của AI.

DALL-E là một mô hình AI tổng hợp hình ảnh học sâu, được đào tạo trên hàng trăm triệu hình ảnh lấy từ Internet. Mô hình sử dụng một kỹ thuật được gọi là khuếch tán tiềm ẩn, tìm hiểu và xây dựng mối liên hệ giữa từ ngữ và hình ảnh. Người dùng DALL-E có thể nhập mô tả văn bản, được gọi là lời nhắc và xem mô tả đó được hiển thị trực quan dưới dạng hình ảnh 1024 × 1024 pixel theo hầu hết mọi phong cách nghệ thuật.

Trình tạo ảnh từ văn bản DALL-E, nghệ thuật từ Trí tuệ Nhân tạo (AI) ảnh 1

Một bức ảnh nghệ thuật do DALL-E tạo ra. Ảnh Ars Technica

Trình tạo ảnh từ văn bản DALL-E, nghệ thuật từ Trí tuệ Nhân tạo (AI) ảnh 2

Ảnh do DALL-E tạo ra với lời nhắc "Phi hành gia cưỡi ngựa." Ảnh Ars Technica

Ngoài tính năng tạo hình ảnh từ văn bản, DALL-E còn có một tính năng được gọi là "Outpainting" cho phép người dùng tải lên hình ảnh và mở rộng khung hình của ảnh đó bằng phương pháp sử dụng tổng hợp hình ảnh. Người dùng cũng có thể hợp nhất nhiều ảnh thành một bằng cách tạo cầu nối trực quan giữa các ảnh, kết hợp các phong cách hội họa khác nhau nhưng phải cung cấp lời nhắc bằng văn bản để AI biết đó là hình ảnh gì.

OpenAI đã công bố phiên bản DALL-E trước đó vào tháng 1/ 2021 với những khả năng đáng ngạc nhiên nhưng có những hạn chế rõ ràng. Tháng 4/2022, OpenAI đã công bố DALLE-2, khán giả thử nghiệm giới hạn với 200 nhà nghiên cứu vô cùng kinh ngạc trước khả năng tạo ra những hình ảnh gần như chân thực và mô phỏng chính xác các phong cách hội họa. Sau khi dần dần mở cửa cho nhiều người dùng hơn và thiết lập mô hình định giá vào tháng 7/2022, hơn 1,5 triệu người dùng trên toàn thế giới hiện đang sử dụng DALL-E (đổi thương hiệu từ DALL-E 2) tạo ra hơn 2 triệu bức ảnh mỗi ngày.

DALL-E là một dịch vụ thương mại và có một số hạn chế. Mặc dù dùng thử miễn phí cho các cá nhân, nhưng người dùng chỉ nhận được 50 tín dụng mỗi tháng và mỗi bộ 4 ảnh nhắc bằng văn bản sẽ hết một khoản tín dụng. Người dùng có thể mua thêm 115 khoản tín dụng với giá 15 USD, 13 xu cho mỗi hành động. Nhưng hãy lưu ý, mỗi khung hình thêm vào một hình ảnh trong Outpainting cũng khiến người dùng phải trả giá bằng một khoản tín dụng. Trò chơi sáng tạo có thể rất tốn kém nếu người dùng yêu thích các bức ảnh ứng dụng AI. Người dùng có thể đăng ký thêm tài khoản miễn phí, nhưng mỗi tài khoản đều yêu cầu xác minh bằng số điện thoại.

Hình ảnh được tạo bằng DALL-E cùng với quyền sở hữu của OpenAI, nhưng công ty cấp cho người dùng độc quyền " tái tạo và hiển thị" các phiên bản tiếp theo nếu tuân thủ chính sách về nội dung. Vi phạm nội dung sẽ thu hồi quyền sử dụng hợp pháp hình ảnh đã tạo của người dùng.

Trước đây, trang Ars Technica đã giới thiệu một phần mềm AI khác được gọi là Stable Diffusion, một mô hình tổng hợp hình ảnh mã nguồn mở tương tự như DALL-En do công ty Stability AI phát triển. Trong tháng 9, Stable Diffusion đã cung cấp phần mềm này với một số hạn chế thông qua các kênh mã nguồn mở và trang web thương mại của doanh nghiệp. Hiện nay DALL-E đã cung cấp quyền sử dụng cho tất cả mọi người, sự cạnh tranh giữa các mô hình tổng hợp hình ảnh sẽ gia tăng trong tương lai gần.

Theo OpenAI, phản hồi từ người dùng (đặc biệt là các nghệ sĩ) đã giúp tinh chỉnh chất lượng của hình ảnh DALL-E. Người dùng, khi sử dụng DALL-E vào đầu năm 2022 và hiện nay cho thấy, sản phẩm có vẻ chính xác và "nghệ thuật" hơn. Bức ảnh minh họa trong bài viết được tạo bằng DALL-E từ lời nhắc "đầu người trừu tượng chứa bảng mạch phát sáng".

Theo Ars Technica