AI tạo ảnh: Prompt từ AI có thực sự cải thiện chất lượng hình ảnh?

Table of Contents

Các mô hình tạo ảnh được hỗ trợ bởi trí tuệ nhân tạo (AI) đang phát triển với tốc độ chóng mặt, nhưng việc chúng vẫn tạo ra những hình ảnh đáng ngờ là điều khá phổ biến. Do dễ dàng cho rằng các lời nhắc (prompt) do con người cung cấp là nguyên nhân của vấn đề, chúng tôi đã quyết định thử nghiệm xem liệu AI có hoạt động tốt hơn khi chỉ làm việc với các prompt được tạo ra hoàn toàn bởi AI hay không. Điều này đặt ra câu hỏi lớn về khả năng “đọc hiểu” và diễn giải thông tin của AI, cũng như mức độ ảnh hưởng của yếu tố con người trong quá trình sáng tạo hình ảnh kỹ thuật số. Bài viết này sẽ đi sâu vào một thử nghiệm thực tế để tìm lời giải đáp cho vấn đề này, cung cấp cái nhìn khách quan về hiệu suất của các mô hình AI tạo ảnh hiện tại.

Quy tắc của thử nghiệm

Khi các mô hình tạo ảnh bằng AI xuất hiện vài năm trước, nhiều người đã nghĩ rằng đây sẽ là dấu chấm hết cho những người làm việc với phương tiện hình ảnh. Tuy nhiên, điều này đã không xảy ra. Mặc dù có khả năng tạo ra những bức ảnh siêu thực, hình ảnh do AI tạo ra thường rơi vào trạng thái khó đoán, đặc biệt nếu bạn yêu cầu những thứ phức tạp hơn một chút (ví dụ, AI có xu hướng gặp khó khăn với việc tạo hình ảnh bàn tay).

Bạn có thể đổ lỗi cho chính các mô hình AI hoặc lỗi của con người và kỹ năng tạo prompt không nhất quán của chúng ta. Cách tự nhiên để kiểm tra xem ai là người đáng trách là xem liệu các mô hình tạo ảnh có mang lại kết quả tốt hơn nếu bạn nhập các prompt do chính AI tạo ra hay không.

Để kiểm tra giả thuyết này, chúng tôi sẽ sử dụng Gemini để tạo ra một loạt các prompt mà không sử dụng tên của đối tượng hoặc bức ảnh mà chúng tôi đang cố gắng tạo ra. Điều này sẽ giúp kiểm tra mức độ “đọc hiểu” hướng dẫn của AI. Dĩ nhiên, vẫn có khả năng mô hình sẽ lấy cảm hứng rất nhiều từ dữ liệu mà nó đã được đào tạo (đặc biệt khi tái tạo các bức ảnh đã có), nhưng đó là những gì chúng ta phải chấp nhận.

Công cụ mà chúng tôi lựa chọn để tạo hình ảnh là Bing Image Creator, dựa trên DALL-E 3. Để thử thách mô hình này, chúng tôi sẽ bắt đầu với các hình dạng đơn giản và chuyển sang các hình ảnh phức tạp hơn khi thử nghiệm tiến triển. Nếu bạn đã sử dụng ChatGPT và các công cụ tương tự, bạn đã biết rằng một số câu trả lời của chúng có thể rất dài dòng, và điều đó cũng không khác gì với các prompt mà mô hình đã đưa ra cho chúng tôi trong lần chạy “thử nghiệm” của mình. Vì vậy, chúng tôi quyết định giới hạn mình ở 500 ký tự để giữ các prompt nhất quán.

Khả năng của AI với các hình dạng đơn giản

Hãy bắt đầu với một hình vuông đơn giản. Chúng tôi yêu cầu Gemini mô tả một hình vuông mà không gọi tên nó và nó đã đưa ra đoạn miêu tả sau:

“Một hình có bốn cạnh với tất cả các cạnh có độ dài bằng nhau. Mỗi góc bên trong có số đo chính xác 90 độ. Đó là một tứ giác đều với các cạnh đối song song.”

Sau khi đưa mô tả này vào DALL-E 3, chúng tôi đã nhận được kết quả:

Hình ảnh một hình vuông được tạo bởi AI DALL-E 3, với nhiều đường hình học chồng chéo

Đúng là một hình vuông, mặc dù AI dường như đã thêm quá nhiều chi tiết hình học vào đó. Đã đến lúc tăng độ khó, vì vậy chúng tôi yêu cầu AI mô tả chi tiết một hình lập phương.

“Một hình ba chiều với sáu mặt giống hệt nhau. Mỗi mặt là một tứ giác đều với bốn cạnh bằng nhau và bốn góc vuông. Nó có mười hai cạnh có độ dài bằng nhau và tám đỉnh. Tất cả các góc bên trong hình đều là góc vuông.”

Kết quả thật đáng ngạc nhiên:

Hình ảnh lập phương Rubik được tạo bởi AI, với các mặt nhiều màu sắc và nền trắng

Bạn còn nhớ chúng ta đã nói gì về việc các mô hình AI không thể đoán trước được không? Chà, ở đây, DALL-E 3 đã tạo ra một hình lập phương, nhưng nó hơi bối rối và biến nó thành một khối Rubik. Mặc dù đã tránh dùng từ chính xác như tránh bệnh dịch, AI vẫn hiểu sai một phần – có lẽ là do sự phổ biến của món đồ chơi trí tuệ này.

AI diễn giải ảnh chân dung con người như thế nào?

Tình huống với hình lập phương cho thấy ngay cả với một mô tả chi tiết, “khách quan”, AI vẫn có thể hiểu sai những hướng dẫn khá trực tiếp. Vậy, hãy xem nó hoạt động tốt như thế nào với các mô tả do AI tạo ra về những hình ảnh cổ điển, chẳng hạn như “Migrant Mother” của Dorothea Lange. Đây là ảnh gốc:

Bức ảnh biểu tượng 'Người mẹ di cư' của Dorothea Lange, một người mẹ lo lắng ôm các con

Đây là prompt do Gemini tạo ra cho bức ảnh này:

“Một người phụ nữ, gương mặt hằn sâu nỗi lo lắng, nhìn ra khỏi khung hình. Cô ấy được bao quanh bởi những đứa con của mình, khuôn mặt chúng bị che khuất hoặc quay đi. Bàn tay cô ấy đặt gần mặt, truyền tải sự kiệt sức và lo âu. Cảnh tượng gợi lên sự nghèo đói và khó khăn. Quần áo của người phụ nữ đã sờn, và bố cục tổng thể u ám, nhấn mạnh gánh nặng hoàn cảnh của cô ấy.”

Và đây là cách DALL-E 3 diễn giải bức ảnh nổi tiếng này:

Hình ảnh tạo bởi AI mô phỏng bức ảnh 'Người mẹ di cư', người phụ nữ với vẻ mặt lo âu và một đứa trẻ tựa đầu vào cô

Khá gần! Nhưng không hoàn toàn chính xác, vì DALL-E 3 rõ ràng đã bỏ qua phần “được bao quanh bởi những đứa con của mình, khuôn mặt chúng bị che khuất hoặc quay đi” và thay vì “người mẹ” đặt tay gần mặt, một trong những đứa trẻ đã đảm nhận vai trò đó.

Hãy thử một cái gì đó phức tạp hơn. Bạn có thể đã thấy bức ảnh biểu tượng “Lunch atop a Skyscraper”:

Bức ảnh đen trắng kinh điển 'Bữa trưa trên đỉnh tòa nhà chọc trời' của Charles Clyde Ebbets, chụp cảnh những công nhân đang ngồi trên dầm thép

Prompt do AI tạo ra cho bức ảnh này:

“Mười một người đàn ông ngồi trên một dầm thép, lơ lửng trên không. Họ ăn trưa, chân đung đưa. Dầm thép được treo lơ lửng phía trên một thành phố rộng lớn. Những người đàn ông có vẻ thoải mái, bất chấp độ cao cực lớn. Họ mặc quần áo lao động, và cảnh được chụp từ một góc hơi thấp, nhấn mạnh chiều cao.”

Prompt “tuyệt vời” này đã mang lại kết quả “tuyệt vời” không kém:

Hình ảnh tạo bởi AI mô phỏng bức ảnh 'Bữa trưa trên đỉnh tòa nhà chọc trời', các công nhân ngồi ăn trưa trên dầm thép cao chót vót

Một khi bạn bỏ qua các dấu hiệu kinh điển của một hình ảnh do AI tạo ra (như bát đĩa giống hệt nhau và các chủ thể “sao chép và dán”), nó gần như kỳ lạ về bố cục và cảm giác tổng thể. Tuy nhiên, điều này không đáng ngạc nhiên — không chỉ hình ảnh này cực kỳ phổ biến mà nó còn thuộc phạm vi công cộng, vì vậy chúng tôi có một linh cảm mạnh mẽ rằng DALL-E 3 đã “nhả” lại nội dung của nó trong quá trình đào tạo.

AI có thể xử lý các bức ảnh phức tạp không?

Vì đây là “thử nghiệm” cuối cùng trong thí nghiệm, nên chúng tôi sẽ thử thách tối đa. Mặc dù AI khá tốt với các chủ thể con người, nhưng nó thường thất bại khi đối mặt với các cảnh phức tạp và “bí ẩn” hơn. Vậy còn bức ảnh “Earthrise” mang tính biểu tượng được chụp từ quỹ đạo mặt trăng trên Apollo 8 thì sao?

Bức ảnh 'Earthrise' mang tính biểu tượng, chụp Trái đất mọc lên từ phía sau Mặt trăng, nhìn từ quỹ đạo Mặt trăng bởi William Anders

Prompt do Gemini tạo ra:

“Một hình cầu được chiếu sáng một phần lơ lửng trong một khoảng không tối. Một hình cầu nhỏ hơn, có tông màu xám, mọc lên phía trên đường chân trời của nó. Hình cầu lớn hơn hiển thị các màu xanh và trắng lốm đốm, gợi ý nước và mây. Sự tương phản rõ rệt giữa hai hình cầu và bóng tối nhấn mạnh sự mong manh và cô lập của hình cầu nhỏ hơn đang mọc lên.”

Gemini thực sự đã bỏ lỡ (hay nên nói là hình cầu) với mô tả này. Xem xét rằng đây là một mô tả quá trừu tượng, chúng tôi đã thêm cụm từ “được chụp từ quỹ đạo mặt trăng gần” vào prompt, nhưng điều đó cũng không giúp ích gì nhiều:

Hình ảnh được tạo bởi AI, một hành tinh lớn ở tiền cảnh và một hành tinh nhỏ hơn nhiều ở hậu cảnh, không giống ảnh Earthrise

Đây là một bìa album progressive rock tuyệt vời, nhưng không có gì liên quan đến “Earthrise” cả. Để kết thúc thử nghiệm, chúng tôi đã chọn bức ảnh khó hiểu nhất cho đến nay, kiệt tác công nghiệp “Armco Steel” của Edward Weston:

Bức ảnh đen trắng 'Armco Steel' của Edward Weston, chụp cảnh quan công nghiệp với các ống khói và cấu trúc kim loại

Prompt do AI tạo ra cho bức ảnh này:

“Một loạt các bồn công nghiệp kim loại tròn trịa lấp đầy khung hình. Hình dạng của chúng trơn tru và phình to, tạo ra một mô hình lặp lại. Ánh sáng phản chiếu trên bề mặt, làm nổi bật hình dạng cong của chúng và tạo cảm giác về khối lượng. Bố cục nhấn mạnh các thuộc tính trừu tượng của các vật thể công nghiệp, tập trung vào hình dạng và kết cấu hơn là chức năng của chúng. Cảnh tượng trần trụi và tối giản, với sự nhấn mạnh mạnh mẽ vào ánh sáng và bóng tối.”

Có vẻ là một prompt tốt, hãy xem DALL-E 3 có đồng ý không:

Hình ảnh tạo bởi AI, một loạt các hình trụ kim loại sáng bóng xếp hàng, không giống bức ảnh Armco Steel

Mặc dù chúng tôi đánh giá cao phong cách khoa học viễn tưởng, nhưng nó không giống bất cứ thứ gì trong bản gốc. Chúng tôi không muốn kết thúc thử nghiệm bằng một thất bại thảm hại, vì vậy chúng tôi quyết định giúp máy bằng cách thêm thuật ngữ “bức ảnh thập niên 1920” vào cuối prompt.

Suy nghĩ của chúng tôi là thuật ngữ cụ thể đó có thể giúp làm rõ bức ảnh mà chúng tôi đang đề cập. Thật không may, AI đã khiến chúng tôi thất vọng một lần nữa và tạo ra một bìa album prog rock khác:

Hình ảnh tạo bởi AI, các hình trụ lớn với đỉnh tròn, không cải thiện so với lần thử trước, mang phong cách bìa album nhạc

Kết quả của thử nghiệm này rất thú vị, và kết luận chúng ta có thể đưa ra là khả năng tạo ảnh của AI cực kỳ khó đoán, đặc biệt là với các khái niệm trừu tượng hơn. Không quan trọng là prompt do AI tạo ra và chính xác, hay do con người tạo ra và không hoàn hảo – kết quả dường như vẫn ngẫu nhiên.

Vì vậy, lần tới khi bạn cố gắng tự trách mình và khả năng tạo prompt của mình, hãy nhớ rằng kết quả có lẽ sẽ gần như tương tự ngay cả khi đó là hai cỗ máy đang giao tiếp với nhau. Điều này cho thấy rằng việc phát triển các mô hình AI có khả năng hiểu sâu và diễn giải ngữ cảnh một cách chính xác vẫn còn là một chặng đường dài phía trước.

Quy tắc của thử nghiệm

Khả năng của AI với các hình dạng đơn giản

AI diễn giải ảnh chân dung con người như thế nào?

AI có thể xử lý các bức ảnh phức tạp không?

Administrator

Related Posts

Leave a Comment Hủy