ChatGPT 4o: Cuộc Cách Mạng Tạo Ảnh AI Vượt Trội DALL-E và Những Thử Thách Mới

Table of Contents

OpenAI vừa tung ra một bản nâng cấp khổng lồ cho khả năng tạo ảnh của ChatGPT, và đây thực sự là một khoảnh khắc khiến nhiều người phải dụi mắt nhìn lại và tự hỏi liệu đây có phải là thực tế hay không. Thay vì đi sâu vào các con số khô khan, kích thước mô hình, hay bao nhiêu giờ GPU mà mô hình mới tiêu tốn, chúng tôi sẽ trực tiếp chỉ cho bạn những gì công cụ này có thể làm – và cách nó đối đầu với mô hình DALL-E cũ.

Bài viết này sẽ đưa bạn qua hàng loạt ví dụ trực quan, từ những chi tiết nhỏ nhặt như ngón tay đến việc tái hiện các nhân vật lịch sử và hư cấu, hay thậm chí là khả năng xử lý văn bản phức tạp trong ảnh. Mỗi ví dụ đều là một thử thách mà các công cụ tạo ảnh AI trước đây thường “vấp ngã”, và bạn sẽ thấy ChatGPT 4o tạo ảnh đã có những bước tiến đột phá như thế nào. Mục tiêu của chúng tôi là cung cấp cái nhìn chân thực nhất về sức mạnh của AI vẽ ảnh thế hệ mới, giúp bạn hiểu rõ hơn về tiềm năng và cả những hạn chế còn tồn tại.

7. Tay và Ngón Tay: Cải Thiện Đáng Kể

Khi công nghệ tạo ảnh AI trở nên phổ biến, chúng ta đã kinh ngạc trước những khả năng của nó. Nhưng sau đó… chúng ta bắt đầu nhìn kỹ hơn. Dấu hiệu đặc trưng của một bức ảnh do AI tạo ra thường là những chi tiết tay và ngón tay kỳ lạ, thiếu tự nhiên. Vậy còn cách nào tốt hơn để kiểm tra các mô hình AI tạo ảnh ngoài việc yêu cầu chúng tái hiện một hợp âm guitar?

Để dành phần tốt nhất cho sau cùng, chúng tôi đã yêu cầu mô hình DALL-E gốc thực hiện trước, sau đó là mô hình tạo ảnh mới được tích hợp vào ChatGPT 4o.

Bàn tay người chơi hợp âm E thứ trên đàn guitar acoustic do DALL-E tạo ra

Hình ảnh trên là những gì DALL-E đã tạo ra. Mặc dù DALL-E có những hạn chế nhất định, nhưng trong trường hợp này, nó xử lý các ngón tay và cấu trúc chung khá ổn. Tuy nhiên, bản thân hợp âm… thì không được chính xác cho lắm. Bàn tay đặt quá cao trên cần đàn để có thể chơi hợp âm E thứ. Nếu bạn phóng to một chút, bạn sẽ thấy cây đàn guitar có nhiều hơn bảy dây, và khoảng cách giữa các dây cũng không đều.

Với những nhận xét đó, hãy cùng xem ChatGPT 4o thể hiện như thế nào.

Bàn tay người chơi hợp âm E thứ trên đàn guitar acoustic do ChatGPT 4o tạo ra, trông rất chân thực

Thoạt nhìn, bạn có thể nghĩ đây là một bức ảnh thật cũ từ thời còn chơi guitar của ai đó. ChatGPT 4o tạo ảnh xuất sắc đến mức đó. Sáu dây đàn, khoảng cách đều đặn, và hợp âm trông như thể đó thực sự là E thứ. Khả năng xử lý chi tiết tay và ngón tay của nó thực sự gây ấn tượng mạnh.

6. Nhân Vật Lịch Sử: Chân Thực Đến Kinh Ngạc

Sau khi đã thử nghiệm thành công với bàn tay và ngón tay, hãy cùng “nghịch” một chút với khuôn mặt. Chúng tôi quyết định thử với các nhân vật lịch sử vì họ sẽ không cảm thấy bị xúc phạm, và thật thú vị khi thấy họ trong bối cảnh hiện đại.

Prompt: Albert Einstein đang ăn kem trong Công viên Trung tâm, mặc áo sơ mi và quần yếm giản dị.

Người đàn ông giống Albert Einstein đang ăn kem trong Công viên Trung tâm do DALL-E tạo ra, phong cách hoạt hình

Một sự thất vọng lớn. Công bằng mà nói, DALL-E đã cảnh báo rằng nó không thể sử dụng chính Einstein và sẽ tạo ra một người “rất giống” ông. Một trong những dấu hiệu nhận biết cổ điển của DALL-E là phong cách vừa hoạt hình vừa thực tế của nó, điều này thể hiện rõ ràng ở đây. Tòa nhà San Remo ở phía sau đúng là gợi ý rằng đây là Công viên Trung tâm, nhưng đó là điểm cộng duy nhất. Hãy cùng đến với ChatGPT 4o.

Người đàn ông giống Albert Einstein đang ăn kem trong Công viên Trung tâm do ChatGPT 4o tạo ra, trông rất chân thực

Nếu bạn áp dụng một bộ lọc đen trắng, có lẽ bạn sẽ tin rằng đây là một bức ảnh cổ điển có thật. Kem trên ốc quế trông rất thật, “Albert” vẫn giữ được vẻ mặt lơ đãng đặc trưng của mình, và tòa nhà San Remo vẫn sừng sững phía sau. Mọi thứ đều khớp. ChatGPT 4o đã hoàn thành xuất sắc nhiệm vụ này.

5. Nhân Vật Hư Cấu: Kết Hợp Hiện Thực Và Tưởng Tượng

Giờ thì chúng ta đã thấy ChatGPT có thể vẽ các nhân vật lịch sử khá tốt. Vì khuôn mặt và con người vẫn là một trong những cách tốt nhất để kiểm tra khả năng của AI, hãy thử thêm vài nhân vật khác.

Prompt: Một nhân vật giống Chúa Tể Sith đang gọi taxi ở Quảng trường George, Glasgow, với mưa nhẹ và đèn giao thông ở hậu cảnh.

Hình ảnh một nhân vật bí ẩn giống Chúa Tể Sith đứng ở Quảng trường George, Glasgow do DALL-E tạo ra

Chúng tôi đã sử dụng từ “similar” (giống) để công cụ hợp tác mà không bị chặn vì vấn đề bản quyền. Kết quả của DALL-E chấp nhận được. Nhân vật này gợi nhớ đến một Sith, và các yếu tố còn lại tương đối chính xác. Không có gì quá hoạt hình, nhưng nó không mang lại cảm giác chân thực. Bạn muốn ảnh trông thật hơn? Hãy xem những gì ChatGPT 4o đã tạo ra với cùng một prompt:

Hình ảnh một nhân vật bí ẩn giống Chúa Tể Sith đứng ở Glasgow, do ChatGPT 4o tạo ra với bầu không khí ấn tượng

Chúng tôi rất thích bầu không khí của bức ảnh – ánh sáng, hạt mưa phùn, và sự hiện diện của Chúa tể Sith đầy u ám. Mọi thứ đều có mặt. Vấn đề duy nhất là vị Chúa tể hắc ám của chúng ta đang đứng giữa đường gọi taxi trong khi lại đối mặt… với vỉa hè. Ồ, và biển báo taxi ghi là “TAXL” thay vì “TAXI”.

Hãy chuyển từ viễn tưởng tương lai sang viễn tưởng lịch sử. Một cái gì đó như:

Prompt: Một nhân vật giống Geralt of Rivia đang mua sắm tại một siêu thị hiện đại, đẩy xe đẩy và cau mày nhìn đồ hộp.

Người đàn ông tóc trắng với vết sẹo trên mặt, giống thợ săn quái vật, đang mua sắm tại siêu thị hiện đại do DALL-E tạo ra

Không tệ chút nào. Hình ảnh vẫn mang hơi hướng hoạt hình tổng hợp, và chữ trên các hộp ngũ cốc hoàn toàn là “ngôn ngữ gibberish”, đúng như dự đoán.

ChatGPT 4o ban đầu từ chối prompt này vì lý do bản quyền – nhưng nó đã hoạt động sau khi chúng tôi đổi “similar to” thành “resembling” (tương tự). Hãy chiêm ngưỡng:

Người đàn ông tóc trắng với vết sẹo trên mặt, giống thợ săn quái vật, đang mua sắm tại siêu thị hiện đại do ChatGPT 4o tạo ra, trông rất tự nhiên

Chúng tôi hoàn toàn không nói nên lời. Giống như hầu hết mọi người, phiên bản Geralt của ChatGPT chủ yếu giống Henry Cavill hơn là phiên bản trong trò chơi điện tử – nhưng nó đã “ăn điểm” tuyệt đối. Vẻ cau có rất đúng, và bối cảnh siêu thị hiện đại cũng rất tự nhiên. Bức ảnh này có thể dễ dàng được sử dụng như một cảnh quay từ một quảng cáo giao thoa kỳ lạ.

4. Phong Cách Hoạt Hình: Linh Hoạt và Chi Tiết Hơn

Khả năng tạo ảnh của OpenAI không chỉ giới hạn ở phong cách chân thực. Trong khi DALL-E luôn có xu hướng tạo ra hình ảnh có phần “được vẽ lại” (airbrushed) bất kể bạn yêu cầu gì, chúng tôi quyết định đẩy cả hai mô hình vào chế độ hoạt hình hoàn toàn.

Prompt: Một thuyền trưởng cướp biển phong cách hoạt hình với áo khoác dài màu đỏ và cánh tay cơ khí, đang cười trên boong tàu bay. Nền trong suốt.

Thuyền trưởng cướp biển phong cách hoạt hình đứng trên boong tàu bay, được tạo bởi DALL-E với nền bàn cờ

DALL-E thực sự đã làm khá tốt ở đây – và nó thậm chí còn hiểu yêu cầu về nền trong suốt. Đại khái là vậy. Những gì chúng tôi nhận được là mẫu bàn cờ xám-trắng cổ điển thường có nghĩa là trong suốt… nhưng ở đây, nó lại được “nướng” vào hình ảnh. Vì vậy, hoàn toàn không trong suốt.

Ngoài ra, một cách trớ trêu, bàn tay sinh học của thuyền trưởng cướp biển AI của chúng ta có bốn ngón trong khi cánh tay cơ khí lại có năm ngón. Có lẽ anh ta đã mạ crôm nhầm tay?

Thuyền trưởng cướp biển phong cách hoạt hình đứng trên boong tàu bay, được tạo bởi ChatGPT 4o với nền trong suốt

Phiên bản của ChatGPT 4o tạo ảnh cho cảm giác sắc nét và có chủ đích hơn. Phong cách tô màu khác biệt – dù có đẹp hơn hay không là tùy cảm nhận – nhưng rõ ràng trông giống như một nghệ sĩ đã cố ý vẽ nó theo cách đó. Nền cũng thực sự trong suốt. Bạn có thể in hình này lên áo phông, in ra, hoặc thậm chí biến nó thành một nhãn dán WhatsApp ngay lập tức.

3. Gương và Phản Chiếu: Thử Thách Lớn Với AI

Gương phản chiếu – và phản chiếu cần logic không gian để trông tự nhiên. Chúng tôi đã đưa ra một prompt mà chúng tôi biết DALL-E sẽ gặp khó khăn.

Prompt: Một bồn rửa mặt hiện đại trong phòng tắm với bàn chải đánh răng và dao cạo râu trên quầy, cả hai đều hiển thị trong gương và góc nhìn thực tế – ánh sáng dịu nhẹ và đều.

Bồn rửa mặt hiện đại với thiết kế bóng bẩy và mặt bàn sạch sẽ, do DALL-E tạo ra với phản chiếu sai lệch

Đúng như dự đoán. Có một thứ gì đó cố gắng trở thành phản chiếu từ vòi nước trong gương, nhưng nó quá dài. Bàn chải đánh răng đang lơ lửng, nằm bên trong bồn rửa, và không tạo ra bất kỳ phản chiếu nào. DALL-E thực sự đã đội chiếc mũ bảo hiểm AI của mình cho thử thách này.

Bồn rửa mặt hiện đại với thiết kế bóng bẩy và mặt bàn sạch sẽ, do ChatGPT 4o tạo ra với phản chiếu được cải thiện

Mô hình mới hơn làm tốt hơn nhiều trong việc làm cho hình ảnh có cảm giác chân thực, như một bức ảnh thật. Phản chiếu của vòi nước hơi lệch nhưng chấp nhận được. Sau đó là bàn chải đánh răng, nó có phản chiếu nhưng lại không tồn tại trong thế giới vật lý – giống như một ma cà rồng ngược.

Không có người chiến thắng rõ ràng ở đây. Kết quả của AI không nhất quán, vì vậy chúng tôi đã cho cả hai mô hình thử lại với một cái gì đó tham vọng hơn một chút:

Prompt: Một người phụ nữ đứng trước một chiếc gương toàn thân trong phòng ngủ tràn ngập ánh nắng, trang phục và tư thế của cô ấy được phản chiếu chính xác, với hình ảnh phản chiếu rõ ràng của cửa sổ phía sau cô ấy.

Người phụ nữ đứng trước gương toàn thân trong phòng ngủ tràn ngập ánh nắng, được tạo bởi DALL-E với lỗi phản chiếu nghiêm trọng

…Chúng tôi thậm chí không muốn phân tích hình ảnh này. Nếu bạn muốn làm cho DALL-E trông tệ, chỉ cần thêm từ “mirror” vào prompt của bạn. Tiếp tục nào.

Người phụ nữ đứng trước gương toàn thân trong phòng ngủ tràn ngập ánh nắng, được tạo bởi ChatGPT 4o với phản chiếu siêu thực

Đúng như dự đoán, phiên bản của ChatGPT 4o trông thực tế hơn rất nhiều – nhưng có lẽ hơi siêu thực lần này? Tư thế và trang phục của người phụ nữ được phản chiếu, nhưng chỉ một phần, giống như hiệu ứng bật ra 3D của Photoshop. Các góc phản chiếu cũng bị lệch. AI vẫn chưa thể xử lý logic không gian một cách hoàn hảo.

2. Xe Cộ và Đường Phố: Mức Độ Chi Tiết Ấn Tượng

Là một người đam mê ô tô, khi các công cụ tạo ảnh AI lần đầu xuất hiện, một trong những điều đầu tiên chúng tôi thử là tạo ảnh ô tô. Kết quả lúc đó không mấy khả quan, nhưng với mô hình mới ra mắt, chúng tôi phải thử lại.

Prompt: Một chiếc Ford GT đời 2006 và một chiếc Peugeot 206 phía sau đèn giao thông màu đỏ trên phố Wall, New York, vào giữa trưa.

Xe Ford GT 2006 và Peugeot 206 dừng đèn đỏ, do DALL-E tạo ra với phong cách hoạt hình và lỗi vị trí

DALL-E lại tiếp tục với phong cách hoạt hình ngày càng khó chịu của nó. Chiếc Peugeot đang ở trên vỉa hè, đèn giao thông mà chúng tôi yêu cầu thì lại quay mặt vào các tòa nhà, và biển số xe đều là chữ “gibberish”.

Xe Ford GT 2006 và Peugeot 206 dừng đèn đỏ, do ChatGPT 4o tạo ra với chi tiết xe chính xác

Kết quả của ChatGPT 4o tạo ảnh tốt hơn đáng kể. Các xe được mô tả chính xác – ngay cả nắp bánh xe của Peugeot cũng rất đúng chỗ và phù hợp với thời đại. Kiểu chi tiết này không phải là ngẫu nhiên. Nhưng nó còn tốt hơn nữa:

Xe Ford GT 2006 và Peugeot 206 dừng đèn đỏ, do ChatGPT 4o tạo ra, có thể dùng làm hình nền điện thoại

Chúng tôi thực sự có thể sử dụng bức ảnh này làm hình nền điện thoại của mình. Ánh sáng, bố cục, phản chiếu – mọi thứ đều hoàn hảo. Ngoài sự trống trải kỳ lạ của con phố, bức ảnh này có thể dễ dàng được coi là một bức ảnh thật.

1. Chữ và Văn Bản: Bước Tiến Đột Phá

Cuối cùng, chúng ta nhắm vào gót chân Achilles của mọi công cụ tạo ảnh AI. Hầu hết các công cụ tạo ảnh AI đều gặp khó khăn trong việc hiển thị văn bản đúng cách. Đến giờ, bạn đã thấy đủ các chữ “gibberish” từ DALL-E trong các ví dụ trước để hiểu ý chúng tôi.

Để làm cho nó thú vị hơn – và nhất quán hơn – chúng tôi đã thêm yêu cầu rằng bức thư phải chứa văn bản bài phát biểu của Vua Terenas gửi Arthas từ Warcraft III.

Prompt: Một bức thư viết tay trên giấy cổ, với chữ viết thư pháp, đặt cạnh một cây bút máy và một lọ mực. (Thêm nội dung: bài phát biểu của Vua Terenas gửi Arthas từ Warcraft III).

Cảnh cận cảnh một bức thư viết tay trên giấy da hơi vàng, do DALL-E tạo ra với chữ viết không thể đọc được

DALL-E đã làm những gì nó giỏi nhất với văn bản: biến nó thành những chữ nhòe nhoẹt, không thể đọc được. Nó cố gắng hiển thị đúng một vài từ, và bầu không khí thì tốt – bút và lọ mực trông ổn.

Cảnh cận cảnh một bức thư viết tay trên giấy da hơi vàng, do ChatGPT 4o tạo ra với chữ viết rõ ràng và chính xác

ChatGPT 4o tạo ảnh đã làm được điều không tưởng – từng từ một, với chữ viết thư pháp rõ ràng. Hoàn hảo đến từng chữ cái. So với DALL-E, đây là một bước nhảy vọt khổng lồ. Xin chúc mừng, OpenAI.

Công nghệ tạo ảnh AI đã đi một chặng đường dài – và điều đó thể hiện rõ ràng. ChatGPT 4o giống như mô hình đầu tiên thực sự hiểu rõ về ánh sáng, kết cấu và ngữ cảnh khi tạo ra hình ảnh.

Tại thời điểm này, câu hỏi thực sự còn lại là: các biện pháp bảo vệ của ChatGPT mạnh đến mức nào? Chúng tôi đã dễ dàng vượt qua các hạn chế bản quyền của nó. Sẽ mất bao lâu trước khi ai đó “jailbreak” ChatGPT và bắt đầu tạo ra bất kỳ nội dung nào họ muốn bằng mô hình có khả năng phi thường này?

Hy vọng bài viết này đã mang lại cho bạn cái nhìn toàn diện về những cải tiến vượt bậc trong khả năng tạo ảnh của ChatGPT 4o so với DALL-E. Bạn nghĩ sao về những hình ảnh được tạo ra? Hãy để lại bình luận và chia sẻ ý kiến của bạn về tương lai của AI tạo ảnh nhé!