Zobacz sam: nowe możliwości generowania obrazów w ChatGPT są niesamowite

Firma OpenAI wydała ogromną aktualizację funkcji generowania obrazów w ChatGPT – to niesamowita aktualizacja, która na nowo definiuje rzeczywistość. To przełomowe osiągnięcie w dziedzinie generowania obrazów za pomocą sztucznej inteligencji.

Nie będę marnował czasu na liczby, rozmiary modeli ani liczbę taktowań GPU w nowym modelu. Po prostu pokażę Ci, co potrafi ta aktualizacja i jak wypada w porównaniu z poprzednim modelem DALL-E.

7. dłonie i palce

Zbliżenie osoby grającej akord e-moll na gitarze, palce naciskające struny w małej głębi ostrości.

Technologia generowania obrazów przez sztuczną inteligencję zadziwiła nas, gdy po raz pierwszy zyskała popularność. Potem… przyjrzeliśmy się jej bliżej. Cechą charakterystyczną obrazu generowanego przez sztuczną inteligencję jest dziwna anatomia dłoni i palców. Czy istnieje lepszy sposób na przetestowanie modeli niż poproszenie ich o sfotografowanie struny gitary?

Aby zostawić najlepsze na koniec, najpierw zapytałem oryginalny model DALL-E, a następnie nowy generator obrazów wbudowany w model ChatGPT 4o.

Powyższy obraz przedstawia gitarę DALL-E. Pomimo swoich wad, DALL-E radzi sobie tu przyzwoicie z palcowaniem i ogólną anatomią. Ale sama struna… nie. Dłoń jest ułożona zbyt wysoko na gryfie, aby zagrać e-moll. Jeśli trochę powiększysz, zauważysz, że gitara ma więcej niż siedem strun. Odstępy między strunami są również nieregularne.

Mając to na uwadze, przejdźmy do ChatGPT 4o.

Mógłbym powiedzieć, że żartuję i że to stare zdjęcie z czasów, kiedy grałem na gitarze. ChatGPT 4o jest aż tak dobry. Sześć strun, równomiernie rozmieszczonych, a akord to właściwie e-moll. Jestem pod wrażeniem.

6. postacie historyczne

Albert Einstein je lody w Central Parku, ubrany w zwykłą koszulę i szelki.

Po eksperymentach z generowaniem obrazów różnych obiektów, postanowiliśmy spróbować wygenerować wizerunki postaci historycznych. Ponieważ nie obraziłyby się, fajnie byłoby zobaczyć je we współczesnym otoczeniu. Zacznijmy od użycia DALL-E 2 i ChatGPT 4 do wygenerowania obrazu Einsteina.

Wyniki uzyskane przez DALL-E 2 były rozczarowujące, ponieważ zostałem wcześniej ostrzeżony, że nie może wykorzystać zdjęcia samego Einsteina, a zamiast tego użyje zdjęcia kogoś, kto „bardzo go przypomina”. Zdjęcia z DALL-E 2 mają realistyczny, kreskówkowy styl, co jest tu wyraźnie widoczne. Budynek San Remo w tle sugeruje, że zdjęcie zostało zrobione w Central Parku, ale to jedyne prawdziwe osiągnięcie.

Przejdźmy teraz do ChatGPT 4o.

Nakładając czarno-biały filtr na to zdjęcie, mogę przekonać, że to prawdziwa fotografia vintage. Krem na rożku wygląda idealnie kremowo, Einstein prezentuje się w swoim charakterystycznym, swobodnym stylu, a budynek San Remo wciąż jest obecny w tle. Wszystko wygląda idealnie. ChatGPT 4o stworzył to zdjęcie.

5. postacie fikcyjne

Postać przypominająca Lorda Sitha zatrzymuje taksówkę na George Square w Glasgow. W tle widać lekki deszcz i sygnalizację świetlną.

Do tej pory widzieliśmy, że ChatGPT doskonale radzi sobie z rysowaniem postaci historycznych. Ponieważ twarze i ludzie to nadal najlepsze sposoby na przetestowanie możliwości sztucznej inteligencji, wypróbujmy Plus.

Użyłem słowa „podobny”, aby chatbot ze mną współpracował, nie wystawiając mnie na próbę z informacją o prawach autorskich. Rezultat dla DALL-E był dobry. Postać rzeczywiście przypomina Lorda Sithów, a reszta elementów jest dość wierna.

Nie ma w tym nic karykaturalnego, ale nie wygląda realistycznie. Chcesz realizmu? Zobacz, co ChatGPT 4o stworzyło za pomocą tego samego polecenia:

Uwielbiam ten klimat – oświetlenie, mgłę, ponurą obecność Lorda Sithów. Wszystko jest. Jedyny problem to to, że Mroczny Lord stoi na ulicy i łapie taksówkę, patrząc… na chodnik. Poza tym na znaku taksówki jest napisane „TAXL”.

Przejdźmy od fikcji o przyszłości do fikcji historycznej. Coś takiego:

Postać przypominająca Geralta z Rivii robi zakupy spożywcze w nowoczesnym supermarkecie, pchając wózek sklepowy i marszcząc brwi na widok konserw.

Całkiem nieźle. Obrazek nadal ma ten sztuczny, kreskówkowy klimat, a tekst na pudełkach płatków jest zupełnie niezrozumiały, jak można się było spodziewać.

ChatGPT 4o początkowo odrzuciło roszczenie dotyczące praw autorskich, ale odniosło sukces, gdy zastąpiłem „podobne do” słowem „podobne do”. Zobacz:

Brak mi słów. Jak większość ludzi, interpretacja Geralta w ChatGPT to w zasadzie Henry Cavill, a nie wersja z gry wideo – ale udało mu się. Grymas jest trafiony w punkt, a scena wydaje się naturalna.

To mogłoby uchodzić za scenę z jakiejś dziwnej reklamy. I tak, czytałem książki. Wiedźmin Zanim stało się to serialem.

4. animacja

Komiks przedstawiający kapitana piratów w długim czerwonym płaszczu i z bioniczną ręką, śmiejącego się na pokładzie latającego statku. Przezroczyste tło.

Generowanie obrazu w OpenAI nie ogranicza się do realizmu. Chociaż DALL-E zawsze dodaje odrobinę wygładzania, niezależnie od danych wejściowych, postanowiłem przełączyć oba modele w tryb pełnej karykatury. Skupiłem się na poprawie jakości karykatur poprzez zastosowanie zaawansowanych technik sztucznej inteligencji.

W rzeczywistości DALL·E wykonał tu dobrą robotę – zrozumiał nawet prośbę o przezroczyste tło. W pewnym sensie. Otrzymujemy klasyczny szaro-biały wzór szachownicy, który zazwyczaj oznacza przezroczystość… z tą różnicą, że tutaj jest on wtopiony w obraz. Więc w ogóle nie jest przezroczysty.

Ironią jest również to, że biologiczna dłoń hakera, stworzona przez sztuczną inteligencję, ma cztery palce, a bioniczna – pięć. Może zakrył nie to ramię chromem?

ChatGPT 4o wygląda ostrzej i bardziej przemyślanie. Styl kolorowania jest różny – czy lepszy, czy gorszy, to kwestia indywidualna – ale wyraźnie wygląda, jakby narysował go artysta. Rysunki ChatGPT są wysokiej jakości i szczegółowe.

Tło jest również przezroczyste. Można je umieścić na koszulce, wydrukować, a nawet od razu przekształcić w naklejkę WhatsApp.

3. Lustra i odbicia

Nowoczesna umywalka w łazience ze szczoteczką do zębów i maszynką do golenia na blacie, widoczne zarówno w lustrze, jak i w rzeczywistości – oświetlenie jest miękkie i równomierne. Dokładne odwzorowanie odbić na obrazach generowanych przez sztuczną inteligencję stanowi wyzwanie.

Lustra odbijają obrazy, a odbicia wymagają logiki przestrzennej, aby wyglądały naturalnie. Przedstawiłem podejście, na które, jak wiedziałem, DALL-E natknie się przypadkiem. Generowanie realistycznych obrazów z dokładnymi odbiciami to jedno z największych wyzwań stojących przed sztuczną inteligencją.

Zgodnie z oczekiwaniami. Coś próbuje naśladować odbicie kranu w lustrze, ale jest za wysokie. Szczoteczka do zębów unosi się w zlewie i nie rzuca żadnego odbicia. Firma DALL-E włożyła w ten przykład wiele wysiłku.

Nowszy model znacznie lepiej oddaje realizm obrazu, przypominając prawdziwą fotografię. Odbicie kranu jest nieco przekrzywione, ale akceptowalne. Jest też szczoteczka do zębów, która ma odbicie, ale nie istnieje w świecie fizycznym – jak odwrócony wampir.

Nie ma tu wyraźnego zwycięzcy. Wyniki sztucznej inteligencji są niespójne, więc dałem im jeszcze jedną szansę, tym razem z czymś ambitniejszym:

Kobieta stoi przed dużym lustrem w oświetlonej słońcem sypialni. Jej ubranie i postawa odbijają się idealnie, a za nią wyraźnie widać okno.

…nawet nie chcę analizować tego przykładu. Ludzie, jeśli chcecie, żeby DALL-E wypadło źle, po prostu dodajcie do wpisu słowo „lustro”. Idźmy dalej.

Zgodnie z oczekiwaniami, wersja ChatGPT 4o wygląda bardziej realistycznie – ale tym razem może nieco surrealistycznie? Pozycja i ubranie kobiety odbijają się, ale tylko częściowo, jak w trójwymiarowym efekcie Photoshopa. Kąty odbicia również są nieprawidłowe. Sztuczna inteligencja nadal nie radzi sobie z rozumowaniem przestrzennym. Zrozumienie przestrzeni trójwymiarowej i odbić wydaje się być dla niej ogromnym wyzwaniem.

2. Samochody i ulice

Ford GT z 2006 roku i Peugeot 206 przejeżdżają na czerwonym świetle na Wall Street w Nowym Jorku, w południe.

Jestem entuzjastą motoryzacji. Kiedy pojawiło się oprogramowanie do generowania obrazów oparte na sztucznej inteligencji, jedną z pierwszych rzeczy, których spróbowałem, było tworzenie obrazów samochodów. Rezultaty nie były wtedy zachwycające, ale wraz z pojawieniem się nowego modelu musiałem spróbować ponownie.

Oto DALL-E ponownie, prezentując swoją coraz bardziej niepokojącą, karykaturalną estetykę. Peugeot stoi na chodniku, sygnalizacja świetlna, o którą prosiłeś, jest zwrócona w stronę budynków, a numery rejestracyjne są niezrozumiałe.

Wyniki ChatGPT 4o są znacznie lepsze. Samochody są przedstawione precyzyjnie – nawet kołpaki Peugeota są bardzo dokładne i pasują do epoki. Tego rodzaju detale nie są przypadkowe. Jest coraz lepiej:

Mogłabym użyć tego zdjęcia jako tapety w telefonie. Oświetlenie, kompozycja, odbicia – wszystko wygląda idealnie. Pomijając pustkę na ulicy, to zdjęcie mogłoby uchodzić za prawdziwe.

1. Teksty i wiadomości

Ręcznie napisany list na starym papierze pismem kursywnym, umieszczony obok wiecznego pióra i kałamarza.

Na koniec zajmiemy się piętą achillesową każdego generatora obrazów. Większość generatorów obrazów opartych na sztucznej inteligencji ma problemy z generowaniem poprawnego tekstu. Widziałeś już wystarczająco dużo niezrozumiałego tekstu z DALL-E w poprzednich przykładach, aby wiedzieć, o co mi chodzi. Generowanie tekstu z obrazów stanowi poważne wyzwanie dla twórców tych technologii.

Aby uczynić list ciekawszym i bardziej spójnym, dodałem, że powinien zawierać tekst listu króla Terenasa do Arthasa z Warcraft III.

DALL-E zrobił to, co potrafi najlepiej z tekstem: przekształcił go w przekręcony, niezrozumiały tekst. Udało mu się poprawnie napisać kilka słów, a ogólna atmosfera wyglądała dobrze – pióro wieczne i kałamarz prezentowały się dobrze. Jednak dokładność generowania tekstu była nadal ograniczona.

ChatGPT 4o trafił w dziesiątkę – każde słowo, napisane wyraźną kursywą. Idealnie. W porównaniu z DALL-E to ogromny krok naprzód. Brawo, OpenAI. To pokazuje, jak daleko zaszła sztuczna inteligencja w generowaniu tekstu.

Techniki generowania obrazu oparte na sztucznej inteligencji (AI) przeszły długą drogę – i to widać. ChatGPT 4o wydaje się być pierwszym modelem, który naprawdę rozumie te techniki pod względem oświetlenia, tekstury i kontekstu. To znaczący postęp w dziedzinie generowania obrazu opartego na AI.

W tym momencie pozostaje tylko jedno pytanie: jak silne są zabezpieczenia ChatGPT? Z łatwością ominął on ograniczenia praw autorskich. Ile czasu upłynie, zanim ktoś dokona jailbreaku ChatGPT i zacznie tworzyć dowolne treści, korzystając z tego niezwykle zaawansowanego modelu? Ta możliwość rodzi pytania o odpowiedzialne korzystanie z technologii sztucznej inteligencji.

ChatGPT