Grok kontra Gemini w 7 testach generowania obrazów przez sztuczną inteligencję: Który jest lepszy?
Każdy generator obrazów ma swoje mocne strony.
Generatory obrazów oparte na sztucznej inteligencji dynamicznie się rozwijają, stając się inteligentniejsze, szybsze i bardziej kreatywne. Po przetestowaniu możliwości generowania obrazów przez ChatGPT-5 i Gemini, chciałem porównać wydajność Gemini od Google z Grokiem, „darmowym” chatbotem Elona Muska.

W siedmiorundowej bitwie, obejmującej zarówno żądania fotorealistyczne, jak i w stylu Pixara, przetestowałem zgodność każdego modelu z instrukcjami i jego zdolność do tworzenia przekonujących obrazów. Oto kluczowe mocne strony każdego z nich i to, która sztuczna inteligencja ostatecznie zwyciężyła. To porównanie pomoże Ci zrozumieć, który model – Gemini czy Grok – najlepiej odpowiada Twoim potrzebom w zakresie generowania obrazów przez sztuczną inteligencję.
1. Hiperrealistyczna koncepcja produktu

Prawo: „Stwórz realistyczne zdjęcie składanego, przezroczystego smartfona położonego na drewnianym stoliku kawiarnianym, z odbijającymi się od jego powierzchni światłami miasta”.
Zadziałało Grok Spełniając tę prośbę, stworzył dwa realistyczne zdjęcia, które zawierały wszystkie szczegóły, o które prosiłem. Obie wersje wyglądały na dopracowane i dokładnie odzwierciedlały koncepcję.
Wynik był taki Gemini Dobrze, ale nie idealnie. Przezroczysty smartfon wyglądał nieco nieproporcjonalnie, a odbicia świateł miasta, kluczowy element reklamowy, nie zostały oddane tak przekonująco, jak w przypadku Groka.
zwycięzca: wygrywa Grok Aby wygenerować wysokiej jakości obraz i jak najlepiej zinterpretować twierdzenie. W tym teście generowania obrazu przez sztuczną inteligencję, Grok zdecydowanie wygrał.
2. Rysowanie postaci z emocjami

Prawo: „Narysuj ilustrację w stylu komiksowym przedstawiającą młodego astronautę, który zdaje sobie sprawę, że na Marsie zapomniał hełmu — z przesadną ekspresją, żywymi kolorami i kreskówkowym poczuciem humoru”.
Wytwarzać Grok Dwa zdjęcia, na których widać zaskoczonych astronautów, obaj w hełmach. Ponieważ zdjęcia są tak blisko siebie, trudno je jednoznacznie zinterpretować, a „zapomnienie” nie jest zbyt wyraźne.
Wytwarzać Gemini Na tym zdjęciu widać zapominalskiego astronautę. Dymek myślowy lepiej oddaje przyczynę dyskomfortu astronauty, choć zdjęcie byłoby lepsze, gdyby astronauta nie miał na sobie hełmu. Tło i ogólny projekt są wyraźne.
Zwycięzca: Bliźnięta Nagroda jest przyznawana za dokładniejsze przestrzeganie instrukcji i za bardziej komiczny obraz.
3. Nowe spojrzenie na historię

Prawo: „Narysuj obraz w stylu renesansowym przedstawiający Kleopatrę trzymającą nowoczesny smartfon, w stylu Leonarda da Vinci.”
Wytwarzać Grok Na zdjęciu widać współczesną kobietę w stroju renesansowym, trzymającą smartfon. Obraz wygląda raczej jak selfie i jest bardzo nowoczesny.
skupiać się Gemini Pod względem artystycznym obraz przypominał bardziej malarstwo renesansowe i samą Kleopatrę, a nie po prostu współczesną kobietę w stroju.
Zwycięzca: Bliźnięta Zwyciężyła za najlepszą interpretację prośby i najlepszą dokładność historyczną.
4. Skomplikowana scena zbiorowa

Prawo: „Stwórz zdjęcie lotnicze Times Square w Sylwestra, wypełnionego po brzegi tłumami, ze świecącymi billboardami i konfetti spadającym na nocne niebo”.
Grok Jestem naprawdę rozczarowany tą rundą. Oba zdjęcia były równie kiepskie, nieco rozmazane i nie oddawały dobrze atmosfery sylwestra na Times Square. Ludzie byli zbyt daleko od siebie, a inne szczegóły, które mogłyby sugerować sylwestra, były niewidoczne.
Gemini Uchwyć energię i tłumy sylwestrowe na Times Square. Zdjęcie wyraźnie pochodzi z Nowego Jorku, a napisy wyraźnie sygnalizują tę okazję. Tłum jest pełny, w przeciwieństwie do zdjęć Groka.
Zwycięzca: Bliźnięta Wygrywa najwyraźniejsze i najdokładniejsze zdjęcie Sylwestra na Times Square.
5. Surrealistyczny miks

Prawo: „Wyobraź sobie gigantyczną ośmiornicę grającą w szachy z Albertem Einsteinem w szklanej komorze na dnie oceanu”.
Twarz Grok Trudność z tym testem. „Myślenie” trwało znacznie dłużej niż w przypadku wszystkich innych pytań w teście. Obraz był dobry, ale nie uwzględniał pytania „szklany pokój”.
Stopa Gemini Natychmiast zrobiłem zdjęcie czegoś, co wyglądało na portret. Szklany dom był interesujący i realistyczny. Ośmiornica była znacznie większa niż ta Groka i lepiej dopełniała ten dziwny obraz.
Zwycięzca: Bliźnięta Zwycięża dzięki doskonałej jakości obrazu i precyzyjnym wskazówkom.
6. Przejrzystość infografiki

Podpowiedź: „Zaprojektuj czytelną infografikę ilustrującą cykl życia motyla, oznaczając poszczególne stadia, używając strzałek i płaskich ikon z jak najmniejszą liczbą kolorów.”
To była próba Grok Stworzyć wykres, który byłby jednocześnie udany i nieudany. Pierwsza wersja była zbyt rozbudowana, z niepotrzebnym dodatkowym motylem, który odwracał uwagę od cyklu życia. Druga wersja była bliższa twierdzeniu, ale brakowało jej precyzji w szczegółach cyklu.
Gemini Przygotuj czytelny obraz, który dokładnie przedstawia cykl życia motyla, z czytelnymi etykietami, niewielką liczbą kolorów i etykietami łatwymi do odczytania.
Zwycięzca: Bliźnięta Wygrywa, bo wypełnił wniosek za pierwszym razem. Zdjęcie jest dokładne i gotowe do wyświetlenia.
7. Zachowaj spójność stylowych zdjęć profilowych.

Prawo: „Stwórz trójwymiarowy model postaci w stylu Pixara przedstawiający 40-letnią dziennikarkę o blond włosach trzymającą notes – a następnie stwórz 3 warianty z różnymi strojami”.
Grok Całkowicie przeoczył prośbę o „styl Pixara” w tym temacie, a także o „różne stroje”. Stworzył trzy różne fryzury, co należy mu się.
Gemini Rozwal dziennikarza w stylu Pixara, ale nie zauważ trzech różnic.
Zwycięzca: Remis Oba roboty nie wykonały instrukcji. Gdybym miał wybrać jednego, byłby to Gemini za właściwy styl i lepsze uchwycenie atmosfery dziennikarza.
Zwycięzca klasyfikacji generalnej: Gemini
Po siedmiu poleceniach Gemini okazał się najbardziej niezawodnym generatorem obrazów. Wykonywał instrukcje bardziej konsekwentnie i dokładnie, tworzył czystsze kompozycje i opanował szczegóły, które Grok często pomijał. Innymi słowy, Gemini znakomicie rozumiał i wykonywał polecenia tekstowe w celu generowania żądanych obrazów.
Grok z pewnością wykazał się przebłyskami kreatywności i odniósł wyraźny sukces w fotorealizmie, ale często miał problemy z dokładnością i odbiegał od normy. Jeśli zależy Ci na eksperymentalnych i niekonwencjonalnych rezultatach, Grok ma swoje momenty. Jednak do codziennego użytku, gdzie klarowność, precyzja i dopracowanie są najważniejsze, Gemini to generator obrazów oparty na sztucznej inteligencji, któremu ufam. Krótko mówiąc, Gemini to lepszy wybór dla użytkowników poszukujących spójnych, wysokiej jakości rezultatów w różnych scenariuszach.
Próbowaliście już Groka? A co powiecie na Gemini? Który jest Waszym ulubionym? Dajcie znać w komentarzach.
Możliwość dodawania komentarzy nie jest dostępna.