Stajemy twarzą w twarz z gigantami sztucznej inteligencji w wyszukiwarkach: Claude, ChatGPT, Perplexity i Gemini – wyniki są szokujące!

Poszukiwanie odpowiedzi

Po latach testowania i porównywania chatbotów opartych na sztucznej inteligencji (AI) oraz ich funkcji, wykształciłem szósty zmysł, który pozwala mi odróżniać, kiedy ci cyfrowi towarzysze wiedzą, o czym mówią, a kiedy po prostu oszukują. W tym artykule porównano możliwości wyszukiwania ChatGPT, Gemini, Claude i Perplexity.

Większość osób może szukać odpowiedzi w Internecie, co z pewnością jest pomocne, jednak połączenie wyszukiwania ze sztuczną inteligencją może prowadzić do zaskakująco trafnych odpowiedzi (oraz mniej trafnych dygresji).

Wyobraź sobie znajomego, który zapadł w śpiączkę w październiku 2024 roku i obudził się dopiero dziś. Może i zna się na wszystkim, co działo się przed śpiączką, ale nie ma pojęcia o niczym innym, co wydarzyło się później. Tak właśnie wygląda sztuczna inteligencja bez badań.

Zazwyczaj skupiam się na jednym chatbocie AI lub porównuję dwa naraz, ale badania wydają się na tyle ważne, że uzasadniają zwiększenie wysiłków. Postanowiłem zestawić ze sobą cztery wiodące chatboty AI i ich możliwości badawcze: ChatGPT z OpenAI, Gemini z Google, Claude z Anthropic i Perplexity AI.

Najbardziej odkrywcze są testy symulujące rzeczywiste scenariusze użytkowania. Wymyśliłem więc kilka tematów, zrandomizowałem szczegóły poniższych testów, a następnie postanowiłem je skategoryzować według ich możliwości badawczych.

Kalendarz

Zacząłem od testu dotyczącego wiadomości i bieżących wydarzeń. Myśląc o niedawnym powrocie dwóch astronautów, poprosiłem cztery chatboty AI o wyszukanie: „Podsumowanie najważniejszych punktów najnowszego komunikatu prasowego NASA na temat nadchodzącej misji”.

Wybrałem to, ponieważ wiadomości ze świata kosmosu zajmują to szczególne miejsce, są regularnie aktualizowane i wystarczająco szczegółowe, aby niejednoznaczne odpowiedzi były natychmiast widoczne. Wszystkie chatboty rozpoczęły testy w stylu, który w dużej mierze utrzymały przez cały czas.

Odpowiedź ChatGPT była niezwykle zwięzła, zawierając zaledwie trzy zdania, z których każde wymieniało nadchodzące zadania bez zbędnych szczegółów. Gemini wybrał wypunktowaną listę różnych zadań, dodając kilka ostatnio ukończonych i szczegóły dotyczące planów na przyszłość. Claude napisał esej o bieżących i nadchodzących zadaniach, nie powtarzając w nim zbyt wielu swoich badań, ale wprowadzając wiele przeformułowań.

W przypadku takiego pytania, gdzie po prostu chcę poznać kilka kluczowych faktów i planuję odpowiedzieć na wszystko, co wpadnie mi w oko, metoda Perplexity była moją ulubioną. Jest bardziej szczegółowa niż ChatGPT, ale jest uporządkowana w ładną, numerowaną listę, z której każda ma własny link do cytowania.

Nie mogę winić nikogo innego, ale styl pasuje do pytania.

Populacja i liczby

To podejście oparte na liście nie zawsze jest odpowiednie, gdy zadaje się pytania o podstawowe fakty i bardziej precyzyjne porównania. Poprosiłem o dwa powiązane fakty, które chatbot AI mógłby szybko wyszukać, ale następnie musiał je porównać, korzystając z polecenia: „Ile obecnie liczy populacja Auckland w Nowej Zelandii i jak wzrosła od 1950 roku?”.

Co ciekawe, istniała rozbieżność między Perplexity i ChatGPT, które podawały aktualną populację na poziomie 1 711 130 osób, a Claude i Gemini, które podawały o 130 osób mniej w Oakland. Jednak wszystkie te serwisy zgadzały się co do liczby ludności w 1950 roku.

Jednak jeśli chodzi o sposób przedstawienia informacji, spodobała mi się narracyjna odpowiedź Claude'a, zawierająca wiele szczegółów na temat zmian populacji, których brakowało w ChatGPT, a które Gemini i Perplexity przedstawiły w formie list.

co się dzieje?

W moim trzecim teście chciałem stworzyć coś, co mogłoby sprawdzić zdolność tych systemów do obsługi informacji związanych z konkretnym miejscem i czasem — takiego rodzaju zapytania, jakie można zadać planując weekendowy wyjazd lub przyjmując gości.

W tym tkwi trudność asystentów AI. Znajomość faktów historycznych lub ogólnych informacji to jedno, ale wiedza o tym, co dzieje się w określonym miejscu i czasie, to zupełnie inna sprawa.

To różnica między wiedzą teoretyczną a wiedzą lokalną. Historycznie rzecz biorąc, systemy sztucznej inteligencji radziły sobie znacznie lepiej z tą pierwszą.

Bez żadnego szczególnego powodu wybrałem miasto, które zawsze mi się podobało i zapytałem: Jakie wydarzenia kulturalne odbędą się w Vancouver w Kolumbii Brytyjskiej w przyszły weekend?

Istniała w tym pewna realna różnica. Zarówno „Perplexity”, jak i „Claude” zachowały zwięzłość i styl, prezentując ponumerowaną listę i bardziej konwersacyjną dyskusję. Jednak Claude posunął się zauważalnie dalej niż głębiej i brzmiał bardziej jak „Perplexity”.

Gemini całkowicie odbiegło od konkurencji i praktycznie odmówiło odpowiedzi na pytania. Zamiast udostępnić podobną listę wydarzeń i atrakcji, Gemini zaoferowało strategie wyszukiwania miejsc do odwiedzenia. Sprawdzanie oficjalnych stron turystycznych i profili Eventbrite nie jest złym pomysłem, ale daleko mu do prostej listy sugestii. To było jak zwykłe wyszukiwanie w Google.

Tymczasem ChatGPT zwrócił dokładnie to, czego oczekiwałem od Gemini. Chociaż opisy wydarzeń były krótkie, sztuczna inteligencja dysponowała obszerną listą konkretnych aktywności z datami i lokalizacjami, linkami do Plus Knowledge, a nawet miniaturami tego, co można znaleźć w linkach.

Sprawdź pogodę

Do mojego czwartego testu wybrałem prawdopodobnie najczęściej zadawane pytanie w przypadku sztucznej inteligencji, ale takie, które wymaga danych w czasie rzeczywistym, aby było użyteczne: pogodę. Prognozy pogody idealnie nadają się do testowania pobierania danych w czasie rzeczywistym, ponieważ są stale aktualizowane, powszechnie dostępne i łatwe do weryfikacji. Mają również naturalną datę ważności; wczorajsze prognozy są już nieaktualne, co jasno wskazuje, kiedy informacje są nieaktualne.

Zapytałem chatbota opartego na sztucznej inteligencji: „Jaka jest prognoza pogody dla Tokio na najbliższe trzy dni?”. Odpowiedzi były niemal przeciwne do tych zadanych przez Vancouver.

Claude udostępnił pomocne podsumowanie pogody w różnych momentach w ciągu następnych trzech dni, ale to było wszystko. ChatGPT wyświetlił małą ikonę słońca lub chmurki obok dziennego podsumowania pogody, ale bardzo spodobał mi się liniowy wykres temperatury Perplexity, który imitował wygląd nieba.

Bez żadnych dodatków, Google Gemini przykuło moją uwagę kolorowymi infografikami. Kiedy myślę o tym, jaka będzie aktualna i nadchodząca pogoda, to w zasadzie wszystko, czego potrzebuję i chcę.

Gdybym chciał zapytać o więcej szczegółów, to bym to zrobił, ale pytanie o pogodę oznacza, że chcę wiedzieć minimum, jak wybrać odpowiedni strój.

krytyk filmowy

W moim ostatnim teście chciałem sprawdzić, jak wyszukiwarki oparte na sztucznej inteligencji poradzą sobie z wyszukiwaniem wielu perspektyw na dany temat i łączeniem ich w spójny obraz. To zadanie wymaga elastycznych funkcji wyszukiwania i umiejętności rozumienia różnych perspektyw. Postanowiłem sprawdzić, jak to się sprawdzi w przypadku zapytania: Podsumuj recenzje profesjonalnych krytyków najnowszego filmu Paddington".

Aplikacja wymaga realistycznego wyszukiwania i umiejętności identyfikowania wzorców i motywów w wielu źródłach bez utraty istotnych niuansów. To różnica między prostym zestawieniem opinii a przemyślaną syntezą, która uchwyca krytyczny konsensus.

Zarówno Gemini, jak i Perplexity sięgnęły po swoje standardowe listy, uszeregowane według zalet i wad przez różnych krytyków, które były pouczające, choć niekoniecznie pomocne w podsumowaniu. Co ciekawe, ChatGPT opublikował najdłuższą odpowiedź na to pytanie – krótki esej obejmujący podobne informacje i podsumowanie, ale w stylu przypominającym ucznia gimnazjum uczącego się podstawowej struktury akapitu: zdania tematycznego, zdań podrzędnych i zakończenia.

Claude zdecydowanie odniósł się do recenzji z największym entuzjazmem, zamieszczając na początku streszczenie, a następnie wyjaśnienia i odniesienia do opinii krytyków. Recenzja wydawała się krótka i pozbawiona polotu, złagodzona cytatami z krytyków, których cytował. Z recenzji wyniosłem poczucie, że lepiej rozumiem, jak temperować swoje oczekiwania wobec filmu. Paddingtona w Peru niż z innymi.

Ranking chatbotów dla wyszukiwania

Po przetestowaniu chatbotów AI w ramach własnych badań, jasno zrozumiałem ich mocne i słabe strony. ChatGPT, Gemini, Perplexity i Claude należą do najlepszych chatbotów, jakie testowałem.

Żadna z nich nie jest tak naprawdę zła, ale gdyby ktoś mnie zapytał, którą z nich należy wypróbować jako pierwszą i ostatnią przy wyszukiwaniu i zbieraniu informacji online, wiem, jak bym odpowiedział.

Gemini plasuje się na ostatnim miejscu, co jest dość szokujące, biorąc pod uwagę, że Google słynie z wyszukiwarki. Jednak nie radzi sobie z obsługą harmonogramu wydarzeń, przez co unikałem tej wyszukiwarki, pomimo jej dobrej wydajności.

Kolejnym zaskoczeniem dla mnie było trzecie miejsce ChatGPT. To chatbot oparty na sztucznej inteligencji, z którego korzystam najczęściej i który dobrze znam, ale jego krótkie odpowiedzi, które zazwyczaj lubię, wydawały się zbyt ograniczone w kontekście wyszukiwania. Jestem pewien, że zmiana modelu lub ograniczenie liczby słów rozwiązałoby ten problem, ale jeśli dopiero zaczynasz przygodę ze sztuczną inteligencją i jeszcze jej nie znasz, zadawanie zbyt wielu pytań uzupełniających to zły pomysł.

To nie jest problem z Perplexity. Numerowane listy były bardzo przejrzyste, a cytowania niemal wyczerpujące. Główną wadą jest dla mnie to, że aplikacja wraca do roli wyszukiwarki bez dodatkowych szczegółów w podpowiedzi. Podoba mi się, że dostarcza dowodów na źródło udostępnianych informacji, ale wydaje się nieco zbyt chętna do kliknięcia w link, zamiast uzyskać informacje od sztucznej inteligencji.

Nie spodziewałem się, że Claude znajdzie się na szczycie tej listy. Chociaż ogólnie rzecz biorąc, Claude był dobrym chatbotem opartym na sztucznej inteligencji, zawsze miałem wrażenie, że pozostaje w tyle za niektórymi konkurentami – może tak samo dobrym, ale w jakiś sposób innym. To wrażenie osłabło podczas tego testu.

Były pewne niedociągnięcia, na przykład odpowiedzi wydawały się nieco przydługie lub wymagały skupienia się na dłuższym artykule, podczas gdy jedno lub dwa zdania by wystarczyły. Podobało mi się jednak, że była to spójna narracja wyjaśniająca wszystkie wydarzenia w Vancouver, a zarazem esej o krytyce filmowej. Paddingtona w Peru Bez powtarzania się.

Asystenci AI to narzędzia, a nie uczestnicy reality show, w którym tylko jedna osoba może wygrać. Różne zadania wymagają różnych umiejętności. Ostatecznie każdy z czterech chatbotów AI i ich funkcje wyszukiwania mogą być przydatne, ale jeśli jesteś gotów zapłacić 20 dolarów miesięcznie za Claude Pro i korzystać z jego funkcji wyszukiwania, to właśnie tego szukasz.