Nowe badanie ujawnia, dlaczego ChatGPT nadal fałszuje informacje.
Pewnego dnia wymieniałem się pomysłami z ChatGPT Nagle zaczął opowiadać długą, fikcyjną historię, która nie miała nic wspólnego z moimi podpowiedziami. Była tak absurdalna, że aż się roześmiałam. Ostatnio rzadko widuję takie błędy w podpowiedziach tekstowych, ale nadal dość regularnie pojawiają się przy generowaniu obrazów.
Dlaczego chatboty ciągle zgadują, chociaż nie powinny?

Badania wskazują, że przyczyną tych halucynacji jest problem strukturalny; źródło problemu tkwi w standardach i rankingach, które oceniają modele sztucznej inteligencji i nagradzają pewne odpowiedzi.
Innymi słowy, gdy chatbot odpowie „Nie wiem”, zostaje ukarany w teście. Oznacza to, że modele są aktywnie zachęcane do udzielania odpowiedzi, nawet jeśli nie są pewne, czy jest ona poprawna.
W praktyce sprawia to, że Twój inteligentny asystent chętniej zgaduje, niż przyznaje się do niepewności. W przypadku prostych, codziennych pytań może to być nieszkodliwe. Jednak w bardziej delikatnych sytuacjach, od pytań medycznych po porady finansowe, te pomyłki wynikające z pewności siebie mogą szybko przerodzić się w realne ryzyko.
Jako doświadczony użytkownik, zawsze sprawdzam fakty i proszę chatbota o podanie źródła. Czasami, gdy informacja wydaje się naciągana i proszę o podanie źródła, chatbot odpowiada na przykład: „Dobra uwaga!” lub coś podobnego, nie przyznając się do błędu.
Nowsze modele nie są odporne.

Co ciekawe, artykuł OpenAI wykazał, że modele skoncentrowane na wnioskowaniu, takie jak o3 i o4-mini, w rzeczywistości częściej doświadczają halucynacji niż niektóre starsze modele. Dlaczego? Ponieważ generalnie generują więcej twierdzeń, co oznacza więcej możliwości popełnienia błędu.
Tak więc, to, że model jest „mądrzejszy” w wyciąganiu wniosków, niekoniecznie oznacza, że jest bardziej prawdopodobny w kwestii tego, czego nie wie.
Jakie jest rozwiązanie tego problemu?

Naukowcy uważają, że rozwiązanie leży w zmianie sposobu, w jaki oceniamy i mierzymy AI. Zamiast karać modele za stwierdzenie „Nie jestem pewien”, bardziej wartościowe testy powinny nagradzać skalibrowane odpowiedzi, oznaki niepewności lub możliwość odwołania się do innych źródeł.
Może to oznaczać, że Twój przyszły chatbot będzie bardziej asekurował swoje odpowiedzi, mniej opierając się na podejściu „To jest odpowiedź”, a bardziej na podejściu „To jest to, co myślę, ale nie jestem pewien”. Może się to wydawać wolniejsze, ale może znacznie ograniczyć szkodliwe błędy. To dowodzi, że krytyczne myślenie z naszej strony nadal jest ważne.
Jak ważne jest to dla Ciebie?

Jeśli korzystasz z popularnych chatbotów, takich jak ChatGPT, Gemini, Claude czy Grok, prawdopodobnie doświadczyłeś już „halucynacji”. Badania sugerują, że nie chodzi wyłącznie o sam model, ale raczej o sposób jego testowania – jak w grze losowej, w której sprawdza się, kto ma rację w większości przypadków.
Dla użytkowników oznacza to, że musimy zachować ostrożność i traktować odpowiedzi AI jako pierwszą sugestię, a nie ostateczne słowo. Dla deweloperów to sygnał, że nadszedł czas, aby przemyśleć sposób pomiaru sukcesu, aby przyszli asystenci AI mogli rozpoznawać, czego nie wiedzą, zamiast popełniać krytyczne błędy.

