Startup zajmujący się sztuczną inteligencją przewyższa Gemini 3 w teście wnioskowania kluczowego

Od kiedy się pojawił Gemini 3 Po raz pierwszy udało mu się utrzymać pozycję lidera Tabela liderów LMArenaLista ta stanowi zbiorczy ranking, w którym tysiące prawdziwych użytkowników porównuje modele. Sztuczna inteligencja Testują się nawzajem w szerokim zakresie zadań, głosując na najlepszą odpowiedź. Ale jeśli chodzi o spełnienie najtrudniejszych kryteriów wnioskowania, pojawia się nowa, wschodząca gwiazda, która już prześcignęła Google'a – i to bez trenowania własnego modelu.

Sześcioosobowy startup o nazwie Poetiq twierdzi, że zajął pierwsze miejsce w Zestaw testowy ARC-AGI-2 półspecjalnyTo niezwykle trudne wyzwanie wnioskowania, stworzone przez badacza sztucznej inteligencji François Cholleta. System startupu uzyskał 54%, przewyższając wcześniejszy wynik Google wynoszący około 45% dla Gemini 3 Deep Think.

Dla porównania, jeszcze sześć miesięcy temu większość modeli sztucznej inteligencji (AI) utrzymywała się poniżej 5% w tym benchmarku. Przekroczenie 50% było czymś, co – jak powszechnie zakładali badacze – zajmie lata.

A co najbardziej zaskakujące: przełom Poetiqa nie był poparty żadnym nowym modelem granicznym, lecz inteligentniejszym sposobem organizacji istniejących modeli.

Jak Poetiq osiągnął ten wyczyn?

Zamiast budować ogromny konwerter od podstaw, Poetiq opracował coś, co nazywa metasystemem; w zasadzie kontroler AI, który nadzoruje, analizuje i ulepsza dane wyjściowe dowolnego modelu, który do niego podłączysz. W pracach nad ARC-AGI-2 zespół wykorzystał Gemini 3 Pro jako model bazowy.

Poetiq opisuje system jako ściśle kontrolowaną pętlę optymalizacji: Utwórz > Krytykuj > Ulepszaj > Sprawdź.

Oto co czyni go wyjątkowym:

Nie jest wymagane przekwalifikowanie: System dostosowuje się do nowych modeli w ciągu kilku godzin.
Jest on w całości zbudowany na dużych, gotowych modelach językowych: Brak dostępnej edycji niestandardowej
Tutaj jest: Według doniesień system Deep Think firmy Google kosztuje 77 dolarów za zadanie; system Poetiq kosztuje około 30 dolarów.
Otwarte źródło: Rozwiązanie jest publicznie dostępne i weryfikowalne.
Samokontrola: System ocenia własne odpowiedzi przed podaniem końcowego wyniku.

على Strona internetowa Zespół Poetiq twierdzi, że podejście to opiera się na wyodrębnieniu Plus z mocy wnioskowania istniejących dużych modeli językowych, a nie na siłowym skalowaniu obliczeń.

Dlaczego test ARC-AGI-2 jest ważny?

Podczas gdy większość standardowych testów mierzy ograniczone umiejętności, takie jak programowanie czy matematyka, test ARC-AGI-2 opracowano w celu testowania czegoś głębszego: rozpoznawania wzorców, pomiaru, rozumowania abstrakcyjnego i rodzaju generalizacji, jakiej ludzie uczą się we wczesnym dzieciństwie.

Jest celowo trudny i wyjątkowo nieprzyjazny dla obecnych Dużych Modeli Językowych (LLM). Nawet wiele zaawansowanych modeli zawodzi w nim spektakularnie.

Z tego powodu skok z jednocyfrowych wyników do 54 procent w ciągu pół roku był zaskakujący. Świadczy to o postępie w metodach wnioskowania, a nie tylko o rozmiarze surowego modelu.

Jednak wynik Poetiq odnosi się konkretnie do półprywatnej grupy testowej, która nie jest w pełni dostępna publicznie. Na stronie internetowej firmy podano, że wynik został zweryfikowany przez organizację zajmującą się testami porównawczymi, ale niezależna replikacja przez stronę trzecią jest nadal w toku, co ma istotne znaczenie dla testu porównawczego o takim wpływie.

Kolejny przełom może nie nastąpić wraz z większymi modelami, gdyż praca Poetiqa wskazuje na rosnący trend w dziedzinie sztucznej inteligencji: postęp nie zawsze wymaga miliardów dolarów na infrastrukturę lub ogromnego laboratorium badawczego.

Jeśli takim systemom uda się wyjść poza standardowe parametry i uwzględnić planowanie, programowanie, badania, a nawet podejmowanie decyzji w świecie rzeczywistym, mogą one zmienić sposób rozwoju sztucznej inteligencji. Zamiast czekać na kolejny superkomputer, firmy mogłyby skupić się na budowaniu inteligencji złożonej, która sprawi, że dzisiejsze modele będą inteligentniejsze, tańsze i bardziej spójne.

Wniosek

Poetiq udostępnił rozwiązanie open source dla ARC-AGI, dzięki któremu naukowcy mogą testować, rozszerzać, a nawet kwestionować jego wyniki. Standard zawiera ukryty zestaw testów, a historia pokazuje, że wyniki mogą ulec zmianie, gdy znaczna liczba osób przeprowadzi niezależne oceny.

Jeśli wyniki Poetiqa się potwierdzą, może to oznaczać punkt zwrotny w badaniach nad wnioskowaniem w sztucznej inteligencji. Sześcioosobowy zespół być może właśnie udowodnił, że organizacja modeli może dorównać, a nawet przewyższyć, trenowanie znacznie większych modeli. Poetiq właśnie udowodnił, że nie potrzeba ogromnego laboratorium, aby odnieść sukces.

Gemini