DeepSeek przygotowuje się do kolejnej rewolucji w dziedzinie sztucznej inteligencji, wykorzystując samodoskonalące się modele.

Zaledwie kilka miesięcy temu wielki zakład Wall Street na sztuczną inteligencję generatywną stanął przed decydującym momentem, gdy pojawił się DeepSeek Na scenie. Pomimo swojego ściśle kontrolowanego charakteru, open-source'owy DeepSeek pokazał, że wiodący model wnioskowania AI niekoniecznie wymaga miliardów dolarów i można go osiągnąć przy skromnych zasobach. To stanowi istotną zmianę w naszym rozumieniu rozwoju zaawansowanych modeli AI.

Szybko została wdrożona komercyjnie przez gigantów, takich jak Huawei, Oppo i Vivo, a firmy takie jak Microsoft, Alibaba i Tencent szybko zapewniły jej miejsce na swoich platformach. Teraz kolejnym celem tej popularnej chińskiej firmy są samodoskonalące się modele sztucznej inteligencji, które wykorzystują podejście „pętli nagrody” do samodoskonalenia. Ten trend odzwierciedla ciągłe dążenie firm do tworzenia bardziej wydajnych i efektywnych systemów sztucznej inteligencji.

W artykule przedpremierowym (za pośrednictwem BloombergNaukowcy z DeepSeek i Uniwersytetu Tsinghua w Chinach opisują nowe podejście, które może sprawić, że modele sztucznej inteligencji (AI) staną się inteligentniejsze i wydajniejsze, a jednocześnie będą się samodoskonalić. Technika leżąca u jego podstaw nosi nazwę „samodzielnego dostrajania krytycznego” (SPCT), a podejście to jest technicznie znane jako „generatywne modelowanie nagród” (GRM). To podejście stanowi istotny postęp w dziedzinie uczenia się sztucznej inteligencji z wykorzystaniem wzmocnienia.

Mówiąc najprościej, przypomina to tworzenie pętli sprzężenia zwrotnego w czasie rzeczywistym. Modele sztucznej inteligencji są zasadniczo optymalizowane poprzez skalowanie modelu w trakcie treningu. Wymaga to znacznych nakładów pracy ludzkiej i zasobów obliczeniowych. DeepSeek proponuje system, w którym główny „arbiter” tworzy własny zestaw krytycznych uwag i zasad dla modelu sztucznej inteligencji, przygotowując odpowiedź na zapytania użytkowników. To podejście ma na celu zmniejszenie zależności od intensywnych zasobów ludzkich w procesie treningu.

Ten zestaw krytyki i zasad jest następnie porównywany ze stałymi regułami leżącymi u podstaw modelu sztucznej inteligencji (AI) i pożądanym rezultatem. Jeśli stopień dopasowania jest wysoki, generowany jest sygnał nagrody, skutecznie kierujący AI do lepszych wyników w kolejnym cyklu. Ten ciągły proces oceny i nagradzania zwiększa zdolność modelu do uczenia się i adaptacji.

Eksperci stojący za tym projektem podkreślają, że Praca badawcza Do nowej generacji samodoskonalących się modeli sztucznej inteligencji (AI) o nazwie DeepSeek-GRM. Benchmarki zawarte w artykule wskazują, że modele te działają lepiej niż Gemini firmy Google, Llama firmy Meta i GPT-4o firmy OpenAI. DeepSeek twierdzi, że te modele AI nowej generacji zostaną udostępnione za pośrednictwem kanału open source. To zaangażowanie w otwartość może przyspieszyć tempo innowacji w dziedzinie AI.

Samodoskonaląca się sztuczna inteligencja: czy to możliwe?

Idea sztucznej inteligencji zdolnej do samodoskonalenia wywołała ambitne i kontrowersyjne dyskusje. Były prezes Google, Eric Schmidt, stwierdził, że możemy potrzebować „wyłącznika” dla takich systemów. Majątek Schmidt powiedział: „Jeśli system potrafi się samodoskonalić, powinniśmy poważnie rozważyć odłączenie go od prądu”. Samodoskonalące się systemy sztucznej inteligencji (AI) są uważane za jedno z najważniejszych osiągnięć w dziedzinie sztucznej inteligencji.

Koncepcja iteracyjnego, samodoskonalącego się AI nie jest zupełnie nowa. Idea superinteligentnej maszyny, zdolnej do tworzenia lepszych maszyn, Wracać W rzeczywistości matematykowi I.J. Goodowi w 1965 r. W 2007 r. ekspert od sztucznej inteligencji Eliezer Yudkowsky postawił hipotezę na temat Sztuczna inteligencja nasion, sztuczna inteligencja „zaprojektowana z myślą o samopoznaniu, samomodyfikacji i iteracyjnym samodoskonaleniu”.

W 2024 roku japońska firma Sakana AI przedstawiła szczegóły Pojęcie „Świat sztucznej inteligencji” opowiada o systemie zdolnym do sterowania całą linią produkcyjną prac naukowych, od początku do końca. kartka W artykule badawczym opublikowanym w marcu tego roku eksperci Meta przedstawili samonagradzające się modele językowe, w których sztuczna inteligencja sama pełni rolę sędziego, przyznając nagrody podczas treningu. Ten zwrot w kierunku samouczących się systemów AI stanowi zmianę paradygmatu w rozwoju sztucznej inteligencji.

Dyrektor generalny Microsoftu, Satya Nadella, twierdzi, że rozwój sztucznej inteligencji jest optymalizowany przez model o1 firmy OpenAI i wszedł w fazę rekurencyjną: „wykorzystujemy sztuczną inteligencję do tworzenia narzędzi sztucznej inteligencji, które pozwolą nam tworzyć lepszą sztuczną inteligencję” pic.twitter.com/IHuFIpQl2C

— Tsarathustra (@tsarnick) October 21, 2024

Wewnętrzne testy modelu sztucznej inteligencji Llama 2 firmy Meta, wykorzystujące innowacyjną technologię samonagradzania, wykazały, że przewyższa on konkurencję, taką jak modele Claude 2 firmy Anthropic, Gemini Pro firmy Google i GPT-4 firmy OpenAI. Anthropic jest wspierany przez Amazon. Podano szczegóły To, co nazwała manipulacją nagrodą, to nieprzewidywalny proces, „w którym model bezpośrednio modyfikuje własny mechanizm nagradzania”.

Google nie jest daleko w tyle za tym pomysłem. W badaniu opublikowanym w czasopiśmie Natura Na początku tego miesiąca eksperci z Google DeepMind zaprezentowali algorytm sztucznej inteligencji o nazwie Dreamer, który potrafi samodoskonalić się, wykorzystując jako przykład ćwiczeń grę Minecraft.

Pracuje Eksperci IBM Stosują własne podejście, zwane treningiem inferencyjnym, w którym model sztucznej inteligencji wykorzystuje własne odpowiedzi i ocenia je w oparciu o dane treningowe, aby się udoskonalić. Jednak całe założenie nie jest do końca pozytywne.

Badania sugerują, że gdy modele sztucznej inteligencji próbują trenować się na samodzielnie generowanych danych syntetycznych, napotykają błędy, potocznie zwane „awariami modeli”. Ciekawe będzie, jak DeepSeek wdroży tę ideę i czy uda mu się to zrobić bardziej ekonomicznie niż jego zachodni konkurenci.

DeepSeek