Nvidia pomaga rozwiązywać największe wyzwania związane z generowaniem obrazów przy użyciu sztucznej inteligencji.

Wysokie zapotrzebowanie na moc obliczeniową i moc obliczeniową stanowią fundamentalny problem w dziedzinie sztucznej inteligencji, zwłaszcza w przypadku zadań takich jak tworzenie multimediów. Na urządzeniach mobilnych, gdy zadania te są wykonywane lokalnie, tylko kilka drogich urządzeń z wydajnymi procesorami jest w stanie obsłużyć zestaw funkcji. Nawet wdrożenie na dużą skalę w chmurze jest kosztownym procesem.

Nvidia mogła po cichu zmierzyć się z tym wyzwaniem we współpracy z MIT i Uniwersytetem Tsinghua. Zespół stworzył hybrydowe narzędzie do generowania obrazów oparte na sztucznej inteligencji, zwane HART (Hybrid Auto-Transformer) łączy w sobie dwie najpopularniejsze techniki generowania obrazu AI. Rezultatem jest niezwykle szybkie narzędzie o znacznie niższych wymaganiach obliczeniowych.

Aby dać ci wyobrażenie o jego szybkości, poprosiłem go o stworzenie obrazu papugi grającej na gitarze basowej. Kolejny obraz pojawił się w ciągu zaledwie sekundy. Ledwo nadążałem za paskiem postępu. Kiedy użyłem tego samego wejścia z modelem Obraz Google 3 W przypadku Gemini przy łączu internetowym 200 Mb/s trwało to około 9–10 sekund.

Ogromny skok w generowaniu obrazu przy użyciu sztucznej inteligencji

Kiedy obrazy AI zaczęły zyskiwać popularność, technologia dyfuzji stała się siłą napędową, napędzając takie produkty jak generator obrazów Dall-E firmy OpenAI, Imagen firmy Google i Stable Diffusion. Metoda ta oferuje potencjał generowania obrazów o wysokiej rozdzielczości i szczegółowości. Wymaga jednak wielu kroków, aby wygenerować obrazy AI, co czyni je powolnymi i wymagającymi dużej mocy obliczeniowej.

Drugim podejściem, które ostatnio zyskało na popularności, są modele autoregresyjne, które działają podobnie do chatbotów i generują obrazy za pomocą technologii predykcji pikseli. Ta metoda jest szybsza, ale jednocześnie bardziej podatna na błędy niż generowanie obrazów za pomocą sztucznej inteligencji.

Zespół z MIT połączył obie metody w jeden pakiet o nazwie HART. Technika ta opiera się na modelu autoregresyjnym, który prognozuje skompresowane elementy obrazu jako dyskretne tokeny, podczas gdy model małej dyfuzji zajmuje się resztą procesu, kompensując utratę jakości. To podejście redukuje liczbę kroków z ponad 20 do zaledwie ośmiu.

Eksperci stojący za technologią HART twierdzą, że technika ta „generuje obrazy, które dorównują jakością najnowocześniejszym modelom dyfuzji, a nawet je przewyższają, ale robi to około dziewięć razy szybciej”. HART łączy model autoregresyjny o zakresie 700 milionów parametrów z małym modelem dyfuzji, który może obsłużyć 37 milionów parametrów.

Rozwiązanie kryzysu kosztów obliczeniowych

Co godne uwagi, to hybrydowe narzędzie, HART, było w stanie generować obrazy o jakości porównywalnej z najnowocześniejszymi modelami o pojemności 2 miliardów parametrów. Co ważniejsze, HART osiągnął ten cel dziewięciokrotnie szybciej, generując obrazy, jednocześnie redukując zasoby obliczeniowe o 31%.

Według zespołu, podejście oparte na niskich wymaganiach obliczeniowych pozwala na lokalne działanie HART na telefonach i laptopach, co stanowi znaczący sukces. Do tej pory popularne produkty na rynku, takie jak ChatGPT i Gemini, wymagały połączenia internetowego do generowania obrazów, ponieważ obliczenia były wykonywane na serwerach w chmurze.

W filmie testowym zespół zademonstrował uruchomienie aplikacji natywnie na laptopie MSI wyposażonym w procesor Intel Core i kartę graficzną Nvidia GeForce RTX. To połączenie, które można znaleźć w większości laptopów gamingowych dostępnych na rynku, bez konieczności wydawania fortuny.

HART jest w stanie generować obrazy o proporcjach 1:1 i rozdzielczości 1024 x 1024 pikseli. Poziom szczegółowości tych obrazów jest imponujący, podobnie jak różnorodność stylistyczna i wierność odwzorowania sceny. Podczas testów zespół zaobserwował, że hybrydowe narzędzie oparte na sztucznej inteligencji było od trzech do sześciu razy szybsze i zapewniało ponad siedmiokrotnie wyższą przepustowość.

Przyszłe możliwości są ekscytujące, zwłaszcza w połączeniu z możliwościami obrazowania HART-a z modelami językowymi. „W przyszłości będzie można wchodzić w interakcję ze zunifikowanym generatywnym modelem widzenia i języka, na przykład prosząc go o pokazanie pośrednich kroków niezbędnych do złożenia mebla” – mówi zespół z MIT.

Już badają ten pomysł i planują nawet przetestować podejście HART do generowania dźwięku i obrazu. Możesz to wypróbować na Panel sterowania siecią MIT.

Niektóre wady

Zanim przejdziemy do omówienia jakości, warto zauważyć, że HART jest wciąż projektem badawczym na wczesnym etapie. Zespół wskazał na pewne trudności natury technicznej, takie jak zwiększone obciążenie podczas wnioskowania i uczenia. W najbliższej przyszłości spodziewane są znaczące postępy.

Te wyzwania można rozwiązać lub zignorować, ponieważ w szerszej perspektywie są one mało istotne. Co więcej, biorąc pod uwagę ogromne korzyści, jakie oferuje HART w zakresie wydajności obliczeniowej, szybkości i opóźnień, wyzwania te mogą się utrzymywać bez powodowania znaczących problemów z wydajnością.

Podczas mojego krótkiego testu HART z wykorzystaniem podpowiedzi tekstowych byłem zdumiony szybkością generowania obrazów. Nigdy nie spotkałem się z sytuacją, w której darmowe oprogramowanie potrzebowało na wygenerowanie obrazu więcej niż dwie sekundy. Nawet przy podpowiedziach obejmujących trzy akapity (prawie 200 słów), HART był w stanie wygenerować obrazy idealnie dopasowane do opisu.

Oprócz dokładności opisu, obrazy zawierały mnóstwo szczegółów. Jednak HART ma wady typowego oprogramowania do generowania obrazów opartego na sztucznej inteligencji. Ma problemy z generowaniem podstawowych figur i grafik, takich jak jedzenie, układ postaci i perspektywa.

Realizm w kontekście ludzkim to jeden z obszarów, w którym zauważyłem wyraźne niedociągnięcia. Kilkakrotnie program mylił podstawowe obiekty z obiektami, na przykład myląc pierścionek z naszyjnikiem. Ogólnie rzecz biorąc, tych błędów było niewiele i były one przewidywalne. Wiele narzędzi AI nadal nie potrafi tego zrobić poprawnie, pomimo swojej długiej historii.

Ogólnie rzecz biorąc, jestem bardzo podekscytowany ogromnym potencjałem HART. Ciekawe, czy MIT i Nvidia stworzą na jego podstawie produkt, czy po prostu wdrożą hybrydowe podejście do generowania obrazów oparte na sztucznej inteligencji w istniejącym produkcie. Tak czy inaczej, to wgląd w bardzo obiecującą przyszłość.