Nieobecność Sora 2 na GPT-5. Czy oznacza to przełom w technologii wideo opartej na sztucznej inteligencji?

No dalej OpenAI, potrzebujemy głosu!

Firma przygotowuje OpenAI Aby wprowadzić na rynek nową wersję pionierskiego modelu wideo opartego na sztucznej inteligencji, Sora, w tym kwartale. Choć Sora była rewolucyjna w momencie premiery, od tego czasu straciła przewagę nad konkurencją, a Google Veo 3 wyznacza obecnie złoty standard w generowaniu filmów za pomocą sztucznej inteligencji.

Spodziewam się, że Sora 2 pojawi się w nadchodzących tygodniach lub miesiącach, biorąc pod uwagę szybkie wydanie GPT-5Podobnie jak GPT-4o, GPT-5 jest natywnie multimodalny i obsługuje dowolny typ danych wejściowych i wyjściowych (w tym wideo), wykonując jednocześnie złożone zadania wnioskowania podobne do modeli serii „o”.

Sora to wciąż potężna platforma. Jej funkcja Storyboardu wyznacza nowe standardy, a subskrybenci mogą ChatGPT Pro tworzy klipy o długości do 20 sekund. Jednak model podstawowy zdradza już swoje lata. Na wyjściu nadal występują problemy z kontrolą ruchu, brakuje generowania dźwięku i ma problemy z renderowaniem złożonej fizyki – w przeciwieństwie do Veo 3, Kling 2.1 czy MiniMax 2.

Nawet w obszarze społecznościowych materiałów wideo OpenAI obecnie mierzy się z konkurencją ze strony niemal każdej platformy AI, w tym Meta i Grok و W połowie drogiJednak OpenAI pozostaje największym na świecie laboratorium AI, dysponującym znacznymi zasobami – i pomimo niedawnych przejęć talentów przez Meta – ma silny zespół inżynierów. Nie skreślajcie ich jeszcze.

Czego potrzebuje OpenAI, aby Sora była konkurencyjna?

Aby konkurować z modelem wideo Google'a lub nowymi chińskimi konkurentami w dziedzinie generatywnej sztucznej inteligencji wideo, OpenAI musi zmaksymalizować swoje możliwości multimedialne, jednocześnie rozszerzając zestaw funkcji Sora. Ściślejsza integracja z ChatGPT również byłaby korzystna. Oto pięć kluczowych ulepszeń w Sora 2:

1. Oryginalne generowanie dźwięku: podstawowy wymóg, którego nie można pominąć

Jeśli OpenAI aspiruje do konkurowania z Google Veo 3 w dziedzinie generowania wideo z wykorzystaniem sztucznej inteligencji, Sora 2 musi obsługiwać zarówno wideo, jak i dźwięk natywnie i bezproblemowo. Każdy model, który nie obsługuje generowania dźwięku, zaczyna od wyraźnej słabości.

Obecnie Sora produkuje wyłącznie filmy bez dźwięku, co stanowi poważną wadę, zwłaszcza że Veo 3 szczyci się możliwością generowania efektów dźwiękowych, odgłosów otoczenia, a nawet dialogów, jako kluczowego elementu swojej funkcjonalności. Nie chodzi tu tylko o dodanie dźwięku na marginesie, ale o rzeczywistą integrację obrazu i dźwięku.

Veo 3 potrafi generować mowę zsynchronizowaną z ruchem warg postaci w wielu językach. Sora 2 wymaga tej samej wbudowanej funkcji generowania dźwięku, od dźwięków otoczenia po dialogi mówione. Ta funkcja jest niezbędna do tworzenia realistycznych i angażujących treści wideo.

Jeśli OpenAI będzie w stanie zapewnić pełne generowanie multimediów (wideo + audio) przy zachowaniu długości wideo wynoszącej 20 sekund lub więcej, nie tylko dogoni Veo 3, ale może go całkowicie prześcignąć na rynku generowania wideo z wykorzystaniem sztucznej inteligencji. Ta przewaga uczyni go liderem w tej zaawansowanej dziedzinie technologii.

2. Radykalnie ulepsz symulację fizyki

Rzeczywistość wizualna wykracza poza zwykłą dokładność; opiera się przede wszystkim na fizyce. Obecne produkcje Sory często charakteryzują się nienaturalnym ruchem lub zniekształconą fizyką: woda przeczy grawitacji, obiekty przemieszczają się niespodziewanie lub ruch wydaje się fundamentalnie nieprawidłowy. Ten brak realizmu fizycznego obniża jakość wideo i sprawia, że wydaje się ono sztuczne.

Google wyraźnie postawił na realistyczną fizykę świata rzeczywistego w Veo 3, a wyniki mówią same za siebie. Ich filmy znakomicie symulują realistyczną fizykę i dynamiczny ruch z minimalną liczbą błędów. Tymczasem starszy model Sora generuje szarpany ruch i niespójne interakcje obiektów, co psuje immersję. Na przykład w Sora można zobaczyć obiekty poruszające się niezwykle szybko lub zachowujące się w fizycznie niemożliwy sposób.

Aby Sora 2 mogła konkurować, jej model musi lepiej rozumieć rzeczywiste zachowania – od naturalnego ludzkiego chodu po odbijające się piłki, od dynamiki dymu po mechanikę płynów. OpenAI musi zintegrować silnik fizyczny z Sorą. Wiarygodne ruchy i interakcje (koniec ze zniekształconymi kończynami i rozpływającym się tłem) pozwolą zniwelować krytyczną lukę w stosunku do konkurencji. Wymaga to znacznych usprawnień w sposobie, w jaki model rozumie i stosuje prawa fizyki.

3. Prowadzenie dialogu powinno być normą.

Jaki jest sekret OpenAI? ChatGPT nauczył już miliony ludzi komunikować się konwersacyjnie ze sztuczną inteligencją. Sora 2 powinna to wykorzystać, sprawiając, że tworzenie filmów będzie przypominało rozmowę, a nie tylko programowanie.

Zamiast wymagać perfekcyjnych wskazówek i skomplikowanej nawigacji po interfejsie, system powinien wspierać naturalną optymalizację. Google już podąża w tym kierunku – jego narzędzie Flow wykorzystuje sztuczną inteligencję Gemini, aby umożliwić intuicyjną nawigację w języku potocznym.

Runway robi to znakomicie dzięki trybowi czatu, a teraz także nowemu narzędziu Aleph, które pozwala Gen-4 na mistrzowskie udoskonalenie dowolnego elementu. Dream Machine firmy Luma został stworzony od podstaw z myślą o tej koncepcji.

Wyobraź sobie taki obieg pracy: wpisujesz „średniowieczny rycerz na górze”, otrzymujesz wersję roboczą filmu, a następnie po prostu mówisz: „Zrób wschód słońca i dodaj smoka” – a Sora natychmiast aktualizuje scenę. To konwersacyjne podejście obniży bariery dla nowicjuszy, jednocześnie przyspieszając obieg pracy dla profesjonalistów.

Technologia istnieje. ChatGPT już interpretuje żądania i dynamicznie dostosowuje dane wyjściowe (co zostało zademonstrowane natywną integracją obrazów w GPT-4os). W pełni zintegrowany z ChatGPT, Sora 2 powinien umożliwić nam dotarcie do świetnych filmów za pomocą mowy. To doświadczenie użytkownika przewyższy techniczne wsparcie, którego nadal wymaga większość konkurentów.

Umożliwi Ci to również tworzenie najpierw oryginalnych obrazów, a następnie animacji za pomocą Sora, podobnie jak Google współpracuje z Veo 3 w Gemini lub nową funkcją Grok Imagine. Ta integracja znacznie zwiększy Twoje możliwości tworzenia treści wizualnych.

4. Znaczenie spójności postaci i personalizacji w kolejnej generacji Sora

Spójność postaci i scen to kolejny kluczowy element, na którym należy się skupić podczas tworzenia modeli sztucznej inteligencji do generowania wideo. Obecnie wygenerowanie dwóch klipów ze zwrotem „dziewczyna w czerwonej sukience” może skutkować powstaniem dwóch zupełnie różnych postaci. Twórczość Sory często różni się stylem i szczegółowością między poszczególnymi generacjami, co praktycznie uniemożliwia stworzenie spójnych, wieloscenowych historii lub postaci powracających.

Sora 2 powinna umożliwiać tworzenie spójnych postaci, obiektów i stylów graficznych w dłuższych klipach wideo lub serialach. Konkurencja oferuje już tę funkcję, a Kling 2.1 oferuje „spójne postacie i kinowe oświetlenie bezpośrednio z komunikatów tekstowych”. Google Flow idzie o krok dalej, umożliwiając używanie niestandardowych zasobów (portretów, określonych stylów graficznych) jako „komponentów” w wielu scenach.

OpenAI powinno oferować podobne możliwości: przesyłanie obrazów referencyjnych, dostrajanie stylu czy zachowanie ciągłości postaci w różnych scenach. Jeśli Sora 2 potrafi zachować spójny wygląd postaci w całym filmie, twórcy mogą naprawdę opowiadać historie zamiast tworzyć osobne klipy. Zwłaszcza jeśli oferuje natywną integrację audio dla klipów dłuższych niż 20 sekund.

Spójność i personalizacja idą ze sobą w parze – niezależnie od tego, czy jesteś artystą zachowującym swój charakterystyczny styl, czy filmowcem potrzebującym ciągłości postaci, Sora 2 powinna zapewnić Ci taką kontrolę. Gwarantuje to dokładniejszą realizację wizji użytkownika i otwiera drzwi do szerszych możliwości twórczych w dziedzinie generatywnej sztucznej inteligencji.

5. Głęboka integracja z ChatGPT i globalna dostępność

OpenAI musi wzmocnić swoją pozycję rynkową poprzez pełną integrację Sora 2 z ChatGPT, zapewniając jednocześnie jego powszechną dostępność. Podczas gdy Veo od Google łączy się z szerszym zestawem narzędzi (w tym integracją Gemini, dostępem do API i aplikacją Flow), Meta z pewnością zintegruje wideo oparte na sztucznej inteligencji ze wszystkimi swoimi produktami.

OpenAI mogłoby się wyróżnić, czyniąc Sora 2 płynną funkcją ChatGPT. Ta natychmiastowa integracja dałaby milionom użytkowników ChatGPT studio wideo oparte na sztucznej inteligencji bez konieczności przełączania się między aplikacjami. Mogliby pójść w ślady Google, ustalając niski limit dziennej liczby filmów, oferując jednocześnie abonament premium z nieograniczonym dostępem, tak jak ma to obecnie miejsce w przypadku ChatGPT Pro i Sora.

Optymalizacja doświadczenia mobilnego jest kluczowa. Dzisiejsi twórcy nagrywają, edytują i publikują wyłącznie na swoich telefonach. Gdyby Sora 2 działała w aplikacji mobilnej ChatGPT (lub dedykowanej aplikacji Sora) z funkcjami szybkiego tworzenia, mogłaby przejąć rynek twórców na TikToku i Reels. Wyobraź sobie, że mówisz do telefonu: „ChatGPT, stwórz 15-sekundowy film, w którym jestem kreskówkowym astronautą lądującym na Marsie”, a otrzymujesz natychmiastową treść do udostępnienia.

Dzięki upowszechnieniu Sora 2 — za pośrednictwem ChatGPT, interfejsów API dla programistów i platform mobilnych — OpenAI może szybko zbudować bazę użytkowników, jednocześnie gromadząc niezbędne opinie na temat ulepszeń.

Platformy takie jak Leonardo, Freepik i Higgsfield już powszechnie korzystają z Veo 3 firmy Google i MiniMax 2 firmy Hailuo, ponieważ są imponujące, szybkie i dostępne za pośrednictwem API. OpenAI pozostaje w tyle w dziedzinie kreatywnej sztucznej inteligencji z powodu braku aktualizacji Sora.

Wniosek

OpenAI ma realną szansę odzyskać pozycję lidera w dziedzinie generatywnej sztucznej inteligencji, ucząc się na sukcesach konkurencji. Obecnie model Veo 3 firmy Google jest złotym standardem dzięki wyjątkowym możliwościom generowania autentycznego głosu, symulacji realistycznej fizyki i precyzyjnego reagowania na polecenia tekstowe. Tymczasem nowe modele, takie jak Kling 2.1 i MiniMax 2, wciąż poszerzają granice możliwości w tej dziedzinie.

Runway konsekwentnie wprowadza nowe ulepszenia do swojego modelu Gen-4, który oferuje podobną jakość symulacji fizyki jak Sora, ale oferuje dodatkowe funkcje. Tymczasem inne firmy, takie jak Pika, koncentrują się na zaspokajaniu potrzeb twórców, zwiększając presję na OpenAI i zmniejszając swój udział w tym cennym rynku.

Sora 2 nie może być jedynie prostym, stopniowym udoskonaleniem; musi zadziwiać wszystkich swoimi niesamowitymi możliwościami.

Dobra wiadomość jest taka, że OpenAI ma już fundamenty sukcesu: potężny model językowy, model wideo pierwszej generacji, na którym można budować, oraz ogromną bazę użytkowników dzięki ChatGPT. Jeśli OpenAI zapewni natywne generowanie głosu, realistyczną symulację fizyki, łatwość prowadzenia rozmów, spójne rozmieszczenie postaci w scenach i płynną integrację z innymi produktami, Sora 2 niewątpliwie przewyższy Veo 3, Kling i wszystkich innych konkurentów w tym segmencie.

Gdy połączymy wszystkie te funkcje, nie zdziwmy się, jeśli kolejny film, który stanie się viralem w mediach społecznościowych, zostanie stworzony za pomocą Sora 2.

ChatGPT Sora