Realistyczne obrazy i czytelny tekst dzięki najnowszym modelom sztucznej inteligencji OpenAI. Wypróbuj za darmo.

Firma OpenAI wprowadziła swój model 4o do ChatGPT, aby umożliwić zintegrowane generowanie obrazów w środowisku chatbotów. Ta aktualizacja eliminuje konieczność korzystania z modelu generowania obrazów Dall-E firmy OpenAI jako oddzielnej jednostki, chociaż Dall-E jest nadal dostępny dla użytkowników, którzy go preferują. Firma AI włączyła również swój generator wideo Sora AI w ChatGPT.

Nowe funkcje są obecnie dostępne dla użytkowników darmowej wersji ChatGPT, a także dla użytkowników ChatGPT Plus, Team i Pro. Funkcje te zostaną udostępnione użytkownikom biznesowym i edukacyjnym w przyszłym tygodniu.

Dall-E 3 był wcześniej wtyczką do generowania obrazów dla płatnych subskrybentów ChatGPT. Tymczasem osoby chcące wypróbować generator za darmo, mogą to zrobić za pomocą podstawowej wersji Microsoft Copilot.

Model ten został uznany za jeden z najlepszych dostępnych generatorów obrazów, zwłaszcza w wersji płatnej. Chociaż możliwość korzystania z generowania obrazów zintegrowanego z modelem 4o jest korzystna dla wszystkich użytkowników ChatGPT, osoby korzystające z darmowej wersji ChatGPT powinny liczyć się z pewnymi ograniczeniami, takimi jak limity przesyłania plików i analizy danych, o których wspomniano wcześniej. CNET.

Jednakże ChatGPT skorzysta na bardziej realistycznych obrazach z wyraźniejszym tekstem, po tym jak OpenAI poświęciło rok na szkolenie GPT-4o po uruchomieniu za pomocą wysiłku szkoleniowego o nazwie „Reinforcement Learning from Human Feedback” (RLHF), zgodnie z Wall Street Journal.

Po ogłoszeniu GPT-4o w maju 2024 r. firma OpenAI zatrudniła zespół ponad 100 „trenerów ludzkich” skanujących model w poszukiwaniu literówek oraz typowych błędów w rysach twarzy i dłoni, powiedział gazecie Gabriel Goh, główny badacz projektu.

Model GPT-4o będzie również posiadał funkcję tworzenia przezroczystych teł w ChatGPT. Oczekuje się, że będzie to bardzo przydatne dla użytkowników biznesowych i kreatywnych, umożliwiając im tworzenie logotypów i innych ikon, jak powiedziała Jackie Shannon, szefowa działu produktów multimedialnych w ChatGPT, w wywiadzie dla WSJ.

Pomimo ulepszeń wprowadzonych przez OpenAI, zaktualizowany model GPT-4o jako całość nadal ma pewne niedociągnięcia. Nadal ma tendencję do halucynacji, co jest powszechną cechą sztucznej inteligencji, która wciąż nie została rozwiązana. Zachowanie spójności edycji pozostaje wyzwaniem w środowisku ChatGPT; jednakże Obiecałem OpenAI z szybkimi aktualizacjami, już w przyszłym tygodniu.

Kolejnym problemem, z którym boryka się OpenAI, jest kwestia etyki i legalności. Firma twierdzi, że jej model został wytrenowany na „danych publicznie dostępnych”, a także na danych prywatnych, które posiada dzięki partnerstwom z markami takimi jak Shutterstock, jak zauważył WSJ.

Obrazy generowane przez ChatGPT w oparciu o model 4o nie będą zawierać znaków wodnych AI. Firma zaznaczyła jednak, że obrazy będą zawierały metadane C2PA wskazujące na to, że zostały wygenerowane przez AI. To pozostaje standardem branżowym.

ChatGPT