Co się stanie, jeśli zabraknie danych do trenowania modelu AI?

Szybki postęp w dziedzinie sztucznej inteligencji (AI) zależy przede wszystkim od dostępności dokładnych i obszernych danych treningowych. Wraz z rosnącym wykorzystaniem AI w różnych sektorach, wiele firm boryka się z wyzwaniami związanymi z brakiem dostępnych danych treningowych, co może wpływać na jakość i skuteczność opracowywanych przez nie inteligentnych modeli. Jak zatem możemy kontynuować szkolenie i rozwój systemów AI pomimo tego niedoboru?

Internet może wydawać się przepełniony dostępnymi danymi, ale sztuczna inteligencja już wykorzystała większość dostępnych otwartych źródeł. Nie oznacza to jednak, że postęp się zatrzyma. Nowoczesne strategie mogą pomóc w wypełnieniu luki w dostępie do danych, takie jak generowanie danych syntetycznych, gromadzenie danych spersonalizowanych i innowacyjne wykorzystanie danych nieustrukturyzowanych. W tym artykule przyjrzymy się tym innowacyjnym rozwiązaniom i temu, jak mogą one wspierać rozwój sztucznej inteligencji, zapewniając jej ciągłą poprawę wydajności i większą wartość dla użytkowników.

Co się stanie, jeśli zabraknie danych do trenowania modelu AI?

1. Dane Plus są zawsze dodawane online.

Krótko mówiąc, Instytut Badań nad Sztuczną Inteligencją stwierdza: Epoka Wysokiej jakości dane, na których szkolona jest sztuczna inteligencja, mogą się wyczerpać do 2026 roku.

Kluczowe słowo to „mogłoby”. Ilość danych dodawanych do internetu rośnie z roku na rok, więc coś radykalnego może się zmienić przed 2026 rokiem. Jest to jednak wciąż uczciwy szacunek – tak czy inaczej, dobre dane dla systemów AI w pewnym momencie się wyczerpią.

Należy jednak pamiętać, że każdego roku do sieci trafia około 147 zettabajtów danych (według Wybuchające tematy). Zaledwie jeden zettabajt to 1,000,000,000,000,000,000,000 30 4 XNUMX XNUMX XNUMX XNUMX XNUMX bitów danych. W rzeczywistości to ponad XNUMX miliardów filmów XNUMXK (rzeczywistych, ale niepojętych). To zdumiewająca ilość informacji do przetworzenia przez sztuczną inteligencję.

Jednak sztuczna inteligencja przetwarza dane szybciej, niż ludzkość jest w stanie je wytworzyć…

2. Sztuczna inteligencja może zapomnieć o danych niskiej jakości.

Oczywiście, nie wszystkie z tych 147 zettabajtów danych to dobre dane. Jest ich o wiele więcej, niż się wydaje na pierwszy rzut oka. Szacuje się jednak, że do 2050 roku sztuczna inteligencja będzie również korzystać z danych językowych niskiej jakości.

Wspomniała Reuters Photobucket, niegdyś jedno z największych na świecie repozytorium obrazów, prowadzi rozmowy w sprawie udzielenia licencji na swoją obszerną bibliotekę firmom zajmującym się szkoleniem sztucznej inteligencji. Obrazy zawierają dane dla modeli szkoleniowych, takich jak DALL-E i Midjourney, ale nawet one mogą się wyczerpać do 2060 roku. Jest tu również większy problem: Photobucket zawierał zdjęcia z platform społecznościowych z lat XNUMX., takich jak Myspace, co oznacza, że nie są one tak wysokiej jakości, jak współczesne fotografie. To z kolei skutkuje niższą jakością danych.

Photobucket nie jest odosobniony. W lutym 2024 roku Google zawarło umowę z Redditem, umożliwiając gigantowi wyszukiwania wykorzystanie danych użytkowników platformy społecznościowej do szkolenia sztucznej inteligencji. Inne platformy społecznościowe również udostępniają dane użytkowników do celów szkolenia sztucznej inteligencji; niektóre wykorzystują je do trenowania wewnętrznych modeli sztucznej inteligencji, takich jak Llama firmy Meta.

Choć pewne wnioski można wyciągnąć z danych niskiej jakości, Microsoft podobno opracowuje sposób, w jaki sztuczna inteligencja będzie mogła selektywnie „ignorować” dane. To rozwiązanie będzie wykorzystywane głównie w przypadku problemów z własnością intelektualną, ale może również oznaczać, że narzędzia mogą zapomnieć o tym, czego dowiedziały się z zestawów danych niskiej jakości.

Możemy dostarczać sztucznej inteligencji więcej danych, nie będąc przy tym zbyt wybiórczym; systemy sztucznej inteligencji mogą wówczas wybierać, z czego się najbardziej przydadzą do nauki.

3. Rozpoznawanie mowy odblokowuje dane dostępne w filmach i podcastach.

Dane przekazywane do narzędzi AI do tej pory składały się głównie z tekstu i, w mniejszym stopniu, obrazów. To się niewątpliwie zmieni, a prawdopodobnie już się zmieniło, ponieważ oprogramowanie do rozpoznawania mowy sprawia, że bogactwo dostępnych filmów i podcastów może być również wykorzystywane do trenowania AI.

Warto zauważyć, że OpenAI opracowało sieć neuronową typu open source do automatycznego rozpoznawania mowy (ASR), SzeptWykorzystując 680.000 4 godzin wielojęzycznych, wielozadaniowych danych, OpenAI wprowadziło następnie ponad milion godzin informacji z filmów na YouTube do swojego dużego modelu językowego, GPT-XNUMX.

Jest to idealny model dla innych systemów sztucznej inteligencji, które wykorzystują rozpoznawanie mowy do transkrybowania materiałów wideo i audio z wielu źródeł i przepuszczania tych danych przez swoje modele sztucznej inteligencji.

ا لـ StatistaCo minutę na YouTube przesyłanych jest ponad 500 godzin filmów, a liczba ta utrzymuje się na względnie stałym poziomie od 2019 roku. Nie wspominając o innych platformach wideo i audio, takich jak Dailymotion i Podbean. Nawet jeśli sztuczna inteligencja będzie w stanie skupić się na nowych zbiorach danych, wciąż pozostaje ogromna ilość informacji do wydobycia.

4. Sztuczna inteligencja pozostała w dużej mierze przy języku angielskim.

To nie wszystko, czego możemy się nauczyć z Whisper. OpenAI wytrenowało model, wykorzystując 117000 XNUMX godzin nagrań audio w języku innym niż angielski. Jest to szczególnie interesujące, ponieważ wiele systemów AI jest trenowanych głównie w języku angielskim lub z uwzględnieniem innych kultur przez pryzmat kultury zachodniej.

Zasadniczo większość narzędzi jest związana z kulturą ich twórców.

Weźmy na przykład ChatGPT. Krótko po jego premierze w 2022 roku, Jill Walker Rettberg, profesor kultury cyfrowej na Uniwersytecie w Bergen w Norwegii, przeprowadził eksperyment z ChatGPT i doszedł do następujących wniosków:

„ChatGPT niewiele wie o kulturze norweskiej. A raczej, zakłada się, że cokolwiek wie o kulturze norweskiej, pochodzi głównie ze źródeł anglojęzycznych… ChatGPT wyraźnie wpisuje się w amerykańskie wartości i prawa. W wielu przypadkach są one bliskie wartościom norweskim i europejskim, ale nie zawsze tak jest.

Systemy sztucznej inteligencji mogłyby następnie ewoluować, aby wchodzić w interakcje z większą liczbą osób różnych narodowości lub wykorzystywać bardziej zróżnicowane języki i kultury do trenowania takich systemów. Obecnie wiele modeli sztucznej inteligencji jest ograniczonych do jednej biblioteki; ten zakres mógłby się rozszerzyć, gdyby otrzymały klucze do bibliotek na całym świecie.

5. Wydawnictwa mogą pomóc w rozwoju sztucznej inteligencji.

Własność intelektualna jest niewątpliwie istotną kwestią, ale niektórzy wydawcy mogą wspierać rozwój sztucznej inteligencji, zawierając umowy licencyjne. Oznacza to dostarczanie narzędzi z wysokiej jakości, czyli rzetelnymi, danymi z książek, a nie niskiej jakości informacjami ze źródeł internetowych.

W rzeczywistości Meta, firma będąca właścicielem Facebooka, Instagrama i WhatsAppa, podobno rozważała przejęcie Simon & Schuster, jednego z „Wielkiej Piątki” wydawców. Pomysł polegał na wykorzystaniu opublikowanych materiałów firmy do trenowania sztucznej inteligencji Meta. Transakcja ostatecznie nie doszła do skutku, być może z powodu etycznej szarej strefy związanej z manipulowaniem przez firmę adresami IP bez uprzedniej zgody autora.

Rozważana jest również opcja zakupu indywidualnych praw licencyjnych na nowe tytuły. Prawdopodobnie wzbudziłoby to poważne obawy twórców, ale nadal byłby to interesujący sposób na rozwój narzędzi AI, jeśli użyteczne dane się wyczerpią.

6. Dane syntetyczne to przyszłość.

Wszystkie inne rozwiązania są wciąż ograniczone, ale istnieje jedna opcja, która może doprowadzić do przyszłości sztucznej inteligencji: dane syntetyczne. Jest ona już badana jako bardzo realna możliwość.

Czym więc są dane syntetyczne? To dane tworzone przez sztuczną inteligencję; tak jak ludzie tworzą dane, tak i ta metoda pozwoli sztucznej inteligencji tworzyć dane do celów szkoleniowych.

W rzeczywistości sztuczna inteligencja potrafi stworzyć przekonujący film deepfake. Ten film deepfake można przesłać do sztucznej inteligencji, aby mogła ona uczyć się na podstawie tego, co w istocie jest fikcyjnym scenariuszem. To w końcu jeden z głównych sposobów uczenia się ludzi: czytamy lub oglądamy coś, aby zrozumieć otaczający nas świat.

Prawdopodobnie systemy sztucznej inteligencji (AI) już wykorzystały syntetyczne informacje. Technologia deepfake rozpowszechnia w internecie dezinformację i fałszywe informacje, więc gdy systemy AI skanują treści internetowe, logiczne jest, że niektóre z nich zostały wystawione na fałszywe treści.

Tak, istnieje w tym szkodliwa strona. Może to również uszkodzić lub ograniczyć systemy sztucznej inteligencji, wzmacniając i rozprzestrzeniając błędy popełniane przez te narzędzia. Firmy pracują nad wyeliminowaniem tego problemu; jednak fraza „sztuczna inteligencja uczy się od siebie nawzajem i popełnia błędy” jest motywem przewodnim wielu koszmarnych scenariuszy science fiction.

7. Lepsze wykorzystanie sztucznej inteligencji

Narzędzia sztucznej inteligencji budzą kontrowersje. Mają wiele wad, ale krytycy ignorują ich zalety. Na przykład, Audit and Advisory Network wskazuje, że PwC [PDF] Do 15.7 roku sztuczna inteligencja może przynieść światowej gospodarce aż 2030 biliona dolarów.

Co więcej, sztuczna inteligencja jest już wykorzystywana na całym świecie. Prawdopodobnie korzystałeś z niej już dziś w takiej czy innej formie, być może nie zdając sobie z tego sprawy. Teraz dżin wydostał się z butelki, a kluczem jest z pewnością wyszkolenie go na wiarygodnych, wysokiej jakości danych, abyśmy mogli go właściwie wykorzystać.

Sztuczna inteligencja ma swoje wady i zalety. Z pewnością trzeba znaleźć równowagę.

Narzędzia sztucznej inteligencji stoją przed coraz większym wyzwaniem z powodu braku dostępnych danych szkoleniowych, co zagraża ich rozwojowi i rozwojowi. Aby sprostać temu wyzwaniu, wdrażane są innowacyjne rozwiązania, takie jak wykorzystanie danych syntetycznych, wykorzystanie uczenia bez nadzoru oraz wspieranie współpracy między organizacjami w zakresie udostępniania danych. Rozwiązania te pomagają w dostarczaniu nowych źródeł danych, zapewniając ciągłe doskonalenie i efektywny rozwój inteligentnych modeli.