Doświadczyłem wcielenia Gemini Live, aby zrozumieć świat: szok!

Niepokojące jest słyszeć sztuczną inteligencję mówiącą dziwnie przyjaznym tonem i proszącą mnie o posprzątanie bałaganu na moim stanowisku pracy. Jestem z tego w pewnym sensie dumny, ale myślę, że czas poukładać porozrzucane narzędzia i posprzątać bałagan z kabli.

Moja siostra też by się zgodziła. Ale rzucenie się do działania po tym, jak sztuczna inteligencja „zobaczy” moje biurko, rozpozna bałagan i zaoferuje wskazówki dotyczące sprzątania, to już pełniejszy obraz. Chatbot Google Gemini AI potrafi to teraz zrobić. I wiele więcej.

Sekret tkwi w niedawnej aktualizacji funkcji o nazwie Project Astra. Był on rozwijany od lat i w końcu został udostępniony na początku tego miesiąca. Głównym założeniem jest dostarczenie wszechwiedzącej, wszystkowidzącej, wszystkosłyszącej i otwarcie inteligentnej sztucznej inteligencji na Twój telefon.

Google reklamuje te supermoce pod mało inspirującą nazwą: Gemini Live z kamerą i udostępnianiem ekranu. Opracowany przez dział DeepMind, firma rozpoczęła prace nad nim jako uniwersalnym asystentem AI. Szkoda, że ostateczna nazwa nie jest tak ambitna.

Zacznijmy od trybu ułatwień dostępu. Funkcja ta jest już dostępna dla użytkowników. pixel 9 و Galaxy S25Jeśli jednak masz telefon z systemem Android i subskrypcją Gemini Advanced, możesz uzyskać dostęp do nowego zestawu narzędzi.

To będzie kosztować 20 dolarów miesięcznie, nawiasem mówiąc. Przetestowałem to na obu wymienionych telefonach i teraz działa również na moim OnePlus 13. A co najlepsze? Nie trzeba pokonywać żadnych technicznych przeszkód, żeby uzyskać do tego dostęp.

Wystarczy nacisnąć kombinację przycisków zasilania/głośności lub przesunąć róg ekranu, aby przywołać Gemini. Niezależnie od uruchomionej aplikacji, możesz uzyskać dostęp do nowej kamery i udostępniania ekranu jako nakładki w każdym rogu systemu operacyjnego.

Zrozumienie otaczającego cię świata

Skierowałem kamerę na obraz i zapytałem o niego. Gemini Live bezbłędnie zidentyfikował go jako obraz w stylu Madhubani, rozpoznając odważne użycie kolorów i przedstawienie zwierząt.

Następnie udzielił mi krótkiej lekcji historii i omówił różnice, które wyewoluowały na przestrzeni lat. Informacje były dokładne, nawet w najdrobniejszych szczegółach. Na szczęście możesz również wybrać rozmowę tekstową z Gemini, jeśli znajdujesz się w miejscu, w którym rozmowy głosowe mogą być dla Ciebie niekomfortowe.

W nowych funkcjach kamery i udostępniania ekranu w Gemini Live najbardziej podoba mi się to, że nie są one przesadnie gadatliwe. Można je przerwać w dowolnym momencie, co zwiększa atrakcyjność „naturalnych” rozmów.

Wypróbowałem Gemini w różnych scenariuszach. Nie byłem na to przygotowany.

Jego odpowiedzi są zazwyczaj krótkie, jakby chciał dać ci szansę (a nawet nakłonić do zadania pytania uzupełniającego), zamiast udzielać zbyt długiej odpowiedzi. Doskonale radzi sobie z szeroką gamą tematów i scenariuszy wizualnych, ale ma też swoje pułapki.

Nie obsługuje jeszcze Google Lens, co oznacza, że Gemini nie może porównywać obrazów wyświetlanych na ekranie telefonu z wynikami wyszukiwania w internecie. Co więcej, nie ma dostępu do informacji w czasie rzeczywistym, jeśli poprosisz Gemini o wyszukanie najnowszych informacji na dany temat lub osobę.

Zapytałem go o gatunki roślin, menu w restauracjach, zbieranie danych z billboardów i moją receptę na niedawny atak grypy. Gemini poradził sobie z tym znakomicie, lepiej niż jakikolwiek chatbot oparty na sztucznej inteligencji, z którym miałem do tej pory styczność.

Uwalnianie banku wiedzy: dogłębna analiza

Następnie zmusiłem Gemini do zrozumienia złożonego materiału akademickiego. Umieściłem w kadrze książkę o uczeniu maszynowym. Gemini Live nie tylko ją rozpoznał, ale także przedstawił mi przegląd treści książki i kluczowych tematów. Ta umiejętność odzwierciedla zaawansowaną wiedzę z zakresu uczenia maszynowego i umiejętność streszczania złożonych informacji.

Z ciekawości zacząłem przeglądać i dotarłem do listy rozdziałów. Sztuczna inteligencja rozpoznała postęp, przestała mówić i zapytała mnie, czy jestem zainteresowany konkretnym rozdziałem, gdy przeglądałem listę tematów. Ta funkcja pokazuje zdolność Gemini do adaptacji i reagowania w czasie rzeczywistym na interakcję użytkownika, co czyni go potężnym narzędziem do interaktywnej nauki.

W tym momencie byłem całkowicie zaskoczony.

Poprosiłem sztuczną inteligencję o przeanalizowanie kilku złożonych tematów i wykonała ona kawał dobrej roboty, wykraczając nawet poza materiał zawarty na stronie i czerpiąc z własnej, ogromnej bazy wiedzy.

Na przykład, gdy zapytałem ją o treść strony wprowadzającej do powieści Bishama Sahniego „Tamas”, sztuczna inteligencja prawidłowo wychwyciła nawiązanie do nagrody Sahitya Akademi Award. Następnie podała szczegóły, które nawet nie były wymienione na stronie, takie jak rok przyznania prestiżowej nagrody literackiej i temat powieści. To dowodzi zdolności sztucznej inteligencji do rozumienia kontekstu i wydobywania dodatkowych informacji.

Z drugiej strony, odczyt języka hindi w aplikacji Gemini Live był fatalny. Nie chodziło tylko o słaby akcent; Gemini często wypowiadał bełkot i nonsensy. Próbując czytać po urdu, persku i arabsku, program radził sobie znacznie lepiej, ale często mylił słowa z przypadkowych wersów. Sugeruje to, że wyniki Gemini różnią się w zależności od języka i w niektórych językach aplikacja może wymagać znacznej poprawy.

Podczas mojej pierwszej próby z poezją urdu, aplikacja nie tylko rozpoznała tekst, ale także podała trafne streszczenie wiersza. Największym wyzwaniem, ponownie, była narracja. Słuchanie angielskiej wersji urdu naprawdę mnie rozbolało. To podkreśla wagę dobrej wymowy i akcentu w doświadczeniu użytkownika, zwłaszcza w przypadku języków obcych.

wyróżnia się w nieoczekiwanych miejscach

Sztuczna inteligencja to doskonałe narzędzie do rozwiązywania problemów, co potwierdzają liczne testy porównawcze. Testowałem ją na zadaniach fizycznych związanych z termodynamiką, równaniami elektrochemicznymi i problemami statystycznymi przedstawionymi w ręcznie pisanym notatniku. Gemini Live sprawdził się w tych zadaniach znakomicie.

Świetnie radził sobie nawet z zadaniami kreatywnymi. Moja siostra, projektantka mody, pokazała jeden ze swoich szkiców w obiektywie i poprosiła o uwagi i poprawki. Gemini Live zaczęło chwalić projekt, porównując go do ideologii projektowych kilku marek modowych i proponując kilka rekomendacji. Rekomendacje te okazały się niezwykle pomocne w udoskonaleniu projektu.

Kiedy AI został poproszony o wprowadzenie Plusa, doradził również mojej siostrze, jakie są najlepsze narzędzia do przekształcania odręcznych szkiców w cyfrowe koncepcje. Po tych wskazówkach przekazał przydatne informacje o pakiecie oprogramowania i miejscach, gdzie można znaleźć materiały instruktażowe. Ta rada okazała się nieoceniona w usprawnieniu procesu projektowania cyfrowego.

Kiedy umieściłem parę baterii Duracell w polu widzenia kamery, nie tylko dokładnie je rozpoznała, ale także w ciągu kilku minut wskazała mi, które lokalne platformy e-commerce mogą je do mnie dostarczyć. Ta funkcja była szczególnie przydatna do identyfikacji produktów i określania ich lokalnej dostępności.

Usługi – o nazwach Blinkit i Swiggy Instamart – są dostępne tylko w Indiach i przeznaczone głównie do lokalizacji miejskich. Nawet w słabo oświetlonym pomieszczeniu, system był w stanie zidentyfikować parę przewodowych słuchawek za pierwszym razem. To dowodzi zdolności sztucznej inteligencji do rozpoznawania obiektów w różnych warunkach.

Jego największą zaletą jest świadomość sytuacyjna.

W porównaniu ze zwykłym czatem Gemini lub tym, co można znaleźć w sekcji „Przegląd sztucznej inteligencji” w wyszukiwarce Google, czaty Gemini Live stosują ostrożniejsze podejście do rozpowszechniania wiedzy, zwłaszcza jeśli jest ona poufna. Zauważyłem, że tematy takie jak zalecenia żywieniowe i leczenie są traktowane z coraz większą ostrożnością, często kierując użytkowników do odpowiednich ekspertów. Ta ostrożność odzwierciedla nacisk Google na dostarczanie dokładnych i rzetelnych informacji, zwłaszcza w obszarach wymagających specjalistycznej wiedzy.

Kilka znanych wyzwań

Moim głównym wnioskiem jest to, że transformacja Projektu Astra w Gemini jest niezwykle imponująca. To rzut oka na przyszłość smartfonów. Dzięki pewnym ulepszeniom, integracjom i przepływom pracy między aplikacjami, wyszukiwarka Google może wyglądać jak relikt. Na razie jednak ma kilka rażących wad.

Kilkakrotnie zauważyłem awarię systemu pamięci. Kiedy sztuczna inteligencja została poproszona o zidentyfikowanie opaski fitness w polu widzenia kamery, poprawnie rozpoznała ją jako Samsung Galaxy Fit 3. Jednak gdy zadałem dodatkowe pytanie, urządzenie błędnie zidentyfikowało ją jako opaskę fitness Huawei.

Potrafi też bezczelnie kłamać. I mogę to powiedzieć z całkowitą pewnością. Na przykład, kiedy poprosiłem ją o podsumowanie mojej recenzji urządzenia ubieralnego, sztuczna inteligencja odpowiedziała, że Digital Trends jeszcze go nie recenzował. W rzeczywistości artykuł został opublikowany tydzień wcześniej.

Następnie poprosiłem go, aby po włączeniu udostępniania ekranu przejrzał kilka artykułów na mojej stronie autora. Gemini całkiem nieźle radził sobie z objaśnianiem historii, ale czasami miał problemy ze zrozumieniem kontekstu. Na przykład, błędnie stwierdził, że tylko Intel i AMD mogą sprawić, że jednostki przetwarzania neuronowego (NPU) będą kwalifikować się do odznaki. Drugi pilot+.

Z drugiej strony, artykuł wyraźnie stwierdza, że Qualcomm jako pierwszy spełnił ten standard, wyprzedzając konkurencję. Dopiero pod koniec zeszłego roku AMD i Intelowi udało się w końcu spełnić wymagania dotyczące układów AI, wprowadzając nową linię procesorów.

W trakcie rozmowy o artykule znów miał problem z pamięcią. Zamiast streścić omawianą historię, wrócił do opowiadania o pierwszym artykule, który obejrzał dzięki funkcji udostępniania ekranu. Kiedy przerwałem mu w trakcie narracji, Gemini poprawił jego błąd.

Innym problemem, który zauważyłem w narracji w języku innym niż angielski, była losowa zmiana głosu i szybkości w trakcie narracji w Gemini Live. Było to niezwykle irytujące, a wymowa była całkowicie mechaniczna, zupełnie różna od ludzkiej, jeśli chodzi o język angielski.

Wizja maszynowa również ma problemy z czytelnymi czcionkami. W kilku przypadkach sztuczna inteligencja z pewnością siebie podawała nieprawidłowe informacje, a poproszona o korektę, wskazywała na brak możliwości znalezienia najbardziej aktualnych informacji na dany temat. Takie sytuacje zdarzają się rzadko, ale błędy Gemini wciąż się powtarzają.

Podsumowując, uważam, że Gemini Live z kamerą i udostępnianiem ekranu to jeden z największych postępów, jakie poczyniła dotychczas sztuczna inteligencja. To jedno z najbardziej praktycznych i satysfakcjonujących zastosowań generatywnej sztucznej inteligencji. Wystarczy odrobina urozmaicenia i rozwiązanie problemu syndromu „pewnego siebie kłamcy”.

Teraz wszystko jest na dobrej drodze, w przeważającej mierze, ale wciąż brakuje nam kilku kluczowych kamieni milowych, aby stać się idealnym towarzyszem sztucznej inteligencji dla marzeń technofuturystów.

Gemini