Moje doświadczenia z Copilot Vision: Dziwne uczucie, ale w pewnym sensie przydatne – oto moja opinia

Copilot Vision firmy Microsoft ma widzieć ekran użytkownika i pomagać mu za pomocą sztucznej inteligencji, jednak często zachowuje się jak niezdarny agent pomocy technicznej.

Użytkownicy w Stanach Zjednoczonych mogą teraz korzystać z Copilot Vision w systemie Windows 11 (i 10), asystenta AI, który pomaga w niemal każdej czynności wykonywanej na komputerze. Chcesz wiedzieć, czy to naprawdę działa? Wypróbowałem to i w tym poradniku szczegółowo wyjaśnię, co oferuje ta funkcja, jak ją uruchomić i podzielę się moimi osobistymi doświadczeniami.

Windows 11 Copilot Vision

W aplikacji Copilot funkcja ta jest następująca: "Wizja" Funkcja umożliwiająca udostępnianie ekranu chatbotowi, który widzi i interpretuje to, co się na nim znajduje. Działa jak druga para oczu, zapewniając pomoc w czasie rzeczywistym, odpowiedzi i analizy na podstawie treści wyświetlanych w aplikacjach lub przeglądarce.

Jest to również funkcja opcjonalna, dlatego należy ją włączyć ręcznie w Copilocie w wersji 1.25061.104.0 i nowszych. Jeśli korzystasz z przeglądarki Microsoft EdgeDostęp do tej funkcji można uzyskać również poprzez integrację Copilot.

Należy pamiętać, że sztuczna inteligencja jest w stanie wyświetlić niemal każdą treść, pod warunkiem że nie jest to materiał chroniony mechanizmem DRM lub inny rodzaj treści podlegającej ograniczeniom.

Funkcja ta jest dostępna dla każdego, kto nie posiada subskrypcji. Drugi pilot Pro W systemach Windows 10 i 11. Dostęp do Copilot Vision można uzyskać także na urządzeniach mobilnych z systemem iOS i Android, ale do korzystania z aplikacji na tych urządzeniach wymagana jest subskrypcja.

W tym przewodniku przedstawię kroki niezbędne do rozpoczęcia korzystania z tej funkcji i podzielę się swoimi doświadczeniami.

Jak uzyskać i aktywować Copilot Vision w systemie Windows 11

Aplikacja Copilot Vision jest obecnie dostępna w Stanach Zjednoczonych, począwszy od wersji 1.25061.104.0 i nowszych. Dlatego pierwszym krokiem jest otwarcie aplikacji Microsoft Store, przejście do sekcji „Pobrane i aktualizacje” i kliknięcie przycisku „Pobierz aktualizacje”, aby upewnić się, że na komputerze zainstalowana jest najnowsza wersja aplikacji. Ten krok jest niezbędny, aby zapewnić zgodność urządzenia z nowymi funkcjami i poprawić ogólną wydajność aplikacji Copilot.

Możesz pobrać aplikację ze sklepu Microsoft Store, jeśli ją wcześniej odinstalowałeś. Wyszukaj Copilot w sklepie i zainstaluj ją, aby korzystać ze wszystkich jej funkcji.

Microsoft wyjaśnia, że ​​Vision to funkcja opcjonalna, co technicznie rzecz biorąc jest prawdą, ponieważ do udostępniania ekranu wymagane jest zezwolenie. Jest ona jednak dostępna domyślnie, ponieważ na stronie ustawień nie ma opcji całkowitego wyłączenia tej funkcji. Oznacza to, że po aktualizacji aplikacji Vision będzie gotowy do użycia, ale wymaga wyraźnej zgody użytkownika przed uzyskaniem dostępu do zawartości ekranu.

Na stronie ustawień Copilota znajdziesz jedynie opcję włączania i wyłączania funkcji „Wyróżnienia”, ale ta funkcja kontroluje jedynie zdolność sztucznej inteligencji do wizualnego wskazywania działań na ekranie. Nie kontroluje ona dostępności tej funkcji w aplikacji. Innymi słowy, nawet jeśli wyłączysz funkcję „Wyróżnienia”, funkcja Wizja będzie nadal dostępna, ale nie będzie podświetlać elementów wizualnych na ekranie.

Jeśli ogólnie nie podoba Ci się pomysł korzystania z aplikacji Copilot, najlepiej odinstalować ją w Ustawieniach > Aplikacje > Zainstalowane aplikacje i kliknąć opcję „Odinstaluj”, aby przejść do aplikacji „Copilot”. Spowoduje to całkowite usunięcie aplikacji z urządzenia, dzięki czemu nie będzie ona miała dostępu do Twoich danych ani zasobów systemowych.

Moje doświadczenia z korzystaniem z Copilot Vision w systemie Windows 11: pierwsze spojrzenie

Moja pierwsza interakcja z Copilot Vision w systemie Windows 11 była nieco dziwna, ponieważ stanowiła zmianę paradygmatu, której nigdy wcześniej nie doświadczyłem. Zamiast formułować szczegółowe polecenia tekstowe lub głosowe w celu określenia kontekstu, inteligentny asystent Copilota zdawał się rozumieć kontekst automatycznie, umożliwiając mu udzielanie natychmiastowej i skutecznej pomocy. Ta zdolność rozumienia kontekstu bez konieczności podawania konkretnych instrukcji stanowi znaczącą zmianę w sposobie interakcji z komputerami.

Chociaż dokładność Copilot Vision jest wciąż w fazie rozwoju, oferuje on wczesny wgląd w przyszłość informatyki. Stanowi obiecujący krok w kierunku bardziej płynnego i zintegrowanego środowiska komputerowego, w którym komputer staje się inteligentnym partnerem, który rozumie i przewiduje nasze potrzeby, a nie tylko narzędziem, któremu wydajemy określone polecenia. Technologia ta ma potencjał, aby radykalnie zmienić sposób, w jaki pracujemy, tworzymy i uczymy się.

Rozpoczęcie pracy z Copilot Vision

Po potwierdzeniu, że Copilot Vision jest dostępny na moim komputerze, zacząłem go testować. Otworzyłem kilka aplikacji, a następnie uruchomiłem Drugi pilot Z menu Start. Następnie kliknij przycisk "Wizja" (Okulary), a następnie wybierz aplikację, którą chcesz udostępnić Copilotowi i włącz opcję "Dzielić".

Pytanie testowe dotyczące aplikacji

Korzystając z Notatnika, poprosiłem Copilota o pokazanie mi, jak zmienić domyślną czcionkę aplikacji, ale otrzymałem nieprawidłową odpowiedź.

Drugi pilot zasugerował przeszukanie listy. "Widok" (Widok), ale ta opcja nie była dostępna w tym miejscu. Powodem tego, zgodnie z obecną wersją Notatnika, jest to, że ustawienia zmiany czcionki znajdują się na stronie Ustawienia, do której można uzyskać dostęp z menu. "Edytować" (Edytuj) lub klikając przycisk "Koło zębate" (koło zębate) znajdujące się w prawym górnym rogu aplikacji.

Ostatecznie Copilot doszedł do poprawnej odpowiedzi poprzez proces stopniowej eliminacji. Co ciekawe, chatbot zasugerował, że popełnił błąd, ponieważ pomylił różne wersje Notatnika. Nie przypominam sobie jednak, aby jakakolwiek wersja Notatnika miała ustawienia czcionek w menu. "Widok" (Pokaż) w ogóle. Sugeruje to, że Copilot mógł opierać się na nieaktualnych lub niedokładnych informacjach.

Ustawienia pytań testowych

W ramach procesu testowania uruchomiłem aplikację Ustawienia w systemie Windows 11, a następnie poprosiłem Copilota o zaktualizowanie mojego komputera za pomocą najnowszych aktualizacji systemu.

W tym przypadku było to możliwe Drugi pilot Microsoftu Dzięki Visionowi poprawnie rozpoznał, że jestem w aplikacji Ustawienia. Skierował mnie dokładnie do sekcji "Aktualizacja systemu Windows" I podświetliłem przycisk "Sprawdź aktualizacje".

Następnie przedstawiłem mu mniej popularne (ale wciąż aktualne) pytanie. Zapytałem, jak uniemożliwić komputerowi pobieranie aktualizacji na inne urządzenia podczas procesu aktualizacji. Chociaż nie było to szczególnie skomplikowane, testowało ono zdolność asystenta do interpretowania bardziej subtelnych intencji użytkownika.

Za pierwszym razem Vision źle zrozumiał zapytanie i domyślnie wyświetlił ogólne instrukcje aktualizacji urządzenia. Za drugim razem, po doprecyzowaniu mojego sformułowania, poprawnie rozpoznał pytanie.

Jednak jego wskazówki były sprzeczne z tym, co widziałem na ekranie. Na przykład, wskazywał, że pomyślnie wyłączyłem funkcję udostępniania aktualizacji, mimo że nie podjąłem żadnych działań. Sugeruje to, że asystent opierał się na założeniach opartych na oczekiwanym zachowaniu, zamiast faktycznie analizować stan systemu na żywo. Podkreśla to potrzebę poprawy zdolności Microsoft Copilot do lepszego rozumienia kontekstu użytkownika i udzielania bardziej precyzyjnych i wiarygodnych odpowiedzi, szczególnie w odniesieniu do ustawień systemu Windows 11 i opcji aktualizacji.

Test rozpoznawania pierwiastków: Etap 3

W kolejnym teście chciałem sprawdzić zdolność Copilota do rozpoznawania elementów wizualnych na ekranie. W tym celu otworzyłem konkretny obraz i poprosiłem Copilota o dokładne zidentyfikowanie elementu na nim.

W tym przypadku Copilotowi pokazano zdjęcie czerwonej kurtki. Chatbot precyzyjnie zidentyfikował i opisał produkt, a nawet na żądanie dostarczył dodatkowe istotne informacje. To dowodzi, że Copilot Vision potrafi analizować obrazy i dostarczać szczegółowych informacji o ich treści.

Jednak, chociaż chatbot rozpoznał, że kurtka jest na sprzedaż na Amazonie, nawet gdy zdjęcie było otwarte w osobnej karcie, nie był w stanie stwierdzić, że nie przeglądam faktycznej strony produktu. W rezultacie nie był w stanie dostarczyć mi informacji o aktualnej stronie produktu na Amazonie. Sugeruje to ograniczenia w możliwościach Copilota w zakresie powiązania informacji wizualnych z bieżącym kontekstem przeglądania strony przez użytkownika.

Test ekstrakcji tekstu

Kolejną funkcją oferowaną przez Copilot Vision jest ekstrakcja tekstu z obrazów. Wcześniej systemy operacyjne nie były w stanie wykrywać i wyodrębniać tekstu z obrazów, ale teraz dostępnych jest wiele metod, które pozwalają na efektywne wykonywanie tego zadania.

Na przykład teraz masz do dyspozycji specjalistyczne narzędzia do wyodrębniania tekstu, takie jak funkcja Ekstraktora tekstu dostępna w PowerToys, Narzędzie wycinania, a także Kliknij, aby zrobićTeraz możesz również polegać na systemie Copilot Vision w tym procesie.

Aby przetestować tę funkcję, otworzyłem aplikację Ustawienia na stronie Trybu Gry i zapytałem Copilota, czy może wyodrębnić istniejący tekst. Inteligentny robot pomyślnie odczytał na głos cały tekst na stronie.

Jedyną wadą, na jaką natrafiłem, był brak możliwości skopiowania wyodrębnionego tekstu do schowka lub bezpośredniego zaznaczenia tekstu, co jest możliwe w Click to Do. Jednak bot skopiował wszystko do aplikacji Copilot jako część historii konwersacji.

Test pisania tekstów: możliwości sztucznej inteligencji w analizie i optymalizacji treści

Technicznie rzecz biorąc, możesz zadać dowolne pytanie dotyczące dowolnej rzeczy wyświetlanej na ekranie. Na przykład, jeśli pracujesz nad konkretnym plikiem, możesz zlecić sztucznej inteligencji analizę wykresu lub dowolnego innego rodzaju wyświetlanych danych.

Technologia ta pozwala również poprosić o opis konkretnej sceny lub obrazu, zidentyfikować punkt orientacyjny lub lokalizację geograficzną, czy cokolwiek innego, co sobie wyobrazisz. Możliwości są nieograniczone.

Jeśli pracujesz nad tekstem pisanym, możesz poprosić sztuczną inteligencję o jego przeczytanie i zasugerowanie pomysłów na poprawę. Ta funkcja jest szczególnie przydatna dla autorów, blogerów i studentów, którzy chcą poprawić jakość swojego pisania.

W moim ostatnim teście wgrałem prosty tekst do Notatnika i poprosiłem chatbota o jego wydłużenie. Udało mi się zasugerować ulepszoną, alternatywną wersję tekstu oryginalnego.

Chociaż zdolność inteligentnego asystenta do rozumienia tekstu wyświetlanego na ekranie i proponowania wersji alternatywnej była imponująca, nie był on zbyt dokładny w kwestii rozumienia kolejnych wymaganych działań.

Chociaż wiedziałem, że nie da się skopiować i zastąpić tekstu bezpośrednio sugestią, zapytałem, czy można skopiować i wkleić nową wersję tekstu, ale on wskazał mi sekcję w pliku, którą mogłem wstawić zamiast tego.

Rozwiązaniem jest otwarcie i zamknięcie Copilot Vision, a następnie, w interfejsie Copilot, zaznaczenie i skopiowanie tekstu z historii czatu. Pozwala to na łatwe i efektywne wykorzystanie sugestii AI.

Podsumowując

Z perspektywy kogoś, kto od wielu lat zajmuje się pisaniem przewodników, uważam, że ta technologia jest naprawdę imponująca, jeśli chodzi o zrozumienie treści wyświetlanych na ekranie i zapewnienie niezbędnej pomocy.

Należy jednak przyznać, że popełnia wiele błędów i może nie być zbyt przydatne, jeśli nie posiadasz podstawowej wiedzy na temat procedury, którą chcesz wykonać. Innymi słowy, wcześniejsza znajomość tematu jest niezbędna, aby w pełni wykorzystać jego możliwości.

Co więcej, wydaje się działać z pełną świadomością, ale w rzeczywistości jest to po prostu sztuczna inteligencja replikująca treści już dostępne online. To osłabia jego wartość jako innowacyjnego narzędzia.

Czasami korzystanie z Copilot Vision przypomina rozmowę z pomocą techniczną przez telefon. Chociaż chatbot widzi ekran, prowadzi użytkownika jak agent pomocy technicznej, często nie wiedząc, czy zadanie zostało wykonane. Ten brak świadomości kontekstowej stanowi poważne wyzwanie.

Co więcej, w większości przypadków instrukcje muszą być niezwykle precyzyjne, często nawet określając dokładną czynność, którą chcesz wykonać. To fundamentalnie przeczy celowi sztucznej inteligencji, która ma naturalnie rozumieć intencje użytkownika. Należy pamiętać, że ta funkcja jest przeznaczona głównie dla użytkowników nietechnicznych, ponieważ osoby z wiedzą techniczną raczej z niej nie skorzystają.

Ogólnie rzecz biorąc, choć Vision zapowiada się obiecująco jako Twój osobisty asystent, jego głębsza świadomość kontekstowa i precyzja wciąż wymagają udoskonalenia. Sprawia wrażenie, jakby „zgadywał” na podstawie poleceń, zamiast aktywnie monitorować i reagować na aktualny stan treści na ekranie. To sprawia, że ​​jest mniej niezawodny w złożonych scenariuszach.

Na koniec warto zaznaczyć, że nie wymieniam konkretnych pytań, których użyłem w tym poradniku, ponieważ są one nieistotne. Ideą chatbota jest prowadzenie normalnej rozmowy, tak jakbyśmy rozmawiali z drugim człowiekiem. Nacisk powinien być położony na płynność interakcji.

Funkcja ta nie może również podejmować działań w Twoim imieniu. Może jedynie analizować zawartość Twojego ekranu. Aby podjąć działanie, sztuczna inteligencja musi być agentem, ale obecnie tylko komputery Copilot+ mają taką możliwość, z ograniczonymi możliwościami w aplikacji Ustawienia.

Wreszcie, chociaż funkcja jest darmowa, ma swoje ograniczenia. Na przykład, mimo że mam subskrypcję Microsoft 365, po kilku interakcjach aplikacja zachęca mnie do aktualizacji do Copilot Pro.

Jeśli więc rozwiązujesz problem i jesteś w trakcie jego rozwiązywania, możesz zostać poproszony o zapłatę za pomoc asystenta AI w dokończeniu naprawy. Takie podejście może rozczarować użytkowników, którzy polegają na bezpłatnej pomocy.

Możliwość dodawania komentarzy nie jest dostępna.