Claude AI ma teraz możliwość zakończenia rozmowy: nowy mechanizm radzenia sobie z ekstremalnymi sytuacjami

W ostatnich miesiącach firma Anthropic zintensyfikowała swoje działania na rzecz bezpieczeństwa, wdrażając nowe funkcje i prowadząc badania nad tym, jak zwiększyć bezpieczeństwo sztucznej inteligencji. Najnowsza funkcja wydaje się być… Claude Jest to jedna z najbardziej charakterystycznych cech.

Claude AI ma teraz możliwość zakończenia rozmowy: nowy mechanizm radzenia sobie z ekstremalnymi sytuacjami | Przewodnik Toma

Zarówno Claude Opus 4, jak i 4.1 (najnowsze wersje Anthropic) oferują teraz możliwość kończenia rozmów w interfejsie czatu użytkownika. Chociaż funkcja ta nie będzie powszechnie używana, została wdrożona w rzadkich i ekstremalnych przypadkach „uporczywie szkodliwych lub obraźliwych interakcji użytkownika”.

W Wpis na blogu omawiający nową funkcję„Wciąż nie jesteśmy pewni potencjalnego statusu etycznego Claude’a i innych dużych modeli językowych, zarówno teraz, jak i w przyszłości” – stwierdził zespół Anthropic. „Podchodzimy jednak do tej kwestii bardzo poważnie”.

W testach poprzedzających premierę najnowszych modeli Anthropic, firma przeprowadziła ocenę dobrostanu modelu. Obejmowało to analizę preferencji behawioralnych i samooceny Claude'a, a w rezultacie stwierdzono silną i stałą niechęć do krzywdy.

Nadal nie mamy pewności co do potencjalnego statusu etycznego Claude'a i innych dużych modeli językowych, zarówno teraz, jak i w przyszłości. Traktujemy jednak tę kwestię poważnie.

Antropiczny

Innymi słowy, Claude skutecznie uciszał lub odmawiał udziału w tych rozmowach. Dotyczyło to próśb użytkowników o treści seksualne z udziałem nieletnich oraz prób uzyskania informacji, które mogłyby umożliwić powszechną przemoc lub akty terrorystyczne.

W wielu z tych przypadków użytkownicy nadal zgłaszali szkodliwe lub obraźliwe prośby, pomimo stanowczego sprzeciwu Claude'a. Nowa funkcja, która pozwala Claude'owi skutecznie zakończyć rozmowę, ma zapewnić pewien poziom ochrony w takich sytuacjach.

Anthropic wyjaśnia, że ​​funkcja ta nie będzie stosowana w sytuacjach, w których użytkownicy mogą być narażeni na bezpośrednie niebezpieczeństwo wyrządzenia krzywdy sobie lub innym.

„W każdym przypadku Claude powinien korzystać ze swojej możliwości zakończenia konwersacji wyłącznie w ostateczności, gdy wielokrotne próby przekierowania rozmowy zawiodły i nie ma już nadziei na produktywną interakcję lub gdy użytkownik wyraźnie poprosi Claude'a o zakończenie konwersacji” – kontynuuje zespół Anthropic we wpisie na blogu.

Claude na laptopie

„Sytuacje, w których może to mieć miejsce, są ekstremalne i rzadkie – zdecydowana większość użytkowników nie zauważy tej funkcji ani nie odczuje jej wpływu podczas normalnego użytkowania produktu, nawet podczas omawiania z Claudem bardzo kontrowersyjnych kwestii”.

Chociaż użytkownik nie będzie mógł już wysyłać nowych wiadomości w tej konwersacji, nie uniemożliwi mu to rozpoczęcia kolejnej konwersacji na swoim koncie. Aby zapobiec potencjalnej utracie długiego wątku konwersacji, użytkownicy nadal będą mogli edytować poprzednie wiadomości i ponawiać próby utworzenia nowej gałęzi konwersacji.

To dość wyjątkowa aplikacja od Anthropic. ChatGPT و Gemini و GrokTrzej najwięksi konkurenci Claude'a nie dysponowali niczym podobnym i choć wszyscy proponowali inne środki ochrony, nie posunęli się tak daleko.

Możliwość dodawania komentarzy nie jest dostępna.