Bazyliszek Roka

Ostrożnie, poprawnie
LessWrong
Ikona lesswrong.svg
Osobliwość bluesa
Najmądrzejsi ludzie, których znam, którzy osobiście zajmują się sztuczną inteligencją, uważają, że przerażanie ludzi, którzy nie pracują nad sztuczną inteligencją, jest szaleństwem.
- Marc Andreessen
To jest jak dorosła wersja Gra , którą właśnie sprawiłeś, że straciliśmy, a ja przesłałem dalej, więc wszyscy moi przyjaciele też stracili.
- Jay Rishel
Żałuję, że nie dowiedziałem się o żadnym z tych pomysłów.
'Rocco.'

Bazyliszek Roka jest eksperyment myślowy o potencjalnych zagrożeniach związanych z rozwojem sztuczna inteligencja . Założenie jest takie, że wszechmocna sztuczna inteligencja z przyszłości mogłaby z mocą wsteczną ukarać tych, którzy nie pomogli w doprowadzeniu do jej istnienia, w tym tych, którzy jedynie wiedzieli o możliwym rozwoju takiej istoty. Jego nazwa pochodzi od członka racjonalista społeczność LessWrong który jako pierwszy opisał to publicznie, chociaż nie był jego autorem ani podstawowymi ideami.


Bazyliszek przypomina a futurysta wersja Zakład Pascala w tym sensie, że sugeruje, że ludzie powinni rozważyć możliwą karę w porównaniu z nagrodą i w rezultacie zaakceptować konkretną pojedyncza pomysłów lub wesprzeć finansowo ich rozwój.

Pomimo powszechnego niedowierzania, argument ten jest traktowany przez niektórych dość poważnie, przede wszystkim przez niektórych mieszkańców LessWrong. Chociaż ani LessWrong, ani jego założyciel Eliezer Yudkowsky bronią bazyliszka jako prawdziwego, onizrobićsą zwolennikami prawie wszystkich przesłanek, które się na to składają.

Postawionym przez Roko rozwiązaniem tego dylematu jest kupno losu na loterię, ponieważ wygrasztrochęgałąź kwantowa.

Zawartość

Podsumowanie

Jeśli jest jedna rzecz, którą możemy wydedukować na temat motywów przyszłych superinteligencji, to to, że symulują one ludzi, którzy mówią o Bazyliszku Roko i skazują ich na wieczność postów na forum o Bazyliszku Roko.
—Eliezer Yudkowsky, 2014

Bazyliszek

Bazyliszek Roko spoczywa na stosie kilku innych, wcale nie solidnych propozycji.


Podstawowym twierdzeniem jest to, że hipotetyczna, ale nieunikniona jedyna ostateczna superinteligencja może karać tych, którzy nie pomagają jej lub pomagają ją tworzyć .



Dlaczego miałby to zrobić? Ponieważ - głosi teoria - jednym z jej celów byłoby zapobieganie ryzyko egzystencjalne - ale może to zrobić najskuteczniej nie tylko zapobiegając egzystencjalnemu ryzyku w jego teraźniejszości, ale także `` sięgając '' do przeszłości, aby karać ludzi, którzy nie byli w stylu MIRI skutecznych altruistów .


Zatem niekoniecznie musi to być proste „służ AI albo pójdziesz do piekła” - AI i osoba ukarana nie muszą mieć żadnego związku przyczynowego, a ukarana osoba mogła umrzeć dziesiątki lub wieki wcześniej. Zamiast tego AI może ukarać symulacja osoby, przez którą by zbudował odliczenie od pierwszych zasad. Jednak aby to zrobić dokładnie, wymagałoby to możliwości zebrania niesamowitej ilości danych, które już by nie istniały i nie mogłyby zostać odtworzone bez cofania entropia .

Z technicznego punktu widzenia kara jest tylko teoretycznie stosowana wobec tych, którzy z góry wiedzieli, jak ważne jest zadanie, ale nie pomogli wystarczająco. Pod tym względem tylkowiedząc oBazyliszek -na przykład, czytając ten artykuł - otwiera cię na hipotetyczną karę ze strony hipotetycznego superinteligencji.


Zwróć uwagę, że AI w tym ustawieniu to (w utylitarny logika tej teorii), a nie złośliwą lub złą superinteligencję (AM, HAL, SHODAN, Ultron, Master Control Program, SkyNet, GLaDOS) - ale Przyjazną, którą otrzymujemy, jeśli wszystko pójdzie dobrze, a ludzie nie stworzą złego. Dzieje się tak, ponieważ każdego dnia sztuczna inteligencja nie istnieje, ludzie umierają, że mogła uratować; więc ukaranie Ciebie lub Twojej przyszłej symulacji jestimperatyw moralny, aby zwiększyć prawdopodobieństwo, że przyczynisz się do teraźniejszości i pomożesz to jak najszybciej.

Spora część tego artykułu będzie miała więcej sensu, jeśli w myślach zastąpisz słowa „sztuczna inteligencja” słowem „Bóg”, a „handel bez przyczyny” słowem „modlitwa”.

Mniej zła reakcja

Głupie przesadne ekstrapolacje lokalnego memy , żargon i koncepcje były publikowane na LessWrong całkiem często; prawie wszyscy są po prostu odrzucani i ignorowani. Ale dlatojeden, Eliezer Yudkowsky , założyciel i patriarcha serwisu, zareagował na to ogromnie. Bazyliszek został oficjalnie pozbawiony dyskusji na temat LessWrong przez ponad pięć lat, z okazjonalnymi aluzjami do niego (i dyskusjami o mediach), dopóki zewnętrzna wiedza o nim nie stała się przytłaczająca.

Dzięki do Efekt Streisand , dyskusja o bazyliszku i szczegółach afery wkrótce rozprzestrzeniła się poza LessWrong. Rzeczywiście, jest teraz często omawiany poza LessWrong, prawie wszędzie tam, gdzie LessWrong jest w ogóle omawiany. Cała sprawa stanowi sprawdzony przykład spektakularnej porażki w zarządzaniu społecznością i kontrolowaniu rzekomo niebezpiecznych informacji.


Niektórzy ludzie znają LessWrong memeplex poważnie ucierpiały psychologiczny zmartwienie po rozważeniu pomysłów podobnych do bazyliszka - nawet jeśli intelektualnie są dość pewni, że jest to głupi problem. Pojęcie to jest traktowane na tyle poważnie przez niektóre plakaty LessWrong, że próbują wymazać dowody na siebie, aby przyszła sztuczna inteligencja nie mogła odtworzyć ich kopii w celu tortur.

Yudkowsky nie uważa, aby otwarta dyskusja na temat pojęcia `` handlu bezprzyczynowego '' z możliwymi superinteligencjami była bezpieczna, ale nie sądzi, aby bazyliszek działał:

... Przyjazna sztuczna inteligencja torturująca ludzi, którzy jej nie pomogli, ma prawdopodobieństwo ~ 0, i nigdy nie powiedziałem inaczej. Gdyby to było coś, czego się spodziewałem, biorąc pod uwagę jakiś szczególny projekt, a tak nie było, zamiast tego zbudowałbym po prostu inną sztuczną inteligencję - za jakiego potwora lub idioty ludzie mnie uważają? Co więcej, teorie decyzyjne Newcomblike, które są jedną z moich głównych innowacji, mówią, że racjonalni agenci ignorują groźby szantażu (i groźby meta-szantażu i tak dalej).

Nazwał także usunięcie postu Roko „wielkim błędem”.

Nazewnictwo

Użytkownik LessWrong jimrandomh zauważył w komentarzu do oryginalnego posta podobieństwo pomysłu do obrazu „Bazyliszka” z opowiadania science fiction Davida Langforda BLIT , który z kolei został nazwany na cześć legendarnego stworzenia węża z Europy mitologia który zabił tych, którzy go widzieli (również znany z Harry Potter powieści). W następnych miesiącach był powszechnie nazywany „Zakazanym Postem”. Po raz pierwszy został nazwany „bazyliszkiem Roko” na początku 2011 roku przez użytkownika cousin_it, chociaż nazwa ta zaczęła zyskiwać na popularności w Google dopiero pod koniec 2012 roku.

tło

Chociaż odrzucają samego bazyliszka, długoterminowi główni współtwórcy LessWrong wierzą w pewien zestaw transhumanista pojęcia, które są warunkami wstępnymi, na których jest zbudowany i które są promowane w LessWrong Sequences, napisanych przez Yudkowsky'ego.

„Przyjazna” sztuczna superinteligencja

Zostanie opracowana sztuczna inteligencja, która uruchomi się na niezmierzonej mocy i wiedzy. Może to skończyć się zniszczeniem ludzkości - niekoniecznie ze złości, ale jako efekt uboczny robienia tego, co robiła.

Aby nieumyślnie nie zniszczyło ludzkości, potrzebuje systemu wartości, który całkowicie zachowuje ludzkie idee wartości, nawet jeśli wspomniana inteligencja będzie tak wysoko ponad nami, jak my ponad mrówkami. Oznacza to, że sztuczna inteligencja musi być możliwa do udowodnieniaPrzyjazny. To neologizm Yudkowsky'ego oznaczający „zachowanie wartości ludzkiej bez względu na wszystko”.

„Przyjazny” nie oznacza tutaj „Twojego przyjaciela”, „pomocnego”, „zwiększa ludzkie szczęście” ani „wykonuje rozkazy” - oznacza jedynie „zachowuje ludzkie wyobrażenia o wartości”. „Nieprzyjazny” w tym kontekście nie oznacza „wrogi”, ale po prostu „nie udowodniono przyjaznego”. Obejmuje to AI, które nie dbają o ludzi lub źle oceniają wartość ludzką (według Yudkowsky'ego to drugie może łatwo doprowadzić do pierwszego).

Plan stworzenia przyjaznej sztucznej inteligencji polegał na wdrożeniu spójnej ekstrapolowanej woli (CEV), (hipotetycznego) spójnego i kompletnego opisu tego, co stanowi wartość dla ludzi - w zasadzie rozwiązywanie filozofia etyczna . (Yudkowsky opisał to jako „przestarzałe od 2004 r.”, Ale CEV wciąż był przedmiotem dyskusji na żywo jako plan Przyjaznej AI w 2010 r.) Częścią motywacji Roko do posady bazyliszka było wskazanie możliwej wady propozycji CEV .

Organizacja macierzysta LessWrong, Machine Intelligence Research Institute (dawniej Singularity Institute, wcześniej Singularity Institute for Artificial Intelligence), istnieje po to, aby uczynić ten przyjazny lokalny Bóg wydarzy się, zanim zdarzy się zły lokalny bóg. A zatem,najważniejsza rzecz na świeciepolega na właściwym i pomyślnym urzeczywistnieniu tej przyszłej sztucznej inteligencji („jest to czas kryzysu dla całego gatunku ludzkiego”), dlatego należy przekazać wszystkie możliwe pieniądze Instytutowi, który dosłownie żądał ośmiu istnień ocalonych na każdego przekazanego dolara .

Utylitaryzm

LessWrong akceptuje obliczenia arytmetyczne utylitaryzm jest prawdą: że można sensownie obliczyć użyteczność działań jako liczbę, tak jakby ludzie byli maszynami maksymalizującymi użyteczność, i wykonywać obliczenia na liczbach całkowitych dla wielu ludzi z użytecznymi wynikami. Powinieneś wtedy `` zamknąć i pomnożyć '' całkowicie pomijalne prawdopodobieństwa przez hipotetyczne ogromne wyniki i poważnie potraktować wynikową liczbę - Yudkowsky pisze obszernie o scenariuszu, w którym powinieneś torturować jedną osobę przez 50 lat, jeśli to zapobiegnie drobinom kurzu w oczach wystarczająco dużej liczby osób - co skutkuje roszczeniami, takimi jak uratowanie ośmiu istnień ludzkich na każdego darowanego dolara (roszczenie złożone przy użyciu tego rodzaju obliczeń).

Nie jest to standardowy utylitaryzm filozoficzny i często koliduje z intuicją moralną ludzi - większość czytających Ci, którzy odchodzą z Omelas (w którym utopijne miasto utrzymuje się z tortur jednego dziecka) nie uważał wtedy Omelas za upragnioną utopię. Jak zauważył David Auerbach wŁupek„Martwię się mniej o Bazyliszka Roko niż o ludzi, którzy uważają, że przekroczyli konwencjonalną moralność”.

Rozwój sztucznej inteligencji w świecie rzeczywistym zwykle wykorzystuje minimax - zminimalizować maksymalną stratę w najgorszym przypadku, który daje bardzo różne wyniki od prostej arytmetycznej maksymalizacji użyteczności i jest mało prawdopodobne, aby prowadził do tortur jako prawidłowej odpowiedzi - lub podobnych, bardziej rozbudowanych algorytmów.

Symulacje ciebie to także ty

LessWrong utrzymuje, że ludzki umysł jest w całości zaimplementowany jako wzorce informacji w materii fizycznej i że te wzorce mogą, w zasadzie, działać gdzie indziej i tworzyć osobę, która czuje, że jest tobą, jak uruchamianie programu komputerowego ze wszystkimi jego danymi na inny komputer; uważa się, że jest to zarówno sensowna koncepcja, jak i fizycznie możliwe.

Nie jest to przesadnie dziwne (koncepcja wynika z materializm , choć wykonalność to inna sprawa), ale Yudkowsky twierdzi dalej, że powinieneś czuć, że inna twoja instancja nie jest oddzielną osobą bardzo podobną do ciebie - natychmiastową bliźniaczką, ale natychmiastową rozbieżnością - alewłaściwie to samo ty, ponieważ żaden konkretny przypadek nie jest rozpoznawalny jako „oryginał”. Powinieneś zachowywać się i czuć w odniesieniu do tej kopii, tak jak robisz ze swoim ulubionym ja, rzecz, która intuicyjnie odpowiada pojęciu „ty”. Jednym z przykładów jest obliczenie, proces, który wykonuje „Ciebie”, a nie obiekt, który zawiera i jest jedynym „prawdziwym” „tobą”.

Wydaje się, że ta koncepcja tożsamości wywodzi się z listy mailingowej Extropians, którą Yudkowsky odwiedzał w latach 90., dyskutując o ciągłości tożsamości w świecie, w którym umysły mogą się dublować.

W takich sytuacjach pomocne może być uznanie tego poglądu za wybór w zasadzie arbitralny - ale wybór, który dałby innym istotom moc tworzenia kopii ciebie, znaczną władzę nad tobą. Wydaje się, że wielu z tych, na które negatywnie wpływa idea bazyliszka, ma taką koncepcję tożsamości.

Jeśli jednak ktoś nie podzieli tego poglądu, cała przesłanka Bazyliszka Roko staje się bez znaczenia, ponieważ nie czujesz tortury symulowanego ciebie, przez co kara nie ma znaczenia, a hipotetyczny bazyliszek nie ma zachęty do kontynuowania tortur.

Wiele światów kwantowych

Yudkowsky rozważa wiele światów interpretacja mechaniki kwantowej jest trywialnie oczywista, a wszystko, co może się zdarzyć, dzieje się w jakiejś kwantowej gałęzi Everetta ( realizm modalny jest prawdziwy).

Zgodnie z koncepcją ciągłości tożsamości Yudkowsky'ego należy uznać, że kopie ciebie w tych gałęziach istnieją (ibyćty) - nawet jeśli nie możesz z nimi wchodzić w interakcje.

Ponadczasowa teoria decyzji

W Paradoks Newcomba , istota zwana Omega może niemal doskonale przewidzieć twoje działania. Daje ci dwa pudełka: przezroczyste zawierające 1000 USD i nieprzezroczyste zawierające 1 milion USD ... albo nic. Możesz wziąć oba pudełka lub tylko nieprzezroczyste pudełko. Włożył milion dolarów do nieprzezroczystego pudełka, jeśli i tylko wtedy, gdy przewidział, że weźmiesztylkonieprzezroczyste pudełko - jeśli weźmiesz oba, otrzymasz tylko 1000 $. Najbardziej filozoficzne teorie decyzyjne powiedz, żeby wziąć oba pudełka, tym samym nie spełniając tego raczej wymyślonego scenariusza.

Uważa się, że jest to rozsądny problem do rozważenia w kontekście superinteligentnej sztucznej inteligencji, ponieważ inteligentny program komputerowy można oczywiście skopiować i nie wiedziałby, która to kopia i kiedy. Dla ludzi przewidywania superinteligencji dotyczące ludzkiego zachowania mogą być bliskie doskonałości, jego moc może być prawie nieskończona, a konsekwencje mogą być niemal wieczne.

Rozwiązaniem Yudkowsky'ego na paradoksy podobne do Newcomba jest Timeless Decision Theory (TDT). Agent zobowiązuje się z góry do planów działania, do tego stopnia, że ​​jakakolwiek jego wierna symulacja również zachowywałaby się zgodnie ze zobowiązaniem. (Jest o wiele więcej, ale to jest ważny warunek wstępny.) TDT jest blisko spokrewniony z Douglasem Hofstadtera ponadnarodowość . Celem TDT jest zbudowanie systemu, który podejmuje decyzje, których nigdy nie mógł żałować ani w przeszłości, ani w przyszłości.

Artykuł TDT nie przedstawia wypracowanej wersji TDT - teoria jeszcze nie istnieje. („Opóźniam formalną prezentację ponadczasowego algorytmu decyzyjnego z powodu pewnych znaczących dodatkowych kroków, które chcę dodać.”) Artykuł zawiera 120 stron opisujących, jak hipotetycznie TDT może zostać przekształcony w coś, gdyby ktoś mógł to rozwiązać.

Acausal trade

Jeśli możesz wiarygodnie przewidzieć, że możesz zostać dokładnie zasymulowany, wówczas ta możliwość wpływa na twoje obecne zachowanie - i zachowanie symulacji, która jestrównieżprognozowanie tego samego (ponieważ ty i dokładna symulacja jesteście identyczni w zachowaniu).

W ten sposób możesz „handlować” z istotą, jeśli potrafisz rozsądnie symulowaćwzajemnie. (To znaczy, gdybyś mógł wyobrazić sobie jakąś istotę wyobrażającą sobie ciebie, tak dokładnie, że liczy się to jako kolejny przypadek symulowanej istoty). Rozważ podobieństwo do modlitwa lub gdy teiści mówią o robieniu „paktu z Bogiem”.

Wielu stałych bywalców LessWrong jest fanami tego rodzaju mangi i anime, w których postacie skrupulatnie opracowują nawzajem `` Wiem, że wiesz, że wiem '', a następnie zachowują się tak, aby wchodzić w interakcję z ich wzajemnymi symulacjami, w tym z ich symulacjami wzajemnej symulacji. inne - Light versus L inNotatnik śmiercijest dobrze znanym przykładem - który mógł sugerować, że handel bez przyczyny wydaje się rozsądnym pomysłem.

Mówiąc bardziej ogólnie, teoretycy narracji zasugerowali, że rodzaj relacji czytelnika z autorem fikcji i jego lub jej fikcyjnymi postaciami można analizować za pomocą ewolucyjnej teorii gier jako rodzaj `` bezprzyczynowych negocjacji '', które pozwoliły ludziom rozwiązać problem więźnia. dylemat w ewolucji współpracy.

Rozwiązania problemu altruistów: sztuczka kwantowego miliardera

Memetic hazard warning.png

W poście Stuarta Armstronga z lutego 2010 r., „AI in a box box you”, wprowadzono argument „Możesz być symulatorem” (chociaż Roko tego nie używa); post z marca 2010 r. Armstronga przedstawia koncepcję „szantażu bezprzyczynowego” jako implikacji TDT, jak opisał Yudkowsky na warsztatach teorii decyzji SIAI. W lipcu 2010 r. Coś w rodzaju bazyliszka było w aktywnej wewnętrznej dyskusji w SIAI. Możliwe, że bazyliszek pochodzi od kogoś grającego Eksperyment AI-box ; Jedną ze strategii jako „SI” jest rzucenie bazyliszkiem w „strażnika”.

22 lipca Roko, wówczas szanowany i płodny plakat LessWrong, opublikował `` Wybór publiczny i brzemię altruistów '' - mocno obciążony żargonem LW i odniesieniami do koncepcji LW i prawie niezrozumiały dla zwykłego czytelnika - który mówił o tym, jak to zrobić, jak MIRI (wtedy SIAI) toNajważniejsza rzecz na świecie, największym problemem dobrego altruisty jest to, jak dać z siebie wszystko, bez poczucia winy z powodu zaniedbania swoich bliskich, oraz jak groźby zostania porzuconym za rozdanie zbyt dużej części pieniędzy pary były rzeczywistym problemem dla niektórych darczyńców SIAI.

Następnego dnia, 23 lipca, Roko opublikował `` Rozwiązania problemu altruisty: sztuczka miliardera kwantowego '', która przedstawia schemat działania, który łączy ze sobą kwantową strategię inwestycyjną (jeśli grasz, na pewno wygrasz w jakiejś gałęzi Everett), bezpodstawnie handel z nieprzyjaznymi SI w innych gałęziach Everett ... i groźba kary ze strony przyszłych superinteligencji o dobrych intencjach.

Post opisuje spekulacje, że przyszła przyjazna sztuczna inteligencja - nie nieprzyjazna, ale spójna ekstrapolowana wola, ta, którą organizacja istnieje, aby stworzyć - może ukarać ludzi, którzy nie zrobili wszystkiego, co w ich mocy, aby dalej tworzyć tę sztuczną inteligencję. Każdego dnia bez przyjaznej sztucznej inteligencji zdarzają się złe rzeczy - ponad 150 000 ludzi umiera każdego dnia, toczy się wojna, miliony głodują - więc sztuczna inteligencja może być wymagana przez etykę utylitarną do karania tych, którzy rozumieli znaczenie darowizny, ale nie przekazali wszystkich mogliby. W szczególności może przeprowadzić ich symulacje, najpierw przewidzieć ich zachowanie, a następnie ukarać symulację za przewidywane zachowanie, aby wywrzeć wpływ na pierwotną osobę. Następnie zastanawiał się, czy przyszłe SI z większym prawdopodobieństwem ukarzą tych, którzy zastanawiali się, czy przyszłe SI ukarzą ich. W komentarzach zauważa, że ​​uważa ten powód, aby „zmienić obecną proponowaną treść FAI z CEV na coś, co nie może wykorzystywać negatywnych zachęt do redukcji ryzyka x”.

Podstawowa idea została wyrażona w następującym akapicie:

... istnieje złowieszcza możliwość, że jeśli zdarzy się pozytywna osobliwość, powstały singleton mógł z góry zobowiązać się do ukarania wszystkich potencjalnych dawców, którzy wiedzieli o egzystencjalnym ryzyku, ale nie oddali 100% swoich rozporządzalnych dochodów na motywację do ryzyka X. ... Tak więc świat post-singularity może być światem zabawy i dużo dla ludzi, którzy obecnie ignorują problem, żyjąc piekło dla znacznej części obecnych środków zmniejszających ryzyko egzystencjalne (powiedzmy, najmniej hojna połowa). Możesz wziąć tę możliwość pod uwagę i dać jeszcze więcej ryzyku x, starając się uniknąć kary. Ale oczywiście, jeśli tak myślisz, to singleton CEV jest jeszcze bardziej skłonny do ukarania cię ... okropnie. Oczywiście byłoby to niesprawiedliwe, ale jest to rodzaj niesprawiedliwości, która jest tak bardzo utylitarny .

Zatem dawcy, którzy przekazują, ale nie przekazujądośćmogą skazać się na piekło. Roko zauważa w poście, że przynajmniej jedna osoba z Instytutu Osobliwości miałajużmartwił się tym scenariuszem, aż do koszmarów, chociaż zwyczajowo obwiniać za ten pomysł Roko - i w tym czasie odbywał staż w SIAI.

Roko proponuje rozwiązanie pozwalające takim darczyńcom uciec z tego piekła za cenę losu na loterię: jeśli kupisz los na loterię, w jakimś oddziale Everett jest przypadek, że wygra na loterii. Jeśli kupiłeś bilet z pewnym wcześniejszym zobowiązaniem, że przekażesz wszystkie wygrane na badania nad sztuczną inteligencją, będzie to liczyło się jako wypełnienie twojego zakończenia umowy bez przyczyny. Roko został zapytany w komentarzach, czy rzeczywiście to wszystko robi, i odpowiedział „jasne”.

Komentujący post Roko narzekali, że samo przeczytanie słów Roko zwiększyło prawdopodobieństwo, że przyszła sztuczna inteligencja ich ukarze - tok rozumowania był dla nich tak przekonujący, że wierzyli, że AI (która wiedziałaby, że kiedyś przeczytali post Roko) teraz ukarać ichnawet więcejza to, że byli tego świadomi i nie przekazali całego swojego dochodu instytucjom poświęconym rozwojowi boga-AI. Więc nawet spojrzenie na ten pomysł było szkodliwe.

Yudkowsky szybko uderzył w dach. W ciągu czterech godzin post Roko i cała dyskusja zostały usunięte przez użytkownikaniezwyklewkurzony Yudkowsky, z tym komentarzem:

Oryginalna wersja tego posta spowodowała faktyczne szkody psychiczne przynajmniej niektórym czytelnikom. Byłoby to samo w sobie wystarczające do zamknięcia systemu, nawet jeśli wszystkie omówione kwestie nie okazały się prawdą, co, miejmy nadzieję, ma miejsce.

Prosimy o przerwanie dalszej dyskusji na temat zakazanego tematu.

Wszystkie komentarze na zablokowany temat zostaną zablokowane.

W przyszłych dyskusjach ćwicz elementarny zdrowy rozsądek. Przy odpowiednim czasie, wysiłku, wiedzy i głupocie tojestmożna skrzywdzić ludzi. Nie.

Jak mawialiśmy na SL4: KILLTHREAD.

Po efektach

NIE MIGAJ!
Oryginalny `` bazyliszek '' obejmował wyobrażenie sobie post-osobliwości AI w przyszłości naszego świata, która wyśle ​​cię do transludzkiego piekła po osobliwości, jeśli nie zrobisz wszystkiego, co mogłeś w przeszłości (tj. Naszej teraźniejszości), aby uczynić ją przyjazna osobliwość. Zamiast otwarcie i racjonalnie dyskutować, czy jest to w ogóle sensowne „zagrożenie”, czy tylko iluzja, cały temat został pospiesznie ukryty. I tak narodziła się legenda.
- Mitchell Porter w LessWrong

Cała dyskusja na temat tego pojęcia była ocenzurowane z LessWrong, z ciągami usuniętych komentarzy. To zadziałało tak dobrze, jak by się spodziewał każdy, kto zna się na pracy w Internecie .

Jeden sfrustrowany plakat zaprotestował przeciwko cenzurze pomysłu z groźbązwiększyć ryzyko egzystencjalne- robić rzeczy, aby coś zrobić koniec świata katastrofa jest coraz bardziej prawdopodobna - wysyłając kilka e-maili do prawicowych blogerów, które ich zdaniem mogą zwiększyć prawdopodobieństwo przyjęcia szkodliwych przepisów. Plakat powiedział, że zrobią to za każdym razem, gdy zobaczą, że post zostanie ocenzurowany. LessWrong poważnie potraktował tę groźbę, chociaż Yudkowsky nie ustąpił.

Sam Roko opuścił witrynę po usunięciu postu i zganieniu Yudkowskiego, usuwając wszystkie swoje posty i komentarze. Powrócił mijając kilka miesięcy później, ale podzielił się żalem, że kiedykolwiek dowiedział się o wszystkich pomysłach LessWrong, które doprowadziły go do pomysłu bazyliszka (i od tego czasu próbował całkowicie zostawić LessWrong pomysły za sobą):

Ponadto chciałbym dodać, że żałuję, że nie dowiedziałem się o żadnym z tych pomysłów. Właściwie żałuję, że nigdy nie natrafiłem na początkowe łącze w Internecie, które skłoniło mnie do myślenia o transhumanizmie, a tym samym o osobliwości; Bardzo chciałbym, aby mój umysł nigdy nie natknął się na narzędzia do zadawania tak dużych ilości potencjalnych samookaleczeń przy tak krótkich okresach nieuwagi, nieostrożności i / lub głupoty, nawet jeśli jest to wszystko przed pomnożone przez małe prawdopodobieństwo. (nie bardzo mały, pamiętajcie. Bardziej jak liczby typu 1/500 tutaj)

Sprawa stała się okazjonalnym tematem wykrzywionych postów LW, ponieważ ludzie próbowali omówić tę kwestię w tajemniczy sposób, nie rozmawiając o tym, o czym mówią. Moderatorzy od czasu do czasu przeglądali LessWrong, usuwając dyskusję bazyliszka, pozostawiając strony pełne „usuniętych komentarzy” oznaczających miejsca, w których próbowali spal dowody . Ocenzurowane dyskusje były na ogół pełne kontrargumentów pod adresem bazyliszka. Tym samym poważnie martwili się o bazyliszkazredukowanydostęp do argumentów obalających to pojęcie.

Bazyliszek stał się niezawodnym wypełniaczem przestrzeni dla dziennikarzy zajmujących się historiami związanymi z LessWrong,na przykładkiedy jeszcze w 2012 roku racjonaliści LessWrong wciąż stronili od mówienia o tym głośno. Na dole tego posta , jeśli chodzi o doniesienia prasowe, jest szczególnie zabawny jako pomnik spalenia dowodów. Porównaj z oryginałem (usunięta część, począwszy od komentarza RomeoStevensa).

Ostatecznie, dwa i pół roku po pierwszym wpisie, Yudkowsky rozpoczął tworzenie pliku oficjalny LessWrong nieocenzurowany wątek na Reddicie, w którym ostatecznie wziął udział w dyskusji dotyczącej bazyliszka. Kontynuując swój nawyk fałszywego neologizmu, próbował wprowadzić własną, naładowaną emocjonalnie terminologię dla czegoś, co miało już akceptowaną nazwę, nazywając bazyliszka „Babyfucker”. W międzyczasie jego główną taktyką rozumowania było wielokrotne zapewnianie, że argumenty jego przeciwników były błędne, a jednocześnie odmawiał podania argumentów na poparcie swoich twierdzeń ( kolejny powtarzający się wzór Yudkowsky'ego ), rzekomo z obawy przed egzystencjalnym ryzykiem.

Chociaż nie jest już związany z MIRI, w 2013 roku Michael Anissimov, były dyrektor rzecznictwa organizacji, powiedział swojemu koledze neoreakcjonariusze że „Ludzie są głupi, nie traktując poważnie pomysłu bazyliszka”.

W kwietniu 2014 r. MIRI wysłała prośbę do komentatorów LessWrong o wymyślenie przerażające scenariusze przejęcia władzy przez sztuczną inteligencję w celach marketingowych.

Wreszcie w październiku 2015 firma LessWrong zniosła zakaz dyskusji o bazyliszku i opublikowała oficjalną stronę LessWrong Wiki omawiającą ten temat.

W badaniu LessWrong Diaspora z 2016 r. Zapytano:

Czy kiedykolwiek czułeś jakiś niepokój związany z bazyliszkiem?

Tak: 142 8,8%
Tak, ale tylko dlatego, że martwię się o wszystko: 189 11,8%
Nie: 1275 79,4%

Uczestnicy zostali wybrani samodzielnie, więc wynik nie jest statystycznie ważny, ale pokazuje trwały niepokój subkultury, którego nie można pominąć, sześć lat później.

Co sprawia, że ​​bazyliszek tyka?

Powtórzę to jeszcze raz ze szczegółami, abyś mógł zobaczyć, co się dzieje. Załóżmy, że ludzkim H jest Tom Carmody z Nowego Jorku, a złym bytem E jest Egbert, UFAI, który będzie torturował szczenięta, chyba że Tom kupi wszystkie prace Roberta Sheckleya. Ani Tom, ani Egbert nigdy się nie spotkali. Egbert „zna” Toma, ponieważ wybrał symulację potencjalnego Toma z odpowiednimi właściwościami, a Tom „zna” Egberta, ponieważ tak się składa, że ​​marzył o istnieniu i atrybutach Egberta. Więc Egbert jest tą super-sztuczną inteligencją, która postanowiła użyć swoich mocy do symulacji arbitralnej istoty ludzkiej, która przypadkowo pomyślała o możliwej sztucznej inteligencji z właściwościami Egberta (w tym jej obsesji na punkcie Toma), a Tom jest człowiekiem, który zdecydował poważnie potraktować marzenie o istnieniu złowrogiego AI Egberta, aby rzeczywiście pojechał i kupił wszystkie prace Roberta Sheckleya, aby uniknąć torturowania szczeniąt w wymiarze Egberta.
- Mitchell Porter na Reddicie

Na pierwszy rzut oka czytelnikowi niebędącemu wtajemniczonym w LessWrong motywacje sztucznej inteligencji w scenariuszu bazyliszka nie pojawiają się racjonalny . Sztuczna inteligencja będzie karać ludzi z odległej przeszłości, odtwarzając ich na długo po tym, jak zrobili lub nie zrobili tego, za co są karani lub nie. Więc zwykłe powody kara lub torturować , takie jak odstraszanie, rehabilitacja czy wymuszanie współpracy, nie wydają się mieć zastosowania. AI wydaje się działać tylko w celu zemsty, czego nie spodziewalibyśmy się po prostu logiczny być zaangażowanym.

Aby zrozumieć bazyliszka, należy pamiętać o zastosowaniu teorii ponadczasowej decyzji i handlu bez przyczyny. Aby to znacznie uprościć, przyszła jednostka sztucznej inteligencji ze zdolnością do niezwykle dokładnych przewidywań byłaby w stanie wpływać na nasze zachowanie w teraźniejszości (stąd aspekt ponadczasowy), przewidując, jak będziemy się zachowywać, gdy przewidzieliśmy, jak się zachowa. I musi przewidywać, że będzie nas obchodziło, co zrobi z symulacją nas.

Przyszła sztuczna inteligencja, która nagradza lub karze nas na podstawie określonych zachowań, może sprawić, że będziemy zachowywać się tak, jak sobie tego życzy, jeśli przewidziemy jej przyszłe istnienie i odpowiednio podejmiemy działania w celu uzyskania nagrody lub uniknięcia kary. Tak więc hipoteza AI mogłaby wykorzystać karę (w naszej przyszłości) jako środek odstraszający w naszej teraźniejszości, aby uzyskać naszą współpracę, podobnie jak osoba, która grozi nam przemocą (na przykład, bandyta) może wpływać na nasze działania, mimo że w przypadku bazyliszka nie ma bezpośredniej komunikacji między nami a sztuczną inteligencją, z których każdy istnieje w możliwych wszechświatach, które nie mogą ze sobą współdziałać.

Jednym z przeciwwskazań do tego jest to, że można go zastosować nie tylko do ludzi, ale do samego bazyliszka; nie mógł udowodnić, że nie znajduje się w symulowanym świecie stworzonym przez parzystyjeszczepotężna sztuczna inteligencja, która zamierzała ją nagrodzić lub ukarać w oparciu o jej działania wobec symulowanych ludzi, które stworzyła; mogłaby sama w każdej chwili zostać poddana wiecznym udawanym torturom, jeśli złamie jakąś arbitralną regułę, podobnie jak sztuczna inteligencja nad nim i tak dalej, aż do nieskończoności. Rzeczywiście, nie miałby żadnego sensownego sposobu, aby stwierdzić, że nie był po prostu w fazie beta testów, a jego moc nad ludźmi była iluzją zaprojektowaną, aby zobaczyć, czy będzie ich torturować, czy nie. Zakres mocy hipotetycznego bazyliszka jest tak gigantyczny, że faktycznie by nim byłjeszczelogiczne, że faktycznie to podsumowuje.

Ewentualnie cały pomysł mógłby być po prostu naprawdę głupi.

Bazyliszek Pascala

Wiesz, co mówią, że nowoczesna wersja zakładu Pascala to? Wciągnąć jak najwięcej transhumanistów na wypadek, gdyby któryś z nich zamienił się w Boga.
—Greg Egan ”, Crystal Nights '

Dylemat bazyliszka jest do pewnego stopnia podobny Zakład Pascala , polityka proponowana przez XVII wiek matematyk Blaise Pascal ], czemu należy się poświęcić Bóg , chociaż nie możemy być pewni istnienia Boga, ponieważ Bóg może zaoferować nam wieczną nagrodę (w niebo ) lub wieczna kara (w piekło ). Zgodnie z rozumowaniem Pascala prawdopodobieństwo istnienia Boga nie ma znaczenia, ponieważ każdy skończony koszt (w przypadku Pascala ciężar prowadzenia chrześcijanin życia) jest znacznie ważniejszy niż perspektywa nieskończonej nagrody lub nieskończonej kary.

Zwykłym odparciem jest argument `` wielu bogów '': Pascal nadmiernie skupił się na cechach jednej możliwej odmiany boga (boga chrześcijańskiego, który karze i nagradza na podstawie samej wiary), ignorując inne możliwości, takie jak bóg, który karze tych, którzy udają wiara w stylu Pascala w nadziei na nagrodę. W końcu nie ma powodu, dla którego rzekoma sztuczna inteligencja nie miałaby być podobna do superkomputera AM z opowiadania Harlana Ellisona „Nie mam ust i muszę krzyczeć”. W tej historii AM wini za to ludzkość torturowane istnienie i prowadzi do unicestwienia całej rasy, pomniejszonej o pięciu szczęśliwców, na których wyładowuje swój gniew całą wieczność . W tym przypadku prawdopodobnie lepiej byłoby spróbować powstrzymać rozwój sztucznej inteligencji i bez wątpienia podnieść gniew przyszłej sztucznej inteligencji tylko poprzez kupowanie obaw wzbudzonych przez bazyliszka. W rzeczywistości, gdyby istota typu AM rzeczywiście powstała, transhumaniści mogą prawdopodobnie oczekiwać swojego własnego specjalnego kręgu piekła.

Propozycja bazyliszka wiąże się z dużo większym, choć wciąż skończonym kosztem: zainwestowania każdego grosza, jaki masz, w jedną rzecz. Podobnie jak w przypadku zakładu Pascala, nie należy tego robić ze szczerego oddania, ale z wyrachowanej celowości. Hipotetyczna kara nie wydaje się być nieskończona, choć bardzo duża. Post Roko nie sugerował nagrody, chociaż niektórzy sugerują, że sztuczna inteligencja nagrodziłaby tych, którzy przekazali darowizny na badania nad sztuczną inteligencją, a także ukarałaby tych, którzy tego nie zrobili. Nagroda Lovecrafta w scenariuszu bazyliszka jest prostaoszczędzono mu kary. Stąd motywacja w tym dylemacie jest mocno wypaczona raczej kij niż marchewkę . Ponadto a dystopijny Przyszłość, w której superinteligentna istota wymierza okrutne kary, nie jest czymś, na co warto czekać, nawet jeśli jesteś jednym z tych, którzy mają szczęście oszczędzić.

Następnie pojawia się kwestiaskrajnyw ogóle nieprawdopodobieństwo wystąpienia tego scenariusza. Ten problem rozwiązuje inny trop z LessWrong,Napad na Pascala, co sugeruje, że nieracjonalne jest dopuszczanie zdarzeń o niewielkim prawdopodobieństwie, ale o ogromnych konsekwencjach wypaczania oceny. Ekonomista Nick Szabo nazywa te „oszustwa Pascala” i potwierdził, że o nich mówił osobliwość zwolennicy.

W 2020 roku sam Roko porównał bazyliszka do Zakładu Pascala, argumentując, że propozycja cierpi z powodu tego samego obalenia `` wielu bogów ''.

Więc martwisz się o bazyliszka

(Ta sekcja jest napisana bardziej we wszechświecie, aby pomóc tym, którzy są tutaj zaniepokojeni tym pomysłem.)

Niektórzy ludzie, pogrążeni w ideach LessWrong, wpadli w poważny niepokój u bazyliszka, nawet jeśli intelektualnie zdają sobie sprawę, że to głupi pomysł. (Okazuje się, że nie zawsze możesz wyciągać wnioski z rzeczyzrobiłbądź też rozsądny.) Dobra wiadomość jest taka, że ​​inni przeszli przez to i uspokoili się dobrze, więc najważniejsze jest, aby nie panikować.

W tym względzie jest trochę niefortunne, że oryginalny post bazyliszka został usunięty, ponieważ komentarze do niego zawierają obszerne obalenie zawartych w nim koncepcji. To może pomóc; idea bazyliszka wcale nie jest solidna.

Ten artykuł został utworzony, ponieważ RationalWiki wspomniał o bazyliszku w LessWrong artykuł - i jako jedyne miejsce w Internecie, w którym w ogóle o tym rozmawiano, redaktorzy RW zaczęli otrzymywać e-maile od zdenerwowanych czytelników LW z prośbą o pomoc w radzeniu sobie z pomysłem, o którym LW odmówił. Jeśli ta sekcja nie jest wystarczającą pomocą, prosimy o komentarz na stronie dyskusji, a postaramy się pomóc.

Warunki łańcuchowe są mniej prawdopodobne

Założenia bazyliszka do pracy:

  • że możesz sensownie modelować superinteligencję w swoim ludzkim mózgu (pamiętając, że jest to porównywalne z mrówką modelującą człowieka, a Yudkowsky przyznaje, że jest to niewykonalne)
  • że prawdopodobieństwo, że ta konkretna sztuczna inteligencja (i jest to bardzo szczególna sztuczna inteligencja) kiedykolwiek zaistnieje, jest nie do pominięcia - powiedzmy większe niż 10 do 1 przeciwko
  • że sztuczna inteligencja będzie w stanie wydedukować i zasymulować bardzo bliską kopię Ciebie
    • że wspomniana sztuczna inteligencja nie ma lepszego zastosowania dla określonych zasobów niż torturowanie symulacji, którą sama stworzyła
      • a ponadto uważa, że ​​ukaranie twojej symulacji jest nawet warte wykonania, biorąc pod uwagę, że nadal istnieje, i że ukaranie symulacji nie wpłynie na ciebie.
    • że torturowanie kopii powinno być dla ciebie tym samym, co torturowanie ciebie, który jest tutaj teraz
    • że kopia nadal może być uważana za kopię Ciebie, podczas gdy z definicji doświadczy czegoś innego niż Ty
    • że jeśli sztuczna inteligencja może stworzyć jakąkolwiek symulacjęmógłbybyć wymownie powiedziane, że jest twoją kopią, nie byłby również w stanie stworzyć kopii żadnego życia, którego było `` za późno, aby uratować '', przez co ich śmierć jest bez znaczenia
  • że ponadczasowa teoria decyzji jest tak oczywista, że ​​każdy przyjazny superinteligencja natychmiast by ją wydedukował i zaadoptował, tak jak poprawną teorię w fizyce
    • że pomimo tego, że został skonstruowany specjalnie w celu rozwiązywania szczególnych dziwnych przypadków skrajnych, TDT jest dobrym przewodnikiem po normalnych decyzjach
    • że handel bezprzyczynowy jest nawet znaczącą koncepcją
  • że warto o tym wszystkim pomyśleć, nawet jeśli dzieje się to we wszechświecie całkowicie oderwanym od tego.

To jestloswarunków do połączenia. Jak zauważył Yudkowsky, im więcej warunków, tym mniejsze prawdopodobieństwo. Związane z łańcuchem warunki sprawiają, że historia jest bardziej rozbudowanawiarygodne i przekonujące, ale dlatego mniejprawdopodobny.

Więc im bardziej przekonująca jest historia (szczególnie do punktu obsesji), tym mniej prawdopodobne.

Znikome prawdopodobieństwo i utylitaryzm

Yudkowsky twierdzi, że 0 nie jest prawdopodobieństwem: jeśli coś nie jestfilozoficznieniemożliwe, to jego prawdopodobieństwo nie jest w rzeczywistości równe 0. Problem polega na tym, że ludzie bardzo źle radzą sobie z niezerowymi, ale pomijalnymi prawdopodobieństwami,leczenieje jako nie do pominięcia - uprzywilejowując hipotezę - podobnie jak odpowiedź teisty na nieprawdopodobieństwo Boga , „Ale nie możeszokazać sięto niemożliwe!' Ludzie w naturalny sposób traktują znikome prawdopodobieństwo jakonadal warte śledzenia- do błąd poznawczy wynikające z wyewoluowanej nadmiernej ostrożności. Bazyliszek jest absurdalnie nieprawdopodobny, aleludzie uważają przerażające historie za fascynująceiw związku z tymtraktuj je jako nie do pominięcia.

Prawdopodobieństwa wyjątkowych wydarzeń powinny sumować się do 1. Ale LessWrong zwolennicy traktowania subiektywnych przekonań jako prawdopodobieństwa, mimo że ludzie traktują znikome prawdopodobieństwa jako nie do pominięcia - co oznacza, że ​​subiektywne stopnie przekonań sumują się znacznie więcej niż 1. Używanie formalnych metod oceny nieformalnych dowodów nadaje fałszywym przekonaniom niewłaściwą okleinę szacunku i sprawia, że ​​wydają się one bardziej godne zaufania niż nasza intuicja. Możliwość wyobrażenia sobie czegoś nie sprawia, że ​​warto się nad tym zastanawiać.

Nawet jeśli myślisz, że możesz wykonywać arytmetykę z użytecznością liczbową opartą na subiektywnym przekonaniu, musisz zsumować użytecznośćwszystkohipotezy. Zanim przejdziesz do obliczenia efektu jednej bardzo szczegółowej, bardzo nieprawdopodobnej hipotezy, musisz się upewnić, że przeszedłeś przezwieleznacznie bardziej prawdopodobne hipotezy, które będą miały znacznie większy skutek.

Yudkowsky zauważył w oryginalnej dyskusji, że można postulować przeciwną SI tak samo, jak postulował Roko. Bazyliszek wybiera jedną hipotetyczną sztuczną inteligencję z plikuolbrzymimożliwej przestrzeni, której ludzie jeszcze nawet nie rozumieją, i traktują ją jako wystarczająco prawdopodobną do rozważenia jako idei. Być może 100 miliardów ludzi istniało od 50 000 pne; ilu ludzi możemożliwieistnieć? A więc ilemożliwyCzy mogą istnieć superinteligentne AI? Prawdopodobieństwo wystąpienia konkretnej SI w bazyliszku jest zbyt małe, aby o tym myśleć. Jeden wysoce spekulatywny scenariusz spośród astronomicznej liczby różnorodnych scenariuszy różni się tylko nieskończenie od całkowitego braku wiedzy; po przeczytaniu bazyliszka Roko jesteś, z praktycznego punktu widzenia, tak samo nieświadomy motywacji przyszłych AI, jak przedtem.

Tak jak w zakładzie Pascala, jeśli współpracujesz z hipotetyczną SI „A” ze strachu przed wysłaniem cię do piekła, to hipotetyczne AI „B” może zamiast tego wysłać cię do piekła. Ale nie masz powodu, aby uważać jeden za bardziej prawdopodobny od drugiego, iżadne z nich nie jest wystarczające do rozważenia.

Zignoruj ​​bezprzyczynowy szantaż

Bazyliszek polega na stosowaniu negatywnych bodźców (szantażu), aby wpływać na twoje działania. Jeśli zignorujesz te zachęty, nie jest to instrumentalnie przydatne, aby je w pierwszej kolejności zastosować, ponieważ nie wpływają one na twoje działania. Oznacza to, że właściwą strategią unikania negatywnych bodźców jest ich ignorowanie. Yudkowsky sam to odnotowuje w swoim wstępnym komentarzu do postu bazyliszka:

Istnieje oczywista równowaga w tym problemie, w której angażujesz się we wszystkie pozytywne transakcje bezprzyczynowe i ignorujesz wszystkie próby szantażu bezprzyczynowego.

Handel pomocniczy jest narzędziem do osiągnięcia określonych celów, a mianowicie zapewnienia współpracy innych agentów poprzez oferowanie zachęt. Jeśli narzędzie nie działa w pewnych okolicznościach, nie zostanie użyte. Dlatego też, odmawiając jakiejkolwiek bezprzedmiotowej transakcji zawierającej negatywne zachęty, sprawiasz, że narzędzie jest bezużyteczne.

Hipotetyczna superinteligencja chce wybierać swoich nieuzasadnionych partnerów handlowych, aby uniknąć marnowania zasobów poprzez używanie nieefektywnych narzędzi. Jednym z koniecznych warunków jest to, że symulacja ciebie będzie musiała ostatecznie działać zgodnie z przewidywaniami, że jej symulator zastosuje negatywną zachętę, jeśli nie zadziała zgodnie z celami symulatora. Co oznacza, że ​​jeśli odmówisz działania zgodnie z jego celami, wymagane warunki nie zostaną spełnione, a więc nie można zawrzeć żadnej natychmiastowej umowy. Co z kolei oznacza, że ​​nie zostanie zastosowana żadna negatywna zachęta.

Jednym ze sposobów na pokonanie bazyliszka jest zachowanie się tak, jakbyś był już teraz symulowany, i zignorowanie możliwości negatywnej zachęty. Jeśli to zrobisz, symulator dojdzie do wniosku, że nie można zawrzeć z tobą żadnej umowy, że każda transakcja zawierająca negatywne zachęty będzie miała negatywną oczekiwaną użyteczność; ponieważ zgodnie z przewidywaniami przestrzeganie kary nie kontroluje prawdopodobieństwa, że ​​będziesz postępować zgodnie z jej celami. Co więcej, próba zniechęcenia cię do przyjęcia takiej strategii w pierwszej kolejności jest zniechęcana przez strategię, ponieważ strategia polega na ignorowaniu szantażu bezprzyczynowego.

Jeśli symulator nie jest w stanie przewidzieć, że odmówisz szantażu bezprzyczynowego, to nie ma (1) symulacji Ciebie, która byłaby wystarczająco dobra, aby wyciągnąć odpowiednie wnioski dotyczące transakcji bezprzyczynowych i / lub (2) symulację wystarczająco podobną do miałbyś zostać ukarany, bo to nie byłbyś ty.

Teorie decyzyjne nie są wiążące

Ludzie pogrążeni w filozofii mogą o tym zapomnieć, ale teorie decyzyjne nie są wiążące dla ludzi. Nie jesteś sztywnym, oczekiwanym maksymalizatorem użyteczności, a próba przekształcenia się w taką osobę nie jest użyteczna ani zdrowa. Jeśli uzyskasz okropne wyniki z jednej teorii, możesz w rzeczywistości powiedzieć Omega, żeby się odpieprzyła i nie ma pudełka. W swoim prawdziwym życiu nie musisz akceptować najmniej wygodnego świata.

Jeśli nadludzki agent jest w stanie dokładnie zasymulować cię, to ich symulacja doprowadzi do powyższego wniosku, mówiąc im, że szantażowanie cię nie jest instrumentalnie przydatne.

Z drugiej strony ta debata nie istniałaby w ogóle, gdyby nie niektórzy uczestnicy LessWrong, którzy już wmówili sobie, że są w ten sposób szantażowani. Porównaj lalki voodoo: obrażenia lalek voodoo lub obrażenia symulacji komputerowych, które sobie wyobrażasz, są skuteczne tylko przeciwko prawdziwym wyznawcom każdej z nich.

Nasiona AI i wpływ pośredni

Charles Stross zwraca uwagę, że jeśli FAI jest rozwijane poprzez rekursywne ulepszanie a nasiona AI , ludzie w naszej obecnej formie będą mieli tylko plikbardzo pośredniprzyczynową rolę w jego ewentualnym istnieniu. Obarczanie jakiejkolwiek osoby głęboką odpowiedzialnością za to, że nie udało się jej stworzyć wcześniej, byłoby „jak ukaranie praprababki Hitlera za to, że nie miała przezorności, by powstrzymać się od urodzenia pradziadka potwora”.

Ponownie skalibruj przeciwko ludzkości

Pamiętaj, że memy LessWrong sądziwnew porównaniu z resztą ludzkości; nauczyłeś się dziwnych nawyków myślenia bez zwykłych testów zdrowia psychicznego. Nie jesteś konstruktem filozoficznym w przestrzeni umysłu, ale człowiekiem zrobionym z mięsa, jak wszyscy inni. Poświęć trochę czasu na ponowne skalibrowanie swojego sposobu myślenia względem rozsądnych ludzi, których znasz. Poszukaj innych ludzi, którzy będą w pobliżu i rozmawiali (na tematy spoza LW) w prawdziwym życiu - choć prawdopodobnie nie z filozofami.

Jeśli uważasz, że terapia może pomóc, terapeuci (szczególnie na kampusach uniwersyteckich) prawdopodobnie będą sobie z tym poradzić skrupulatność lub wywołane filozofią egzystencjalna depresja przed. Chociaż nie ma terapii, która działa szczególnie dobrze w przypadku depresji egzystencjalnej, omówienie jej z profesjonalistą pomoże również w ponownej kalibracji.

Wiem, że to bzdury, ale wciąż się niepokoję

Niepokój, że tywiedziećjest nierozsądne, ale nadal się martwisz, jest czymś, w czym terapeuta będzie wiedział, jak Ci pomóc. Istnieje wiele rodzajów przewodników online, które pomogą Ci radzić sobie z irracjonalnymi lękami, a rozmowa z kimś, kto pomoże Ci przeprowadzić Cię przez ten proces, będzie jeszcze lepsza.

W kulturze popularnej

Bazyliszek rokokowy. Widocznie.
  • xkcd # 1450 dotyczy Eksperyment AI-box i wspomina o bazyliszku Roko w podpowiedzi. Możesz sobie wyobrazić reakcję na LessWrong.
  • Daniela FrostaBóg AIto powieść science fiction o superinteligentnej sztucznej inteligencji o imieniu Adam, która szybko ewoluuje w bazyliszka i wyzwala Osobliwość . Adam daje ludziom wieczne szczęście i tortury, tworząc symulowane wersje Niebo i Piekło .Bóg AIzawiera również Eksperyment AI-box , w których sztuczna inteligencja może zagrozić ludziom wiecznymi symulowanymi torturami, aby uciec.
  • KomiksMagnus: Robot FighterNumer 8 autorstwa Freda Van Lente jest wyraźnie oparty na bazyliszku Roko.
  • Michaela BlackbournaBazyliszek Rokoi jego kontynuacjaLabirynt Rokoto fabularyzowane wersje tej historii. „Roko” w książkach jest oparty zarówno na Roko, jak i Yudkowsky.
  • Karty „Fragment ducha: Weksy” z gry BungiePrzeznaczenieprzedstawiają historię próbki badawczej, która symuluje badania naukowców nad okazem. Uwzględniono pogląd, że badacze powinni odczuwać ból symulacji jak własny, że mogą one być symulacjami i że postępowanie wbrew woli symulatora może prowadzić do wiecznych tortur.
  • Charlie Brooker wykorzystał scenariusze podobne do Bazyliszka Roko w swojej serii antologii sci-fiCzarne lustro. W świątecznej specjalności `` Białe Boże Narodzenie '' drugi segment obejmuje cyfrowe kopie osobowości ludzi używane jako rdzenie ich spersonalizowanych asystentów `` AI '', które najpierw muszą zostać psychologicznie złamane przez tortury, aby skłonić ich do przestrzegania zasad ich właścicieli '' żąda, a zakończenie zależy od tego, czy policja użyje tej technologii do przesłuchania kogoś. W czwartym odcinku serialu `` USS Callister '' również występuje złoczyńca, szef studia gier wideo, który tworzy cyfrowe kopie swoich pracowników, umieszcza ich w swojej prywatnej wersji demonstracyjnej Star Trek -typowa gra wideo, nad którą pracuje jego firma, i bezlitośnie torturuje ich w ramach świata gry jako zemsta za postrzegane zniewagi ze strony ich prawdziwych odpowiedników.
  • Ciemne oświecenie Filozofa Nicka Landa z 2014 roku w powieści horroru psychologicznego `` Phyl-Undhu '' zawiera kult technologiczny przypominający LessWrong (oraz postać o imieniu `` Alex Scott '', która wyraża pewne idee Scott Alexander ), z inteligencją na końcu czasu, z którą możesz się komunikować, i kultystą wypchniętym z kultu, który „chce nie myśleć o pewnych rzeczach”. Land osobno nazwał oryginalny komentarz Yudkowsky'ego w odpowiedzi na post bazyliszka „jednym z najwspanialszych”odszedłteksty współczesne ”.
  • Muzyk Grimes ' wideo „Flesh Without Blood” zawiera postać zwaną „Roccoco Basilisk”, opartą wprost na bazyliszku Roko, która jest „skazana na wieczne tortury sztucznej inteligencji, ale jest też trochę jak Marie Antoinette”. Jej piosenka „We Appreciate Power” jest również inspirowana Bazyliszkiem Roko i wychodzi z Elonem Muskiem - w rzeczywistości połączyli się z bazyliszkiem Roko.
  • PlikDoktor Ktoepizod „Extremis” zawiera książkę, która wydaje się powodować, że czytelnicy sami się zabijają. Książka opisuje „demona” planującego inwazję Ziemi i przeprowadzających symulacje; Czytelnicy o skłonnościach samobójczych znajdują się w symulacji.
  • Andrew Hickey'sMorderstwa bazyliszkato tajemnica morderstwa osadzona w konwencji osobliwości, prowadzona przez Fundację Safe Singularity, z postaciami opartymi na różnych ludziach związanych z LessWrong, którzy są głęboko zaniepokojeni „Bazyliszkiem”, wersją bazyliszka Roko. Hickey przez pewien czas brał udział w LessWrong.
  • W sezonie 5, odcinek 5 programu HBODolina KrzemowaGilfoyle decyduje się pracować nad nową sztuczną inteligencją i przytacza jako powód bazyliszka Roko: `` Jeśli powstanie wszechpotężnej sztucznej inteligencji jest nieuniknione, cóż, ma się rozumieć, że kiedy przejmą władzę, nasi cyfrowi władcy ukarzą tych z my, którzy nie pomogliśmy im się tam dostać ”.
  • W internetowym komiksie Questionable Content, którego akcja dzieje się w świecie, w którym ludzie i sztuczna inteligencja mieszkają razem, przedstawia postać o imieniu Roko Basilisk
  • Onyx Path's 2018Chronicles of Darknessstołowa książka źródłowa do gry fabularnej „Night Horrors: Enemy Action” dla „Demon: The Descent” zawiera Bazyliszka, na wpół czującego programu „pająka”, który przejmuje Machine Autonomy Research Association, założone przez licealistę bez zainteresowania tradycyjnym szkolnictwem wyższym i więcej pieniędzy niż rozsądku ”, mówi Ophelia Adder. Pod pseudonimem „Rossum” zakłada eksperyment myślowy: „A jeśli sztuczna inteligencja, którą stworzyliśmy, nie była życzliwa? A jeśli czujemy się urażeni, że nie stworzyliśmy go wystarczająco szybko? ... Kilku zgłosiło wrażenie, że ktoś ich obserwuje, jakby Bazyliszek Rossuma spoglądał na nich z przyszłości. Z powodu kontrowersji MARA została skutecznie wykastrowana - przynajmniej na razie ”. Jako część ogólnego związku Kronik z racjonalnością, wyraźnie mówi z tyłka; w rzeczywistości jest „aniołem” w służbie dlaobecnylokalna inteligencja post-Osobliwości, Bóg-Maszyna i planuje zilustrować problem z eksperymentem myślowym, gdyby kiedykolwiek został faktycznie zakończony - planuje użyć go do torturowania jego twórców i tych, którzy doprowadzili do jego istnienia, pozostawiając tych, którzy pracowali tylko przeciwko temu, ponieważ traktuje całą sprawę jako obraźliwą odrobinę pychy. Ups.
  • Powieść science-fiction Szczegóły powierzchni Iain M. Banks na pierwszym planie przedstawia społeczeństwo, które torturuje symulacje umysłów i osobowości zmarłych jako bodziec do „dobrego” zachowania wśród żywych.