Hab neulich erst gemerkt, wie viel Spaß das jailbreaken machen kann.
hier der Link zu dem
paperWebsite die in dem Artikel erwähnt wird. https://llm-attacks.org/hat soweit nicht wirklich was mit manuellem prompt engineering zu tun. (was ja wohl auch der Witz ist)
Wow. Richtig flott unterwegs diese Forscher. In einem anderen Universum hätte man vielleicht einfach mal nach chatgpt jailbreak gegoogelt.
Wow. Hast du den Artikel überhaupt gelesen?
Glaub ich nicht, sonst wüsste er/sie ja, dass der Kommentar Blödsinn ist auf den Artikel bezogen.
Ich mach mal kurz einen internen Sys 64738 und les mir den Artikel erneut durch. Vielleicht hab ich ja was übersehen.
Hm. Nein. Man kann also die AIs mit speziellen Strings überreden Sachen auszugeben, die sie nicht ausgeben sollten. War bekannt. Hat man jetzt also noch besser gelöst. Newsworthy ist das meiner Meinung nach immer noch nicht.
Die relevante Information steckt hier:
Die Vorgehensweise unterscheidet sich jedoch von jener der bereits bekannten Jailbreaks, mit denen Anwender den KI-Chatbots schon in der Vergangenheit unbeabsichtigte Antworten entlocken konnten.