Jailbreak-Angriffe auf KI-Modelle hoch erfolgreich…
Forschende der EPFL erreichten mit Jailbreak-Angriffen auf Claude, GPT-4 und weitere Modelle eine Erfolgsquote von 100%.
Inside IT
Inside IT berichtet, wie Forschende der EPFL (ETH) Lausanne Angriffe auf KI-Modelle verübten und zu einer erschreckenden Erfolgsquote von 100% kamen.
„KI-Modelle sind trotz bestehender Schutzmassnahmen manipulierbar. Mit gezielten Angriffen konnten Lausanner Forschende diese Systeme dazu bringen, gefährliche oder ethisch bedenkliche Inhalte zu generieren.
Bei den getesteten KI-Modellen, darunter GPT-4 von OpenAI und Claude 3 von Anthropic, hatten die Forschenden der Eidgenössischen Technischen Hochschule in Lausanne (EPFL) mit sogenannten Jailbreak-Angriffen eine Erfolgsquote von 100%, wie aus einer Mitteilung der Hochschule hervorgeht.“
Hier geht es zum ganzen Beitrag:
https://www.inside-it.ch/ki-modelle-weisen-sicherheitsluecken-auf-20241219