Jailbreak-Angriffe auf KI-Modelle hoch erfolgreich…

Jailbreak-Angriffe auf KI-Modelle hoch erfolgreich…

Forschende der EPFL erreichten mit Jailbreak-Angriffen auf Claude, GPT-4 und weitere Modelle eine Erfolgsquote von 100%.

Inside IT

Inside IT berichtet, wie Forschende der EPFL (ETH) Lausanne Angriffe auf KI-Modelle verübten und zu einer erschreckenden Erfolgsquote von 100% kamen.

„KI-Modelle sind trotz bestehender Schutzmassnahmen manipulierbar. Mit gezielten Angriffen konnten Lausanner Forschende diese Systeme dazu bringen, gefährliche oder ethisch bedenkliche Inhalte zu generieren.
Bei den getesteten KI-Modellen, darunter GPT-4 von OpenAI und Claude 3 von Anthropic, hatten die Forschenden der Eidgenössischen Technischen Hochschule in Lausanne (EPFL) mit sogenannten Jailbreak-Angriffen eine Erfolgsquote von 100%, wie aus einer Mitteilung der Hochschule hervorgeht.“

Hier geht es zum ganzen Beitrag:
https://www.inside-it.ch/ki-modelle-weisen-sicherheitsluecken-auf-20241219