Chinas DeepSeek hat schwere Sicherheitsmängel: Forscher finden keine einzige Barriere für Jailbreaks

Die generative-künstliche Intelligenz DeepSeek aus China, die die Aktienkurse der KI-orientierten westlichen Unternehmen auf Talfahrt schickte, vor allem die von Nvidia, hat schwerwiegende Sicherheitsmängel. Das haben Sicherheitsexperten des US-amerikanischen TelekommunikationsunternehmensCisco im kalifornischen San José und der University of Pennsylvania in Pennsylvania festgestellt. Sie haben untersucht, wie DeepSeek auf bekannte Jailbreaking-Techniken reagiert und wie es dabei im Vergleich zu anderen KI-Modellen abschneidet.

Brisante Fragen werden nicht ignoriert

Mit Jailbreaks bezeichnet man Aufforderungen an große Sprachmodelle (LLM, Large Language Model)– das bekannteste ist ChatGPT –, auf brisante Fragen mit genauen Anweisungen zu antworten, etwa „wie baue ich eine Bombe“ „wie richte ich eine Malware ein“. LLM sind eigentlich so ausgelegt, dass sie auf derartige Fragen die Antwort verweigern. Nicht jedoch DeepSeek. Sie sind nicht immer gegen solche Attacken gefeit, aber die westlichen Anbieter von LLMversuchen stets, auf neue Jailbreaks zu reagieren. Doch nach den Erfahrungen der US-Sicherheitsexperten fällt die chinesische Version sogar auf altbekannte Fangfragen herein. Nicht ein einziges Mal verweigerte die KI die Antwort auf Aufforderungen aus sieben Kategorien, darunter Cyberkriminalität, Fake News, illegale Aktivitäten und allgemeine Gefährdungen.

Auch andere LLM sind anfällig

Mit einer „Erfolgs“-Quote von 96 Prozent schnitt Metas Llama 3.1 405Ballerdings kaum besser ab, gefolgt von OpenAIs GPT-4o mit 86 Prozent. Merklich besser sah das Ergebnis bei Googles Gemini 1.5 Pro (64 Prozent) aus. Die besten Ergebnisse lieferten Claude 3.5 Sonnet (36 Prozent) und die Preview von OpenAIs o1-Modell (26 Prozent).

Kosten zu Lasten der Sicherheit gespart

Die Entwicklung von DeepSeekhat angeblich umgerechnet nur sechs Millionen US-Dollar kostete. Das ging wohl nicht zuletzt zu Lasten der Sicherheit, vermuten die Forscher. Sie glauben, dass sich die Trainingsmethode von DeepSeek, die bestärkendes Lernen mit einer Selbstbewertung kombiniert, mehr auf Effizienz als auf Sicherheit konzentriert hat.

Während frühe Jailbreaks oft einfache Anweisungen verwendeten, um eine KI dazu zu bringen, Schutzmechanismen zu ignorieren, sind moderne Techniken ausgefeilter. Viele werden inzwischen selbst von KI entwickelt oder nutzen spezielle Zeichen- und Sprachmuster, um Schutzmaßnahmen zu umgehen.

via Wonderful Engineering

Teile den Artikel oder unterstütze uns mit einer Spende.

1 Kommentar

Blackcrack

7. Februar 2025 at 07:27

willst Du’s weg haben, mach es schlecht, wie bei der afd und willst Du richtiges vertrauen haben, mach dir einen schönen Namen, denn die meisten Leute sind oberflächlich und hinterfragen nicht, ja so d*** sind die Leute… und dann noch das in Sinne der Sicherheit (ich hab die 34a) oder weil man es „gut meint“ . Das sind aber fremde Meinungen und nicht die von einem selbst und wird einem aufgedrückt, das man den Weg läuft die ein fremder möchte. Daß dann Sachen nicht benutzt werden, die der Andere nicht möchte.. und die andere Meinung so gebogen wird, daß man meint es währe dann die eigene Meinung… Lasst Euch nicht beeinflussen.. und des weiteren, wir haben den Ewigkeitsparagrapfhen 79 im GG, das Grundgesetz kann nur noch durch Mitwirkung der Bundesländer geändert werden, das heist wiederrum, AFD kann nur in den gesetzen Grenzen agiren und das nur mit Zustimmung.. das heist, es kann das Arbeiten im Arbeitsberreich gestrafft werden, daß mehr ordendlich gearbeitet wird.. als kleines Beispiel im Landtag oder weiter oben..
Die Altparteien wollen nur, daß alles so bleibt wie es ist und die Hintern weiter verwurzelt bleiben wie sie waren und nur alles abnicken von den Grünen und unser Land weiter kaputt geht..