Google DeepMind entwickelt CaMeL: Neues Framework gegen KI-Angriffe durch Prompt-Injection
Finn KleinGoogle DeepMind entwickelt CaMeL: Neues Framework gegen KI-Angriffe durch Prompt-Injection
Google DeepMind stellt neues Sicherheitsframework namens CaMeL vor, um Prompt-Injection-Angriffe auf KI-Systeme zu bekämpfen
Seit Chatbots 2022 weit verbreitet sind, stellen solche Angriffe ein großes Risiko dar. Das Framework zielt darauf ab, digitale Assistenten sicherer zu gestalten, indem Sprachmodelle als potenziell unzuverlässige Komponenten behandelt werden.
CaMeL funktioniert, indem es Aufgaben zwischen zwei Sprachmodellen aufteilt: einem privilegierten KI-Modell und einem isolierten KI-Modell. Das privilegierte Modell generiert auf Basis von Nutzeranweisungen Code, während das isolierte Modell Daten in strukturierte Ausgaben verarbeitet. Diese Trennung verringert die Angriffsfläche für schädliche Eingaben.
Statt sich auf rohe KI-Antworten zu verlassen, zerlegt CaMeL Nutzeranfragen in kontrollierte Schritte. Diese werden in einem sicheren Interpreter ausgeführt, der den Datenfluss überwacht und Sicherheitsregeln durchsetzt. Nutzer müssen diese Richtlinien selbst definieren und pflegen, um das System zu schützen.
Tests mit dem AgentDojo-Benchmark zeigten, dass CaMeL Prompt-Injection-Angriffe wirksam abwehrt. Das Framework schützt zudem vor Insider-Bedrohungen und bösartigen Tools, die auf Datendiebstahl abzielen. Details zu den genauen Angriffsszenarien in den Tests wurden jedoch nicht veröffentlicht.
CaMeL bietet einen strukturierten Ansatz, um KI-Assistenten sicherer zu machen. Durch die Isolation von Aufgaben und strenge Datenkontrollen reduziert es Risiken durch Prompt-Injection und andere Exploits. Der Ansatz erfordert jedoch, dass Nutzer Sicherheitsrichtlinien aktiv verwalten, um einen dauerhaften Schutz zu gewährleisten.






