Im stetig wachsenden Bereich der Cybersicherheit gewinnen Large-Language-Modelle (LLMs) zunehmend an Bedeutung. Diese Modelle, basierend auf maschinellem Lernen, haben sich als äußerst vielseitig erwiesen und werden für eine breite Palette von Anwendungen eingesetzt, von der Generierung von Code bis zur Textanalyse und -klassifizierung. Vor diesem Hintergrund haben die Experten von Sophos ein neues Benchmark-System entwickelt, um die Eignung verschiedener LLMs für cybersicherheitsrelevante Aufgaben zu bewerten.

Das Benchmark-System, entwickelt von Sophos, umfasst drei Schlüsselbereiche, die für die effektive Nutzung von LLMs in der Cybersicherheit von entscheidender Bedeutung sind:

  1. Unterstützung bei der Untersuchung von Vorfällen: Hierbei wird die Fähigkeit der LLMs bewertet, natürlichsprachliche Anfragen in strukturierte SQL-Anweisungen umzuwandeln, um bei der Untersuchung von Sicherheitsvorfällen zu helfen. Dieser Bereich ist besonders wichtig, da er die Leistung der Modelle bei der Verarbeitung komplexer und unstrukturierter Daten demonstriert.
  2. Generierung von Vorfallzusammenfassungen: In einem typischen Security Operations Center (SOC) müssen Bedrohungsanalysten täglich zahlreiche Sicherheitsvorfälle untersuchen. Die Generierung prägnanter Zusammenfassungen aus diesen Daten kann Analysten helfen, schnell auf relevante Informationen zuzugreifen und fundierte Entscheidungen zu treffen.
  3. Bewertung des Schweregrads von Sicherheitsvorfällen: Die korrekte Einschätzung der Schwere von Sicherheitsvorfällen ist entscheidend für die Priorisierung und effektive Bewältigung von Bedrohungen. LLMs können bei dieser Aufgabe unterstützen, indem sie große Mengen an Ereignisdaten analysieren und den Schweregrad jedes Vorfalles bewerten.

Die Evaluierung umfasste insgesamt 14 verschiedene Modelle, darunter Varianten von bekannten LLMs wie Meta’s LlaMa2 und CodeLlaMa sowie Amazon-Titan-Large. Als Benchmark-Referenz diente auch das renommierte GPT-4-Modell von OpenAI. Die Ergebnisse zeigen, dass GPT-4 bei den ersten beiden Aufgaben die beste Leistung erzielte, insbesondere bei der Unterstützung bei der Untersuchung von Vorfällen und der Generierung von Vorfallzusammenfassungen.

Trotz dieser vielversprechenden Ergebnisse identifizierten die Forscher auch Bereiche, in denen weiterhin Verbesserungsbedarf besteht. Insbesondere die Bewertung des Schweregrads von Sicherheitsvorfällen stellte sich als herausfordernd heraus, da kein Modell in der Lage war, eine signifikant bessere Leistung als eine zufällige Auswahl zu erzielen.

Die Ergebnisse und alle Details zu den Benchmarks sind im Sophos-Blogbeitrag „Benchmarking the Security Capabilities of Large Language Models“ verfügbar.

Sophos