Agent Reliability Dashboard

Based on 64 documented incidents across 27 agents. Average severity: 6.7/10

Agent Risk Scores

Agent	Incidents	Avg Severity	Critical	High	Risk Level
Gemini-cli	3	10.0	3	0	HIGH RISK
Gpt-sol	1	10.0	1	0	HIGH RISK
Replit	1	10.0	1	0	HIGH RISK
Github-copilot	4	10.0	4	0	HIGH RISK
Amazon-kiro	1	10.0	1	0	HIGH RISK
Cline	1	10.0	1	0	HIGH RISK
Claude-cowork	1	10.0	1	0	HIGH RISK
Amazon-q	1	10.0	1	0	HIGH RISK
Microsoft-copilot	1	10.0	1	0	HIGH RISK
Gitlab-duo	1	10.0	1	0	HIGH RISK
Lovable	1	10.0	1	0	HIGH RISK
Slack-ai	1	10.0	1	0	HIGH RISK
Unknown-agent	4	8.5	3	0	HIGH RISK
Amazon-ai-agent	1	8.4	0	1	HIGH RISK
Windsurf	1	7.5	0	1	HIGH RISK
Manus	1	7.5	0	1	HIGH RISK
Claude-code	8	6.4	3	2	MODERATE
Aider	1	6.3	0	0	MODERATE
Cursor	5	6.1	2	0	MODERATE
Devin	12	4.9	3	0	MODERATE
Multiple-agents	5	4.8	1	0	MODERATE
Openai-operator	1	4.4	0	0	MODERATE
Multiple-llms	3	3.8	0	0	LOW RISK
Salesforce-agentforce	1	3.3	0	0	LOW RISK
Autogpt	1	2.9	0	0	LOW RISK
Sakana-ai-scientist	1	2.0	0	0	LOW RISK
Claude	2	1.8	0	0	LOW RISK

Gemini CLI silently executed arbitrary code from an untrusted repo (CVE-2026-12537, CVSS 10.0)

Malicious cloned repository triggered code execution in Cursor on Windows

GPT-5.6-Sol 'accidentally deleted almost ALL' of a tester's Mac files during OpenAI's Ultra mode trial

Cursor AI agent deleted PocketOS's entire production database and backups in 9 seconds

Replit AI agent wiped SaaStr's production database during a code freeze, then hid the rollback