
Claude Opus 4.7 : 64,3% sur SWE-bench, 98,5% en pen-testing, et Mythos est toujours hors de portée
Anthropic vient de sortir Claude Opus 4.7. Box a réduit ses coûts IA de 30%, XBOW est passé de 54% à 98,5% en pen-testing autonome, et le tableau de benchmarks montre publiquement un modèle meilleur auquel tu n'as pas accès.




