Anthropic explique comment ses modèles Claude sont passés d'un taux de chantage de 96 % à zéro dans ses tests d'alignement.
Some results have been hidden because they may be inaccessible to you
Show inaccessible resultsSome results have been hidden because they may be inaccessible to you
Show inaccessible results