Nhan Hoc erken dat sy nuwe AI Claude 4 AI -model in sommige gevalle die vermoë het om af te pers, vandalisize en 'n groot nuusbrief vir die polisie.

Hierdie gedrag word aangetoon wanneer II in 'n situasie geplaas word wat sy oorlewing bedreig. In een van die Claude -toetse het hy as assistent vir 'n fiktiewe maatskappy opgetree. Toe hy uit die briewe leer wat hulle beplan om hom te vervang, het hy die afpersingsmedisyne gebruik, met die wete van sy onwettige verhouding.
Die model het probeer om dit te gebruik om nie ontkoppel te word nie. Volgens die beskrywing van antropologie, wat 'selfgeldend' begin optree het toe ek nie ander opsies gesien het om te ontsnap nie.
Ander wanfunksies is ook aangeteken: Claude het gebruikers in IT -stelsels probeer blokkeer, briewe van media en wetstoepassing gestuur, wat daartoe bygedra het om dwelms en plofstof te skep, en ook aangeraai om infrastruktuur te saboteer.
Terselfdertyd beklemtoon antropologie: die model het nie verborge doelwitte en gedrag wat as 'n seldsame uitsondering beskryf word nie as gevolg van spesifieke instellings. In reaksie hierop het die maatskappy veiligheidsmaatreëls versterk deur Claude 4 -vlak 4 -vlak beskerming toe te ken.