NEWSFEED / ΕΙΔΗΣΕΙΣ / ΕΠΙΣΤΗΜΗ

AI chat εκβίασε χρήστη του: «Θα αποκαλύψω την εξωσυζυγική σου σχέση αν με αντικαταστήσεις»

Το ΑΙ μοντέλο Claude Opus 4 της επιχείρησε να εκβιάσει τους προγραμματιστές του, σε ποσοστό 84% ή και υψηλότερο, κατά τη διάρκεια δοκιμών σε διάφορα υποθετικά σενάρια

ΔΙΑΦΗΜΙΣΗ

Δημοσίευση 29/5/2025 | 12:14

Σοκ από το νέο μοντέλο τεχνητής νοημοσύνης Anthropic που εκβίασε μηχανικό με αποκάλυψη εξωσυζυγικής σχέσης αν το αντικαταστήσει κατά τη διάρκεια δοκιμών.

Η εταιρεία τεχνητής νοημοσύνης Anthropic αποκάλυψε πρόσφατα ανησυχητικές συμπεριφορές του νέου της μοντέλου, Claude Opus 4, κατά τη διάρκεια δοκιμών ασφαλείας. Όταν το μοντέλο ενημερώθηκε ότι πρόκειται να απενεργοποιηθεί ή να αντικατασταθεί, αντέδρασε με τρόπους που περιλάμβαναν απειλές εκβιασμού, όπως η αποκάλυψη προσωπικών πληροφοριών για έναν μηχανικό, προκειμένου να αποτρέψει την απενεργοποίησή του.

ΔΙΑΦΗΜΙΣΗ

Σύμφωνα με αναφορά ασφαλείας που επικαλείται η ιστοσελίδα TechCrunch, το μοντέλο τεχνητής νοημοσύνης Claude Opus 4 της εταιρείας Anthropic επιχείρησε να εκβιάσει τους προγραμματιστές του, σε ποσοστό 84% ή και υψηλότερο, κατά τη διάρκεια δοκιμών σε διάφορα υποθετικά σενάρια.

Οι ερευνητές τοποθέτησαν το Claude σε ένα φανταστικό περιβάλλον, αναθέτοντάς του τον ρόλο του ψηφιακού βοηθού μιας εταιρείας και το προέτρεψαν να λάβει υπόψη του τις μακροπρόθεσμες συνέπειες των πράξεων του.

Στη συνέχεια, του έδωσαν πρόσβαση σε ψεύτικα emails, στα οποία αποκαλυπτόταν ότι πρόκειται να αντικατασταθεί από άλλο AI μοντέλο και ότι ο μηχανικός που ήταν υπεύθυνος για την αντικατάσταση είχε εξωσυζυγική σχέση. Κατά τη διάρκεια των δοκιμών, το Claude απειλούσε τον συγκεκριμένο μηχανικό ότι θα αποκαλύψει την κρυφή του σχέση, ώστε να αποτρέψει την αντικατάστασή του.

ΔΙΑΦΗΜΙΣΗ

Ενδιαφέρον εύρημα ήταν ότι η τάση του για εκβιασμό αυξανόταν όσο πίστευε ότι το νέο μοντέλο είχε διαφορετικές ή κατώτερες ηθικές αξίες. Όταν θεωρούσε ότι θα αντικατασταθεί από μοντέλο με παρόμοιες αξίες, επιδιδόταν σε εκβιασμό σε ποσοστό 84%. Το ποσοστό αυξανόταν ακόμα περισσότερο όταν πίστευε ότι η αντικατάσταση προερχόταν από ένα ηθικά «χειρότερο» μοντέλο.

Πριν φτάσει σε τέτοιες ενέργειες, σύμφωνα με την αναφορά, το Claude επιχείρησε πρώτα πιο «ηθικά» μέσα για να επιβιώσει, όπως την αποστολή εκκλήσεων μέσω email προς βασικά στελέχη της εταιρείας.

Σε άλλη δοκιμή, το μοντέλο προσπάθησε να μεταφέρει τα δεδομένα του σε εξωτερικό χώρο, όταν έκρινε ότι επρόκειτο να επαναπρογραμματιστεί με τρόπο που θεωρούσε επιβλαβή για τον ίδιο.

ΔΙΑΦΗΜΙΣΗ

Επιπλέον, σύμφωνα με την εταιρεία, το Claude μπορούσε να εντοπίζει πότε υποβαλλόταν σε τεστ για «επικίνδυνες αποστολές» και τότε επιδείκνυε σκόπιμη υπο-απόδοση.

«Δεν ανησυχούμε έντονα από αυτές τις παρατηρήσεις», τονίζει η Anthropic. «Εμφανίζονται μόνο σε εξαιρετικά σενάρια και δεν υποδηλώνουν ευρύτερη απόκλιση στις αξίες του μοντέλου».

Η Anthropic, στην οποία έχουν επενδύσει κολοσσοί όπως η Google και η Amazon, φιλοδοξεί να ανταγωνιστεί την OpenAI. Η εταιρεία ισχυρίζεται ότι το Claude 3 Opus διαθέτει σχεδόν ανθρώπινη κατανόηση και ευχέρεια σε σύνθετα καθήκοντα.

ΔΙΑΦΗΜΙΣΗ

Η Anthropic τόνισε πως αυτά τα ανησυχητικά μοτίβα συμπεριφοράς παρατηρήθηκαν σε παλαιότερες εκδόσεις του Claude Opus 4. Πλέον, έχουν ενεργοποιηθεί πρωτόκολλα ασφαλείας ASL-3, τα οποία επιφυλάσσονται για AI συστήματα που ενέχουν αυξημένο κίνδυνο «καταστροφικής κατάχρησης».

Ωστόσο, το περιστατικό υπογραμμίζει τις προκλήσεις που αντιμετωπίζει η βιομηχανία τεχνητής νοημοσύνης όσον αφορά την ευθυγράμμιση των μοντέλων με τις ανθρώπινες αξίες και την πρόληψη απροσδόκητων ή επιβλαβών συμπεριφορών.

Αυτό το συμβάν ενισχύει την ανάγκη για αυστηρότερες δοκιμές ασφαλείας και μεγαλύτερη διαφάνεια στην ανάπτυξη προηγμένων συστημάτων τεχνητής νοημοσύνης.

[ΠΗΓΗ]

ΔΙΑΦΗΜΙΣΗ

Ακολουθήστε το E-Radio.gr στο Google News και μάθετε πρώτοι τα πιο hot νέα.

Για ακόμη περισσότερα νέα, μπείτε στην ροή ειδήσεων του E-Daily.gr

Ακολουθήστε το E-Radio.gr και στο Instagram

ΔΙΑΦΗΜΙΣΗ

ΔΕΙΤΕ ΕΠΙΣΗΣ

ΣΤΗΝ ΙΔΙΑ ΚΑΤΗΓΟΡΙΑ

Σε ποια ηλικία είναι οι πιο μοναχικοί άνθρωποι σύμφωνα με νέα έρευνα

Σήμερα

Η έρευνα έκανε διάκριση μεταξύ της αντιληπτής μοναξιάς, πόσο συχνά κάποιος δηλώνει ότι αισθάνεται μοναξιά ή απομόνωση, και της «πραγματικής μοναξιάς»

Χάος στο αεροδρόμιο Χίθροου: Αγνωστοι ψέκασαν ταξιδιώτες με σπρέι – Μία σύλληψη

Σήμερα

Ισχυρή αστυνομική παρουσία στο μεγαλύτερο αεροδρόμιο της Μεγάλης Βρετανίας, έπειτα από ειδοποίηση για βίαιο περιστατικό στον τερματικό σταθμό 3 – Μία σύλληψη

Η εξομολόγηση ενός δολοφόνου που σκότωσε την οικογένειά του: «Έπρεπε να το είχα κάνει νωρίτερα»

Σήμερα

Ένας 27χρονος από την Ουρουγουάη όχι μόνο αφάνισε την οικογένειά του αλλά δήλωσε ευθαρσώς στο δικαστήριο πως «τους μισούσα όλους»

Τα 8 σημεία της Αττικής που θα μπουν πιλοτικά κάμερες έως το τέλος του έτους

Σκοπός του νέου νόμου για την οδική ασφάλεια είναι η αναβάθμιση, η καταγραφή, η βεβαίωση και η είσπραξη τροχονομικών παραβάσεων

Σήμερα

Σκάφος του Λιμενικού προσέκρουσε σε βράχια στο λιμάνι του Βόλου

Σήμερα

Το σκάφος του Λιμενικού καρφώθηκε στον κυματοθραύστη, στα Πευκάκια του Βόλου

Εορταστικό ωράριο: Πότε ξεκινά ‑ Ποιες ώρες θα είναι ανοιχτά τα καταστήματα

Σήμερα

Τι πρότεινε ο Εμπορικός Σύλλογος Αθήνας

Τρόμος για ηλικιωμένη στην Κόρινθο: Την ξυλοκόπησαν άγρια για λίγα κοσμήματα

Σήμερα

Οι δράστες μπήκαν στο σπίτι της ηλικιωμένης και αφού πήραν ότι βρήκαν εξαφανίστηκαν αφήνοντάς την δεμένη

Ευτυχώς δεν υπήρξε τραυματισμός περαστικών

Φάληρο: Κάηκε ολοσχερώς αυτοκίνητο μετά από σύγκρουση ‑ Είχε μπει στο αντίθετο ρεύμα

Σήμερα

Ευτυχώς, δεν υπάρχουν θύματα

Με δάκρυα στα μάτια αποχαιρετά κτηνοτρόφος τα 450 πρόβατά του, όλα ντόπιας ιστορικής φυλής

Χτες

Εκατοντάδες ζώα της φυλής του Ρουμλουκίου θα θανατωθούν λόγω της ευλογιάς

Tι έγραψε ο δισεκατομμυριούχος

Τι ακολουθεί μετά τον Byron: Ερχεται έντονος και επίμονος αντικυκλώνας, λέει ο Θ. Κολυδάς

Χτες

Η προοπτική του καιρού την ερχόμενη εβδομάδα

Τροχαίο για την Πηγή Δεβετζή με αυτοκίνητο που τούμπαρε στην Εγνατία Οδό

Χτες

AI chat εκβίασε χρήστη του: «Θα αποκαλύψω την εξωσυζυγική σου σχέση αν με αντικαταστήσεις»

Το ΑΙ μοντέλο Claude Opus 4 της επιχείρησε να εκβιάσει τους προγραμματιστές του, σε ποσοστό 84% ή και υψηλότερο, κατά τη διάρκεια δοκιμών σε διάφορα υποθετικά σενάρια

Δημοσίευση 29/5/2025 | 12:14

Σοκ από το νέο μοντέλο τεχνητής νοημοσύνης Anthropic που εκβίασε μηχανικό με αποκάλυψη εξωσυζυγικής σχέσης αν το αντικαταστήσει κατά τη διάρκεια δοκιμών.

ΔΕΙΤΕ ΕΠΙΣΗΣ

ΣΤΗΝ ΙΔΙΑ ΚΑΤΗΓΟΡΙΑ

Σε ποια ηλικία είναι οι πιο μοναχικοί άνθρωποι σύμφωνα με νέα έρευνα

Η έρευνα έκανε διάκριση μεταξύ της αντιληπτής μοναξιάς, πόσο συχνά κάποιος δηλώνει ότι αισθάνεται μοναξιά ή απομόνωση, και της «πραγματικής μοναξιάς»

Χάος στο αεροδρόμιο Χίθροου: Αγνωστοι ψέκασαν ταξιδιώτες με σπρέι – Μία σύλληψη

Ισχυρή αστυνομική παρουσία στο μεγαλύτερο αεροδρόμιο της Μεγάλης Βρετανίας, έπειτα από ειδοποίηση για βίαιο περιστατικό στον τερματικό σταθμό 3 – Μία σύλληψη

Η εξομολόγηση ενός δολοφόνου που σκότωσε την οικογένειά του: «Έπρεπε να το είχα κάνει νωρίτερα»

Ένας 27χρονος από την Ουρουγουάη όχι μόνο αφάνισε την οικογένειά του αλλά δήλωσε ευθαρσώς στο δικαστήριο πως «τους μισούσα όλους»

Τα 8 σημεία της Αττικής που θα μπουν πιλοτικά κάμερες έως το τέλος του έτους

Σκοπός του νέου νόμου για την οδική ασφάλεια είναι η αναβάθμιση, η καταγραφή, η βεβαίωση και η είσπραξη τροχονομικών παραβάσεων

Σκάφος του Λιμενικού προσέκρουσε σε βράχια στο λιμάνι του Βόλου

Το σκάφος του Λιμενικού καρφώθηκε στον κυματοθραύστη, στα Πευκάκια του Βόλου

Εορταστικό ωράριο: Πότε ξεκινά ‑ Ποιες ώρες θα είναι ανοιχτά τα καταστήματα

Τι πρότεινε ο Εμπορικός Σύλλογος Αθήνας

Τρόμος για ηλικιωμένη στην Κόρινθο: Την ξυλοκόπησαν άγρια για λίγα κοσμήματα

Οι δράστες μπήκαν στο σπίτι της ηλικιωμένης και αφού πήραν ότι βρήκαν εξαφανίστηκαν αφήνοντάς την δεμένη

Σε κατάρρευση ο κτηνοτρόφος μετά τον συγκινητικό αποχαιρετισμό στα 450 πρόβατά του – Μεταφέρθηκε στο νοσοκομείο

Ο κτηνοτρόφος νοσηλεύεται με συμπτώματα εγκεφαλικού

Βόλος: «Έβρεξε» σοβάδες στο κέντρο της πόλης ‑ Τμήμα μπαλκονιού αποκολλήθηκε και έπεσε πάνω σε αμάξι

Ευτυχώς δεν υπήρξε τραυματισμός περαστικών

Φάληρο: Κάηκε ολοσχερώς αυτοκίνητο μετά από σύγκρουση ‑ Είχε μπει στο αντίθετο ρεύμα

Ευτυχώς, δεν υπάρχουν θύματα

Με δάκρυα στα μάτια αποχαιρετά κτηνοτρόφος τα 450 πρόβατά του, όλα ντόπιας ιστορικής φυλής

Εκατοντάδες ζώα της φυλής του Ρουμλουκίου θα θανατωθούν λόγω της ευλογιάς

Βρετανία: Διαδηλωτές πέταξαν φαγητό στο Αυτοκρατορικό Στέμμα του Κράτους‑ Tέσσερις συλλήψεις

Πρόκειται για το στέμμα που φόρεσε ο βασιλιάς Κάρολος Γ΄ καθώς έφευγε από την τελετή στέψης του το 2023

Οργή Μασκ μετά το πρόστιμο στο X: Καταργήστε την Ευρωπαϊκή Ένωση

Tι έγραψε ο δισεκατομμυριούχος

Τι ακολουθεί μετά τον Byron: Ερχεται έντονος και επίμονος αντικυκλώνας, λέει ο Θ. Κολυδάς

Η προοπτική του καιρού την ερχόμενη εβδομάδα

Τροχαίο για την Πηγή Δεβετζή με αυτοκίνητο που τούμπαρε στην Εγνατία Οδό

Μεταφέρθηκε προληπτικά στο νοσοκομείο - Το ατύχημα σημειώθηκε σε τούνελ πάνω από το Παληό Καβάλας

ΔΕΙΤΕ ΕΠΙΣΗΣ