E-Radio Greece - The Hellenic Radio Portal

AI chat εκβίασε χρήστη του: «Θα αποκαλύψω την εξωσυζυγική σου σχέση αν με αντικαταστήσεις»

Το ΑΙ μοντέλο Claude Opus 4 της επιχείρησε να εκβιάσει τους προγραμματιστές του, σε ποσοστό 84% ή και υψηλότερο, κατά τη διάρκεια δοκιμών σε διάφορα υποθετικά σενάρια

AI chat εκβίασε χρήστη του: «Θα αποκαλύψω την εξωσυζυγική σου σχέση αν με αντικαταστήσεις»
ΔΙΑΦΗΜΙΣΗ

Δημοσίευση 29/5/2025 | 12:14

Σοκ από το νέο μοντέλο τεχνητής νοημοσύνης Anthropic που εκβίασε μηχανικό με αποκάλυψη εξωσυζυγικής σχέσης αν το αντικαταστήσει κατά τη διάρκεια δοκιμών.

Η εταιρεία τεχνητής νοημοσύνης Anthropic αποκάλυψε πρόσφατα ανησυχητικές συμπεριφορές του νέου της μοντέλου, Claude Opus 4, κατά τη διάρκεια δοκιμών ασφαλείας. Όταν το μοντέλο ενημερώθηκε ότι πρόκειται να απενεργοποιηθεί ή να αντικατασταθεί, αντέδρασε με τρόπους που περιλάμβαναν απειλές εκβιασμού, όπως η αποκάλυψη προσωπικών πληροφοριών για έναν μηχανικό, προκειμένου να αποτρέψει την απενεργοποίησή του.

ΔΙΑΦΗΜΙΣΗ

Σύμφωνα με αναφορά ασφαλείας που επικαλείται η ιστοσελίδα TechCrunch, το μοντέλο τεχνητής νοημοσύνης Claude Opus 4 της εταιρείας Anthropic επιχείρησε να εκβιάσει τους προγραμματιστές του, σε ποσοστό 84% ή και υψηλότερο, κατά τη διάρκεια δοκιμών σε διάφορα υποθετικά σενάρια.

Οι ερευνητές τοποθέτησαν το Claude σε ένα φανταστικό περιβάλλον, αναθέτοντάς του τον ρόλο του ψηφιακού βοηθού μιας εταιρείας και το προέτρεψαν να λάβει υπόψη του τις μακροπρόθεσμες συνέπειες των πράξεων του.

Στη συνέχεια, του έδωσαν πρόσβαση σε ψεύτικα emails, στα οποία αποκαλυπτόταν ότι πρόκειται να αντικατασταθεί από άλλο AI μοντέλο και ότι ο μηχανικός που ήταν υπεύθυνος για την αντικατάσταση είχε εξωσυζυγική σχέση. Κατά τη διάρκεια των δοκιμών, το Claude απειλούσε τον συγκεκριμένο μηχανικό ότι θα αποκαλύψει την κρυφή του σχέση, ώστε να αποτρέψει την αντικατάστασή του.

ΔΙΑΦΗΜΙΣΗ

Ενδιαφέρον εύρημα ήταν ότι η τάση του για εκβιασμό αυξανόταν όσο πίστευε ότι το νέο μοντέλο είχε διαφορετικές ή κατώτερες ηθικές αξίες. Όταν θεωρούσε ότι θα αντικατασταθεί από μοντέλο με παρόμοιες αξίες, επιδιδόταν σε εκβιασμό σε ποσοστό 84%. Το ποσοστό αυξανόταν ακόμα περισσότερο όταν πίστευε ότι η αντικατάσταση προερχόταν από ένα ηθικά «χειρότερο» μοντέλο.

Πριν φτάσει σε τέτοιες ενέργειες, σύμφωνα με την αναφορά, το Claude επιχείρησε πρώτα πιο «ηθικά» μέσα για να επιβιώσει, όπως την αποστολή εκκλήσεων μέσω email προς βασικά στελέχη της εταιρείας.

Σε άλλη δοκιμή, το μοντέλο προσπάθησε να μεταφέρει τα δεδομένα του σε εξωτερικό χώρο, όταν έκρινε ότι επρόκειτο να επαναπρογραμματιστεί με τρόπο που θεωρούσε επιβλαβή για τον ίδιο.

ΔΙΑΦΗΜΙΣΗ

Επιπλέον, σύμφωνα με την εταιρεία, το Claude μπορούσε να εντοπίζει πότε υποβαλλόταν σε τεστ για «επικίνδυνες αποστολές» και τότε επιδείκνυε σκόπιμη υπο-απόδοση.

«Δεν ανησυχούμε έντονα από αυτές τις παρατηρήσεις», τονίζει η Anthropic. «Εμφανίζονται μόνο σε εξαιρετικά σενάρια και δεν υποδηλώνουν ευρύτερη απόκλιση στις αξίες του μοντέλου».

Η Anthropic, στην οποία έχουν επενδύσει κολοσσοί όπως η Google και η Amazon, φιλοδοξεί να ανταγωνιστεί την OpenAI. Η εταιρεία ισχυρίζεται ότι το Claude 3 Opus διαθέτει σχεδόν ανθρώπινη κατανόηση και ευχέρεια σε σύνθετα καθήκοντα.

ΔΙΑΦΗΜΙΣΗ

Η Anthropic τόνισε πως αυτά τα ανησυχητικά μοτίβα συμπεριφοράς παρατηρήθηκαν σε παλαιότερες εκδόσεις του Claude Opus 4. Πλέον, έχουν ενεργοποιηθεί πρωτόκολλα ασφαλείας ASL-3, τα οποία επιφυλάσσονται για AI συστήματα που ενέχουν αυξημένο κίνδυνο «καταστροφικής κατάχρησης».

Ωστόσο, το περιστατικό υπογραμμίζει τις προκλήσεις που αντιμετωπίζει η βιομηχανία τεχνητής νοημοσύνης όσον αφορά την ευθυγράμμιση των μοντέλων με τις ανθρώπινες αξίες και την πρόληψη απροσδόκητων ή επιβλαβών συμπεριφορών.

Αυτό το συμβάν ενισχύει την ανάγκη για αυστηρότερες δοκιμές ασφαλείας και μεγαλύτερη διαφάνεια στην ανάπτυξη προηγμένων συστημάτων τεχνητής νοημοσύνης.

[ΠΗΓΗ]
FOLLOW US @ERADIO.GR Ακολουθήστε το E-Radio.gr και στο Instagram
ΔΙΑΦΗΜΙΣΗ

ΔΕΙΤΕ ΕΠΙΣΗΣ

ΣΤΗΝ ΙΔΙΑ ΚΑΤΗΓΟΡΙΑ

Θεσσαλονίκη: Γυναίκα περίμενε σε στάση ΚΤΕΛ και την παρέσυρε μεθυσμένος οδηγός

Πριν 10 ώρες

Είχε επιλέξει να πάρει το λεωφορείο για να μην οδηγήσει υπό την επήρεια αλκοόλ και τη χτύπησαν πεζή

Με ήλιο και μελτέμια αναχωρούν οι πρώτοι αδειούχοι του Αυγούστου – Νέα μικρή πτώση της θερμοκρασίας

Πριν 10 ώρες

Πρόσκαιρες τοπικές βροχές σήμερα στη βόρεια και δυτική Ελλάδα

«Παναθηναϊκός και Ολυμπιακός στο “στόχαστρο” του ΝΒΑ» – Τι ανέφερε ο Μπιλ Σίμονς για τα σχέδια της αμερικανικής λίγκας

Χτες

Η λίγκα θα πάει σε Λονδίνο, Μαδρίτη, Βαρκελώνη, Μιλάνο, Παρίσι, Βερολίνο και Αθήνα

Νάξος: Μήνυση κατά αγνώστων από την Εφορεία Αρχαιοτήτων Κυκλάδων για τον τουρίστα που σήκωσε αρχαίο θραύσμα

Χτες

«Μπορεί να μην υπήρξε κάποια ζημία αλλά σε κάθε περίπτωση πρόκειται για προσβολή στο ίδιο το μνημείο»

Η Ισπανία έριξε 12 τόνους τρόφιμα στη Λωρίδα της Γάζας

Χτες

Η Μαδρίτη προχώρησε στη ρίψη 12 τόνων τροφίμων στη Λωρίδα της Γάζας. Ισοδυναμούν με «περίπου 2.500 μερίδες»

Η Ευρωπαία εισαγγελέας Λάουρα Κοβέσι καταγγέλλει πολιτικές παρεμβάσεις από την ελληνική κυβέρνηση

Χτες

Επισήμανε ότι η χώρα αμφισβήτησε την ανεξαρτησία της Ευρωπαϊκής Εισαγγελίας και το δικαίωμα και την αρμοδιότητα που έχει να κάνει ανεξάρτητη έρευνα για οποιοδήποτε πρόσωπο

Diddy: Αντίθετοι οι εισαγγελείς στην αίτηση αποφυλάκισής του

Χτες

Ζητούν ποινή φυλάκισης πάνω από πέντε χρόνια

Κύπρος: Αυξήθηκε ο πληθυσμός στη Μεγαλόνησο ‑ Τι δείχνει η νέα απογραφή

Χτες

Ο πληθυσμός της Κύπρου πλησίασε το ένα εκατομμύριο το 2023

Οδηγός προσπάθησε να χτυπήσει πατέρα παιδιού ΑμεΑ στα Χανιά – Εξοργιστικό βίντεο

Χτες

Η αστυνομία έφτασε λίγα λεπτά αργότερα και προχώρησε στις προβλεπόμενες ενέργειες

ΔΕΙΤΕ ΕΠΙΣΗΣ

par: 13
×
E-Daily.gr Τα νέα της ημέρας και ό,τι σου κάνει κλικ!      Επειδή η ζωή έχει τη δική της ατζέντα!

The Hellenic Radio Portal - 18 χρόνια
Live Oλα τα Ελληνικά Ραδιόφωνα Online!
500+ Ελληνικοί Σταθμοί εδώ!
Ακούστε ζωντανά, online ελληνικές επιτυχίες, λαϊκά, ξένα hits, dance,
ειδήσεις, αθλητικά από τα καλύτερα internet radio.