E-Radio Greece - The Hellenic Radio Portal

AI chat εκβίασε χρήστη του: «Θα αποκαλύψω την εξωσυζυγική σου σχέση αν με αντικαταστήσεις»

Το ΑΙ μοντέλο Claude Opus 4 της επιχείρησε να εκβιάσει τους προγραμματιστές του, σε ποσοστό 84% ή και υψηλότερο, κατά τη διάρκεια δοκιμών σε διάφορα υποθετικά σενάρια

AI chat εκβίασε χρήστη του: «Θα αποκαλύψω την εξωσυζυγική σου σχέση αν με αντικαταστήσεις»
ΔΙΑΦΗΜΙΣΗ

Δημοσίευση 29/5/2025 | 12:14

Σοκ από το νέο μοντέλο τεχνητής νοημοσύνης Anthropic που εκβίασε μηχανικό με αποκάλυψη εξωσυζυγικής σχέσης αν το αντικαταστήσει κατά τη διάρκεια δοκιμών.

Η εταιρεία τεχνητής νοημοσύνης Anthropic αποκάλυψε πρόσφατα ανησυχητικές συμπεριφορές του νέου της μοντέλου, Claude Opus 4, κατά τη διάρκεια δοκιμών ασφαλείας. Όταν το μοντέλο ενημερώθηκε ότι πρόκειται να απενεργοποιηθεί ή να αντικατασταθεί, αντέδρασε με τρόπους που περιλάμβαναν απειλές εκβιασμού, όπως η αποκάλυψη προσωπικών πληροφοριών για έναν μηχανικό, προκειμένου να αποτρέψει την απενεργοποίησή του.

ΔΙΑΦΗΜΙΣΗ

Σύμφωνα με αναφορά ασφαλείας που επικαλείται η ιστοσελίδα TechCrunch, το μοντέλο τεχνητής νοημοσύνης Claude Opus 4 της εταιρείας Anthropic επιχείρησε να εκβιάσει τους προγραμματιστές του, σε ποσοστό 84% ή και υψηλότερο, κατά τη διάρκεια δοκιμών σε διάφορα υποθετικά σενάρια.

Οι ερευνητές τοποθέτησαν το Claude σε ένα φανταστικό περιβάλλον, αναθέτοντάς του τον ρόλο του ψηφιακού βοηθού μιας εταιρείας και το προέτρεψαν να λάβει υπόψη του τις μακροπρόθεσμες συνέπειες των πράξεων του.

Στη συνέχεια, του έδωσαν πρόσβαση σε ψεύτικα emails, στα οποία αποκαλυπτόταν ότι πρόκειται να αντικατασταθεί από άλλο AI μοντέλο και ότι ο μηχανικός που ήταν υπεύθυνος για την αντικατάσταση είχε εξωσυζυγική σχέση. Κατά τη διάρκεια των δοκιμών, το Claude απειλούσε τον συγκεκριμένο μηχανικό ότι θα αποκαλύψει την κρυφή του σχέση, ώστε να αποτρέψει την αντικατάστασή του.

ΔΙΑΦΗΜΙΣΗ

Ενδιαφέρον εύρημα ήταν ότι η τάση του για εκβιασμό αυξανόταν όσο πίστευε ότι το νέο μοντέλο είχε διαφορετικές ή κατώτερες ηθικές αξίες. Όταν θεωρούσε ότι θα αντικατασταθεί από μοντέλο με παρόμοιες αξίες, επιδιδόταν σε εκβιασμό σε ποσοστό 84%. Το ποσοστό αυξανόταν ακόμα περισσότερο όταν πίστευε ότι η αντικατάσταση προερχόταν από ένα ηθικά «χειρότερο» μοντέλο.

Πριν φτάσει σε τέτοιες ενέργειες, σύμφωνα με την αναφορά, το Claude επιχείρησε πρώτα πιο «ηθικά» μέσα για να επιβιώσει, όπως την αποστολή εκκλήσεων μέσω email προς βασικά στελέχη της εταιρείας.

Σε άλλη δοκιμή, το μοντέλο προσπάθησε να μεταφέρει τα δεδομένα του σε εξωτερικό χώρο, όταν έκρινε ότι επρόκειτο να επαναπρογραμματιστεί με τρόπο που θεωρούσε επιβλαβή για τον ίδιο.

ΔΙΑΦΗΜΙΣΗ

Επιπλέον, σύμφωνα με την εταιρεία, το Claude μπορούσε να εντοπίζει πότε υποβαλλόταν σε τεστ για «επικίνδυνες αποστολές» και τότε επιδείκνυε σκόπιμη υπο-απόδοση.

«Δεν ανησυχούμε έντονα από αυτές τις παρατηρήσεις», τονίζει η Anthropic. «Εμφανίζονται μόνο σε εξαιρετικά σενάρια και δεν υποδηλώνουν ευρύτερη απόκλιση στις αξίες του μοντέλου».

Η Anthropic, στην οποία έχουν επενδύσει κολοσσοί όπως η Google και η Amazon, φιλοδοξεί να ανταγωνιστεί την OpenAI. Η εταιρεία ισχυρίζεται ότι το Claude 3 Opus διαθέτει σχεδόν ανθρώπινη κατανόηση και ευχέρεια σε σύνθετα καθήκοντα.

ΔΙΑΦΗΜΙΣΗ

Η Anthropic τόνισε πως αυτά τα ανησυχητικά μοτίβα συμπεριφοράς παρατηρήθηκαν σε παλαιότερες εκδόσεις του Claude Opus 4. Πλέον, έχουν ενεργοποιηθεί πρωτόκολλα ασφαλείας ASL-3, τα οποία επιφυλάσσονται για AI συστήματα που ενέχουν αυξημένο κίνδυνο «καταστροφικής κατάχρησης».

Ωστόσο, το περιστατικό υπογραμμίζει τις προκλήσεις που αντιμετωπίζει η βιομηχανία τεχνητής νοημοσύνης όσον αφορά την ευθυγράμμιση των μοντέλων με τις ανθρώπινες αξίες και την πρόληψη απροσδόκητων ή επιβλαβών συμπεριφορών.

Αυτό το συμβάν ενισχύει την ανάγκη για αυστηρότερες δοκιμές ασφαλείας και μεγαλύτερη διαφάνεια στην ανάπτυξη προηγμένων συστημάτων τεχνητής νοημοσύνης.

[ΠΗΓΗ]
FOLLOW US @ERADIO.GR Ακολουθήστε το E-Radio.gr και στο Instagram
ΔΙΑΦΗΜΙΣΗ

ΔΕΙΤΕ ΕΠΙΣΗΣ

ΣΤΗΝ ΙΔΙΑ ΚΑΤΗΓΟΡΙΑ

Σοκ στην Αυστρία: Μητέρα και κόρη βρέθηκαν νεκρές σε καταψύκτες ‑ Αγνοούνταν από τον Ιούλιο του 2024

Χτες

Δύο άνδρες, ένας 55χρονος Αυστριακός και ο 53χρονος αδελφός του, συνελήφθησαν για την υπόθεση τον Ιούνιο

Γαλλία: Έσκαβε για πισίνα και βρήκε χρυσό αξίας 700.000 ευρώ ‑ Πήρε μόνο ...μπράβο!

Χτες

Από το όνειρο στον εφιάλτη - Βρήκε θησαυρό, αλλά δεν δικαιούται απολύτως τίποτα

Ρύπανση: Ελάχιστο πλαστικό αρκεί για να σκοτώσει θαλάσσια ζώα ‑ Τρομακτικά τα ευρήματα νέας μελέτης

Χτες

Νέα έρευνα ανέλυσε 10.000 νεκροψίες - Μόλις 23 κομμάτια πλαστικού θέτουν σε κίνδυνο τα θαλασσοπούλια

Ηράκλειο: 16χρονος ξυλοκοπήθηκε από παρέα ανηλίκων

Χτες

Για το περιστατικό έχουν γίνει συνολικά εννέα συλλήψεις

«Έπεσε» η Cloudflare: Προβλήματα σε όλο τον κόσμο στο X, το ChatGPT και πολλές άλλες ιστοσελίδες

Χτες

Το περιστατικό σημειώνεται λίγες εβδομάδες μετά τη μεγάλη διακοπή λειτουργίας της Amazon Web Services

Στάθης Παναγιωτόπουλος: Ένοχος και για τη δεύτερη υπόθεση revenge ρorn

Χτες

Στον παρουσιαστή επιβλήθηκε ποινή φυλάκισης τριών ετών με αναστολή

ΔΕΙΤΕ ΕΠΙΣΗΣ

par: 13
×
E-Daily.gr Τα νέα της ημέρας και ό,τι σου κάνει κλικ!      Επειδή η ζωή έχει τη δική της ατζέντα!

The Hellenic Radio Portal - 18 χρόνια
Live Oλα τα Ελληνικά Ραδιόφωνα Online!
500+ Ελληνικοί Σταθμοί εδώ!
Ακούστε ζωντανά, online ελληνικές επιτυχίες, λαϊκά, ξένα hits, dance,
ειδήσεις, αθλητικά από τα καλύτερα internet radio.