Τι είναι οι deepfakes; AI που εξαπατά

Τα Deepfakes είναι πολυμέσα - συχνά βίντεο αλλά μερικές φορές ήχο - που δημιουργήθηκαν, τροποποιήθηκαν ή συντέθηκαν με τη βοήθεια της βαθιάς μάθησης για να προσπαθήσουν να εξαπατήσουν ορισμένους θεατές ή ακροατές να πιστέψουν σε ένα ψευδές γεγονός ή σε ένα ψευδές μήνυμα.

Το αρχικό παράδειγμα ενός deepfake (από τον χρήστη reddit / u / deepfake) ανταλλάσσει το πρόσωπο μιας ηθοποιού στο σώμα ενός ερμηνευτή πορνό σε ένα βίντεο - το οποίο, φυσικά, ήταν εντελώς ανήθικο, αν και δεν ήταν αρχικά παράνομο. Άλλα deepfakes άλλαξαν αυτό που λένε διάσημοι άνθρωποι ή τη γλώσσα που μιλούσαν.

Οι Deepfakes επεκτείνουν την ιδέα της σύνθεσης βίντεο (ή ταινίας), η οποία έχει γίνει εδώ και δεκαετίες. Σημαντικές δεξιότητες βίντεο, χρόνος και εξοπλισμός μπαίνουν στη σύνθεση βίντεο. Τα deepfakes βίντεο απαιτούν πολύ λιγότερη ικανότητα, χρόνο (υποθέτοντας ότι έχετε GPU) και εξοπλισμό, αν και συχνά δεν πείθονται για προσεκτικούς παρατηρητές.

Πώς να δημιουργήσετε deepfakes

Αρχικά, οι deepfakes βασίζονταν σε αυτόματους κωδικοποιητές, έναν τύπο μη εποπτευόμενου νευρικού δικτύου και πολλοί ακόμη. Μερικοί άνθρωποι έχουν βελτιώσει αυτήν την τεχνική χρησιμοποιώντας GANs (γενετικά δίκτυα αντιπαραθέσεων). Άλλες μέθοδοι μηχανικής μάθησης έχουν επίσης χρησιμοποιηθεί για deepfakes, μερικές φορές σε συνδυασμό με μεθόδους μη μηχανικής μάθησης, με διαφορετικά αποτελέσματα.

Αυτόματο κωδικοποιητές

Ουσιαστικά, οι αυτόματοι κωδικοποιητές για πρόσωπα deepfake σε εικόνες εκτελούν μια διαδικασία δύο βημάτων. Το πρώτο βήμα είναι να χρησιμοποιήσετε ένα νευρικό δίκτυο για να εξαγάγετε ένα πρόσωπο από μια αρχική εικόνα και να το κωδικοποιήσετε σε ένα σύνολο χαρακτηριστικών και πιθανώς μια μάσκα, που συνήθως χρησιμοποιεί αρκετά 2D στρώματα συνελεύσεων, μερικά πυκνά στρώματα και ένα στρώμα softmax. Το δεύτερο βήμα είναι να χρησιμοποιήσετε ένα άλλο νευρωνικό δίκτυο για να αποκωδικοποιήσετε τις δυνατότητες, να αναβαθμίσετε το παραγόμενο πρόσωπο, να περιστρέψετε και να κλιμακώσετε το πρόσωπο όπως απαιτείται και να εφαρμόσετε το αναβαθμισμένο πρόσωπο σε άλλη εικόνα.

Η εκπαίδευση ενός αυτόματου κωδικοποιητή για τη δημιουργία προσώπων deepfake απαιτεί πολλές εικόνες της προέλευσης και των στόχων στόχου από πολλές οπτικές γωνίες και σε ποικίλες συνθήκες φωτισμού. Χωρίς GPU, η εκπαίδευση μπορεί να διαρκέσει εβδομάδες. Με GPU, πηγαίνει πολύ πιο γρήγορα.

GAN

Τα γενετικά εχθρικά δίκτυα μπορούν να βελτιώσουν τα αποτελέσματα των αυτόματων κωδικοποιητών, για παράδειγμα, τοποθετώντας δύο νευρωνικά δίκτυα μεταξύ τους. Το γενετικό δίκτυο προσπαθεί να δημιουργήσει παραδείγματα που έχουν τα ίδια στατιστικά με το πρωτότυπο, ενώ το διακριτικό δίκτυο προσπαθεί να εντοπίσει αποκλίσεις από την αρχική διανομή δεδομένων.

Η εκπαίδευση GANs είναι μια χρονοβόρα επαναληπτική τεχνική που αυξάνει σημαντικά το κόστος στον χρόνο υπολογισμού έναντι των αυτόματων κωδικοποιητών. Προς το παρόν, τα GAN είναι πιο κατάλληλα για τη δημιουργία ρεαλιστικών μεμονωμένων καρέ εικόνας φανταστικών ανθρώπων (π.χ. StyleGAN) παρά για τη δημιουργία βίντεο deepfake. Αυτό θα μπορούσε να αλλάξει καθώς το υλικό βαθιάς μάθησης γίνεται γρηγορότερο.

Πώς να εντοπίσετε deepfakes

Στις αρχές του 2020, μια κοινοπραξία από AWS, Facebook, Microsoft, η Διευθύνουσα Επιτροπή Συνεργασίας για την Ακεραιότητα Media της AI και ακαδημαϊκοί δημιούργησαν το Deepfake Detection Challenge (DFDC), το οποίο έτρεξε στο Kaggle για τέσσερις μήνες.

Ο διαγωνισμός περιελάμβανε δύο καλά τεκμηριωμένες πρωτότυπες λύσεις: μια εισαγωγή και ένα κιτ εκκίνησης. Η λύση που κερδίζει, από τον Selim Seferbekov, έχει επίσης αρκετά καλή σύνθεση.

Οι λεπτομέρειες των λύσεων θα κάνουν τα μάτια σας να διασταυρώνονται αν δεν είστε σε βαθιά νευρωνικά δίκτυα και επεξεργασία εικόνας. Ουσιαστικά, η λύση που κέρδισε έκανε ανίχνευση προσώπου καρέ-καρέ και εξήγαγε μάσκες ευρετηρίου SSIM (Structural Similarity). Το λογισμικό εξήγαγε τα πρόσωπα που εντοπίστηκαν συν ένα περιθώριο 30 τοις εκατό και χρησιμοποίησε το EfficientNet B7 που έχει προκατασκευασθεί στο ImageNet για κωδικοποίηση (ταξινόμηση). Η λύση είναι τώρα ανοιχτού κώδικα.

Δυστυχώς, ακόμη και η λύση που κερδίζει θα μπορούσε να πιάσει μόνο τα δύο τρίτα των deepfakes στη βάση δεδομένων δοκιμών DFDC.

Εφαρμογές Deepfake για δημιουργία και ανίχνευση

Μία από τις καλύτερες εφαρμογές δημιουργίας deepfake βίντεο ανοιχτού κώδικα είναι αυτή τη στιγμή το Faceswap, το οποίο βασίζεται στον αρχικό αλγόριθμο deepfake. Χρειάστηκε ο συγγραφέας της Ars Technica, Tim Lee, δύο εβδομάδες, χρησιμοποιώντας το Faceswap, για να δημιουργήσει ένα deepfake που άλλαξε το πρόσωπο του υπολοχαγού διοικητή δεδομένων (Brent Spiner) απόStar Trek: Η επόμενη γενιά σε ένα βίντεο του Mark Zuckerberg που καταθέτει ενώπιον του Κογκρέσου. Όπως είναι τυπικό για τα deepfakes, το αποτέλεσμα δεν περνάει το τεστ sniff για οποιονδήποτε με σημαντική εκλεπτυσμένη γραφική παράσταση. Επομένως, η κατάσταση της τέχνης για deepfakes δεν είναι ακόμα πολύ καλή, με σπάνιες εξαιρέσεις που εξαρτώνται περισσότερο από την ικανότητα του «καλλιτέχνη» από την τεχνολογία.

Αυτό είναι κάπως παρήγορο, δεδομένου ότι ούτε η νικηφόρα λύση ανίχνευσης DFDC δεν είναι πολύ καλή. Εν τω μεταξύ, η Microsoft ανακοίνωσε, αλλά δεν έχει κυκλοφορήσει από αυτήν τη συγγραφή, το Microsoft Video Authenticator. Η Microsoft αναφέρει ότι το Video Authenticator μπορεί να αναλύσει μια φωτογραφία ή βίντεο για να παρέχει μια εκατοστιαία πιθανότητα, ή βαθμολογία εμπιστοσύνης, ότι τα μέσα τεχνητής χειραγώγησης.

Το Video Authenticator δοκιμάστηκε έναντι του συνόλου δεδομένων DFDC. Η Microsoft δεν έχει ακόμη αναφέρει πόσο καλύτερο είναι από τη λύση Kaggle που κέρδισε ο Seferbekov. Θα ήταν τυπικό για έναν χορηγό διαγωνισμού AI να αξιοποιήσει και να βελτιώσει τις νικηφόρες λύσεις του διαγωνισμού.

Το Facebook υπόσχεται επίσης έναν ανιχνευτή deepfake, αλλά σχεδιάζει να διατηρήσει τον πηγαίο κώδικα κλειστό. Ένα πρόβλημα με τους ανιχνευτές deepfake ανοιχτής προέλευσης όπως το Seferbekov's είναι ότι οι προγραμματιστές γενιάς deepfake μπορούν να χρησιμοποιήσουν τον ανιχνευτή ως διαχωριστικό σε ένα GAN για να εγγυηθούν ότι το ψεύτικο θα περάσει αυτόν τον ανιχνευτή, τροφοδοτώντας τελικά έναν αγώνα όπλων AI μεταξύ γεννητριών deepfake και ανιχνευτών deepfake.

Στο μπροστινό μέρος του ήχου, το Descript Overdub και το Adobe, αλλά το VoCo που δεν έχει κυκλοφορήσει, μπορεί να κάνει το κείμενο σε ομιλία σχεδόν ρεαλιστικό. Εκπαιδεύετε το Overdub για περίπου 10 λεπτά για να δημιουργήσετε μια συνθετική έκδοση της δικής σας φωνής. Μόλις εκπαιδευτεί, μπορείτε να επεξεργαστείτε τα φωνητικά σας ως κείμενο.

Μια σχετική τεχνολογία είναι το Google WaveNet. Οι φωνές που συνθέτουν το WaveNet είναι πιο ρεαλιστικές από τις τυπικές φωνές κειμένου σε ομιλία, αν και δεν είναι αρκετά στο επίπεδο των φυσικών φωνών, σύμφωνα με τις δοκιμές της Google. Έχετε ακούσει φωνές WaveNet εάν έχετε χρησιμοποιήσει έξοδο φωνής από τον Βοηθό Google, την Αναζήτηση Google ή τη Μετάφραση Google πρόσφατα.

Deepfakes και μη συναινετική πορνογραφία

Όπως ανέφερα νωρίτερα, το πρωτότυπο deepfake άλλαξε το πρόσωπο μιας ηθοποιού στο σώμα ενός πορνογραφικού ερμηνευτή σε ένα βίντεο. Το Reddit έκτοτε απαγόρευσε το / r / deepfake sub-Reddit που φιλοξένησε αυτό και άλλα πορνογραφικά deepfakes, καθώς το μεγαλύτερο μέρος του περιεχομένου ήταν μη συναινετική πορνογραφία, η οποία είναι τώρα παράνομη, τουλάχιστον σε ορισμένες δικαιοδοσίες.

Ένα άλλο sub-Reddit για μη-Pornographic deepfakes εξακολουθεί να υπάρχει στο / r / SFWdeepfakes. Ενώ οι κάτοικοι αυτού του sub-Reddit ισχυρίζονται ότι κάνουν καλή δουλειά, θα πρέπει να κρίνετε μόνοι σας εάν, ας πούμε, αν βλέπεις το πρόσωπο του Τζο Μπάιντεν παραποιημένο στο σώμα του Ροντ Σέρλινγκ έχει κάποια αξία - και αν περνάει κάποιο από τα deepfakes εκεί το τεστ sniff για αξιοπιστία. Κατά τη γνώμη μου, μερικοί πλησιάζουν να πουλήσουν τον εαυτό τους ως πραγματικό. Οι περισσότεροι μπορούν να χαρακτηριστούν φιλικά ως ακατέργαστοι.

Η απαγόρευση / r / deepfake, φυσικά, δεν εξαλείφει τη μη συναινετική πορνογραφία, η οποία μπορεί να έχει πολλαπλά κίνητρα, συμπεριλαμβανομένης της εκδίκησης πορνό, η οποία από μόνη της αποτελεί έγκλημα στις ΗΠΑ. Άλλοι ιστότοποι που έχουν απαγορεύσει τις συναινετικές deepfakes περιλαμβάνουν το Gfycat, το Twitter, το Discord, το Google και το Pornhub και τέλος (μετά από πολύωρη κίνηση) Facebook και Instagram.

Στην Καλιφόρνια, τα άτομα που στοχεύονται από σεξουαλικό περιεχόμενο deepfake που έχουν δημιουργηθεί χωρίς τη συγκατάθεσή τους έχουν αιτία δράσης κατά του δημιουργού του περιεχομένου. Επίσης, στην Καλιφόρνια, απαγορεύεται η διανομή κακόβουλων ήχων ή οπτικών μέσων deepfake που στοχεύουν έναν υποψήφιο που είναι υποψήφιος για δημόσια θητεία εντός 60 ημερών από την εκλογή τους. Η Κίνα απαιτεί οι βαθιές νιφάδες να επισημαίνονται σαφώς ως τέτοιες.

Deepfakes στην πολιτική

Πολλές άλλες δικαιοδοσίες έλλειψη νόμους εναντίον πολιτικών βαθιών. Αυτό μπορεί να είναι ενοχλητικό, ειδικά όταν υψηλής ποιότητας βαθιά ψεύτικα πολιτικά πρόσωπα το κάνουν σε ευρεία διανομή. Θα ήταν ένα βαθύ ψεύτικο της Nancy Pelosi να είναι χειρότερο από το συμβατικά επιβραδυνόμενο βίντεο του Pelosi που χειριζόταν για να ακούγεται σαν να κοροϊδεύει τα λόγια της; Θα μπορούσε να είναι, εάν παράγεται καλά. Για παράδειγμα, δείτε αυτό το βίντεο από το CNN, το οποίο επικεντρώνεται σε deepfakes που σχετίζονται με την προεδρική εκστρατεία του 2020.

Deepfakes ως δικαιολογίες

Το "Είναι ένα βαθύ ψεύτικο" είναι επίσης μια πιθανή δικαιολογία για πολιτικούς των οποίων τα πραγματικά, ενοχλητικά βίντεο έχουν διαρρεύσει. Αυτό συνέβη πρόσφατα (ή φέρεται να συνέβη) στη Μαλαισία, όταν μια κασέτα σεξ ομοφυλοφίλων απορρίφθηκε ως βαθιά ψεύτικη από τον Υπουργό Οικονομικών, παρόλο που ο άλλος άνδρας που εμφανίζεται στην ταινία ορκίστηκε ότι ήταν πραγματικός.

Από την άλλη πλευρά, η διανομή ενός πιθανού ερασιτεχνικού βαθύψαφου του άρρωστου Προέδρου Ali Bongo της Γκαμπόν ήταν ένας παράγοντας που συνέβαλε σε ένα επακόλουθο στρατιωτικό πραξικόπημα εναντίον του Bongo. Το βίντεο με βαθιά ψεύτικα έδειξε στον στρατό ότι κάτι ήταν λάθος, ακόμη περισσότερο από την εκτεταμένη απουσία του Μπόνγκο από τα μέσα ενημέρωσης.

Περισσότερα παραδείγματα deepfake

Ένα πρόσφατο βίντεο deepfake του Όλα τα αστέρια, το κλασικό Smash Mouth του 1999, είναι ένα παράδειγμα χειρισμού βίντεο (σε αυτήν την περίπτωση, ένα mashup από δημοφιλείς ταινίες) σε ψεύτικο συγχρονισμό των χειλιών. Ο δημιουργός, ο χρήστης του YouTube ontyj, σημειώνει ότι "Πήρε να δοκιμάσει το wav2lip και τώρα αυτό υπάρχει ..." Είναι διασκεδαστικό, αν και δεν είναι πειστικό. Παρ 'όλα αυτά, καταδεικνύει πόσο καλύτερη έχει πάρει η ψεύτικη κίνηση των χειλιών. Πριν από λίγα χρόνια, η αφύσικη κίνηση των χειλιών ήταν συνήθως ένα νεκρό δώρο ενός ψεύτικου βίντεο.

Θα μπορούσε να είναι χειρότερα. Ρίξτε μια ματιά σε αυτό το βαθύ βίντεο του Προέδρου Ομπάμα ως στόχου και του Jordan Peele ως οδηγού. Τώρα φανταστείτε ότι δεν περιελάμβανε κανένα πλαίσιο που το αποκαλούσε ψεύτικο και περιελάμβανε μια εμπρηστική παρότρυνση για δράση.

Είστε τρομοκρατημένοι ακόμα;