Google

Η νέα AI της Microsoft ανεβάζει επικίνδυνα το επίπεδο των deepfakes [Videos]

Από

18 Απριλίου 2024, 21:03

Η Microsoft δημοσίευσε μια νέα μελέτη που παρουσιάζει το VASA, ένα framework για τη δημιουργία ρεαλιστικών ομιλούντων προσώπων. Οι ερευνητές παρουσίασαν το μοντέλο τους, που ονομάστηκε VASA-1, το οποίο μπορεί να παράγει ρεαλιστικά video με βάση μόνο μία στατική εικόνα και ένα απόσπασμα ομιλίας.

Τα αποτελέσματα είναι εντυπωσιακά και ξεπερνούν όλα τα προηγούμενα εργαλεία που χρησιμοποιούν παραγωγική Τεχνητή Νοημοσύνη για την παραγωγή ρεαλιστικών deepfakes. Αυτό που παρουσιάζει ιδιαίτερο ενδιαφέρον στο VASA-1 είναι η συνολική του ικανότητα να μιμείται φυσικές εκφράσεις προσώπου, ένα ευρύ φάσμα συναισθημάτων και η ικανότητα συγχρονισμού χειλιών με πολύ λίγα τεχνουργήματα.

Οι ερευνητές παραδέχονται ότι το μοντέλο – όπως και όλα τα άλλα μοντέλα – εξακολουθεί να δυσκολεύεται με μη άκαμπτα στοιχεία, όπως τα μαλλιά. Ωστόσο, ακόμη και σε αυτόν τον τομέα, το μοντέλο αποδίδει πάνω από το μέσο όρο, αμβλύνοντας ένα από τα γνωστά σημεία προειδοποίησης κατά τον εντοπισμό ενός μη αυθεντικού, ψεύτικου video.

Σύμφωνα με τη Microsoft, ο θεμέλιος τεχνικός λίθος είναι ένα καινοτόμο ολιστικό μοντέλο δυναμικής του προσώπου και δημιουργίας κινήσεων του κεφαλιού που λειτουργεί σε έναν εκφραστικό και διαχωρισμένο πλασματικό χώρο για το πρόσωπο. Το VASA-1 προσφέρει επίσης αποτελεσματικότητα σε πραγματικό χρόνο:

Η μέθοδός μας παράγει καρέ video μεγέθους 512 × 512 σε 45fps στην offline λειτουργία επεξεργασίας πακέτων και μπορεί να υποστηρίξει έως και 40fps στην online λειτουργία streaming με προηγούμενη καθυστέρηση μόλις 170ms, που αξιολογήθηκε σε έναν desktop PC με μία μόνο GPU NVIDIA RTX 4090

Το εργαλείο που βασίζεται στο νέο μοντέλο είναι πολύ εύκολο στη χρήση και προσφέρει ακόμη και τη δυνατότητα ελέγχου των “προαιρετικών σημάτων ως συνθήκη”, πράγμα που σημαίνει ότι ο χρήστης μπορεί να ορίσει μια κύρια κατεύθυνση του βλέμματος των ματιών, την απόσταση του κεφαλιού και τις αντισταθμίσεις των συναισθημάτων:

Το VASA-1 διαχειρίζεται επίσης μη ρεαλιστικές εισόδους, όπως η τέχνη. Επομένως, μπορεί ουσιαστικά να ζωντανέψει και πίνακες ζωγραφικής.

Το μοντέλο μπορεί επίσης να κάνει τις φωτογραφίες να τραγουδούν, να ραπάρουν ή να μιλούν σε άλλες γλώσσες εκτός των αγγλικών. Ως ένα από τα παραδείγματα, η Microsoft παρουσίασε τη Μόνα Λίζα να ραπάρει:

Είναι σημαντικό να τονιστεί η δυνητική βλάβη που θα μπορούσε να προκαλέσει μια τέτοια τεχνολογία όταν χρησιμοποιείται για την παραγωγή περιεχομένου που μιμείται πραγματικούς ανθρώπους, όχι μόνο πολιτικούς και διασημότητες, αλλά και απλούς πολίτες. Πάντως, οι ερευνητές της Microsoft έχουν επίγνωση του κινδύνου:

Δεν σκοπεύουμε να κυκλοφορήσουμε ένα online demo, API, προϊόν, πρόσθετες λεπτομέρειες υλοποίησης ή οποιεσδήποτε σχετικές προσφορές μέχρι να βεβαιωθούμε ότι η τεχνολογία θα χρησιμοποιηθεί υπεύθυνα και σύμφωνα με τους κατάλληλους κανονισμούς.

Η Microsoft αναγνωρίζει την πιθανότητα κακής χρήσης. Ωστόσο, υπογραμμίζει επίσης τα πιθανά οφέλη της τεχνολογίας, που κυμαίνονται από την ενίσχυση της εκπαιδευτικής ισότητας, τη βελτίωση της προσβασιμότητας για άτομα με προβλήματα επικοινωνίας και την προσφορά συντροφιάς ή θεραπευτικής υποστήριξης σε όσους το έχουν ανάγκη.

[Microsoft]

Πηγή

Η νέα AI της Microsoft ανεβάζει επικίνδυνα το επίπεδο των deepfakes [Videos]

Τελευταία Νέα

Η NASA δηλώνει έτοιμη για την επανδρωμένη αποστολή Artemis 2 στη...

Εκτόξευση στον τζίριο της Huawei παρά τον πόλεμο με τις ΗΠΑ!

Ένας ιερέας ξόδεψε $40.000 της ενορίας του για αγορές στο Candy...

Αυτό το πλαστικό περιέχει βακτήρια που το τρώνε εκ των έσω

Η AI μας δείχνει τους Simpsons κ.ά. σε υπερρεαλιστικές εκδόσεις στη...

Πολυδιαβασμένα

ΕΠΙΛΟΓΈΣ ΣΥΝΤΆΚΤΗ

ΔΗΜΟΦΙΛΕΊΣ ΘΈΣΕΙΣ

Πως να συγχρονίσετε ή να προσθέσετε φωτογραφίες στις επαφές σας με...

Το iPhone 6 κάνει πράγματα που δε γνωρίζετε

Tο νέο game της Supercell είναι καταδικασμένο να πετύχει!

ΔΗΜΟΦΙΛΗ ΚΑΤΗΓΟΡΙΑ