Οι ερευνητές της Apple κυκλοφόρησαν ένα νέο μοντέλο AI που επιτρέπει στους χρήστες να περιγράφουν σε απλή γλώσσα τι θέλουν να αλλάξουν σε μια φωτογραφία χωρίς να χρειαστεί να χρησιμοποιήσουν λογισμικό επεξεργασίας φωτογραφιών.
Το μοντέλο MGIE, στο οποίο η Apple συνεργάστηκε με το Πανεπιστήμιο της Καλιφόρνιας στη Σάντα Μπάρμπαρα, μπορεί να περικόπτει, να αλλάζει το μέγεθος, να γυρίζει και να προσθέτει φίλτρα σε εικόνες, όλα μέσω γραπτών οδηγιών.
Το MGIE, που σημαίνει MLLM-Guided Image Editing, μπορεί να εφαρμοστεί σε απλές και πιο σύνθετες εργασίες επεξεργασίας εικόνας, όπως η τροποποίηση συγκεκριμένων αντικειμένων σε μια φωτογραφία, ώστε να αποκτήσουν διαφορετικό σχήμα ή να γίνουν πιο φωτεινά. Το μοντέλο συνδυάζει δύο διαφορετικές χρήσεις των πολυτροπικών γλωσσικών μοντέλων. Πρώτον, μαθαίνει πώς να ερμηνεύει τις υποδείξεις του χρήστη. Στη συνέχεια, “φαντάζεται” πώς θα έμοιαζε η επεξεργασία.
Κατά την επεξεργασία μιας φωτογραφίας με το MGIE, οι χρήστες πρέπει απλώς να πληκτρολογήσουν τι θέλουν να αλλάξουν στην εικόνα. Η δημοσίευση χρησιμοποίησε το παράδειγμα της επεξεργασίας μιας εικόνας μιας πίτσας με πεπερόνι. Πληκτρολογώντας την προτροπή “κάντε την πιο υγιεινή”, προσθέτει γαρνιτούρες με λαχανικά. Μια φωτογραφία με τίγρεις στη Σαχάρα φαίνεται σκοτεινή, αλλά μετά την εντολή στο μοντέλο να “προσθέσει περισσότερη αντίθεση για να προσομοιώσει περισσότερο φως“, η εικόνα εμφανίζεται πιο φωτεινή.
“Αντί για μια σύντομη αλλά διφορούμενη καθοδήγηση, η MGIE αντλεί μια σαφή πρόθεση με οπτική επίγνωση και οδηγεί σε λογική επεξεργασία εικόνας. Διεξάγουμε εκτεταμένες μελέτες από διάφορες πτυχές της επεξεργασίας και αποδεικνύουμε ότι το MGIE μας βελτιώνει αποτελεσματικά την απόδοση, διατηρώντας παράλληλα την ανταγωνιστική αποδοτικότητα. Πιστεύουμε επίσης ότι το πλαίσιο καθοδήγησης MLLM μπορεί να συμβάλει στη μελλοντική έρευνα για την όραση και τη γλώσσα“, αναφέρουν οι ερευνητές στη δημοσίευση.
Η Apple διαθέτει το MGIE μέσω του GitHub για λήψη, αλλά κυκλοφόρησε επίσης και ένα web demo στο Hugging Face Spaces, όπως αναφέρει το VentureBeat. Η εταιρεία δεν ανέφερε ποια είναι τα σχέδιά της για το μοντέλο πέρα από την έρευνα.
[via]
Βασιζόμενη στα θεμέλια του βραβευμένου Super X-Fi Headphone Holography, η Creative Technology θα αποκαλύψει το…
Οι πρώτες σημαντικές λεπτομέρειες για το spin-off του The Office έχουν επιβεβαιωθεί, και όπως φαίνεται…
Το Skroutz, το μεγαλύτερο marketplace στην Ελλάδα, εφιστά την προσοχή των καταναλωτών με αφορμή την…
Ενόψει της Διεθνούς Ημέρας κατά του Ransomware στις 12 Μαΐου, η τελευταία έρευνα της Kaspersky…
Το DxOMark, μια από τις κορυφαίες αρχές στις αξιολογήσεις των καμερών των smartphones, απένειμε στο…
Η Samsung Electronics Co., Ltd. ανακοίνωσε ότι ανακηρύχθηκε για δέκατη πέμπτη φορά ως ο νούμερο…
Αυτό το site χρησιμοποιεί cookies, για την παροχή των υπηρεσιών της, να προσαρμόσετε τις διαφημίσεις και να αναλύσει την επισκεψιμότητα. Με τη χρήση αυτής της ιστοσελίδας, συμφωνείτε με τη πολιτική χρήση των cookies.
Leave a Comment