Ο OpenAI εκπαίδευσε το GPT-4 με εκατομμύρια ώρες video από το YouTube

0


Σύμφωνα με μια νέα αναφορά, σε μια προσπάθεια να εξασφαλίσουν υψηλής ποιότητας δεδομένα για την εκπαίδευση των AI μοντέλων τους, εταιρείες τεχνολογίας τεχνητής νοημοσύνης όπως ο OpenAI, η Google και η Meta έχουν καταφύγει σε ύποπτες τακτικές. Σε δημοσίευμα των New York Times αναφέρεται ότι ο οργανισμός OpenAI φέρεται να έχει μεταγράψει πάνω από ένα εκατομμύριο ώρες video από το YouTube για να δώσει δεδομένα για να εκπαιδεύσει το πιο προηγμένο μεγάλο γλωσσικό μοντέλο (LLM), το GPT-4.

Σύμφωνα με πληροφορίες, ο OpenAI ανέπτυξε το μοντέλο μεταγραφής ήχου Whisper, το οποίο βοήθησε την εταιρεία στην απόξεση δεδομένων από videos του YouTube. Οι NY Times αναφέρουν ότι ο OpenAI γνώριζε ότι η μέθοδος αυτή θα μπορούσε να τεθεί υπό έλεγχο, αλλά προχώρησε σε αυτήν, επειδή πίστευε ότι επρόκειτο για θεμιτή χρήση. Είναι ενδιαφέρον ότι η Google, στην οποία ανήκει το YouTube, φέρεται επίσης να έχει εμπλακεί στην ίδια πρακτική για τα μοντέλα τεχνητής νοημοσύνης της, παραβιάζοντας έτσι τα πνευματικά δικαιώματα των δημιουργών.

Το δημοσίευμα των NY Times συνάδει με το δημοσίευμα του The Information, όπου τονίστηκε πως ο οργανισμός OpenAI φέρεται να απέσπασε δεδομένα από video και podcasts του YouTube για να εκπαιδεύσει δύο από τα συστήματα Τεχνητής Νοημοσύνης του. Η αναφορά υποδηλώνει επίσης ότι ο πρόεδρος του OpenAI, Greg Brockman, ήταν επίσης στην ομάδα.

Όταν ο Neil Mohan, CEO του YouTube, παραχώρησε συνέντευξη στο Bloomberg, δήλωσε ότι οι πολιτικές της εταιρείας “δεν επιτρέπουν τη λήψη πραγμάτων όπως αντίγραφα ή αποσπάσματα από video, και αυτό αποτελεί σαφή παραβίαση των όρων χρήσης της υπηρεσίας μας“. Ωστόσο, όταν ρωτήθηκε αν τα δεδομένα του YouTube χρησιμοποιήθηκαν από τον OpenAI ή όχι, ο Mohan έδωσε μια διφορούμενη απάντηση, λέγοντας: “Έχω δει αναφορές ότι μπορεί να έχουν χρησιμοποιηθεί ή να μην έχουν χρησιμοποιηθεί. Ο ίδιος δεν έχω καμία πληροφορία“.

Το δημοσίευμα των NY Times υποστηρίζει επίσης ότι κάποιοι άνθρωποι στη Google γνώριζαν για την πρακτική του OpenAI να μεταγράφει δεδομένα του YouTube, αλλά δεν μπορούσαν να κάνουν τίποτα, αφού και η Google κατέφυγε στην ίδια πρακτική για να εκπαιδεύσει το δικό της μοντέλο AI. Η Google, ωστόσο, δήλωσε στους NY Times ότι κάνει απόσπαση δεδομένων από video μόνο αφού ο δημιουργός του video έχει δώσει τη συγκατάθεση του.

Σύμφωνα με το δημοσίευμα, υποστηρίζεται ότι η Google ζήτησε από μια ομάδα να “τροποποιήσει την πολιτική απορρήτου της” τον Ιούνιο του 2023, “για να επιτρέψει στη Google να μπορεί να αξιοποιεί τα δημόσια διαθέσιμα έγγραφα από την υπηρεσία Google Docs, τις κριτικές εστιατορίων στο Google Maps και άλλο διαδικτυακό υλικό για περισσότερα από τα AI προϊόντα της“.

[via]



Πηγή