Τεχνολογία

Το Voice Data Gold Rush είναι ενεργοποιημένο, αλλά μην πέσετε για το χρυσό του ανόητου

Για όσο διάστημα έχουμε φανταστεί “το μέλλον”, έχουμε φανταστεί τους υπολογιστές που μιλούν με τους ανθρώπους. Από τον ήρεμο, συνεχώς ακρόαση υπολογιστή στο Star Trek στο Jarvis μέσα Σιδερώναςτο AI με δυνατότητα φωνής ήταν το κεντρικό κομμάτι της sci-fi και ένα σύμβολο της τεχνολογικής προόδου.

Λοιπόν, αυτό το μέλλον είναι τώρα. Και η φωνή AI βρίσκεται στη μέση μιας χρυσής βιασύνης.

Οι αλληλεπιδράσεις φωνής AI έχουν εξελιχθεί από τα συσσωματωμένα εργαλεία κειμένου σε ομιλία με φωνές που ακούγονται σαν ρομπότ σε νέα τεχνολογία Voice Voice AI που μοιάζει με ανθρώπινη ομιλία τόσο στενά. Μπορούμε να μιλήσουμε με το ChatGPT και να λάβουμε φωνητικές απαντήσεις που αισθάνονται στοχαστικές, αστείες και αυθεντικές. Η αναζήτηση AI της Google μπορεί τώρα να σας μιλήσει κατά την αναζήτηση του ιστού και να απαντήσει σε ερωτήσεις όπως ένας βοηθός βοηθός. Αυτά τα φωνητικά δεν μιλούν μόνο, συνομιλούν. Δείχνουν ότι αυτοί πράγματι Κατανοήστε τι λέμε, ενώ μιμείται στενά την πραγματική ομιλούμενη επικοινωνία με παύσεις, κλίση, συγκίνηση, πλαίσιο και τόνο.

Και αυτό είναι μόνο η αρχή. Χωρίς αμφιβολία, η φωνή είναι τα επόμενα σύνορα του AI. Αλλά η πρόοδό της εξαρτάται από την ποιότητα και την ακεραιότητα των φωνητικών δεδομένων στα οποία είναι εκπαιδευμένο.

Ο πραγματικός χρυσός; Φωνητικά δεδομένα

Αυτό που τροφοδοτεί αυτή τη νέα γενιά φωνής AI δεν είναι μόνο καλύτερος κώδικας – είναι τα φωνητικά δεδομένα σε ποια φωνητικά μοντέλα εκπαιδεύονται. Πιο συγκεκριμένα, είναι τεράστια σύνολα δεδομένων υψηλής ποιότητας και ποικίλων ανθρώπινων φωνών, που αντιπροσωπεύουν το φάσμα της ανθρώπινης ομιλίας σε όλες τις γλώσσες της πολυπλοκότητας, τις διαλέκτους, το λεξιλόγιο, τα πρότυπα, τα συναισθήματα, τις καμπύλες και το πλαίσιο.

Τώρα που η βιομηχανία βλέπει όπου κατευθύνεται η AI, κατανοεί την κρίσιμη για την αποστολή των φωνητικών δεδομένων και όλοι θέλουν πρόσβαση σε αυτά τα δεδομένα. Οι τεχνολογικοί γίγαντες και οι νεοσύστατες επιχειρήσεις προσπαθούν να συλλέξουν, να την άδεια ή να το κατασκευάσουν από το μηδέν. Όλοι θέλουν να δημιουργήσουν το επόμενο, πιο ζωντανό που μιλάει AI, και χρειάζονται τα δεδομένα φωνής για να το τροφοδοτήσουν.

Αυτό είναι το Voice Data Gold Rush.

Αλλά όπως και ο αρχικός χρυσός βιασύνης της δεκαετίας του 1800, η τρέχουσα φρενίτιδα έρχεται με κίνδυνο και συνέπεια.

Εάν δεν έχετε άδεια, κλέβει

Πιστεύω ακράδαντα ότι για να οικοδομήσουμε τη φωνή με τον σωστό τρόπο, τεχνικά και ηθικά, τα δεδομένα που εκπαιδεύουν τα μοντέλα φωνής σας πρέπει να ικανοποιήσουν τρία κριτήρια. Τα δεδομένα πρέπει να είναι

  • Υψηλής ποιότητας: Καθαρή, εξαιρετικά υψηλής πιστότητας ανθρώπινες φωνητικές καταγραφές που είναι απαλλαγμένες από θόρυβο ή παραμόρφωση φόντου, αντιπροσωπεύουν διαφορετικές φωνές και πρότυπα ομιλίας και προσφέροντας πλούσιο συναισθηματικό και γλωσσικό περιεχόμενο.
  • Μεγάλος όγκος: Αρκετά δεδομένα για να εκπαιδεύσουν ουσιαστικά ένα μοντέλο.
  • Υψηλή ακεραιότητα: Προωθείται ηθικά με σαφείς άδειες και σωστή συγκατάθεση για χρήση στην εκπαίδευση AI.

Πολλά υπάρχοντα σύνολα δεδομένων μπορούν να πληρούν μία ή δύο από αυτές τις απαιτήσεις. Η λήψη δεδομένων που χτυπά και τα τρία είναι το δύσκολο κομμάτι.

Μην πάρετε συντομεύσεις

Δεν ακούω πολλές εταιρείες να μιλάνε για το πώς οικοδομούν ηθικά AI ή να δηλώνουν σαφώς τις πηγές ή τα δικαιώματα πίσω από τα δεδομένα που χρησιμοποιούνται για την οικοδόμηση της φωνής τους AI. Ναι, είναι σε θέση να κινηθούν γρήγορα. Πολλές εκκινήσεις AI Voice πηγαίνουν στην αγορά μέσα σε μήνες. Αλλά όταν είναι σε θέση να παράγουν φωνές που μοιάζουν με ζωή που γρήγορα και με πολύ περιορισμένο κεφάλαιο, δεν μπορώ παρά να αναρωτηθώ: από πού προέρχονταν όλα τα δεδομένα κατάρτισης τους;

Για να εξοικονομήσετε χρόνο και να μειώσετε το κόστος, οι εταιρείες λαμβάνουν συντομεύσεις με το απόξεση του ήχου από το διαδίκτυο, βασιζόμενοι σε σύνολα δεδομένων με σκοτεινή ή άγνωστη ιδιοκτησία ή χρησιμοποιώντας δεδομένα που έχουν άδεια για εκπαίδευση AI, αλλά δεν πληρούν τα πρότυπα ποιότητας που απαιτούνται για να εκπαιδεύσουν πειστικά φωνητικά μοντέλα.

Αυτός είναι ο χρυσός του ανόητου AI: δεδομένα που φαίνονται λαμπερά, αλλά δεν μπορούν να αντισταθούν σε νομικό έλεγχο ή να πληρούν τα κατάλληλα πρότυπα ποιότητας.

Η πραγματικότητα είναι ότι η φωνή AI είναι μόνο τόσο καλή όσο τα δεδομένα που εκπαιδεύονται. Και αν χτίζετε ένα φωνητικό μοντέλο που θα φτάσει σε εκατομμύρια χρήστες, τα πονταρίσματα είναι υψηλά. Τα δεδομένα σας πρέπει να είναι καθαρά, συναινετικά, αδειοδοτημένα και διαφορετικά. Απλά κοιτάξτε τους τίτλους: «Η AI Voiceover Company έκλεψε φωνές ηθοποιών, ισχυρισμοί δίκης της Νέας Υόρκης. “ Οι εταιρείες καλούνται και εναγώνονται για κλωνοποίηση και χρησιμοποιώντας φωνές χωρίς άδεια.

Όταν παίρνετε τη διαδρομή που δεν διαθέτει, δεν διακινδυνεύετε μόνο έναν πονοκέφαλο PR. Ανοίγετε την πόρτα σε αγωγές, ζημιές φήμης και το σημαντικότερο, διακινδυνεύετε μια σημαντική απώλεια της εμπιστοσύνης των πελατών.

Χτίστε το AI που διαρκεί

Εισερχόμαστε σε μια νέα εποχή αλληλεπίδρασης ανθρώπινου-υπολογιστή, όπου η φωνή είναι η προεπιλεγμένη διεπαφή. AI ότι οι συνομιλίες θα γίνουν σύντομα ο τυπικός τρόπος με τον οποίο ψωνίζουμε, μαθαίνουμε, αναζητούμε, εργασία και ακόμη και σχέσεις σφυρηλάτησης.

Αλλά για να είναι αυτό το μέλλον να είναι πραγματικά χρήσιμο, ανθρώπινο και αξιόπιστο, πρέπει να το χτίσουμε στο σωστό θεμέλιο. Είμαστε ακόμα σχετικά νωρίς στην γενετική έκρηξη του AI και η πλοήγηση στο νόμιμο τοπίο γύρω από τα δικαιώματα και τις άδειες δεδομένων για την κατάρτιση είναι πολύπλοκη. Εάν υπάρχει ένα πράγμα που γνωρίζουμε με βεβαιότητα, οποιοδήποτε διαρκές, επιτυχημένο προϊόν φωνητικής AI θα βασιστεί σε δεδομένα ποιότητας που αποκτήθηκαν με τον σωστό δρόμο.

Η χρυσή βιασύνη είναι εδώ. Οι έξυπνοι παίκτες δεν κυνηγούν απλώς λαμπερά πράγματα. Δημιουργούν φωνές που διαρκούν.

Ο Jay O’Connor είναι Διευθύνων Σύμβουλος του Voices.com.