Η νέα Τεχνητή Νοημοσύνη της Google μιμείται τέλεια την ανθρώπινη φωνή!

040929985887bfa1c73d5df0675434d9 f34
blog banner ired inner pages

Πέρυσι, η εταιρία ερευνών πάνω στην Τεχνητή Νοημοσύνη, DeepMind, παρουσίασε λεπτομέρειες πάνω στο WaveNet, ένα νευρωνικό δίκτυο που χρησιμοποιείται για τη σύνθεση ρεαλιστικής ανθρώπινης ομιλίας. Τώρα, μια βελτιωμένη έκδοσή της παρουσιάστηκε με σκοπό να βοηθήσει τον ψηφιακό βοηθό της Google.

Ένα σύστημα σύνθεσης ομιλίας, χρησιμοποιεί συνήθως έναν από τους δύο παρακάτω τρόπους.

Ο αλυσιδωτός προγραμματισμός χρησιμοποιεί τμήματα ηχογραφήσεων της φωνής ενός ανθρώπου και τη συνένωσή τους για δημιουργία φράσεων. Το μειονέκτημα αυτής της μεθόδου είναι ότι, οι ηχητικές βιβλιοθήκες πρέπει να αντικαθίστανται όποτε γίνεται αναβάθμιση του όλου συστήματος με νεότερα δεδομένα.

Η άλλη τεχνική είναι η παραμετρική σύνθεση που χρησιμοποιεί παραμέτρους που έχουν δοθεί από πριν, για να δημιουργήσει από το μηδέν ανθρώπινη ομιλία, με μειονέκτημα την λιγότερο ποιοτική απόδοσή της, που μοιάζει με ρομποτική.

Το WaveNet όμως παράγει τις απαραίτητες ηχητικές κυματομορφές εκ του μηδενός βάσει δεδομένων, σε ένα σύστημα που εξελίχθηκε από ένα ιδιαίτερα πολύπλοκο νευρωνικό δίκτυο.

Διαβάστε επίσης: Η μπαταρία του iPhone Χ εντυπωσιάζει

Ένας μεγάλος αριθμός από δεδομένα ομιλίας χρησιμοποιήθηκε για την εκπαίδευση της πλατφόρμας, λαμβάνοντας υπόψιν το ποια δείγματα ακούγονταν αληθινά και ποια όχι. Αυτό έδωσε στο δημιουργό φωνής τη δυνατότητα να αναπαράγει φυσικούς τονισμούς, μέχρι και του πλαταγίσματος των χειλιών! Ανάλογα με τα δείγματα που τροφοδοτούνταν, το σύστημα αποκτούσε και την ανάλογη προφορά, κάτι που σημαίνει ότι μπορεί να αναπαράγει ένα πλήθος φωνές, εφόσον του δοθούν και τα αντίστοιχα δεδομένα.

2 deep mind google

Το μεγαλύτερο πρόβλημα του WaveNet ήταν η τεράστια επεξεργαστική ισχύς που απαιτούσε, καθώς ήθελε ένα δευτερόλεπτο επεξεργασίας για να αναπαράγει 0,2 δευτ. ομιλίας!

Αφού βελτίωσαν για συνεχείς 12 μήνες την πλατφόρμα, οι τεχνικοί της DeepMind, κατόρθωσαν να επιτύχουν απόδοση ομιλίας ενός δευτερολέπτου σε μόλις 50 milliseconds επεξεργαστικού χρόνου, 1000 φορές ταχύτερα από το αρχικό. Το σπουδαιότερο είναι ότι, η ανάλυση των δειγμάτων ανέβηκε από τα 8 στα 16 bits, με αποτέλεσμα την ακόμη καλύτερη ποιότητα της φωνής.

Αυτό σημαίνει ότι το τελικό προϊόν μπορεί πια να ενσωματωθεί σε εμπορικές εφαρμογές, όπως είναι ο βοηθός της Google.

Διαβάστε επίσης: Μονοζυγωτικοί δίδυμοι: Η “Αχίλλειος πτέρνα” του Face ID του iPhone Χ;

Το WaveNet χρησιμοποιείται ήδη για την αναπαραγωγή των Αγγλικών και Ιαπωνικών στο βοηθό της Google σε όλες τις πλατφόρμες. Επειδή το σύστημα μπορεί να αναπαράγει ρεαλιστική ανθρώπινη ομιλία ανάλογα με τα δεδομένα που θα του τροφοδοτηθούν, μπορεί σιγά-σιγά να χρησιμοποιηθεί και σε άλλες γλώσσες και διαλέκτους.

Τα φωνητικά διαδραστικά περιβάλλοντα (interface) χρησιμοποιούνται όλο και πιο ευρέως, αλλά οι ψεύτικες φωνές τους μέχρι τώρα, κάνουν πολλούς χρήστες απρόθυμους στη χρήση τους. Οι προσπάθειες της DeepMind στον τομέα όμως, μπορεί να πετύχουν την ευρύτερη διάδοση και καλύτερη ενσωμάτωσή τους, παράγοντας μια φυσικότερη τελική εμπειρία για τον αποδέκτη-χρήστη.

from Elichord

RELATED PROJECTS