Alexa, πώς λειτουργεί Siri; Ο Φωνητικός έλεγχος εξηγείται

Ο κόσμος κινείται προς τις φωνητικές εντολές για τα πάντα, αλλά πώς ακριβώς λειτουργεί ο φωνητικός έλεγχος; Γιατί είναι τόσο χαλαρή και περιορισμένη; Εδώ είναι τι πρέπει να γνωρίζετε ως χρήστη απλό.

Ο κόσμος κινείται προς τις φωνητικές εντολές για τα πάντα, αλλά πώς ακριβώς λειτουργεί ο φωνητικός έλεγχος;  Γιατί είναι τόσο χαλαρή και περιορισμένη;  Εδώ είναι τι πρέπει να γνωρίζετε ως χρήστη απλό.
Διαφήμιση

Μπορούμε να μιλήσουμε σχεδόν με όλα τα gadget μας, αλλά ακριβώς πώς λειτουργεί; Όταν ρωτάς "Ποιο τραγούδι είναι αυτό;" ή λένε "Call Mom", συμβαίνει ένα θαύμα της σύγχρονης τεχνολογίας. Και παρόλο που αισθάνεται ότι είναι στην κορυφή, αυτή η ιδέα να μιλάς σε συσκευές πηγαίνει πίσω δεκαετίες - σχεδόν όσο τα jetpacks στην επιστημονική φαντασία!

Σήμερα, το μεγαλύτερο μέρος της προσοχής που δίνεται στον υπολογισμό που βασίζεται σε φωνή είναι στα smartphones. Η Apple, η Amazon, η Microsoft και η Google βρίσκονται στην κορυφή της αλυσίδας, καθένα από τα οποία προσφέρει τον δικό της τρόπο να μιλήσει με ηλεκτρονικά. Ξέρετε ποιοι είναι: η Siri, η Alexa, η Cortana και η ανώνυμη "Εντάξει, Google". Αυτό θέτει μια μεγάλη ερώτηση ...

Πώς μια συσκευή παίρνει προφορικά λόγια και τα μετατρέπει σε εντολές που μπορεί να καταλάβει; Στην ουσία, έρχεται κάτω από το μοτίβο αντιστοίχισης και κάνοντας προβλέψεις με βάση αυτά τα πρότυπα. Πιο συγκεκριμένα, η αναγνώριση φωνής είναι μια σύνθετη εργασία που προέρχεται από την Ακουστική Μοντελοποίηση και Μοντελοποίηση Γλωσσών .

Ακουστική Μοντελοποίηση: Κυματομορφές & Τηλέφωνα

κυματομορφή

Η ακουστική μοντελοποίηση είναι η διαδικασία λήψης κυματομορφής λόγου και η ανάλυση της χρησιμοποιώντας στατιστικά μοντέλα. Η πιο συνηθισμένη μέθοδος για αυτό είναι η Hidden Markov Modeling, η οποία χρησιμοποιείται σε αυτό που ονομάζεται μοντελοποίηση προφοράς για να σπάσει την ομιλία σε συστατικά μέρη που ονομάζονται τηλέφωνα (να μην συγχέεται με τις πραγματικές τηλεφωνικές συσκευές). Η Microsoft υπήρξε κορυφαίος ερευνητής στον τομέα αυτό εδώ και πολλά χρόνια.

Hidden Markov Modeling: Πιθανότητες

Το Hidden Markov Modeling είναι ένα προγνωστικό μαθηματικό μοντέλο όπου η τρέχουσα κατάσταση προσδιορίζεται με την ανάλυση της παραγωγής. Η Wikipedia έχει ένα καλό παράδειγμα χρησιμοποιώντας δύο φίλους.

Φανταστείτε δύο φίλους - τον τοπικό φίλο και τον απομακρυσμένο φίλο - που ζουν σε διαφορετικές πόλεις. Ο Τοπικός φίλος θέλει να καταλάβει ποιος είναι ο καιρός για τον οποίο ζει το Remote Friend, αλλά ο Remote Friend θέλει μόνο να μιλήσει για αυτό που έκανε εκείνη την ημέρα: να περπατήσει, να ψωνίσει ή να καθαρίσει. Η πιθανότητα κάθε δραστηριότητας ανάλογα με τον καιρό της ημέρας.

Κρυμμένο Μάρκο Μοντελοποίηση

Προσποιείτε ότι αυτή είναι η μόνη διαθέσιμη πληροφορία. Με αυτό, ο Τοπικός φίλος μπορεί να βρει τάσεις για το πώς αλλάζει ο καιρός από μέρα σε μέρα και χρησιμοποιώντας αυτές τις τάσεις, μπορεί να ξεκινήσει να κάνει εκπαιδευμένες εικασίες για το τι θα χρειαστεί σήμερα ο καιρός σήμερα για τη δραστηριότητα του φίλου του. (Μπορείτε να δείτε ένα διάγραμμα του συστήματος παραπάνω.)

Αν θέλετε ένα πιο περίπλοκο παράδειγμα, δείτε αυτό το παράδειγμα στο Matlab. Στην αναγνώριση φωνής, αυτό το μοντέλο ουσιαστικά συγκρίνει κάθε τμήμα της κυματομορφής με αυτό που έρχεται πριν και τι έρχεται μετά και εναντίον ενός λεξικού κυματομορφών για να καταλάβουμε τι λέγεται.

Ουσιαστικά, εάν κάνετε έναν "η" ήχο, θα ελέγξει αυτόν τον ήχο ενάντια στους πιό πιθανοί ήχους που συνήθως έρχονται πριν και μετά. Ίσως αυτό να σημαίνει τον έλεγχο του ήχου "e", του "στο" ήχου και ούτω καθεξής. Όταν το μοτίβο ταιριάζει σωστά, τότε έχει ολόκληρη τη λέξη σας. Πρόκειται για μια υπερβολική απλοποίηση, αλλά μπορείτε να δείτε ολόκληρη την εξήγηση της Microsoft εδώ.

Μοντελοποίηση γλώσσας: Περισσότερο από ήχο

Η Ακουστική Μοντελοποίηση σας βοηθά να καταλάβετε τον υπολογιστή σας, αλλά τι γίνεται με τις ομώνυμες και περιφερειακές παραλλαγές της προφοράς; Αυτό είναι όπου η γλωσσική μοντελοποίηση μπαίνει στο παιχνίδι. Η Google έχει αναλάβει πολλές έρευνες σε αυτόν τον τομέα, κυρίως μέσω της χρήσης μοντέλων N-gram .

Όταν η Google προσπαθεί να κατανοήσει την ομιλία σας, το κάνει με βάση τα μοντέλα που προέρχονται από την τεράστια τράπεζά της φωνητικής αναζήτησης και τις μεταγραφές του YouTube. Όλες αυτές οι απίστευτα λανθασμένες λεζάντες βίντεο βοήθησαν πραγματικά την Google να εξελίξει τα λεξικά τους. Επίσης, χρησιμοποίησαν το αναχωρημένο GOOG-411 για να συλλέξουν πληροφορίες για το πώς μιλάνε οι άνθρωποι.

shutterstock_70757203

Όλη αυτή η συλλογή γλωσσών δημιούργησε μια τεράστια ποικιλία προφορών και διαλέκτων, που έκαναν για ένα στιβαρό λεξικό λέξεων και πώς ακούγονται. Αυτό επιτρέπει τους αγώνες που έχουν πολύ μειωμένο ρυθμό σφάλματος από ό, τι η ομαλή αντιστοίχιση δυνάμεων βασισμένη σε ακαθάριστες πιθανότητες. Μπορείτε να διαβάσετε ένα σύντομο άρθρο που περιγράφει τις μεθόδους τους εδώ.

Παρόλο που η Google κατέχει ηγετική θέση στον τομέα αυτό, αναπτύσσονται και άλλα μαθηματικά μοντέλα, συμπεριλαμβανομένων των συνεχών διαστημικών μοντέλων και των μοντέλων γλωσσών θέσης, τα οποία είναι πιο προηγμένες τεχνικές που προέρχονται από την έρευνα στην τεχνητή νοημοσύνη. Αυτές οι μέθοδοι βασίζονται στην αναπαραγωγή του είδους λογικής που κάνουν οι άνθρωποι όταν ακούνε ο ένας τον άλλον. Αυτά είναι πολύ πιο προχωρημένα τόσο από την άποψη της τεχνολογίας πίσω από αυτά, αλλά και από τα μαθηματικά και τον προγραμματισμό που απαιτούνται για τη χαρτογράφηση αυτών των μοντέλων.

N-Gram Μοντελοποίηση: Η πιθανότητα πληροί τη μνήμη

Το N-gram Modeling λειτουργεί με βάση τις πιθανότητες, αλλά χρησιμοποιεί ένα υπάρχον λεξικό λέξεων για να δημιουργήσει ένα διακλαδισμένο δέντρο των δυνατοτήτων, το οποίο στη συνέχεια εξομαλύνεται για λόγους αποτελεσματικότητας. Κατά κάποιο τρόπο, αυτό σημαίνει ότι η Μοντελοποίηση N-Gram απομακρύνει πολύ από την αβεβαιότητα στο προαναφερθέν Κρυμμένο Μάρκο Μοντελοποίηση.

Όπως σημειώθηκε παραπάνω, η δύναμη αυτής της μεθόδου προέρχεται από το να έχεις ένα μεγάλο λεξικό λέξεων και χρήσης, όχι μόνο πρωτόγονους ήχους . Αυτό δίνει στο πρόγραμμα τη δυνατότητα να πει τη διαφορά μεταξύ ομοφώνων, όπως "beat" και "τεύτλων". Είναι συμφραζόμενη, πράγμα που σημαίνει ότι όταν μιλάτε για σκορ χθες το βράδυ, το πρόγραμμα δεν τραβάει λόγια για το μπορς.

Αλλά αυτά τα μοντέλα στην πραγματικότητα δεν είναι τα καλύτερα για τη γλώσσα, κυρίως λόγω προβλημάτων με πιθανότητες λέξεων σε μεγαλύτερες φράσεις. Καθώς προσθέτετε περισσότερες λέξεις σε μια πρόταση, αυτό το μοντέλο παίρνει ένα κομμάτι, καθώς οι πρώτες λέξεις σας είναι απίθανο να έχουν φορτώσει όλα όσα χρειάζονται για την πλήρη σκέψη σας.

Ωστόσο, είναι απλό και εύκολο στην εφαρμογή, καθιστώντας το ένα μεγάλο αγώνα για μια εταιρεία όπως η Google που απολαμβάνει να ρίχνει servers σε υπολογιστικά προβλήματα. Μπορείτε να κάνετε περαιτέρω ανάγνωση στο N-gram Modelieng στο Πανεπιστήμιο της Ουάσινγκτον ή μπορείτε να παρακολουθήσετε μια διάλεξη στο Coursera.

Φωνάζοντας στα σύννεφα: Εφαρμογές και συσκευές

Όποιος χρησιμοποιεί το Siri γνωρίζει την απογοήτευση μιας αργής σύνδεσης στο δίκτυο. Αυτό οφείλεται στο γεγονός ότι οι εντολές σας προς το Siri αποστέλλονται μέσω του δικτύου για να αποκωδικοποιηθούν από την Apple. Το τηλέφωνο Cortana για Windows χρειάζεται επίσης να λειτουργεί σωστά η σύνδεση δικτύου. Αντίθετα, ωστόσο, η Echo του Amazon είναι απλά ένα ηχείο Bluetooth χωρίς κανένα Internet.

Γιατί η διαφορά; Επειδή η Siri και η Cortana χρειάζονται διακομιστές βαρέως τύπου για να αποκωδικοποιήσουν την ομιλία σας. Θα μπορούσε να γίνει στο τηλέφωνο ή στο tablet σας; Σίγουρα, θα σκοτώνατε την απόδοση και τη διάρκεια ζωής της μπαταρίας στη διαδικασία. Είναι πολύ πιο λογικό να εκφορτώσετε την επεξεργασία σε ειδικά μηχανήματα.

SIGCHI_Conference_Paper_Format _-_ KumarSpeechRecognitionForMobileApps_pdf

Σκεφτείτε με αυτό τον τρόπο: η εντολή σας είναι ένα αυτοκίνητο κολλημένο στη λάσπη. Θα μπορούσατε πιθανώς να το σπρώξετε με αρκετό χρόνο και προσπάθεια, αλλά θα χρειαστούν ώρες και θα σας εξαντλήσουν. Αντ 'αυτού, ονομάζετε οδική βοήθεια και τραβά το αυτοκίνητό σας μέσα σε λίγα λεπτά. Το μειονέκτημα είναι ότι πρέπει να κάνετε την κλήση και να περιμένετε για αυτά, αλλά είναι ακόμα ταχύτερη και λιγότερη φορολόγηση.

Επιτραπέζια μοντέλα όπως η Nuance τείνουν να χρησιμοποιούν τοπικούς πόρους λόγω του ισχυρότερου υλικού. Μετά από όλα, με τα λόγια του Steve Jobs, η επιφάνεια εργασίας σας είναι φορτηγό. (Αυτό κάνει λίγο ανόητο ότι το OS X χρησιμοποιεί διακομιστές για την επεξεργασία του.) Έτσι, όταν χρειάζεται να επεξεργαστείτε γλώσσα και φωνή, είναι ήδη εξοπλισμένο αρκετά καλά για να το χειριστεί από μόνο του.

Από την άλλη πλευρά, το Android επιτρέπει στους προγραμματιστές να συμπεριλαμβάνουν την αναγνώριση ομιλίας εκτός σύνδεσης στις εφαρμογές τους. Το Google θέλει να προχωρήσει στην τεχνολογία και μπορείτε να ποντάρετε ότι οι άλλες πλατφόρμες θα αποκτήσουν αυτή την ικανότητα καθώς το υλικό τους θα γίνει πιο ισχυρό. Κανείς δεν του αρέσει όταν η κακή κάλυψη ή κακή λήψη δέχεται τη συσκευή τους.

Αρχίστε να χρησιμοποιείτε τις εντολές φωνής τώρα

Τώρα που γνωρίζετε τις θεμελιώδεις έννοιες, πρέπει να παίζετε με τις διάφορες συσκευές σας. Δοκιμάστε τη νέα φωνητική πληκτρολόγηση στα Έγγραφα Google Πώς η φωνητική πληκτρολόγηση είναι η νέα καλύτερη λειτουργία των Εγγράφων Google Πώς η φωνητική πληκτρολόγηση είναι η νέα καλύτερη λειτουργία των Εγγράφων Google Η αναγνώριση φωνής έχει βελτιωθεί από αλματώδη όρια τα τελευταία χρόνια. Νωρίτερα αυτή την εβδομάδα, η Google εισήγαγε τελικά τη φωνητική πληκτρολόγηση στα Έγγραφα Google. Αλλά είναι καλό; Ας ανακαλύψουμε! Διαβάστε περισσότερα . Όπως και αν η σουίτα γραφείου Web δεν ήταν ήδη αρκετά ισχυρή, ο φωνητικός έλεγχος σάς επιτρέπει να υπαγορεύσετε και να μορφοποιήσετε τελείως τα έγγραφά σας. Αυτό επεκτείνεται στην ισχυρή τεχνολογία που έχουν ήδη σχεδιαστεί για το Chrome και το Android.

Άλλες ιδέες περιλαμβάνουν τη ρύθμιση του Mac σας για τη χρήση φωνητικών εντολών Πώς να χρησιμοποιήσετε τις εντολές ομιλίας στο Mac σας Πώς να χρησιμοποιήσετε τις εντολές ομιλίας στο Mac σας Διαβάστε περισσότερα και να ρυθμίσετε το Amazon Echo με αυτοματοποιημένο checkout Πώς το Amazon Echo μπορεί να κάνει το σπίτι σας ένα έξυπνο σπίτι Πώς Amazon Echo μπορεί να κάνει το σπίτι σας ένα έξυπνο σπίτι Έξυπνη τεχνολογία στο σπίτι είναι ακόμα στις πρώτες της ημέρες, αλλά ένα νέο προϊόν από το Amazon που ονομάζεται "Echo" μπορεί να βοηθήσει να το φέρει στο mainstream. Διαβάστε περισσότερα . Ζήστε στο μέλλον και αγκαλιάστε να μιλάτε με τα gadget σας - ακόμα κι αν απλά παραγγέλνετε περισσότερες χαρτοπετσέτες. Εάν είστε ένας εξαρτημένος smartphone, έχουμε επίσης τα σεμινάρια για Siri 8 πράγματα που ίσως δεν συνειδητοποίησε Siri θα μπορούσε να κάνει 8 πράγματα που ίσως δεν συνειδητοποίησε Siri θα μπορούσε να κάνει Siri έχει γίνει ένα από τα χαρακτηριστικά γνωρίσματα του iPhone, αλλά για πολλοί άνθρωποι, δεν είναι πάντα το πιο χρήσιμο. Ενώ μερικά από αυτά οφείλονται στους περιορισμούς της αναγνώρισης φωνής, η περίεργη χρήση των ... Διαβάστε περισσότερα, Cortana 6 πιο cool πράγματα που μπορείτε να ελέγξετε με Cortana στα Windows 10 6 πιο cool πράγματα μπορείτε να ελέγξετε με Cortana στα Windows 10 Cortana μπορεί να σας βοηθήσει πηγαίνετε hands-free στα Windows 10. Μπορείτε να την αφήσετε να ψάξει στα αρχεία σας και στον ιστό, να κάνει υπολογισμούς ή να τραβήξει την πρόγνωση του καιρού. Εδώ καλύπτουμε μερικές από τις πιο δροσερές ικανότητες της. Διαβάστε περισσότερα, και το Android ΟΚ, Google: 20 + Χρήσιμα πράγματα που μπορείτε να πείτε στο τηλέφωνο Android σας Εντάξει, Google: 20 + Χρήσιμα πράγματα που μπορείτε να πείτε στο Android σας τηλέφωνο Αργά, χωρίς να παρατηρήσουμε, το μέλλον έχει φτάσει. Διαβάστε περισσότερα .

Ποια είναι η αγαπημένη σας χρήση του φωνητικού ελέγχου; Ενημερώστε μας στα σχόλια.

Συντελεστές εικόνας: T-flex μέσω Shutterstock, Terencehonles μέσω του Wikimedia Foundation, Αριζόνα, Cienpies Σχεδιασμός μέσω Shutterstock

In this article