Πώς λειτουργεί το κείμενο σε κείμενο (γνωστός και ως οπτική αναγνώριση χαρακτήρων)

Το τράβηγμα κειμένου από εικόνες δεν ήταν ποτέ ευκολότερο από ό, τι σήμερα, χάρη στην τεχνολογία οπτικής αναγνώρισης χαρακτήρων (OCR). Αλλά τι είναι OCR; Και πώς λειτουργεί το OCR;

Το τράβηγμα κειμένου από εικόνες δεν ήταν ποτέ ευκολότερο από ό, τι σήμερα, χάρη στην τεχνολογία οπτικής αναγνώρισης χαρακτήρων (OCR).  Αλλά τι είναι OCR;  Και πώς λειτουργεί το OCR;
Διαφήμιση

Το τράβηγμα κειμένου από εικόνες δεν ήταν ποτέ ευκολότερο από ό, τι σήμερα, χάρη στην τεχνολογία οπτικής αναγνώρισης χαρακτήρων (OCR).

Το OCR μας επιτρέπει να κάνουμε κάθε είδους χρήσιμα πράγματα, όπως την αναζήτηση εικόνων χρησιμοποιώντας ερωτήματα κειμένων, την αναπαραγωγή εγγράφων χωρίς να τα δακτυλογραφούμε με το χέρι ή ακόμα και τη μετατροπή χειρόγραφου κειμένου σε ψηφιακό κείμενο. Πώς να μετατρέψετε μια εικόνα με γραφή σε κείμενο Χρησιμοποιώντας OCR Πώς να μετατρέψετε μια εικόνα με χειρόγραφο σε κείμενο Χρησιμοποιώντας OCR Για να μετατρέψετε μια εικόνα χειρόγραφου κειμένου σε ψηφιακό κείμενο που μπορείτε να επεξεργαστείτε και να αναζητήσετε, χρειάζεστε ένα εργαλείο OCR (οπτική αναγνώριση χαρακτήρων). Δοκιμάστε ένα από αυτά τα εργαλεία OCR για να ψηφιοποιήσετε το χειρόγραφο. Διαβάστε περισσότερα .

Αλλά τι είναι η οπτική αναγνώριση χαρακτήρων; Πώς λειτουργεί πραγματικά; Μπορεί να φαίνεται σαν μαύρη μαγεία σε σας, αλλά μέχρι το τέλος αυτού του άρθρου, θα έχετε μια σταθερή κατανόηση του πώς οι υπολογιστές μπορούν να αναγνωρίσουν γράμματα και λέξεις.

Πώς λειτουργεί η οπτική αναγνώριση χαρακτήρων

Για να κατανοήσουμε πώς εξάγεται το κείμενο από μια εικόνα, πρέπει πρώτα να καταλάβουμε ποιες είναι οι εικόνες και πώς αποθηκεύονται στους υπολογιστές.

Ένα εικονοστοιχείο είναι μια μοναδική κουκίδα συγκεκριμένου χρώματος. Μια εικόνα είναι ουσιαστικά μια συλλογή εικονοστοιχείων. Όσο περισσότερα εικονοκύτταρα σε μια εικόνα, τόσο μεγαλύτερη είναι η ανάλυση της. Ένας υπολογιστής δεν γνωρίζει ότι μια εικόνα ενός σημείου είναι πραγματικά ένα σημάδι-απλά ξέρει ότι το πρώτο εικονοστοιχείο είναι αυτό το χρώμα, το επόμενο εικονοστοιχείο είναι εκείνο το χρώμα και εμφανίζει όλα τα pixel του για να δεις.

Αυτό σημαίνει ότι το κείμενο και το μη κείμενο δεν διαφέρουν από τον υπολογιστή και γι 'αυτό η οπτική αναγνώριση χαρακτήρων είναι τόσο δύσκολη. Με αυτό κατά νου, εδώ είναι πώς λειτουργεί.

Βήμα 1: Προεπεξεργασία της εικόνας

Προτού τραβηχθεί το κείμενο, η εικόνα πρέπει να μασαριστεί με ορισμένους τρόπους για να γίνει ευκολότερη η εξαγωγή και πιθανότερη επιτυχία. Αυτό ονομάζεται προεπεξεργασία και διαφορετικές λύσεις λογισμικού χρησιμοποιούν διαφορετικούς συνδυασμούς τεχνικών.

Οι πιο κοινές τεχνικές προεπεξεργασίας περιλαμβάνουν:

Binarization
Κάθε pixel της εικόνας μετατρέπεται σε μαύρο ή άσπρο. Ο στόχος είναι να καταστεί σαφές ποια εικονοστοιχεία ανήκουν στο κείμενο και ποια εικονοστοιχεία ανήκουν στο παρασκήνιο, γεγονός που επιταχύνει την πραγματική διαδικασία OCR.

Binarization για οπτική αναγνώριση χαρακτήρων

Deskew
Εφόσον τα έγγραφα σπάνια σαρώνονται με τέλεια ευθυγράμμιση, οι χαρακτήρες μπορεί να καταλήξουν σε κλίση ή ακόμα και ανάποδα. Ο στόχος εδώ είναι να προσδιορίσετε οριζόντιες γραμμές κειμένου και, στη συνέχεια, να περιστρέψετε την εικόνα έτσι ώστε οι γραμμές αυτές να είναι στην πραγματικότητα οριζόντια.

Αποκεφαλισμός
Αν η εικόνα έχει διαιρεθεί ή όχι, μπορεί να υπάρχει θόρυβος που μπορεί να παρεμβληθεί στην αναγνώριση χαρακτήρων. Η απόσπαση απαλλάσσει από αυτόν τον θόρυβο και προσπαθεί να εξομαλύνει την εικόνα.

Αφαίρεση γραμμής
Αναγνωρίζει όλες τις γραμμές και τις σημάνσεις που πιθανώς δεν είναι χαρακτήρες, και στη συνέχεια τους αφαιρεί, έτσι ώστε η πραγματική διαδικασία OCR να μην συγχέεται. Είναι ιδιαίτερα σημαντικό κατά τη σάρωση εγγράφων με πίνακες και πλαίσια.

Χωρισμός εις ζώνας
Διαχωρίζει την εικόνα σε ξεχωριστά κομμάτια κειμένου, όπως τον προσδιορισμό των στηλών σε έγγραφα πολλών στηλών.

Ζώνη για αναγνώριση οπτικών χαρακτήρων
Πιστωτική εικόνα: WayneRay / Wikimedia

Βήμα 2: Επεξεργασία της εικόνας

Πρώτα απ 'όλα, η διαδικασία OCR προσπαθεί να καθορίσει τη γραμμή βάσης για κάθε γραμμή κειμένου στην εικόνα (ή αν είχε ρυθμιστεί σε προκαθορισμένη επεξεργασία, θα λειτουργήσει μέσα από κάθε ζώνη ένα κάθε φορά). Κάθε εντοπισμένη γραμμή χαρακτήρων χειρίζεται μία προς μία.

Για κάθε γραμμή χαρακτήρων, το λογισμικό OCR αναγνωρίζει την απόσταση μεταξύ των χαρακτήρων αναζητώντας κάθετες γραμμές μη εικονοστοιχείων κειμένου (οι οποίες θα πρέπει να είναι προφανείς με σωστή διμερισμό). Κάθε τεμάχιο εικονοστοιχείων μεταξύ αυτών των γραμμών μη κειμένου έχει επισημανθεί ως ένα "διακριτικό" που αντιπροσωπεύει έναν χαρακτήρα. Ως εκ τούτου, αυτό το βήμα ονομάζεται tokenization .

Επεξεργασία εικόνας για οπτική αναγνώριση χαρακτήρων

Από τη στιγμή που όλοι οι δυνητικοί χαρακτήρες στην εικόνα σκιαγραφούνται, το λογισμικό OCR μπορεί να χρησιμοποιήσει δύο διαφορετικές τεχνικές για να προσδιορίσει ποιοι είναι οι χαρακτήρες αυτών των μαρκών:

Αναγνώριση μοτίβου
Κάθε διακριτικό συγκρίνεται σε pixel-to-pixel με ένα πλήρες σύνολο γνωστών glyphs-συμπεριλαμβανομένων των αριθμών, των στίχων και άλλων ειδικών συμβόλων-και ο πιο κοντινός συνδυασμός επιλέγεται. Αυτή η τεχνική είναι επίσης γνωστή ως αντιστοίχιση μήτρας.

Υπάρχουν πολλά μειονεκτήματα εδώ. Πρώτον, τα μάρκες και τα glyphs πρέπει να έχουν ίδιο μέγεθος ή αλλιώς κανένας από αυτούς δεν θα ταιριάζει. Δεύτερον, οι μάρκες πρέπει να είναι σε παρόμοια γραμματοσειρά με τα glyphs, πράγμα που αποκλείει το χειρόγραφο. Αλλά αν είναι γνωστή η γραμματοσειρά του διακριτικού, η αναγνώριση προτύπων μπορεί να είναι γρήγορη και ακριβής.

Εξαγωγή χαρακτηριστικών
Κάθε διακριτικό συγκρίνεται με διαφορετικούς κανόνες που περιγράφουν το είδος του χαρακτήρα που μπορεί να είναι. Για παράδειγμα, δύο κατακόρυφες γραμμές ίσου ύψους που συνδέονται με μία μόνο οριζόντια γραμμή είναι πιθανό να είναι κεφάλαιο H.

Αυτή η τεχνική είναι χρήσιμη επειδή δεν περιορίζεται σε συγκεκριμένες γραμματοσειρές ή μεγέθη. Μπορεί επίσης να είναι πιο έντονη στην αναγνώριση των λεπτών διαφορών μεταξύ κεφαλαίου Ι, πεζών L και αριθμού 1. Το μειονέκτημα; Ο προγραμματισμός των κανόνων είναι πολύ πιο πολύπλοκος από τον απλό τρόπο σύγκρισης των εικονοστοιχείων σε ένα διακριτικό με τα εικονοστοιχεία σε ένα γράφημα.

Βήμα 3: Επεξεργασία της εικόνας

Αφού ολοκληρωθεί η αντιστοίχηση των συμβόλων, το λογισμικό OCR θα μπορούσε να το καλέσει μια μέρα και να παρουσιάσει τα αποτελέσματα σε εσάς. Αλλά συνήθως πρέπει να κάνετε λίγο περισσότερο fudging για να βεβαιωθείτε ότι δεν είστε τροχαίο τα μάτια σας με τα τρελά αποτελέσματα.

Λεξικό Περιορισμός
Όλες οι λέξεις συγκρίνονται με ένα λεξικό εγκεκριμένων λέξεων και όσες δεν ταιριάζουν αντικαθίστανται με την πλησιέστερη λέξη. Ένα λεξικό είναι ένα παράδειγμα ενός λεξικού. Αυτό μπορεί να βοηθήσει στη διόρθωση λέξεων με εσφαλμένους χαρακτήρες, όπως "αγκάθι" αντί "th0rn".

Ειδικές βελτιστοποιήσεις εφαρμογής
Όταν το OCR χρησιμοποιείται σε εξειδικευμένες ρυθμίσεις, όπως για ιατρικά ή νομικά έγγραφα, μπορεί να χρησιμοποιηθεί ειδικό είδος OCR ειδικά σχεδιασμένο για αυτή τη ρύθμιση. Σε αυτές τις περιπτώσεις, το λογισμικό OCR μπορεί να αναζητήσει μαθηματικές εξισώσεις, συγκεκριμένους όρους για τη βιομηχανία κ.λπ.

Φυσική γλώσσα
Αυτή η προηγμένη τεχνική διορθώνει τις προτάσεις χρησιμοποιώντας ένα γλωσσικό μοντέλο που περιγράφει πόσο πιθανό θα ακολουθούνται ορισμένες λέξεις από άλλες λέξεις. Είναι παρόμοιο με την τεχνολογία που προβλέπει τη λέξη που θέλετε να πληκτρολογήσετε στη συνέχεια σε ένα κινητό πληκτρολόγιο.

Όταν γίνει καλά, αυτό μπορεί να οδηγήσει σε κείμενο που είναι αξιοθαύμαστα αναγνώσιμο.

Συνιστώμενα εργαλεία οπτικής αναγνώρισης χαρακτήρων

Τώρα που ξέρετε πώς λειτουργεί το OCR, θα πρέπει να είναι εύκολο να δείτε ότι δεν είναι ίσα όλα τα εργαλεία OCR. Η ακρίβεια των αποτελεσμάτων σας θα εξαρτηθεί σε μεγάλο βαθμό από το πόσο καλά το λογισμικό εφαρμόζει τις διάφορες τεχνικές OCR που αναφέρονται σε αυτό το άρθρο.

Σας συνιστούμε ιδιαίτερα το OneNote για αυτό, το οποίο είναι μόνο ένας λόγος για τον οποίο χτυπάει το Evernote για τη λήψη σημειώσεων Evernote εναντίον OneNote: Ποια εφαρμογή λήψης σημειώσεων είναι κατάλληλη για εσάς; Evernote εναντίον OneNote: Ποιά είναι η κατάλληλη εφαρμογή για εσάς; Τα Evernote και OneNote είναι εκπληκτικά εφαρμογές λήψης σημειώσεων. Είναι δύσκολο να διαλέξεις μεταξύ των δύο. Συγκρίναμε τα πάντα από τη διασύνδεση με την οργάνωση σημειώσεων για να σας βοηθήσουμε να επιλέξετε. Τι λειτουργεί καλύτερα για εσάς; Διαβάστε περισσότερα . Αν είστε πρόθυμοι να πληρώσετε για μια λύση υψηλής ποιότητας, εξετάστε το OmniPage. Δείτε τη σύγκριση του OneNote vs. OmniPage για το λογισμικό OCR Free vs. Paid OCR: Microsoft OneNote και Nuance OmniPage Συγκριτικά λογισμικά ελεύθερης εναντίον πληρωμένου λογισμικού OCR: Microsoft OneNote και Nuance OmniPage Συγκρινόμενο λογισμικό σάρωσης OCR σας επιτρέπει να μετατρέψετε κείμενο σε εικόνες ή PDF σε επεξεργάσιμο κείμενο έγγραφα. Είναι ένα δωρεάν εργαλείο OCR όπως το OneNote αρκετά καλό; Ας ανακαλύψουμε! Διαβάστε περισσότερα . Για κινητά έγγραφα, θα θέλετε να ελέγξετε αυτές τις εφαρμογές OCR για συσκευές Android 6 Καλύτερες εφαρμογές OCR του Android για εξαγωγή κειμένου από εικόνες 6 Καλύτερες εφαρμογές OCR του Android για εξαγωγή κειμένου από εικόνες Χρειάζεται να ψηφιοποιήσετε τυχόν τυπωμένο κείμενο για να διατηρήσετε μαλακό αντίγραφο του; Αν ναι, το μόνο που χρειάζεστε είναι ένα εργαλείο οπτικής αναγνώρισης χαρακτήρων (OCR). Διαβάστε περισσότερα .

Πώς χρησιμοποιείτε το OCR; Έχετε κάποια αγαπημένα εργαλεία OCR που δεν αναφέραμε; Ενημερώστε μας στα σχόλια παρακάτω!

In this article