Προγραμματισμός

Τι είναι το όραμα του υπολογιστή; AI για εικόνες και βίντεο

Το όραμα του υπολογιστή αναγνωρίζει και εντοπίζει συχνά αντικείμενα σε ψηφιακές εικόνες και βίντεο. Δεδομένου ότι οι ζωντανοί οργανισμοί επεξεργάζονται εικόνες με τον οπτικό φλοιό τους, πολλοί ερευνητές έχουν λάβει την αρχιτεκτονική του οπτικού φλοιού των θηλαστικών ως μοντέλο για νευρικά δίκτυα σχεδιασμένα για να εκτελούν αναγνώριση εικόνας. Η βιολογική έρευνα χρονολογείται από τη δεκαετία του 1950.

Η πρόοδος στο όραμα των υπολογιστών τα τελευταία 20 χρόνια ήταν απολύτως αξιοσημείωτη. Παρόλο που δεν είναι ακόμη τέλεια, ορισμένα συστήματα όρασης υπολογιστή επιτυγχάνουν ακρίβεια 99% και άλλα λειτουργούν με αξιοπρεπή τρόπο σε κινητές συσκευές.

Η σημαντική ανακάλυψη στο οπτικό πεδίο του νευρικού δικτύου ήταν το 1998 LeNet-5 του Yann LeCun, επτά επιπέδων συνελικτικό νευρικό δίκτυο για αναγνώριση χειρόγραφων ψηφίων που ψηφιοποιούνται σε εικόνες 32x32 pixel. Για την ανάλυση εικόνων υψηλότερης ανάλυσης, το δίκτυο LeNet-5 θα πρέπει να επεκταθεί σε περισσότερους νευρώνες και περισσότερα επίπεδα.

Τα σημερινά καλύτερα μοντέλα ταξινόμησης εικόνων μπορούν να αναγνωρίσουν διαφορετικούς καταλόγους αντικειμένων σε ανάλυση HD σε έγχρωμο. Εκτός από τα καθαρά βαθιά νευρωνικά δίκτυα (DNN), οι άνθρωποι χρησιμοποιούν μερικές φορές μοντέλα υβριδικής όρασης, τα οποία συνδυάζουν τη βαθιά μάθηση με τους κλασικούς αλγόριθμους μηχανικής μάθησης που εκτελούν συγκεκριμένες δευτερεύουσες εργασίες.

Άλλα προβλήματα όρασης εκτός από τη βασική ταξινόμηση εικόνας έχουν επιλυθεί με βαθιά μάθηση, όπως ταξινόμηση εικόνας με εντοπισμό, ανίχνευση αντικειμένων, τμηματοποίηση αντικειμένων, μεταφορά στυλ εικόνας, χρωματισμός εικόνας, ανακατασκευή εικόνας, υπερ-ανάλυση εικόνας και σύνθεση εικόνας.

Πώς λειτουργεί το computer vision;

Οι αλγόριθμοι όρασης υπολογιστή βασίζονται συνήθως σε συνελικτικά νευρωνικά δίκτυα ή σε CNN. Τα CNN συνήθως χρησιμοποιούν στρώματα συνελικτικής, ομαδοποίησης, ReLU, πλήρως συνδεδεμένα και απώλειας για την προσομοίωση ενός οπτικού φλοιού.

Το συνελικτικό επίπεδο βασικά παίρνει τα ακέραια πολλών μικρών επικαλυπτόμενων περιοχών. Το στρώμα συγκέντρωσης εκτελεί μια μορφή μη γραμμικής κάτω δειγματοληψίας. Τα επίπεδα ReLU εφαρμόζουν τη λειτουργία ενεργοποίησης χωρίς κορεσμό f (x) = μέγιστο (0, x).

Σε ένα πλήρως συνδεδεμένο στρώμα, οι νευρώνες έχουν συνδέσεις με όλες τις ενεργοποιήσεις στο προηγούμενο στρώμα. Ένα επίπεδο απώλειας υπολογίζει τον τρόπο με τον οποίο η εκπαίδευση δικτύου τιμωρεί την απόκλιση μεταξύ των προβλεπόμενων και των αληθινών ετικετών, χρησιμοποιώντας ένα Softmax ή cross-εντροπία απώλεια για ταξινόμηση.

Σύνολα δεδομένων εκπαίδευσης όρασης υπολογιστή

Υπάρχουν πολλά δημόσια σύνολα δεδομένων εικόνας που είναι χρήσιμα για την εκπαίδευση μοντέλων όρασης. Το απλούστερο και ένα από τα παλαιότερα, είναι το MNIST, το οποίο περιέχει 70.000 χειρόγραφα ψηφία σε 10 τάξεις, 60K για εκπαίδευση και 10K για δοκιμές. Το MNIST είναι ένα εύκολο σύνολο δεδομένων για μοντελοποίηση, ακόμη και χρησιμοποιώντας φορητό υπολογιστή χωρίς υλικό επιτάχυνσης. Το CIFAR-10 και το Fashion-MNIST είναι παρόμοια σύνολα δεδομένων 10 κατηγορίας. Το SVHN (αριθμοί σπιτιού με θέα στο δρόμο) είναι ένα σύνολο 600 χιλιάδων εικόνων αριθμών σπιτιών πραγματικού κόσμου που εξάγονται από το Google Street View.

Το COCO είναι ένα σύνολο δεδομένων μεγάλης κλίμακας για ανίχνευση αντικειμένων, τμηματοποίηση και λεζάντα, με 330K εικόνες σε 80 κατηγορίες αντικειμένων. Το ImageNet περιέχει περίπου 1,5 εκατομμύριο εικόνες με πλαίσια οριοθέτησης και ετικέτες, που απεικονίζουν περίπου 100K φράσεις από το WordNet. Το Open Images περιέχει περίπου εννέα εκατομμύρια διευθύνσεις URL για εικόνες, με περίπου 5Κ ετικέτες.

Τα Google, Azure και AWS έχουν όλα τα δικά τους μοντέλα όρασης εκπαιδευμένα σε πολύ μεγάλες βάσεις δεδομένων εικόνων. Μπορείτε να τα χρησιμοποιήσετε ως έχουν ή να εκτελέσετε την εκμάθηση μεταφοράς για να προσαρμόσετε αυτά τα μοντέλα στα δικά σας σύνολα δεδομένων εικόνας. Μπορείτε επίσης να πραγματοποιήσετε εκμάθηση μεταφοράς χρησιμοποιώντας μοντέλα με βάση το ImageNet και το Open Images. Τα πλεονεκτήματα της μεταφοράς μάθησης από την κατασκευή ενός μοντέλου από το μηδέν είναι ότι είναι πολύ πιο γρήγορο (ώρες αντί για εβδομάδες) και ότι σας δίνει ένα πιο ακριβές μοντέλο. Θα χρειαστείτε ακόμα 1.000 εικόνες ανά ετικέτα για τα καλύτερα αποτελέσματα, αν και μερικές φορές μπορείτε να ξεφύγετε με μόλις 10 εικόνες ανά ετικέτα.

Εφαρμογές όρασης υπολογιστή

Παρόλο που το όραμα του υπολογιστή δεν είναι τέλειο, είναι συχνά αρκετά καλό για να είναι πρακτικό. Ένα καλό παράδειγμα είναι το όραμα στα αυτοκίνητα αυτο-οδήγησης.

Ο Waymo, πρώην αυτοκινητιστικό αυτοκίνητο της Google, διεκδικεί δοκιμές σε επτά εκατομμύρια μίλια δημόσιων δρόμων και την ικανότητα ασφαλούς πλοήγησης σε καθημερινή κίνηση. Υπήρξε τουλάχιστον ένα ατύχημα που αφορούσε ένα φορτηγό Waymo. το λογισμικό δεν πιστεύεται ότι είναι λάθος, σύμφωνα με την αστυνομία.

Η Tesla διαθέτει τρία μοντέλα αυτοκινούμενου αυτοκινήτου. Το 2018 ένα Tesla SUV σε λειτουργία αυτο-οδήγησης είχε εμπλακεί σε θανατηφόρο ατύχημα. Η έκθεση για το ατύχημα ανέφερε ότι ο οδηγός (που σκοτώθηκε) είχε τα χέρια του από το τιμόνι παρά τις πολλές προειδοποιήσεις από την κονσόλα και ότι ούτε ο οδηγός ούτε το λογισμικό προσπάθησαν να φρενάρουν για να αποφύγουν να χτυπήσουν το τσιμεντένιο φράγμα. Το λογισμικό από τότε έχει αναβαθμιστεί ώστε να απαιτεί παρά να υποδεικνύει ότι τα χέρια του οδηγού είναι στο τιμόνι.

Τα καταστήματα Amazon Go είναι καταστήματα λιανικής αυτοεξυπηρέτησης χωρίς πληρωμή, όπου το σύστημα όρασης υπολογιστών στο κατάστημα ανιχνεύει όταν οι αγοραστές παραλαμβάνουν ή επιστρέφουν είδη αποθεμάτων Οι αγοραστές αναγνωρίζονται και χρεώνονται μέσω μιας εφαρμογής Android ή iPhone. Όταν το λογισμικό Amazon Go χάνει ένα στοιχείο, ο αγοραστής μπορεί να το διατηρήσει δωρεάν. όταν το λογισμικό καταγράφει ψευδώς ένα αντικείμενο που έχει ληφθεί, ο αγοραστής μπορεί να επισημάνει το στοιχείο και να λάβει επιστροφή χρημάτων για αυτήν τη χρέωση.

Στην υγειονομική περίθαλψη, υπάρχουν εφαρμογές όρασης για την ταξινόμηση ορισμένων χαρακτηριστικών σε διαφάνειες παθολογίας, ακτινογραφίες στο στήθος και άλλα συστήματα ιατρικής απεικόνισης. Μερικά από αυτά έχουν επιδείξει αξία σε σύγκριση με εξειδικευμένους επαγγελματίες του ανθρώπου, αρκετά αρκετές για έγκριση από τους κανονισμούς. Υπάρχει επίσης ένα σύστημα σε πραγματικό χρόνο για την εκτίμηση της απώλειας αίματος των ασθενών σε ένα δωμάτιο χειρουργείου ή παράδοσης.

Υπάρχουν χρήσιμες εφαρμογές όρασης για τη γεωργία (γεωργικά ρομπότ, παρακολούθηση καλλιεργειών και εδάφους και προγνωστικά αναλυτικά στοιχεία), τραπεζικές συναλλαγές (εντοπισμός απάτης, έλεγχος ταυτότητας εγγράφων και απομακρυσμένες καταθέσεις) και βιομηχανική παρακολούθηση (απομακρυσμένα πηγάδια, ασφάλεια τοποθεσίας και εργασιακή δραστηριότητα).

Υπάρχουν επίσης εφαρμογές όρασης υπολογιστή που είναι αμφιλεγόμενες ή ακόμη και καταργούνται. Το ένα είναι η αναγνώριση προσώπου, η οποία όταν χρησιμοποιείται από την κυβέρνηση μπορεί να είναι μια εισβολή της ιδιωτικής ζωής, και η οποία συχνά έχει μια μεροληπτική προπόνηση που τείνει να αναγνωρίσει εσφαλμένα μη λευκά πρόσωπα. Ένα άλλο είναι η δημιουργία deepfake, η οποία είναι κάτι περισσότερο από ανατριχιαστικό όταν χρησιμοποιείται για πορνογραφία ή για τη δημιουργία απατών και άλλων ψευδών εικόνων.

Πλαίσια και μοντέλα όρασης υπολογιστή

Τα περισσότερα πλαίσια βαθιάς μάθησης έχουν σημαντική υποστήριξη για την όραση του υπολογιστή, συμπεριλαμβανομένων των πλαισίων που βασίζονται στο Python TensorFlow (η κορυφαία επιλογή για παραγωγή), του PyTorch (η κορυφαία επιλογή για ακαδημαϊκή έρευνα) και του MXNet (το πλαίσιο επιλογής του Amazon). Το OpenCV είναι μια εξειδικευμένη βιβλιοθήκη για όραμα υπολογιστή που κλίνει προς εφαρμογές όρασης σε πραγματικό χρόνο και εκμεταλλεύεται τις οδηγίες MMX και SSE όταν είναι διαθέσιμες. Έχει επίσης υποστήριξη για επιτάχυνση χρησιμοποιώντας CUDA, OpenCL, OpenGL και Vulkan.

Το Amazon Recognition είναι μια υπηρεσία ανάλυσης εικόνας και βίντεο που μπορεί να προσδιορίσει αντικείμενα, άτομα, κείμενο, σκηνές και δραστηριότητες, συμπεριλαμβανομένης της ανάλυσης προσώπου και προσαρμοσμένων ετικετών. Το Google Cloud Vision API είναι μια προκαθορισμένη υπηρεσία ανάλυσης εικόνων που μπορεί να ανιχνεύσει αντικείμενα και πρόσωπα, να διαβάσει έντυπα και χειρόγραφα κείμενα και να δημιουργήσει μεταδεδομένα στον κατάλογο εικόνων σας. Το Google AutoML Vision σάς επιτρέπει να εκπαιδεύετε προσαρμοσμένα μοντέλα εικόνων. Τόσο το Amazon Recognition Custom Labels όσο και το Google AutoML Vision εκτελούν εκμάθηση μεταφοράς.

Το Microsoft Computer Vision API μπορεί να αναγνωρίσει αντικείμενα από έναν κατάλογο 10.000, με ετικέτες σε 25 γλώσσες. Επιστρέφει επίσης πλαίσια οριοθέτησης για αναγνωρισμένα αντικείμενα. Το Azure Face API κάνει ανίχνευση προσώπου που αντιλαμβάνεται πρόσωπα και χαρακτηριστικά σε μια εικόνα, ταυτοποίηση προσώπου που ταιριάζει με ένα άτομο στον ιδιωτικό σας χώρο αποθήκευσης έως και ένα εκατομμύριο άτομα και αντιληπτή αναγνώριση συναισθημάτων. Το Face API μπορεί να εκτελεστεί στο cloud ή στην άκρη σε κοντέινερ.

Το IBM Watson Visual Recognition μπορεί να ταξινομήσει εικόνες από ένα προ-εκπαιδευμένο μοντέλο, να σας επιτρέψει να εκπαιδεύσετε προσαρμοσμένα μοντέλα εικόνας με εκμάθηση μεταφοράς, να εκτελέσετε ανίχνευση αντικειμένων με καταμέτρηση αντικειμένων και να εκπαιδεύσετε για οπτική επιθεώρηση. Το Watson Visual Recognition μπορεί να εκτελεστεί στο cloud ή σε συσκευές iOS χρησιμοποιώντας Core ML.

Το πακέτο ανάλυσης δεδομένων Matlab μπορεί να πραγματοποιήσει αναγνώριση εικόνας χρησιμοποιώντας μηχανική εκμάθηση και βαθιά μάθηση. Διαθέτει προαιρετικό Computer Vision Toolbox και μπορεί να ενσωματωθεί στο OpenCV.

Τα μοντέλα οπτικών υπολογιστών έχουν διανύσει πολύ δρόμο από το LeNet-5 και είναι κυρίως CNN. Στα παραδείγματα περιλαμβάνονται τα AlexNet (2012), VGG16 / OxfordNet (2014), GoogLeNet / InceptionV1 (2014), Resnet50 (2015), InceptionV3 (2016) και MobileNet (2017-2018). Η οικογένεια νευρωνικών δικτύων όρασης MobileNet σχεδιάστηκε με γνώμονα τις φορητές συσκευές.

[Επίσης στο: Kaggle: Πού μαθαίνουν και ανταγωνίζονται οι επιστήμονες δεδομένων]

Το πλαίσιο Apple Vision εκτελεί ανίχνευση ορόσημων προσώπου και προσώπου, ανίχνευση κειμένου, αναγνώριση γραμμωτού κώδικα, καταχώριση εικόνων και γενική παρακολούθηση χαρακτηριστικών. Το Vision επιτρέπει επίσης τη χρήση προσαρμοσμένων μοντέλων Core ML για εργασίες όπως ταξινόμηση ή ανίχνευση αντικειμένων. Τρέχει σε iOS και macOS. Το Google ML Kit SDK έχει παρόμοιες δυνατότητες και λειτουργεί σε συσκευές Android και iOS. Το ML Kit υποστηρίζει επιπλέον API φυσικής γλώσσας.

Όπως είδαμε, τα συστήματα όρασης υπολογιστών έχουν γίνει αρκετά καλά ώστε να είναι χρήσιμα και σε ορισμένες περιπτώσεις πιο ακριβή από την ανθρώπινη όραση. Χρησιμοποιώντας τη μάθηση μεταφοράς, η προσαρμογή των μοντέλων όρασης έχει γίνει πρακτική για απλούς θνητούς: η οπτική του υπολογιστή δεν είναι πλέον ο αποκλειστικός τομέας των ερευνητών σε επίπεδο διδακτορικού.

Διαβάστε περισσότερα για τη μηχανική μάθηση και τη βαθιά μάθηση:

  • Βαθιά μάθηση έναντι μηχανικής μάθησης: Κατανοήστε τις διαφορές
  • Τι είναι η μηχανική μάθηση; Πληροφορίες που προέρχονται από δεδομένα
  • Τι είναι η βαθιά μάθηση; Αλγόριθμοι που μιμούνται τον ανθρώπινο εγκέφαλο
  • Εξήγησαν οι αλγόριθμοι μηχανικής μάθησης
  • Τι είναι η επεξεργασία φυσικής γλώσσας; AI για ομιλία και κείμενο
  • Η αυτόματη μηχανική εκμάθηση ή η AutoML εξηγείται
  • Εξηγείται η εποπτευόμενη μάθηση
  • Εξήγησε ημι-εποπτευόμενη μάθηση
  • Η μη επιτηρούμενη μάθηση εξηγείται
  • Η μάθηση ενίσχυσης εξηγείται
  • Kaggle: Πού μαθαίνουν και ανταγωνίζονται οι επιστήμονες δεδομένων
  • Τι είναι το CUDA; Παράλληλη επεξεργασία για GPU

Διαβάστε κριτικές για μηχανική εκμάθηση και βαθιά μάθηση:

  • Πώς να επιλέξετε μια πλατφόρμα μηχανικής εκμάθησης cloud
  • Deeplearning4j: Βαθιά μάθηση και ETL για το JVM
  • Επανεξέταση: Το Amazon SageMaker παίζει catch-up
  • TensorFlow 2 κριτική: Ευκολότερη μηχανική εκμάθηση
  • Κριτική: Το Google Cloud AutoML είναι πραγματικά αυτοματοποιημένη μηχανική εκμάθηση
  • Ανασκόπηση: Η βαθιά μάθηση του MXNet λάμπει με τον Gluon
  • Αναθεώρηση PyTorch: Ένα πλαίσιο βαθιάς μάθησης που δημιουργήθηκε για την ταχύτητα
  • Επανεξέταση: Ο Κεράς περνά μέσα από τη βαθιά μάθηση