Προγραμματισμός

Project Oxford: Η Microsoft παρέχει API για έξυπνες εφαρμογές

Η Microsoft την περασμένη άνοιξη ανακοίνωσε το Project Oxford, ένα σύνολο SDK και API που επιτρέπουν στους προγραμματιστές να δημιουργούν «έξυπνες» εφαρμογές χωρίς να χρειάζεται να μάθουν μηχανική εκμάθηση. Χρησιμοποιώντας τα API προσώπου, ομιλίας και οράματος της Οξφόρδης, οι προγραμματιστές μπορούν να δημιουργήσουν εφαρμογές που αναγνωρίζουν τις δυνατότητες του προσώπου, αναλύουν εικόνες ή εκτελούν μεταφράσεις ομιλίας σε κείμενο ή κείμενο σε ομιλία.

Σε μια συνέντευξη με τον Editor του Large Paul Krill, ο Ryan Galgon της Microsoft, ανώτερος διευθυντής προγράμματος υπεύθυνος για την πλατφόρμα και τις τεχνολογίες του Project Oxford, μίλησε για τους στόχους πίσω από την Οξφόρδη, τονίζοντας τις δυνατότητές της στο Διαδίκτυο των πραγμάτων.

: Ποιος δημιουργεί εφαρμογές της Οξφόρδης; Για ποιον είναι η Οξφόρδη;

Γκάλγκον: Έχουμε πολλά άτομα να μπουν και να εγγραφούν στις υπηρεσίες API. Οι ακριβείς αριθμοί δεν είναι κάτι που μπορώ να μπω, αλλά έχουμε δημιουργήσει πολλούς λογαριασμούς Azure, πολλές εγγραφές μέσω του Microsoft Azure Marketplace. Οι άνθρωποι κλωτσούν τα ελαστικά για τις υπηρεσίες, καθώς επίσης και προσπαθούν να κάνουν υψηλότερες χρήσεις των υπηρεσιών. Αυτήν τη στιγμή, όλοι προσφέρονται ως περιορισμένο δωρεάν επίπεδο σε μηνιαία βάση και προσπαθούμε να το ανοίξουμε καθώς έχουμε λάβει σχόλια σχετικά με τις αλλαγές που θέλουν να δουν οι προγραμματιστές στα API και τα μοντέλα.

Είναι όλα cross-platform, με την έννοια ότι είναι ένα σύνολο υπηρεσιών Web που έχουν πρόσβαση κυρίως μέσω διεπαφής REST API. Οτιδήποτε μπορεί να επικοινωνήσει με έναν ιστότοπο μπορεί να καλέσει αυτές τις υπηρεσίες back-end. Παρέχουμε ένα σύνολο SDK, τα οποία καλύπτουν αυτές τις κλήσεις REST και τις καθιστούν ευκολότερες στη χρήση σε πελάτες όπως Android και Windows και iOS. Οτιδήποτε μπορεί να κάνει HTTP Web κλήση μπορεί να καλέσει τις υπηρεσίες.

: Προβλέπετε ότι η Οξφόρδη χρησιμοποιείται κυρίως σε κινητές συσκευές ή σε επιτραπέζιους υπολογιστές Windows;

Γκάλγκον: Θα είναι κυρίως ένα μείγμα πιθανών κινητών και συσκευών IoT. Με την έννοια ότι όταν οι άνθρωποι χρησιμοποιούν επιτραπέζιους υπολογιστές, η συντριπτική πλειονότητα των χρήσεων που βλέπω, κάθεστε εκεί, έχετε το πληκτρολόγιο και το ποντίκι και αυτόν τον τύπο εισόδου. Αλλά όταν έχετε κινητό τηλέφωνο, τραβάτε φωτογραφίες και βίντεο και ήχο. Είναι πολύ πιο εύκολο και φυσικό να το καταγράψετε με μια μικρή συσκευή. [Θα χρησιμοποιηθεί η τεχνολογία Project Oxford] όπου η κυρίαρχη θήκη εισαγωγής θα είναι φυσικά δεδομένα, όχι μόνο αριθμοί αλλά και κάποιο είδος οπτικών ή ακουστικών δεδομένων.

: Πείτε μας περισσότερα για αυτά τα API. Ποια είναι τα πράγματα που μπορούν να κάνουν οι προγραμματιστές;

Γκάλγκον: Επειδή θέλουμε να προσεγγίσουμε όσο το δυνατόν περισσότερους προγραμματιστές, έχουμε κάνει πολλή δουλειά για να τους κάνουμε πολύ εύκολο στη χρήση, [για] πράγματα όπως ανίχνευση προσώπου ή όραση υπολογιστή, κατηγοριοποίηση εικόνων. Αυτά τα πράγματα είναι εκπαιδευμένα και μοντελοποιημένα, χτισμένα από άτομα με πολυετή ερευνητική εμπειρία σε αυτά τα μέρη και δεν θέλουμε οι προγραμματιστές να πρέπει να γίνουν ειδικοί στο όραμα των υπολογιστών. Προσπαθήσαμε πραγματικά να πούμε, "Κοιτάξτε, πρόκειται να δημιουργήσουμε το καλύτερο μοντέλο που μπορούμε να δημιουργήσουμε και να το διαθέσουμε και να το κάνουμε προσβάσιμο εντός τριών γραμμών κώδικα για εσάς".

Δεν μπορώ να μιλήσω για το πώς βλέπουν οι εξωτερικοί συνεργάτες να κάνουν χρήση των API της Οξφόρδης, αλλά οι κύριοι με τους οποίους έχει εργαστεί η Microsoft, που ίσως έχετε δει, ο πρώτος ήταν ο ιστότοπος How-old.net για την πρόβλεψη ηλικιών και φύλα. Τότε είχαμε το TwinsorNot.net και μας δόθηκαν δύο φωτογραφίες, πόσο παρόμοια είναι αυτά τα άτομα; Αυτά ήταν και τα δύο καλά παραδείγματα των Face API. Το τελευταίο, το οποίο χρησιμοποίησε το Face API και ορισμένα API ομιλίας, ήταν ένα έργο Windows 10 IoT για το οποίο γράφτηκαν μερικές αναρτήσεις ιστολογίου για το πού μπορούσατε να ξεκλειδώσετε μια πόρτα με το πρόσωπό σας και να συνομιλήσετε με την πόρτα - ή την κλειδαριά, σε αυτή την περίπτωση. Νομίζω ότι αυτά είναι τρία παραδείγματα που έχει επεξεργαστεί η Microsoft για να σας δείξει εδώ έναν τύπο εφαρμογής που μπορεί να δημιουργηθεί και να τις κοινοποιήσει σε άλλα άτομα.

: Κάτω από αυτά τα API REST, τι κάνει την Οξφόρδη να τσεκάρει;

Γκάλγκον: Ο πυρήνας είναι μηχανογραφημένα μοντέλα που δημιουργήσαμε για πράγματα όπως ομιλία σε κείμενο. Είτε έχετε πρόσβαση σε αυτό μέσω REST API - είτε με ομιλία σε κείμενο, μπορείτε επίσης να αποκτήσετε πρόσβαση σε αυτό μέσω σύνδεσης πρίζας Web - το μαγικό ή το ισχυρό πράγμα που υπάρχει σε αυτό το μοντέλο που μπορεί να πάρει ήχο κάποιου που μιλάει και μια γλώσσα ότι είναι και μεταφράζεται σε μορφή κειμένου. Αυτό είναι το κύριο πράγμα που κάνει την Οξφόρδη να τσεκάρει στο σύνολό της.

: Γιατί το Project Oxford διαχωρίζεται από το έργο Azure Machine Learning;

Γκάλγκον: Στο Azure Machine Learning, ένα από τα κύρια συστατικά είναι το Azure Machine Learning Studio, όπου οι άνθρωποι μπορούν να μπουν με τα δεδομένα τους, να δημιουργήσουν ένα πείραμα, να εκπαιδεύσουν το δικό τους μοντέλο και στη συνέχεια να φιλοξενήσουν αυτό το μοντέλο. Με την Οξφόρδη, αυτό είναι ένα προκαθορισμένο μοντέλο που διαθέτει η Microsoft, ένα μοντέλο που θα συνεχίσουμε να βελτιώνουμε στο μέλλον και επιτρέπουμε στους χρήστες να κάνουν χρήση αυτού του μοντέλου σε αυτές τις διεπαφές REST.

: Τι είδους επιχειρηματική χρήση βλέπετε για το Project Oxford; Ποια είναι η επιχειρηματική περίπτωση για εφαρμογές της Οξφόρδης;

Γκάλγκον: Δεν υπάρχουν συγκεκριμένοι συνεργάτες για τους οποίους μπορώ πραγματικά να μιλήσω αυτή τη στιγμή, αλλά νομίζω ότι μία από τις περιπτώσεις στις οποίες έχουμε δει μεγάλο ενδιαφέρον, όπου προσωπικά βλέπω πολλές περιπτώσεις χρήσης, είναι όταν πρόκειται για το Διαδίκτυο των πραγμάτων- συνδεδεμένες συσκευές. Όταν κοιτάζω τον τρόπο που βλέπουν οι άνθρωποι την κατασκευή συσκευών IoT, δεν έχετε πληκτρολόγιο και ποντίκι και συχνά ακόμη και μια πραγματική οθόνη που σχετίζεται με όλες αυτές τις συσκευές, αλλά είναι εύκολο να κολλήσετε ένα μικρόφωνο εκεί και είναι πολύ εύκολο για να κολλήσει μια κάμερα και εκεί. Εάν συνδυάσετε κάτι όπως τα API ομιλίας και το LUIS (Γλωσσική κατανόηση ευφυούς υπηρεσίας), τότε μια συσκευή που διαθέτει μόνο μικρόφωνο και κανέναν άλλο τρόπο εισαγωγής, μπορείτε τώρα να μιλήσετε σε αυτήν, να της πείτε τι θέλετε να κάνετε, να τη μεταφράσετε σε ένα σύνολο δομημένων ενεργειών και χρησιμοποιήστε αυτό στο πίσω μέρος. Εκεί νομίζω ότι θα δούμε πολλές περιπτώσεις χρήσης για τα Oxford APIs.

: Αναφέρατε iOS και Android. Ποια ήταν η απορρόφηση σε αυτές τις πλατφόρμες;

Γκάλγκον: Κάνοντας τα API RESTful και παρέχοντας αυτά τα περιτυλίγματα για αυτούς, έχουμε δει σίγουρα άτομα να κατεβάζουν αυτά τα περιτυλίγματα, να τα χρησιμοποιούν. Αλλά στο τέλος της ημέρας, συμβαίνει να είναι, "Εδώ είναι ένα περιτύλιγμα γλώσσας Java γύρω από έναν καλούντα Web", "Εδώ είναι ένα περιτύλιγμα Objective-C γύρω από μια κλήση Web." Δεν έχουμε πολλή εικόνα για την ακριβή συσκευή που πραγματοποιεί την κλήση.

: Η Οξφόρδη θα είναι ανοιχτού κώδικα;

Γκάλγκον: Δεν σκοπεύουμε να ανοίξουμε τα βασικά μοντέλα και δεν έχω τίποτα να το μοιραστώ γιατί συνεχίζουμε να ενημερώνουμε τα μοντέλα με την πάροδο του χρόνου. Τα SDK που παρέχουμε, δεδομένου ότι περιλαμβάνονται σε αυτές τις κλήσεις REST, ο πηγαίος κώδικας υπάρχει και είναι διαθέσιμος για λήψη για οποιονδήποτε σήμερα από τον ιστότοπο. Αλλά και πάλι, αυτό είναι ένα κρυφό περιτύλιγμα για πράγματα και έχουμε δει πραγματικά άτομα σε φόρουμ MSDN που παρέχουν αποσπάσματα κώδικα σε διαφορετικές γλώσσες γύρω από αυτό.

: Πώς σκοπεύει η Microsoft να βγάλει χρήματα από την Οξφόρδη;

Γκάλγκον: Τα API στο Marketplace είναι όλα δωρεάν σήμερα για περιορισμένη χρήση, επομένως λαμβάνετε 5.000 συναλλαγές API το μήνα. Αυτό είναι το μόνο σχέδιο που έχουμε τώρα διαθέσιμο. Στο μέλλον, θα αναπτύξουμε προγράμματα επί πληρωμή βάσει της χρήσης των API.

: Τι ακολουθεί για την Οξφόρδη;

Γκάλγκον: Από όπου πηγαίνουμε από εδώ είναι πραγματικά τρεις τομείς. Ο πρώτος τομέας αφορά την ενημέρωση και τη βελτίωση των υπαρχόντων μοντέλων. Λάβαμε σχόλια από προγραμματιστές [για το πώς] ένα από τα API ενδέχεται να μην λειτουργεί τέλεια με συγκεκριμένους τύπους εικόνων. Θα βελτιώσουμε το βασικό μοντέλο εκεί.

Ένα από τα άλλα πράγματα που θα κάνουμε είναι να συνεχίσουμε να επεκτείνουμε τον αριθμό των λειτουργιών που επιστρέφονται από τα μοντέλα. Σήμερα, το Face API σας δίνει την προβλεπόμενη ηλικία και το προβλεπόμενο φύλο. Έχουμε δει πολλά αιτήματα για την αναγνώριση άλλου περιεχομένου σε εικόνες.

Ο τρίτος τομέας είναι να επεκτείνουμε το χαρτοφυλάκιο των API που διαθέτουμε. Έχουμε τέσσερα σήμερα, αλλά σίγουρα δεν έχουμε τελειώσει. Δεν πιστεύουμε ότι ολόκληρος ο χώρος που θέλουμε να παρέχουμε ή τα εργαλεία που θέλουμε να παρέχουμε είναι ακόμη ολοκληρωμένα. Θα συνεχίσουμε να προσθέτουμε νέα API που μπορούν να αντιμετωπίσουν διαφορετικούς τύπους δεδομένων ή να παρέχουν πολύ διαφορετικούς τύπους φυσικής κατανόησης δεδομένων από αυτά που δίνουμε σήμερα.