Προγραμματισμός

Κριτική: Το Google Cloud AutoML είναι πραγματικά αυτοματοποιημένη μηχανική εκμάθηση

Όταν προσπαθείτε να εκπαιδεύσετε αυτόματα το καλύτερο μοντέλο μηχανικής εκμάθησης για τα δεδομένα σας, υπάρχει το AutoML ή η αυτόματη μηχανική εκμάθηση και, στη συνέχεια, υπάρχει το Google Cloud AutoML. Το Google Cloud AutoML είναι μια παραπάνω περικοπή.

Στο παρελθόν έχω ελέγξει τα H2O Driverless AI, Amazon SageMaker και Azure Machine Learning AutoML. Το AI χωρίς οδηγό εκτελεί αυτόματα μηχανικούς χαρακτηριστικών και συντονισμό υπερπαραμέτρων, και ισχυρίζεται ότι έχει καλή απόδοση καθώς και κύριους Kaggle. Το Amazon SageMaker υποστηρίζει βελτιστοποίηση υπερπαραμέτρων. Το Azure Machine Learning AutoML σαρώνει αυτόματα τις δυνατότητες, τους αλγόριθμους και τους υπερπαραμέτρους για βασικούς αλγόριθμους μηχανικής μάθησης. μια ξεχωριστή δυνατότητα συντονισμού υπερπαραμέτρων Azure Machine Learning σάς επιτρέπει να κάνετε σάρωση συγκεκριμένων υπερπαραμέτρων για ένα υπάρχον πείραμα.

Αυτά είναι καλά, αλλά το Google Cloud AutoML πηγαίνει σε ένα εντελώς διαφορετικό επίπεδο και προσαρμόζει τα δοκιμαστικά, υψηλής ακρίβειας νευρωνικά δίκτυα της Google για τα δεδομένα σας με ετικέτα. Αντί να ξεκινά από το μηδέν όταν εκπαιδεύει μοντέλα από τα δεδομένα σας, το Google Cloud AutoML εφαρμόζει αυτόματη εκμάθηση βαθιάς μεταφοράς (που σημαίνει ότι ξεκινά από ένα υπάρχον βαθύ νευρωνικό δίκτυο εκπαιδευμένο σε άλλα δεδομένα) και αναζήτηση νευρικής αρχιτεκτονικής (που σημαίνει ότι βρίσκει τον σωστό συνδυασμό επιπλέον επίπεδα δικτύου) για μετάφραση ζεύγους γλωσσών, ταξινόμηση φυσικής γλώσσας και ταξινόμηση εικόνας.

Σε κάθε περιοχή, η Google διαθέτει ήδη μία ή περισσότερες προ-εκπαιδευμένες υπηρεσίες που βασίζονται σε βαθιά νευρωνικά δίκτυα και τεράστια σύνολα δεδομένων με ετικέτα. Αυτά μπορεί να λειτουργούν καλά για τα δεδομένα σας χωρίς τροποποίηση και θα πρέπει να το δοκιμάσετε για να εξοικονομήσετε χρόνο και χρήμα. Εάν αυτές οι υπηρεσίες δεν κάνουν αυτό που χρειάζεστε, το Google Cloud AutoML σάς βοηθά να δημιουργήσετε ένα μοντέλο που να το κάνει, χωρίς να απαιτείται να γνωρίζετε πώς να εκτελείτε μάθηση μεταφοράς ή ακόμα και πώς να δημιουργείτε νευρωνικά δίκτυα.

Η μεταφορά μάθησης προσφέρει δύο μεγάλα πλεονεκτήματα από την εκπαίδευση ενός νευρικού δικτύου από το μηδέν. Πρώτον, απαιτεί πολύ λιγότερα δεδομένα για εκπαίδευση, καθώς τα περισσότερα επίπεδα του δικτύου είναι ήδη καλά εκπαιδευμένα. Δεύτερον, τρέχει πολύ πιο γρήγορα, καθώς βελτιστοποιεί μόνο τα τελικά επίπεδα.

Μετάφραση Google Cloud AutoML

Έτσι, για παράδειγμα, μπορείτε να εκπαιδεύσετε ενάντια σε 1.000 ζευγάρια δύο γλωσσών προτάσεων σε μια ή δύο ώρες με την εκμάθηση μεταφοράς Google Cloud AutoML Translation. Το βασικό νευρωνικό δίκτυο που προσαρμόστηκε, το NMT, χρειάστηκε εκατοντάδες έως χιλιάδες ώρες για να εκπαιδεύσει από το μηδέν για κάθε ζεύγος γλωσσών, σε μεγάλο αριθμό CPU και GPU. Λάβετε υπόψη ότι η ωριαία χρέωση για την εκπαίδευση ενός προσαρμοσμένου μοντέλου μετάφρασης είναι προς το παρόν 76 $.

Ο Οδηγός για αρχάριους μετάφρασης AutoML εξηγεί τα βασικά στοιχεία για το τι μπορεί να κάνει η αυτόματη μετάφραση του Google Cloud και γιατί θα το χρησιμοποιούσατε. Ουσιαστικά, βελτιώνει ένα υπάρχον μοντέλο γενικής μετάφρασης για έναν εξειδικευμένο σκοπό. Δεν χρειάζεται να κάνετε εκπαίδευση για γενικός μετάφραση των εκατό περίπου γλωσσών που υποστηρίζει ήδη η Google, αλλά θα πρέπει να εκτελέσετε την εκμάθηση μεταφοράς αν θέλετε να δημιουργήσετε ένα δίκτυο μετάφρασης για ειδικευμένος λεξιλόγιο ή χρήση. Ένα παράδειγμα που αναφέρει η Google είναι η μετάφραση ευαίσθητων στο χρόνο οικονομικών εγγράφων σε πραγματικό χρόνο. Η μετάφραση γενικού σκοπού δεν θα χρησιμοποιεί πάντα τους σωστούς όρους τέχνης για χρηματοδότηση.

Η ρύθμιση της εκπαίδευσης για το Google Cloud AutoML Μετάφραση είναι μια διαδικασία πέντε βημάτων, όπως φαίνεται στα παρακάτω στιγμιότυπα οθόνης, μόλις ετοιμάσετε ένα αρχείο με ζεύγη προτάσεων. Χρησιμοποίησα τα 8.720 ζευγάρια Αγγλικής-Ισπανίας για προτροπές εφαρμογών που παρέχονται από την Google στη Γρήγορη εκκίνηση αυτόματης μετάφρασης, μορφοποιημένη ως αρχείο τιμών διαχωρισμένων με καρτέλες. Το Google Cloud AutoML Μετάφραση υποστηρίζει επίσης τη μορφή XML μετάφρασης μνήμης (TMX) που βασίζεται σε XML για ζεύγη προτάσεων.

Θα σημειώσετε ότι δεν υπάρχει επιλογή ελέγχου του υλικού (CPU, GPU, TPU και μνήμη) που χρησιμοποιείται για την εκτέλεση της εκπαίδευσης. Αυτό είναι σκόπιμο: Η εκπαίδευση θα χρησιμοποιήσει αυτό που χρειάζεται. Δεν υπάρχουν επίσης επιλογές για τον έλεγχο των επιπέδων νευρωνικών δικτύων που προστίθενται στο μοντέλο, τον αριθμό των εποχών που πρέπει να εκτελεστούν ή τα κριτήρια διακοπής.

Μόλις ολοκληρωθεί η εκπαίδευση του μοντέλου, μπορείτε να δείτε τη βελτίωση (αν όλα πάνε καλά) στη βαθμολογία BLEU πάνω από το βασικό μοντέλο και να δοκιμάσετε να κάνετε προβλέψεις με το μοντέλο. Αυτή η εκπαίδευση χρειάστηκε 0,9 ώρα (λιγότερο από το προβλεπόμενο) και κόστισε 68,34 $.

Φυσική γλώσσα του Google Cloud AutoML

Το Google Natural Language API λαμβάνει κείμενο και προβλέπει οντότητες, συναισθήματα, σύνταξη και κατηγορίες (από μια προκαθορισμένη λίστα). Εάν το πρόβλημα ταξινόμησης κειμένου δεν ταιριάζει σε κανένα από αυτά, μπορείτε να παρέχετε ένα σύνολο δηλώσεων με ετικέτα και να χρησιμοποιήσετε το Google Cloud AutoML Natural Language για να δημιουργήσετε έναν προσαρμοσμένο ταξινομητή.

Για να ρυθμίσετε το AutoML Natural Language για εκπαίδευση, πρέπει να προμηθευτείτε τα δεδομένα σας, να τα επισημάνετε, να τα προετοιμάσετε ως αρχείο CSV και να εκτελέσετε την εκπαίδευση. Μπορείτε επίσης να χρησιμοποιήσετε τη διεπαφή χρήστη της φυσικής γλώσσας AutoML για να ανεβάσετε και να επισημάνετε τα δεδομένα, εάν προτιμάτε.

Μόλις ολοκληρωθεί η εκπαίδευση του μοντέλου, μπορείτε να δείτε τον πίνακα ακριβείας, ανάκλησης και σύγχυσης του μοντέλου. Μπορείτε επίσης να προσαρμόσετε το όριο βαθμολογίας για την επιθυμητή αντιστάθμιση ακριβείας / ανάκλησης. Για να ελαχιστοποιήσετε τα ψεύτικα αρνητικά, βελτιστοποιήστε για ανάκληση. Για να ελαχιστοποιήσετε τα ψευδώς θετικά, βελτιστοποιήστε την ακρίβεια.

Αυτή η εκπαίδευση χρειάστηκε 3,63 ώρες (περίπου όπως είχε προβλεφθεί) και κόστισε 10,88 $.

Google Cloud AutoML Vision

Το Google Cloud Vision API ταξινομεί τις εικόνες σε χιλιάδες προκαθορισμένες κατηγορίες, ανιχνεύει μεμονωμένα αντικείμενα και πρόσωπα μέσα σε εικόνες και βρίσκει και διαβάζει έντυπες λέξεις που περιέχονται σε εικόνες. Το Google Cloud AutoML Vision σας επιτρέπει να ορίσετε και να εκπαιδεύσετε τη δική σας λίστα κατηγοριών. Ορισμένες εφαρμογές πραγματικής ζωής περιλαμβάνουν τον εντοπισμό ζημιών στις ανεμογεννήτριες από φωτογραφίες drone και την ταξινόμηση των ανακυκλώσιμων για τη διαχείριση των αποβλήτων.

Για να δημιουργήσετε ένα σύνολο δεδομένων Google Cloud AutoML Vision, πρέπει να δημιουργήσετε τουλάχιστον 100 εικόνες για κάθε κατηγορία και να τις επισημάνετε σε ένα αρχείο CSV. Όλες οι εικόνες και το αρχείο CSV πρέπει να βρίσκονται σε έναν κάδο Google Cloud Storage.

Ρύθμισα αυτήν την εκπαίδευση για μέγιστη ώρα, η οποία είναι δωρεάν για έως και 10 μοντέλα το μήνα. Με εξέπληξε ευχάριστα να δω καλά αποτελέσματα από τη δωρεάν προπόνηση και δεν με ενόχλησε να συνεχίσω την προπόνηση για να βελτιώσω την ακρίβεια και την ανάκληση.

Το Google Cloud AutoML παρέχει βολικές επιλογές για την εκτέλεση στοχευμένων μεταφράσεων, προσαρμοσμένης ταξινόμησης κειμένου και προσαρμοσμένης ταξινόμησης εικόνας. Καθένα από αυτά τα API λειτουργεί καλά αν του δώσετε δεδομένα με ακρίβεια με ετικέτα και απαιτεί πολύ λιγότερο χρόνο και δεξιότητα από το να δημιουργήσετε το δικό σας μοντέλο νευρωνικού δικτύου ή ακόμα και το δικό σας μοντέλο εκμάθησης μεταφοράς. Με το Google Cloud AutoML δημιουργείτε πραγματικά μοντέλα TensorFlow, χωρίς να γνωρίζετε απαραιτήτως τίποτα για τα TensorFlow, Python, αρχιτεκτονικές νευρωνικών δικτύων ή εκπαιδευτικό υλικό.

Υπάρχουν πολλοί τρόποι για να κάνετε λάθος την προετοιμασία των δεδομένων, αλλά ευτυχώς τα τρία API ελέγχουν όλα τα πιο συνηθισμένα σφάλματα, όπως το να έχετε πολύ λίγα ή πάρα πολλά παραδείγματα για οποιαδήποτε κατηγορία. Τα διαγνωστικά που εμφανίζονται μετά την προπόνηση σας δίνουν μια καλή ιδέα για το πόσο καλά λειτουργεί το μοντέλο σας και μπορείτε εύκολα να τροποποιήσετε τα μοντέλα προσθέτοντας περισσότερα δεδομένα εκπαίδευσης με ετικέτα και επαναλάβετε την εκπαίδευση.

Κόστος: Μετάφραση Google Cloud AutoML: Η εκπαίδευση κοστίζει 76,00 $ ανά ώρα, μετάφραση 80 $ ανά εκατομμύριο χαρακτήρες μετά τα πρώτα 500 χιλιάδες. Google Cloud AutoML Natural Language: Η εκπαίδευση κοστίζει 3,00 $ ανά ώρα, ταξινόμηση 5 $ ανά χίλιες εγγραφές κειμένου μετά τα πρώτα 30K. Google Cloud AutoML Vision: Η εκπαίδευση κοστίζει $ 20 ανά ώρα μετά την πρώτη ώρα, ταξινόμηση 3 $ ανά χίλιες εικόνες μετά τις πρώτες χιλιάδες.

Πλατφόρμα: Google Cloud Platform