Προγραμματισμός

MLops: Η άνοδος των λειτουργιών μηχανικής μάθησης

Όσο δύσκολο είναι για τους επιστήμονες δεδομένων να επισημάνουν δεδομένα και να αναπτύξουν ακριβή μοντέλα μηχανικής μάθησης, η διαχείριση μοντέλων στην παραγωγή μπορεί να είναι ακόμη πιο τρομακτική. Η αναγνώριση της μετατόπισης μοντέλων, η επανεκπαίδευση μοντέλων με την ενημέρωση συνόλων δεδομένων, η βελτίωση της απόδοσης και η διατήρηση των υποκείμενων πλατφορμών τεχνολογίας είναι όλες σημαντικές πρακτικές επιστήμης δεδομένων. Χωρίς αυτούς τους κλάδους, τα μοντέλα μπορούν να παράγουν λανθασμένα αποτελέσματα που επηρεάζουν σημαντικά τις επιχειρήσεις.

Η ανάπτυξη μοντέλων έτοιμων για παραγωγή δεν είναι εύκολο επίτευγμα. Σύμφωνα με μια μελέτη μηχανικής μάθησης, το 55 τοις εκατό των εταιρειών δεν είχε αναπτύξει μοντέλα στην παραγωγή και το 40 τοις εκατό ή περισσότερο απαιτούν περισσότερες από 30 ημέρες για να αναπτύξουν ένα μοντέλο. Η επιτυχία φέρνει νέες προκλήσεις και το 41% ​​των ερωτηθέντων αναγνωρίζουν τη δυσκολία εκτύπωσης μοντέλων μηχανικής μάθησης και αναπαραγωγιμότητας.

Το μάθημα εδώ είναι ότι αναδύονται νέα εμπόδια μόλις αναπτυχθούν μοντέλα μηχανικής μάθησης στην παραγωγή και χρησιμοποιούνται σε επιχειρηματικές διαδικασίες.

Η διαχείριση μοντέλων και οι λειτουργίες ήταν κάποτε προκλήσεις για τις πιο προηγμένες ομάδες επιστήμης δεδομένων. Τώρα οι εργασίες περιλαμβάνουν παρακολούθηση μοντέλων μηχανικής εκμάθησης παραγωγής για μετατόπιση, αυτοματοποίηση της επανεκπαίδευσης μοντέλων, ειδοποίηση όταν η μετατόπιση είναι σημαντική και αναγνώριση πότε τα μοντέλα απαιτούν αναβαθμίσεις. Καθώς περισσότεροι οργανισμοί επενδύουν στη μηχανική μάθηση, υπάρχει μεγαλύτερη ανάγκη ευαισθητοποίησης σχετικά με τη διαχείριση μοντέλων και τις λειτουργίες.

Τα καλά νέα είναι πλατφόρμες και βιβλιοθήκες όπως MLFlow ανοιχτού κώδικα και DVC, καθώς και εμπορικά εργαλεία από την Alteryx, Databricks, Dataiku, SAS, DataRobot, ModelOp και άλλα διευκολύνουν τη διαχείριση μοντέλων και τις λειτουργίες για ομάδες επιστημών δεδομένων. Οι δημόσιοι πάροχοι cloud μοιράζονται επίσης πρακτικές όπως η εφαρμογή MLops με Azure Machine Learning.

Υπάρχουν πολλές ομοιότητες μεταξύ διαχείρισης μοντέλων και devops. Πολλοί αναφέρονται στη διαχείριση μοντέλων και τις λειτουργίες ως MLops και το ορίζουν ως την κουλτούρα, τις πρακτικές και τις τεχνολογίες που απαιτούνται για την ανάπτυξη και τη συντήρηση μοντέλων μηχανικής μάθησης.

Κατανόηση της διαχείρισης και των λειτουργιών του μοντέλου

Για να κατανοήσετε καλύτερα τη διαχείριση μοντέλων και τις λειτουργίες, σκεφτείτε την ένωση πρακτικών ανάπτυξης λογισμικού με επιστημονικές μεθόδους.

Ως προγραμματιστής λογισμικού, γνωρίζετε ότι η ολοκλήρωση της έκδοσης μιας εφαρμογής και η ανάπτυξή της στην παραγωγή δεν είναι ασήμαντη. Αλλά μια ακόμη μεγαλύτερη πρόκληση ξεκινά μόλις η εφαρμογή φτάσει στην παραγωγή. Οι τελικοί χρήστες αναμένουν τακτικές βελτιώσεις και η υποκείμενη υποδομή, πλατφόρμες και βιβλιοθήκες απαιτεί ενημέρωση κώδικα και συντήρηση.

Τώρα ας στραφούμε στον επιστημονικό κόσμο όπου οι ερωτήσεις οδηγούν σε πολλαπλές υποθέσεις και επαναλαμβανόμενο πειραματισμό. Μάθατε στην τάξη της επιστήμης να διατηρείτε ένα αρχείο καταγραφής αυτών των πειραμάτων και να παρακολουθείτε το ταξίδι της τροποποίησης διαφορετικών μεταβλητών από το ένα πείραμα στο άλλο. Ο πειραματισμός οδηγεί σε βελτιωμένα αποτελέσματα και η τεκμηρίωση του ταξιδιού βοηθάει να πείσουμε τους συναδέλφους ότι έχετε διερευνήσει όλες τις μεταβλητές και ότι τα αποτελέσματα είναι αναπαραγώγιμα.

Οι επιστήμονες δεδομένων που πειραματίζονται με μοντέλα μηχανικής μάθησης πρέπει να ενσωματώνουν κλάδους τόσο από την ανάπτυξη λογισμικού όσο και από την επιστημονική έρευνα. Τα μοντέλα μηχανικής εκμάθησης είναι κώδικας λογισμικού που αναπτύχθηκε σε γλώσσες όπως Python και R, κατασκευασμένες με βιβλιοθήκες TensorFlow, PyTorch ή άλλες μηχανικές μηχανικές εκδόσεις, που εκτελούνται σε πλατφόρμες όπως το Apache Spark και αναπτύσσονται σε υποδομή cloud. Η ανάπτυξη και υποστήριξη μοντέλων μηχανικής μάθησης απαιτεί σημαντικό πειραματισμό και βελτιστοποίηση, και οι επιστήμονες δεδομένων πρέπει να αποδείξουν την ακρίβεια των μοντέλων τους.

Όπως και η ανάπτυξη λογισμικού, τα μοντέλα μηχανικής μάθησης χρειάζονται συνεχή συντήρηση και βελτιώσεις. Μερικά από αυτά προέρχονται από τη διατήρηση του κώδικα, τις βιβλιοθήκες, τις πλατφόρμες και την υποδομή, αλλά οι επιστήμονες δεδομένων πρέπει επίσης να ανησυχούν για το drift του μοντέλου. Με απλούς όρους, η μετατόπιση του μοντέλου συμβαίνει καθώς τα νέα δεδομένα καθίστανται διαθέσιμα και οι προβλέψεις, ομάδες, τμηματοποιήσεις και προτάσεις που παρέχονται από μοντέλα μηχανικής μάθησης αποκλίνουν από τα αναμενόμενα αποτελέσματα.

Η επιτυχημένη διαχείριση μοντέλων ξεκινά με την ανάπτυξη βέλτιστων μοντέλων

Μίλησα με τον Alan Jacobson, επικεφαλής αξιωματικών δεδομένων και αναλυτικών στοιχείων στο Alteryx, σχετικά με τον τρόπο επιτυχίας των οργανισμών και την ανάπτυξη μοντέλων μηχανικής μάθησης. «Για την απλοποίηση της ανάπτυξης μοντέλων, η πρώτη πρόκληση για τους περισσότερους επιστήμονες δεδομένων είναι η εξασφάλιση ισχυρής διαμόρφωσης προβλημάτων. Πολλά σύνθετα επιχειρηματικά προβλήματα μπορούν να επιλυθούν με πολύ απλά αναλυτικά στοιχεία, αλλά αυτό απαιτεί πρώτα τη δομή του προβλήματος με τρόπο ώστε τα δεδομένα και τα αναλυτικά στοιχεία να μπορούν να βοηθήσουν στην απάντηση στην ερώτηση. Ακόμη και όταν μοχλεύουν πολύπλοκα μοντέλα, το πιο δύσκολο μέρος της διαδικασίας είναι συνήθως η δομή των δεδομένων και η διασφάλιση ότι χρησιμοποιούνται οι σωστές είσοδοι είναι στα σωστά επίπεδα ποιότητας. "

Συμφωνώ με τον Jacobson. Πάρα πολλές υλοποιήσεις δεδομένων και τεχνολογίας ξεκινούν με ανεπαρκείς ή καθόλου δηλώσεις προβλημάτων και με ανεπαρκή χρόνο, εργαλεία και εξειδικευμένες γνώσεις για την εξασφάλιση επαρκούς ποιότητας δεδομένων. Οι οργανισμοί πρέπει πρώτα να ξεκινήσουν με την υποβολή έξυπνων ερωτήσεων σχετικά με τα μεγάλα δεδομένα, την επένδυση σε dataops και, στη συνέχεια, χρησιμοποιώντας ευέλικτες μεθοδολογίες στην επιστήμη των δεδομένων για να επαναλάβουν λύσεις.

Παρακολούθηση μοντέλων μηχανικής εκμάθησης για μετατόπιση μοντέλου

Η ακριβής περιγραφή του προβλήματος είναι ζωτικής σημασίας για τη συνεχή διαχείριση και παρακολούθηση μοντέλων στην παραγωγή. Ο Τζέιμπσον συνέχισε να εξηγεί: «Τα μοντέλα παρακολούθησης είναι μια σημαντική διαδικασία, αλλά για να το κάνουμε σωστά απαιτείται μια ισχυρή κατανόηση των στόχων και των πιθανών αρνητικών επιπτώσεων που δικαιολογούν την παρακολούθηση. Ενώ οι περισσότεροι συζητούν την απόδοση του μοντέλου παρακολούθησης και αλλάζουν με την πάροδο του χρόνου, αυτό που είναι πιο σημαντικό και απαιτητικό σε αυτόν τον χώρο είναι η ανάλυση των ακούσιων συνεπειών. "

Ένας εύκολος τρόπος για να κατανοήσετε την παραμόρφωση των μοντέλων και τις ακούσιες συνέπειες είναι να εξετάσετε τον αντίκτυπο του COVID-19 στα μοντέλα μηχανικής μάθησης που αναπτύχθηκαν με δεδομένα εκπαίδευσης πριν από την πανδημία. Τα μοντέλα μηχανικής εκμάθησης που βασίζονται σε ανθρώπινες συμπεριφορές, επεξεργασία φυσικής γλώσσας, μοντέλα ζήτησης καταναλωτών ή μοτίβα απάτης έχουν επηρεαστεί από την αλλαγή συμπεριφοράς κατά τη διάρκεια της πανδημίας που ταιριάζει με τα μοντέλα AI.

Οι πάροχοι τεχνολογίας απελευθερώνουν νέες δυνατότητες MLops καθώς περισσότεροι οργανισμοί αποκτούν αξία και ωριμάζουν τα προγράμματα επιστήμης δεδομένων. Για παράδειγμα, η SAS εισήγαγε έναν δείκτη συνεισφοράς χαρακτηριστικών που βοηθά τους επιστήμονες δεδομένων να αξιολογήσουν μοντέλα χωρίς μεταβλητή στόχου. Η Cloudera ανακοίνωσε πρόσφατα μια Υπηρεσία Παρακολούθησης ML που καταγράφει μετρήσεις τεχνικής απόδοσης και προβλέψεις μοντέλου παρακολούθησης.

Το MLops ασχολείται επίσης με τον αυτοματισμό και τη συνεργασία

Μεταξύ της ανάπτυξης ενός μοντέλου μηχανικής μάθησης και της παρακολούθησής του στην παραγωγή υπάρχουν επιπλέον εργαλεία, διαδικασίες, συνεργασίες και δυνατότητες που επιτρέπουν την εξάπλωση των πρακτικών της επιστήμης δεδομένων. Ορισμένες από τις πρακτικές αυτοματοποίησης και υποδομής είναι ανάλογες με τους υπολογιστές και περιλαμβάνουν υποδομή ως κώδικα και CI / CD (συνεχής ολοκλήρωση / συνεχής ανάπτυξη) για μοντέλα μηχανικής μάθησης. Άλλοι περιλαμβάνουν δυνατότητες προγραμματιστών όπως μοντέλα εκδόσεων με τα υποκείμενα εκπαιδευτικά τους δεδομένα και αναζήτηση στο αποθετήριο μοντέλων.

Οι πιο ενδιαφέρουσες πτυχές του MLops φέρνουν επιστημονική μεθοδολογία και συνεργασία σε ομάδες επιστήμης δεδομένων. Για παράδειγμα, το DataRobot επιτρέπει ένα μοντέλο πρωταθλητή-αμφισβητία που μπορεί να τρέξει πολλά πειραματικά μοντέλα παράλληλα για να αμφισβητήσει την ακρίβεια της έκδοσης παραγωγής. Η SAS θέλει να βοηθήσει τους επιστήμονες δεδομένων να βελτιώσουν την ταχύτητα στις αγορές και την ποιότητα των δεδομένων. Η Alteryx παρουσίασε πρόσφατα το Analytics Hub για να βοηθήσει στη συνεργασία και την κοινή χρήση μεταξύ ομάδων επιστημών δεδομένων.

Όλα αυτά δείχνουν ότι η διαχείριση και η κλιμάκωση της μηχανικής μάθησης απαιτεί πολύ περισσότερη πειθαρχία και πρακτική παρά απλώς ζητώντας από έναν επιστήμονα δεδομένων να κωδικοποιήσει και να δοκιμάσει ένα τυχαίο δάσος, k-μέσα ή συνελικτικό νευρωνικό δίκτυο στην Python.

$config[zx-auto] not found$config[zx-overlay] not found