Προγραμματισμός

Πώς να επιλέξετε μια πλατφόρμα ανάλυσης δεδομένων

Είτε έχετε αρμοδιότητες στην ανάπτυξη λογισμικού, υπολογιστές, συστήματα, σύννεφα, αυτοματοποίηση δοκιμών, αξιοπιστία ιστότοπου, κορυφαίες ομάδες scrum, infosec ή άλλους τομείς τεχνολογίας πληροφοριών, θα έχετε αυξανόμενες ευκαιρίες και απαιτήσεις για εργασία με δεδομένα, αναλυτικά στοιχεία και μηχανική μάθηση .

Tech Spotlight: Analytics

  • Πώς να επιλέξετε μια πλατφόρμα ανάλυσης δεδομένων ()
  • 6 βέλτιστες πρακτικές για οπτικοποίηση επιχειρηματικών δεδομένων (Computerworld)
  • Αναλυτικά στοιχεία υγειονομικής περίθαλψης: 4 ιστορίες επιτυχίας (CIO)
  • SD-WAN και analytics: Ένας γάμος που έγινε για το νέο κανονικό (Network World)
  • Πώς να προστατέψετε τους αλγόριθμους ως πνευματική ιδιοκτησία (CSO)

Η έκθεσή σας στα αναλυτικά στοιχεία μπορεί να προέρχεται από δεδομένα πληροφορικής, όπως η ανάπτυξη μετρήσεων και πληροφοριών από ευέλικτες, υπολογιστές ή μετρήσεις ιστότοπου. Δεν υπάρχει καλύτερος τρόπος για να μάθετε τις βασικές δεξιότητες και εργαλεία σχετικά με τα δεδομένα, τα αναλυτικά στοιχεία και τη μηχανική εκμάθηση από το να τα εφαρμόσετε σε δεδομένα που γνωρίζετε και τα οποία μπορείτε να ορίσετε για πληροφορίες για την προώθηση ενεργειών.

Τα πράγματα γίνονται λίγο πιο περίπλοκα μόλις διαχωρίσετε τον κόσμο των δεδομένων πληροφορικής και παρέχετε υπηρεσίες σε ομάδες επιστημόνων δεδομένων, επιστήμονες δεδομένων πολιτών και άλλους επιχειρηματικούς αναλυτές που εκτελούν οπτικοποίηση δεδομένων, αναλυτικά στοιχεία και μηχανική μάθηση.

Πρώτον, τα δεδομένα πρέπει να φορτωθούν και να καθαριστούν. Στη συνέχεια, ανάλογα με τον όγκο, την ποικιλία και την ταχύτητα των δεδομένων, είναι πιθανό να συναντήσετε πολλές βάσεις δεδομένων back-end και τεχνολογίες δεδομένων cloud. Τέλος, τα τελευταία χρόνια, αυτό που αποτελούσε επιλογή ανάμεσα στα εργαλεία επιχειρηματικής ευφυΐας και οπτικοποίησης δεδομένων έχει μετατραπεί σε ένα σύνθετο πλέγμα πλατφορμών ανάλυσης πλήρους κύκλου ζωής και πλατφόρμων μηχανικής μάθησης.

Η σημασία της ανάλυσης και της μηχανικής μάθησης αυξάνει τις ευθύνες της πληροφορικής σε διάφορους τομείς. Για παράδειγμα:

  • Το IT παρέχει συχνά υπηρεσίες σε όλες τις ενσωματώσεις δεδομένων, βάσεις δεδομένων back-end και πλατφόρμες ανάλυσης.
  • Οι ομάδες Devops συχνά αναπτύσσουν και κλιμακώνουν την υποδομή δεδομένων για να επιτρέψουν τον πειραματισμό σε μοντέλα μηχανικής μάθησης και στη συνέχεια να υποστηρίξουν την επεξεργασία δεδομένων παραγωγής.
  • Οι ομάδες λειτουργιών δικτύου δημιουργούν ασφαλείς συνδέσεις μεταξύ εργαλείων ανάλυσης SaaS, πολλαπλών ηχείων και κέντρων δεδομένων.
  • Οι ομάδες διαχείρισης υπηρεσιών πληροφορικής ανταποκρίνονται σε αιτήματα και συμβάντα υπηρεσιών δεδομένων και αναλυτικών στοιχείων.
  • Η Infosec επιβλέπει τη διακυβέρνηση και τις εφαρμογές ασφάλειας δεδομένων.
  • Οι προγραμματιστές ενσωματώνουν αναλυτικά και μοντέλα μηχανικής μάθησης σε εφαρμογές.

Δεδομένης της έκρηξης των αναλυτικών στοιχείων, των πλατφορμών δεδομένων cloud και των δυνατοτήτων μηχανικής εκμάθησης, εδώ είναι ένα πρωταρχικό στοιχείο για την καλύτερη κατανόηση του κύκλου ζωής των αναλυτικών στοιχείων, από την ολοκλήρωση και τον καθαρισμό δεδομένων, μέχρι τις βάσεις δεδομένων και τα μοντέλα, τις βάσεις δεδομένων, τις πλατφόρμες δεδομένων και τις προσφορές αναλυτικών στοιχείων.

Το Analytics ξεκινά με ενοποίηση δεδομένων και καθαρισμό δεδομένων

Προτού αναλυτές, επιστήμονες δεδομένων πολιτών ή ομάδες επιστημών δεδομένων μπορούν να πραγματοποιήσουν αναλυτικά στοιχεία, οι απαιτούμενες πηγές δεδομένων πρέπει να είναι προσβάσιμες σε αυτούς στις πλατφόρμες οπτικοποίησης και ανάλυσης δεδομένων.

Για να ξεκινήσετε, ενδέχεται να υπάρχουν επιχειρηματικές απαιτήσεις για την ενσωμάτωση δεδομένων από πολλά εταιρικά συστήματα, εξαγωγή δεδομένων από εφαρμογές SaaS ή ροή δεδομένων από αισθητήρες IoT και άλλες πηγές δεδομένων σε πραγματικό χρόνο.

Αυτά είναι όλα τα βήματα για τη συλλογή, φόρτωση και ενσωμάτωση δεδομένων για αναλυτικά στοιχεία και μηχανική μάθηση. Ανάλογα με την πολυπλοκότητα των δεδομένων και των ζητημάτων ποιότητας των δεδομένων, υπάρχουν ευκαιρίες για συμμετοχή σε dataops, καταλογογράφηση δεδομένων, διαχείριση δεδομένων και άλλες πρωτοβουλίες διακυβέρνησης δεδομένων.

Όλοι γνωρίζουμε τη φράση, «σκουπίδια μέσα, σκουπίδια έξω». Οι αναλυτές πρέπει να ανησυχούν για την ποιότητα των δεδομένων τους και οι επιστήμονες δεδομένων πρέπει να ανησυχούν για τις προκαταλήψεις στα μοντέλα μηχανικής εκμάθησης. Επίσης, η επικαιρότητα της ενσωμάτωσης νέων δεδομένων είναι ζωτικής σημασίας για τις επιχειρήσεις που θέλουν να γίνουν πιο βασισμένες σε δεδομένα σε πραγματικό χρόνο. Για αυτούς τους λόγους, οι αγωγοί που φορτώνουν και επεξεργάζονται δεδομένα είναι εξαιρετικά σημαντικοί στην ανάλυση και τη μηχανική μάθηση.

Βάσεις δεδομένων και πλατφόρμες δεδομένων για όλους τους τύπους προκλήσεων διαχείρισης δεδομένων

Η φόρτωση και η επεξεργασία δεδομένων είναι ένα απαραίτητο πρώτο βήμα, αλλά στη συνέχεια τα πράγματα γίνονται πιο περίπλοκα όταν επιλέγετε βέλτιστες βάσεις δεδομένων. Οι σημερινές επιλογές περιλαμβάνουν εταιρικές αποθήκες δεδομένων, λίμνες δεδομένων, μεγάλες πλατφόρμες επεξεργασίας δεδομένων και εξειδικευμένες βάσεις δεδομένων NoSQL, γράφημα, τιμή-κλειδί, έγγραφο και στήλες. Για την υποστήριξη μεγάλης κλίμακας αποθήκευσης δεδομένων και αναλυτικών στοιχείων, υπάρχουν πλατφόρμες όπως Snowflake, Redshift, BigQuery, Vertica και Greenplum. Τέλος, υπάρχουν οι μεγάλες πλατφόρμες δεδομένων, συμπεριλαμβανομένων των Spark και Hadoop.

Οι μεγάλες επιχειρήσεις είναι πιθανό να έχουν πολλά αποθετήρια δεδομένων και να χρησιμοποιούν πλατφόρμες δεδομένων cloud όπως η πλατφόρμα δεδομένων Cloudera ή η πλατφόρμα δεδομένων MapR ή πλατφόρμες ενορχηστρώσεων δεδομένων όπως το InfoWorks DataFoundy, για να κάνουν όλα αυτά τα αποθετήρια προσβάσιμα για αναλυτικά στοιχεία.

Τα μεγάλα δημόσια σύννεφα, συμπεριλαμβανομένων των AWS, GCP και Azure, έχουν όλες πλατφόρμες και υπηρεσίες διαχείρισης δεδομένων για να τα διαβάσουν. Για παράδειγμα, το Azure Synapse Analytics είναι η αποθήκη δεδομένων SQL της Microsoft στο cloud, ενώ το Azure Cosmos DB παρέχει διεπαφές σε πολλά καταστήματα δεδομένων NoSQL, συμπεριλαμβανομένων των Cassandra (στήλη δεδομένων), MongoDB (δεδομένα κλειδιού-τιμής και εγγράφου) και Gremlin (δεδομένα γραφήματος) .

Οι λίμνες δεδομένων είναι δημοφιλείς αποβάθρες φόρτωσης για τη συγκέντρωση μη δομημένων δεδομένων για γρήγορη ανάλυση και μπορεί κανείς να επιλέξει από το Azure Data Lake, το Amazon S3 ή το Google Cloud Storage για να εξυπηρετήσει αυτόν τον σκοπό. Για την επεξεργασία μεγάλων δεδομένων, τα σύννεφα AWS, GCP και Azure έχουν επίσης προσφορές Spark και Hadoop.

Οι πλατφόρμες του Analytics στοχεύουν τη μηχανική μάθηση και τη συνεργασία

Με τα δεδομένα που φορτώνονται, καθαρίζονται και αποθηκεύονται, οι επιστήμονες και οι αναλυτές δεδομένων μπορούν να αρχίσουν να εκτελούν αναλύσεις και μηχανική μάθηση. Οι οργανισμοί έχουν πολλές επιλογές ανάλογα με τους τύπους αναλυτικών στοιχείων, τις δεξιότητες της ομάδας αναλυτικών στοιχείων που εκτελούν το έργο και τη δομή των υποκείμενων δεδομένων.

Το Analytics μπορεί να εκτελεστεί σε εργαλεία οπτικοποίησης δεδομένων αυτοεξυπηρέτησης όπως το Tableau και το Microsoft Power BI. Και τα δύο αυτά εργαλεία στοχεύουν σε επιστήμονες δεδομένων πολιτών και εκθέτουν οπτικοποιήσεις, υπολογισμούς και βασικές αναλύσεις. Αυτά τα εργαλεία υποστηρίζουν βασική ενσωμάτωση δεδομένων και αναδιάρθρωση δεδομένων, αλλά πιο περίπλοκη διαχείριση δεδομένων συμβαίνει συχνά πριν από τα βήματα ανάλυσης. Το Tableau Data Prep και το Azure Data Factory είναι τα συνοδευτικά εργαλεία που βοηθούν στην ενσωμάτωση και τη μετατροπή δεδομένων.

Οι ομάδες του Analytics που θέλουν να αυτοματοποιήσουν κάτι περισσότερο από την ενοποίηση δεδομένων και την προετοιμασία μπορούν να αναζητήσουν πλατφόρμες όπως το Alteryx Analytics Process Automation. Αυτή η ολοκληρωμένη, συνεργατική πλατφόρμα συνδέει προγραμματιστές, αναλυτές, επιστήμονες δεδομένων πολιτών και επιστήμονες δεδομένων με αυτοματοποίηση ροής εργασίας και δυνατότητα επεξεργασίας δεδομένων αυτοεξυπηρέτησης, αναλυτικών στοιχείων και επεξεργασίας μηχανικής μάθησης.

Ο Alan Jacobson, επικεφαλής αναλυτικών στοιχείων και υπεύθυνος δεδομένων στο Alteryx, εξηγεί: «Η εμφάνιση του αυτοματισμού αναλυτικής διαδικασίας (APA) ως κατηγορία υπογραμμίζει μια νέα προσδοκία για κάθε εργαζόμενο σε έναν οργανισμό να είναι εργαζόμενος δεδομένων. Οι προγραμματιστές πληροφορικής δεν αποτελούν εξαίρεση και η επεκτασιμότητα της πλατφόρμας Alteryx APA είναι ιδιαίτερα χρήσιμη για αυτούς τους εργαζόμενους στη γνώση. "

Υπάρχουν πολλά εργαλεία και πλατφόρμες που στοχεύουν επιστήμονες δεδομένων που στοχεύουν να τα καταστήσουν πιο παραγωγικά με τεχνολογίες όπως η Python και η R, ενώ απλοποιούν πολλά από τα βήματα λειτουργίας και υποδομής. Για παράδειγμα, το Databricks είναι μια λειτουργική πλατφόρμα επιστήμης δεδομένων που επιτρέπει την ανάπτυξη αλγορίθμων σε Apache Spark και TensorFlow, ενώ αυτοδιαχειρίζεται τις συστάδες υπολογιστών στο AWS ή στο Azure cloud.

Τώρα ορισμένες πλατφόρμες όπως το SAS Viya συνδυάζουν την προετοιμασία δεδομένων, τα αναλυτικά στοιχεία, την πρόβλεψη, τη μηχανική μάθηση, τα αναλυτικά κείμενα και τη διαχείριση μοντέλων μηχανικής μάθησης σε μια πλατφόρμα ενός μοντέλου. Η SAS λειτουργεί αναλυτικά και στοχεύει επιστήμονες δεδομένων, επιχειρηματικούς αναλυτές, προγραμματιστές και στελέχη με μια πλατφόρμα συνεργασίας από άκρο σε άκρο.

Ο David Duling, διευθυντής της έρευνας και ανάπτυξης της διαχείρισης αποφάσεων στο SAS, λέει: «Βλέπουμε τα μοντέλα ως την πρακτική της δημιουργίας ενός επαναλαμβανόμενου, ελεγχόμενου αγωγού λειτουργιών για την ανάπτυξη όλων των αναλυτικών στοιχείων, συμπεριλαμβανομένων των μοντέλων AI και ML, σε λειτουργικά συστήματα. Ως μέρος των μοντέλων, μπορούμε να χρησιμοποιήσουμε σύγχρονες πρακτικές devops για διαχείριση κώδικα, δοκιμές και παρακολούθηση. Αυτό βοηθά στη βελτίωση της συχνότητας και της αξιοπιστίας της ανάπτυξης μοντέλου, η οποία με τη σειρά της βελτιώνει την ευελιξία των επιχειρηματικών διαδικασιών που βασίζονται σε αυτά τα μοντέλα. "

Η Dataiku είναι μια άλλη πλατφόρμα που προσπαθεί να φέρει την προετοιμασία δεδομένων, τα αναλυτικά στοιχεία και τη μηχανική μάθηση σε αναπτυσσόμενες ομάδες επιστήμης δεδομένων και τους συνεργάτες τους. Η Dataiku διαθέτει ένα οπτικό μοντέλο προγραμματισμού που επιτρέπει τη συνεργασία και σημειωματάρια κώδικα για πιο προηγμένους προγραμματιστές SQL και Python.

Άλλες πλατφόρμες αναλυτικών στοιχείων και μηχανικής μάθησης από κορυφαίους προμηθευτές εταιρικού λογισμικού στοχεύουν στη μεταφορά δυνατοτήτων ανάλυσης στο κέντρο δεδομένων και στις πηγές δεδομένων cloud. Για παράδειγμα, το Oracle Analytics Cloud και το SAP Analytics Cloud στοχεύουν τόσο στη συγκέντρωση πληροφοριών όσο και στην αυτοματοποίηση πληροφοριών για την ενεργοποίηση αποφάσεων από άκρο σε άκρο.

Επιλογή πλατφόρμας ανάλυσης δεδομένων

Η επιλογή των εργαλείων ενοποίησης δεδομένων, αποθήκευσης και αναλυτικών στοιχείων ήταν πιο απλή πριν από την άνοδο των μεγάλων δεδομένων, της μηχανικής μάθησης και της διαχείρισης δεδομένων. Σήμερα, υπάρχει ένας συνδυασμός ορολογίας, δυνατοτήτων πλατφόρμας, επιχειρησιακών απαιτήσεων, αναγκών διακυβέρνησης και στοχευμένων προσωπικών δεδομένων χρήστη που καθιστούν τις πλατφόρμες επιλογής πιο περίπλοκες, ειδικά επειδή πολλοί προμηθευτές υποστηρίζουν παραδείγματα πολλαπλών χρήσεων.

Οι επιχειρήσεις διαφέρουν ως προς τις απαιτήσεις και τις ανάγκες αναλυτικών στοιχείων, αλλά πρέπει να αναζητήσουν νέες πλατφόρμες από το πλεονέκτημα του τι υπάρχει ήδη. Για παράδειγμα:

  • Εταιρείες που είχαν επιτυχία με προγράμματα επιστήμης δεδομένων πολιτών και που διαθέτουν ήδη εργαλεία οπτικοποίησης δεδομένων μπορεί να θέλουν να επεκτείνουν αυτό το πρόγραμμα με αυτοματοποιημένη διαδικασία ανάλυσης ή τεχνολογίες προετοιμασίας δεδομένων.
  • Οι επιχειρήσεις που θέλουν μια αλυσίδα εργαλείων που επιτρέπει στους επιστήμονες δεδομένων που εργάζονται σε διαφορετικά μέρη της επιχείρησης, μπορούν να εξετάσουν τις πλατφόρμες ανάλυσης από άκρο σε άκρο με δυνατότητες μοντέλων.
  • Οι οργανισμοί με πολλαπλές, διαφορετικές πλατφόρμες δεδομένων back-end μπορούν να επωφεληθούν από τις πλατφόρμες δεδομένων cloud για καταλογογράφηση και κεντρική διαχείριση αυτών.
  • Οι εταιρείες που τυποποιούν όλες ή τις περισσότερες δυνατότητες δεδομένων σε έναν κοινό προμηθευτή cloud πρέπει να διερευνήσουν την ενσωμάτωση δεδομένων, τη διαχείριση δεδομένων και τις πλατφόρμες ανάλυσης δεδομένων που προσφέρονται.

Με την ανάλυση και τη μηχανική μάθηση να αποτελούν σημαντική βασική ικανότητα, οι τεχνολόγοι θα πρέπει να εξετάσουν το ενδεχόμενο εμβάθυνσης της κατανόησης των διαθέσιμων πλατφορμών και των δυνατοτήτων τους. Η ισχύς και η αξία των πλατφορμών ανάλυσης θα αυξηθούν μόνο, όπως και η επιρροή τους σε όλη την επιχείρηση.