Προγραμματισμός

4 λόγοι αποτυχίας μεγάλων έργων δεδομένων και 4 τρόποι επιτυχίας

Τα μεγάλα έργα δεδομένων είναι, καλά, μεγάλα σε μέγεθος και εύρος, συχνά πολύ φιλόδοξα, και πολύ συχνά, πλήρεις αποτυχίες. Το 2016, ο Gartner υπολόγισε ότι το 60% των μεγάλων έργων δεδομένων απέτυχε. Ένα χρόνο αργότερα, ο αναλυτής της Gartner Nick Heudecker είπε ότι η εταιρεία του ήταν «πολύ συντηρητική» με την εκτίμηση του 60 τοις εκατό και έβαλε το ποσοστό αποτυχίας στο 85%. Σήμερα, λέει ότι δεν έχει αλλάξει τίποτα.

Ο Gartner δεν είναι μόνος σε αυτήν την αξιολόγηση. Ο εκτελεστικός διευθυντής της Microsoft και (μέχρι πρόσφατα) ο διευθυντής της Snowflake Computing, Bob Muglia, δήλωσε στον ιστότοπο αναλυτικών στοιχείων Datanami, «Δεν μπορώ να βρω έναν ευχαριστημένο πελάτη Hadoop. Είναι τόσο απλό. … Ο αριθμός των πελατών που έχουν πραγματικά εξημερώσει το Hadoop είναι πιθανώς μικρότερος από 20 και μπορεί να είναι λιγότερος από δέκα. Αυτά είναι απλά καρύδια δεδομένου του πόσο καιρό αυτό το προϊόν, αυτή η τεχνολογία ήταν στην αγορά και πόση ενέργεια της γενικής βιομηχανίας έχει εισέλθει σε αυτό. " Το Hadoop, φυσικά, είναι ο κινητήρας που ξεκίνησε τη μεγάλη μανία δεδομένων.

Άλλοι άνθρωποι εξοικειωμένοι με μεγάλα δεδομένα λένε επίσης ότι το πρόβλημα παραμένει πραγματικό, σοβαρό και όχι εξ ολοκλήρου από τεχνολογία. Στην πραγματικότητα, η τεχνολογία είναι μια μικρή αιτία αποτυχίας σε σχέση με τους πραγματικούς ενόχους. Εδώ είναι οι τέσσερις βασικοί λόγοι που αποτυγχάνουν τα μεγάλα έργα δεδομένων και τέσσερις βασικοί τρόποι με τους οποίους μπορείτε να πετύχετε.

Μεγάλο πρόβλημα δεδομένων Νο. 1: Κακή ενοποίηση

Ο Heudecker είπε ότι υπάρχει ένα μεγάλο τεχνολογικό πρόβλημα πίσω από μεγάλες αποτυχίες δεδομένων, και αυτό είναι η ενσωμάτωση σιγασμένων δεδομένων από πολλές πηγές για να πάρει τις πληροφορίες που επιθυμούν οι εταιρείες. Η δημιουργία συνδέσεων με σιγασμένα, παλιά συστήματα δεν είναι απλά εύκολη. Το κόστος ενοποίησης είναι πέντε έως δέκα φορές το κόστος του λογισμικού, είπε. «Το μεγαλύτερο πρόβλημα είναι η απλή ενσωμάτωση: Πώς συνδέετε πολλές πηγές δεδομένων μαζί για να έχετε κάποιο αποτέλεσμα; Πολλά πηγαίνετε στη διαδρομή της λίμνης δεδομένων και νομίζω ότι αν συνδέσω τα πάντα με κάτι μαγικό θα συμβεί. Αυτό δεν συμβαίνει », είπε.

Τα δεδομένα σίγασης είναι μέρος του προβλήματος. Οι πελάτες του έχουν πει ότι έσυραν δεδομένα από συστήματα εγγραφής σε ένα κοινό περιβάλλον όπως μια λίμνη δεδομένων και δεν μπορούσαν να καταλάβουν τι σημαίνουν οι τιμές. "Όταν τραβάτε δεδομένα σε μια λίμνη δεδομένων, πώς ξέρετε τι σημαίνει αυτός ο αριθμός 3;" Ρώτησε ο Heudecker.

Επειδή εργάζονται σε σιλό ή δημιουργούν λίμνες δεδομένων που είναι απλά βάλτοι δεδομένων, απλώς ξύνουν την επιφάνεια του τι θα μπορούσαν να επιτύχουν, δήλωσε ο Alan Morrison, ανώτερος ερευνητής της PwC. «Δεν καταλαβαίνουν όλες τις σχέσεις σε δεδομένα που πρέπει να εξορύσσονται ή να συνάγονται και να γίνονται σαφή, ώστε οι μηχανές να μπορούν να ερμηνεύουν επαρκώς αυτά τα δεδομένα. Πρέπει να δημιουργήσουν ένα επίπεδο γραφήματος γνώσης έτσι ώστε οι μηχανές να μπορούν να ερμηνεύουν όλα τα δεδομένα παρουσίας που έχουν χαρτογραφηθεί από κάτω. Διαφορετικά, έχετε μόλις μια λίμνη δεδομένων που είναι ένα βάλτο δεδομένων », είπε.

Μεγάλο πρόβλημα δεδομένων Νο. 2: Απροσδιόριστοι στόχοι

Θα νομίζατε ότι οι περισσότεροι άνθρωποι που αναλαμβάνουν ένα μεγάλο έργο δεδομένων θα έχουν στην πραγματικότητα έναν στόχο στο μυαλό τους, αλλά ένας εκπληκτικός αριθμός δεν το κάνει. Απλώς ξεκινούν το έργο με στόχο ως μεταγενέστερη σκέψη.

«Πρέπει να καλύψεις καλά το πρόβλημα. Οι άνθρωποι πιστεύουν ότι μπορούν να συνδέσουν δομημένα και μη δομημένα δεδομένα και να λάβουν τις πληροφορίες που χρειάζεστε. Πρέπει να ορίσετε το πρόβλημα πολύ μπροστά. Ποια είναι η εικόνα που θέλετε να πάρετε; Έχει έναν σαφή ορισμό του προβλήματος και το καθορίζει πολύ μπροστά », δήλωσε ο Ray Christopher, διευθυντής μάρκετινγκ προϊόντων με την Talend, μια εταιρεία λογισμικού ολοκλήρωσης δεδομένων.

Ο Joshua Greenbaum, κύριος αναλυτής της Enterprise Application Consulting, δήλωσε ότι μέρος των έργων που έχουν αποτύχει τόσο στα μεγάλα δεδομένα όσο και στα δεδομένα αποθήκευσης δεδομένων είναι τα κύρια κριτήρια καθοδήγησης είναι συνήθως η συσσώρευση μεγάλων ποσοτήτων δεδομένων και όχι η επίλυση διακριτών επιχειρηματικών προβλημάτων.

"Αν συγκεντρώσετε μεγάλες ποσότητες δεδομένων, λαμβάνετε μια απόρριψη δεδομένων. Το ονομάζω υγειονομική ταφή. Τα χωματερές δεν είναι ένα καλό μέρος για την εξεύρεση λύσεων », δήλωσε ο Greenbaum. «Πάντα λέω στους πελάτες να αποφασίζουν ποιο διακριτό επιχειρηματικό πρόβλημα πρέπει να λυθεί πρώτα και να το ακολουθήσουν, και στη συνέχεια να δούμε την ποιότητα των διαθέσιμων δεδομένων και να λύσουμε το πρόβλημα δεδομένων μόλις εντοπιστεί το επιχειρηματικό πρόβλημα».

«Γιατί αποτυγχάνουν τα περισσότερα μεγάλα δεδομένα δεδομένων; Για αρχάριους, οι περισσότεροι ηγέτες έργων μεγάλων δεδομένων δεν έχουν όραμα », δήλωσε ο Morrison της PwC. «Οι επιχειρήσεις συγχέονται με τα μεγάλα δεδομένα. Οι περισσότεροι σκέφτονται απλώς αριθμητικά δεδομένα ή NLP μαύρου κουτιού και μηχανές αναγνώρισης και κάνουν απλή εξόρυξη κειμένου και άλλα είδη αναγνώρισης προτύπων. "

Μεγάλο πρόβλημα δεδομένων αριθ. 3: Το κενό δεξιοτήτων

Πολύ συχνά, οι εταιρείες πιστεύουν ότι οι εσωτερικές δεξιότητες που έχουν δημιουργήσει για αποθήκευση δεδομένων θα μεταφράζονται σε μεγάλα δεδομένα, όταν αυτό δεν συμβαίνει σαφώς. Για αρχάριους, η αποθήκευση δεδομένων και τα μεγάλα δεδομένα χειρίζονται τα δεδομένα εντελώς αντίθετα: Η αποθήκευση δεδομένων κάνει σχήμα κατά την εγγραφή, πράγμα που σημαίνει ότι τα δεδομένα καθαρίζονται, υποβάλλονται σε επεξεργασία, δομούνται και οργανώνονται πριν περάσουν ποτέ στην αποθήκη δεδομένων.

Σε μεγάλα δεδομένα, τα δεδομένα συσσωρεύονται και εφαρμόζεται σχήμα κατά την ανάγνωση, όπου τα δεδομένα υποβάλλονται σε επεξεργασία καθώς διαβάζονται. Επομένως, εάν η επεξεργασία δεδομένων πάει πίσω από τη μία μεθοδολογία στην άλλη, μπορείτε να στοιχηματίσετε ότι οι δεξιότητες και τα εργαλεία είναι επίσης. Και αυτό είναι ένα μόνο παράδειγμα.

«Οι δεξιότητες θα είναι πάντα πρόκληση. Αν μιλάμε για μεγάλα δεδομένα 30 χρόνια από τώρα, θα εξακολουθεί να υπάρχει μια πρόκληση », είπε ο Χούντκερ. «Πολλοί άνθρωποι κρεμούν το καπέλο τους στο Hadoop. Οι πελάτες μου έχουν την πρόκληση να βρουν πόρους Hadoop. Το Spark είναι λίγο καλύτερο επειδή αυτή η στοίβα είναι μικρότερη και ευκολότερη στην προπόνηση. Το Hadoop είναι δεκάδες στοιχεία λογισμικού. "

Μεγάλο πρόβλημα δεδομένων Νο. 4: Το κενό παραγωγής τεχνολογίας

Τα μεγάλα έργα δεδομένων λαμβάνουν συχνά από παλαιότερα σιλό δεδομένων και προσπαθούν να τα συγχωνεύσουν με νέες πηγές δεδομένων, όπως αισθητήρες ή κίνηση στο διαδίκτυο ή μέσα κοινωνικής δικτύωσης. Αυτό δεν είναι εξ ολοκλήρου φταίξιμο της επιχείρησης, η οποία συνέλεξε αυτά τα δεδομένα πριν από την ιδέα της μεγάλης ανάλυσης δεδομένων, αλλά ωστόσο είναι πρόβλημα.

«Σχεδόν η μεγαλύτερη δεξιότητα που λείπει είναι η ικανότητα να καταλάβουμε πώς να συνδυάσουμε αυτούς τους δύο ενδιαφερόμενους ώστε να συνεργαστούν για την επίλυση σύνθετων προβλημάτων», δήλωσε ο σύμβουλος Greenbaum. «Τα σιλό δεδομένων μπορούν να αποτελέσουν εμπόδιο για μεγάλα έργα δεδομένων επειδή δεν υπάρχει τυποποιημένο τίποτα. Έτσι, όταν αρχίζουν να βλέπουν τον σχεδιασμό, βρίσκουν ότι αυτά τα συστήματα δεν έχουν εφαρμοστεί με κανένα τρόπο ότι αυτά τα δεδομένα θα επαναχρησιμοποιηθούν », είπε.

«Με διαφορετικές αρχιτεκτονικές πρέπει να κάνετε διαφορετική επεξεργασία», είπε ο Christopher του Talend. «Οι τεχνικές δεξιότητες και οι διαφορές στην αρχιτεκτονική ήταν ένας κοινός λόγος για τον οποίο δεν μπορείτε να χρησιμοποιήσετε τα τρέχοντα εργαλεία για μια αποθήκη δεδομένων εσωτερικής εγκατάστασης και να την ενσωματώσετε σε ένα μεγάλο έργο δεδομένων - επειδή αυτές οι τεχνολογίες θα είναι πολύ δαπανηρές για την επεξεργασία νέων δεδομένων. Χρειάζεστε λοιπόν το Hadoopand Spark και πρέπει να μάθετε νέες γλώσσες. "

Μεγάλη λύση δεδομένων αριθ. 1: Προγραμματίστε μπροστά

Είναι ένα παλιό κλισέ αλλά ισχύει εδώ: Εάν δεν σχεδιάσετε, σχεδιάστε να αποτύχετε. «Οι επιτυχημένες εταιρείες είναι αυτές που έχουν αποτέλεσμα», δήλωσε ο Heudecker του Gartner. «Επιλέξτε κάτι μικρό και εφικτό και νέο. Μην πάρετε υπόθεση χρήσης παλαιού τύπου επειδή έχετε περιορισμούς. "

«Πρέπει να σκεφτούν πρώτα τα δεδομένα και να μοντελοποιήσουν τους οργανισμούς τους με τρόπο μη αναγνώσιμο από μηχανή, έτσι ώστε τα δεδομένα να εξυπηρετούν αυτόν τον οργανισμό», δήλωσε ο Morrison της PwC.

Μεγάλη λύση δεδομένων αριθ. 2: Συνεργαστείτε

Πολύ συχνά, οι ενδιαφερόμενοι μένουν εκτός έργων μεγάλων δεδομένων - τα ίδια τα άτομα που θα χρησιμοποιήσουν τα αποτελέσματα. Εάν όλοι οι ενδιαφερόμενοι συνεργαστούν, μπορούν να ξεπεράσουν πολλά εμπόδια, είπε ο Heudecker. «Εάν οι ειδικευμένοι άνθρωποι εργάζονται μαζί και συνεργάζονται με την επιχειρηματική πλευρά για να επιτύχουν ενεργά αποτελέσματα, αυτό μπορεί να βοηθήσει», είπε.

Ο Heudecker σημείωσε ότι οι εταιρείες που επιτυγχάνουν μεγάλα δεδομένα επενδύουν σε μεγάλο βαθμό στις απαραίτητες δεξιότητες. Αυτό το βλέπει περισσότερο στις εταιρείες που βασίζονται σε δεδομένα, όπως οι χρηματοοικονομικές υπηρεσίες, οι Uber, Lyft και Netflix, όπου η περιουσία της εταιρείας βασίζεται στο ότι διαθέτει καλά, ενεργά δεδομένα.

«Κάντε το ομαδικό άθλημα για να βοηθήσετε στην επιμέλεια και τη συλλογή δεδομένων και να τα καθαρίσετε. Κάτι τέτοιο μπορεί επίσης να αυξήσει την ακεραιότητα των δεδομένων », δήλωσε ο Christopher του Talend.

Μεγάλη λύση δεδομένων αριθ. 3: Εστίαση

Οι άνθρωποι φαίνεται να έχουν τη νοοτροπία ότι ένα μεγάλο έργο δεδομένων πρέπει να είναι τεράστιο και φιλόδοξο. Όπως και οτιδήποτε μαθαίνετε για πρώτη φορά, ο καλύτερος τρόπος για να πετύχετε είναι να ξεκινήσετε μικρά και να επεκτείνετε σταδιακά σε φιλοδοξία και πεδίο εφαρμογής.

«Πρέπει να ορίσουν πολύ στενά τι κάνουν», είπε ο Χούντκερ. "Θα πρέπει να επιλέξουν έναν προβληματικό τομέα και να τον κατέχουν, όπως εντοπισμός απάτης, πελάτες με μικροσκέψεις ή να καταλάβουν τι νέο προϊόν θα παρουσιάσει σε μια αγορά της Millennial."

"Στο τέλος της ημέρας, πρέπει να ρωτήσετε την εικόνα που θέλετε ή την επιχειρηματική διαδικασία να ψηφιοποιηθεί", δήλωσε ο Christopher. "Δεν ρίχνετε απλώς την τεχνολογία σε επιχειρηματικό πρόβλημα. πρέπει να το ορίσετε μπροστά. Η λίμνη δεδομένων είναι μια αναγκαιότητα, αλλά δεν θέλετε να συλλέξετε δεδομένα εάν δεν πρόκειται να χρησιμοποιηθεί από κανέναν στην επιχείρηση. "

Σε πολλές περιπτώσεις, αυτό σημαίνει επίσης ότι δεν υπερβάλλετε τη δική σας εταιρεία. «Σε κάθε εταιρεία που έχω σπουδάσει, υπάρχουν μόνο μερικές εκατοντάδες βασικές έννοιες και σχέσεις στις οποίες λειτουργεί ολόκληρη η επιχείρηση. Μόλις το καταλάβετε, συνειδητοποιείτε ότι όλα αυτά τα εκατομμύρια των διακρίσεων είναι απλώς παραλλαγές αυτών των εκατοντάδων σημαντικών πραγμάτων », δήλωσε ο Morrison της PwC. Στην πραγματικότητα, ανακαλύπτετε ότι πολλές από τις μικρές παραλλαγές δεν είναι καθόλου παραλλαγές. Είναι πραγματικά τα ίδια πράγματα με διαφορετικά ονόματα, διαφορετικές δομές ή διαφορετικές ετικέτες ", πρόσθεσε.

Μεγάλη λύση δεδομένων αριθ. 4: Jettison η κληρονομιά

Ενώ μπορεί να θέλετε να χρησιμοποιήσετε αυτά τα terabyte δεδομένων που συλλέγονται και αποθηκεύονται στην αποθήκη δεδομένων σας, το γεγονός είναι ότι μπορεί να εξυπηρετηθείτε καλύτερα εστιάζοντας μόνο σε δεδομένα που συλλέχθηκαν πρόσφατα σε συστήματα αποθήκευσης σχεδιασμένα για μεγάλα δεδομένα και σχεδιασμένα για να μην πωλούνται.

«Σίγουρα θα συμβούλευα να μην προσέχω απαραίτητα μια υπάρχουσα τεχνολογική υποδομή μόνο και μόνο επειδή η εταιρεία σας ως άδεια για αυτό», δήλωσε ο σύμβουλος Greenbaum. «Συχνά, νέα σύνθετα προβλήματα μπορεί να απαιτούν νέες πολύπλοκες λύσεις. Η επιστροφή σε παλιά εργαλεία γύρω από την εταιρεία για μια δεκαετία δεν είναι ο σωστός τρόπος να πάτε. Πολλές εταιρείες χρησιμοποιούν παλιά εργαλεία και σκοτώνει το έργο. "

Ο Morrison o = σημείωσε, "Οι επιχειρήσεις πρέπει να σταματήσουν να μπλέκονται τα πόδια τους με τα δικά τους εσώρουχα και απλώς να απομακρύνουν την κληρονομιά της αρχιτεκτονικής που δημιουργεί περισσότερα σιλό." Είπε επίσης ότι πρέπει να σταματήσουν να περιμένουν από τους πωλητές να λύσουν τα περίπλοκα προβλήματα του συστήματος τους. «Για δεκαετίες, πολλοί φαίνεται να υποθέτουν ότι μπορούν να ξεφύγουν από ένα μεγάλο πρόβλημα δεδομένων. Οποιοδήποτε μεγάλο πρόβλημα δεδομένων είναι ένα συστηματικό πρόβλημα. Όταν πρόκειται για οποιαδήποτε περίπλοκη αλλαγή συστημάτων, πρέπει να προχωρήσετε », είπε.

$config[zx-auto] not found$config[zx-overlay] not found