Προγραμματισμός

Οι 10 χειρότερες πρακτικές μεγάλων δεδομένων

Ναι, μπορείτε να κάνετε μεγάλα δεδομένα. Ωστόσο, μπορείτε να το αντιμετωπίζετε με τον σωστό ή τον λάθος τρόπο. Εδώ είναι οι κορυφαίες 10 χειρότερες πρακτικές που πρέπει να αποφύγετε.

1. Επιλέγοντας το MongoDB ως τη μεγάλη πλατφόρμα δεδομένων σας. Γιατί επιλέγω το MongoDB; Δεν είμαι, αλλά για οποιονδήποτε λόγο, η βάση δεδομένων NoSQL που χρησιμοποιείται περισσότερο σε αυτό το σημείο είναι το MongoDB. Ενώ το MongoDB έχει ένα πλαίσιο συνάθροισης που έχει γεύση όπως το MapReduce και ακόμη και έναν (πολύ κακώς τεκμηριωμένο) σύνδεσμο Hadoop, το γλυκό του σημείο είναι ως μια λειτουργική βάση δεδομένων, όχι ένα αναλυτικό σύστημα.

[Ο Andrew C. Oliver απαντά στην ερώτηση στο μυαλό όλων: Ποια βάση δεδομένων πρέπει να χρησιμοποιώ; | Επίσης στις: Η ώρα για τα πρότυπα NoSQL είναι τώρα | Ρίξτε μια ματιά στις βασικές ιστορίες κάθε μέρα στο Daily newsletter. ]

Όταν αρχίσει η φράση σας, "Θα χρησιμοποιήσουμε το Mongo για να αναλύσουμε ...", σταματήστε εκεί και σκεφτείτε τι κάνετε. Μερικές φορές εννοείτε πραγματικά "συλλογή για μελλοντική ανάλυση", η οποία μπορεί να είναι εντάξει, ανάλογα με το τι κάνετε. Ωστόσο, εάν πραγματικά εννοείτε ότι θα χρησιμοποιήσετε το MongoDB ως κάποιο είδος άρρωστης τεχνολογίας αποθήκευσης δεδομένων, το έργο σας μπορεί να είναι καταδικασμένο στην αρχή.

2. Χρησιμοποιώντας το σχήμα RDBMS ως αρχεία. Ναι, πετάξατε κάθε πίνακα από το RDBMS σε ένα αρχείο. Σκοπεύετε να το αποθηκεύσετε σε HDFS. Σκοπεύετε να χρησιμοποιήσετε Hive σε αυτό.

Πρώτα απ 'όλα, ξέρετε ότι η κυψέλη είναι πιο αργή από το RDBMS για οτιδήποτε φυσιολογικό, σωστά; Πρόκειται για το MapReduce ακόμη και μια απλή επιλογή. Κοιτάξτε τη "βελτιστοποιημένη" διαδρομή για συνδέσεις "πίνακα". Στη συνέχεια, ας δούμε τα μεγέθη των σειρών - whaddaya γνωρίζουμε, έχετε επίπεδα αρχεία μετρούμενα σε μονοψήφιο kilobytes. Το Hadoop ταιριάζει καλύτερα σε μεγάλα σύνολα σχετικά επίπεδων δεδομένων. Είμαι βέβαιος ότι μπορείτε να δημιουργήσετε ένα απόσπασμα που είναι πιο αποδιαμορφωμένο.

3. Δημιουργία ομάδων δεδομένων. Στο δρόμο σας για τη δημιουργία μιας λίμνης δεδομένων, απενεργοποιήσατε μια διαφορετική διάβαση πεζών και δημιουργήσατε μια σειρά δεξαμενών δεδομένων. Ο νόμος της Conway έχει χτυπήσει ξανά και έχετε αφήσει κάθε επιχειρηματική ομάδα όχι μόνο να δημιουργήσει τη δική της ανάλυση των δεδομένων αλλά και τα δικά της μίνι αποθετήρια. Αυτό δεν ακούγεται κακό στην αρχή, αλλά με διαφορετικά αποσπάσματα και τρόπους κοπής και κοπής των δεδομένων, καταλήγετε με διαφορετικές απόψεις των δεδομένων. Δεν εννοώ επίπεδη έναντι κύβου - εννοώ διαφορετικές απαντήσεις για μερικές από τις ίδιες ερωτήσεις. Το σχήμα-για-ανάγνωση δεν σημαίνει "μην προγραμματίζετε καθόλου", αλλά σημαίνει "μην σχεδιάζετε για κάθε ερώτηση που μπορεί να κάνετε."

Παρ 'όλα αυτά, θα πρέπει να σχεδιάσετε τη μεγάλη εικόνα. Εάν πουλάτε widget, υπάρχει μια καλή πιθανότητα κάποιος να θέλει να δει πόσα, σε ποιον και πόσο συχνά πουλήσατε widget. Προχωρήστε και πάρτε αυτό με τις κοινές μορφές και κάντε λίγο αρχικό σχεδιασμό για να βεβαιωθείτε ότι δεν καταλήγετε σε δεξαμενές δεδομένων και λακκούβες που ανήκουν σε κάθε μεμονωμένη επιχειρηματική ομάδα.

4. Αποτυχία ανάπτυξης εύλογων περιπτώσεων χρήσης. Η ιδέα της λίμνης δεδομένων πωλείται από τους πωλητές για να αντικαταστήσουν τις περιπτώσεις πραγματικής χρήσης. (Είναι επίσης ένας τρόπος για να ξεφύγετε από τους περιορισμούς της χρηματοδότησης κατά τμήματα.) Η προσέγγιση δεδομένων-λίμνης μπορεί να είναι έγκυρη, αλλά θα πρέπει να έχετε κατά νου τις πραγματικές περιπτώσεις χρήσης. Δεν είναι δύσκολο να τα βρούμε στα περισσότερα μεσαία μεγέθη σε μεγάλες επιχειρήσεις. Ξεκινήστε ελέγχοντας πότε κάποιος είπε τελευταία, "Όχι, δεν μπορούμε, γιατί η βάση δεδομένων δεν μπορεί να το χειριστεί." Στη συνέχεια προχωρήστε στο "duh." Για παράδειγμα, η "ανάπτυξη των επιχειρήσεων" δεν πρέπει να είναι απλώς μια προωθητική προσφορά για τον κορυφαίο πωλητή σας. υποτίθεται ότι σημαίνει κάτι.

Τι γίνεται, ας πούμε, χρησιμοποιώντας το Mahout για να βρείτε παραγγελίες πελατών που είναι κοινές ακραίες τιμές; Στις περισσότερες εταιρείες, οι περισσότερες παραγγελίες πελατών μοιάζουν μεταξύ τους. Τι γίνεται όμως με τις παραγγελίες που συμβαίνουν αρκετά συχνά αλλά δεν ταιριάζουν με τις κοινές; Αυτά μπορεί να είναι πολύ μικρά για να πωλήσουν οι πωλητές, αλλά μπορεί να υποδεικνύουν μια μελλοντική επιχειρηματική γραμμή για την εταιρεία σας (δηλαδή την πραγματική ανάπτυξη των επιχειρήσεων). Εάν δεν μπορείτε να συγκεντρώσετε τουλάχιστον μερικές καλές χρήσεις πραγματικού κόσμου για το Hadoop, ίσως να μην το χρειαστείτε.

5. Το Thinking Hive είναι το τελείωμα. Ξέρεις SQL. Σας αρέσει η SQL. Κάνετε SQL. Το καταλαβαίνω, φίλε, αλλά ίσως μπορείς να μεγαλώσεις; Ίσως πρέπει να φτάσετε βαθιά μια δεκαετία ή τρεις και να θυμηθείτε το μικρό παιδί που έμαθε SQL και είδε τους κόσμους που άνοιξε για αυτόν. Τώρα φανταστείτε τον να μαθαίνει κάτι άλλο ταυτόχρονα.

$config[zx-auto] not found$config[zx-overlay] not found