Προγραμματισμός

Κριτική Qubole: Αναλυτικά στοιχεία μεγάλων δεδομένων αυτοεξυπηρέτησης

Χρηματισμένη ως πλατφόρμα δεδομένων εγγενών cloud για αναλυτικά στοιχεία, AI και μηχανική μάθηση, η Qubole προσφέρει λύσεις για αφοσίωση πελατών, ψηφιακό μετασχηματισμό, προϊόντα βάσει δεδομένων, ψηφιακό μάρκετινγκ, εκσυγχρονισμό και ευφυΐα ασφαλείας. Απαιτεί γρήγορο χρόνο αξίας, υποστήριξη πολλαπλών σύννεφων, παραγωγικότητα διαχειριστή 10x, αναλογία χειριστή προς χρήστη 1: 200 και χαμηλότερο κόστος cloud.

Αυτό που πραγματικά κάνει το Qubole, με βάση τη σύντομη εμπειρία μου στην πλατφόρμα, είναι να ενσωματώσει μια σειρά από εργαλεία ανοιχτού κώδικα και μερικά ιδιόκτητα εργαλεία, για να δημιουργήσει μια μεγάλη εμπειρία αυτοεξυπηρέτησης με βάση το cloud για αναλυτές δεδομένων, μηχανικούς δεδομένων , και επιστήμονες δεδομένων.

Το Qubole σας μεταφέρει από το ETL μέσω διερευνητικής ανάλυσης δεδομένων και δημιουργίας μοντέλων έως ανάπτυξης μοντέλων σε κλίμακα παραγωγής. Στην πορεία, αυτοματοποιεί μια σειρά από λειτουργίες cloud, όπως παροχή και κλιμάκωση πόρων, οι οποίες διαφορετικά θα απαιτούν σημαντικό χρονικό διάστημα διαχειριστή. Το κατά πόσον αυτός ο αυτοματισμός θα επιτρέψει πραγματικά αύξηση 10 φορές στην παραγωγικότητα του διαχειριστή ή αναλογία χειριστή προς χρήστη 1: 200 για οποιαδήποτε συγκεκριμένη εταιρεία ή περίπτωση χρήσης δεν είναι σαφές.

Το Qubole τείνει να βασίζεται στην έννοια των «ενεργών δεδομένων». Βασικά, οι περισσότερες λίμνες δεδομένων - που ουσιαστικά είναι καταστήματα αρχείων γεμάτες με δεδομένα από πολλές πηγές, όλες σε ένα μέρος αλλά όχι σε μία βάση δεδομένων - έχουν χαμηλό ποσοστό δεδομένων που χρησιμοποιούνται ενεργά για ανάλυση. Η Qubole εκτιμά ότι οι περισσότερες λίμνες δεδομένων είναι 10% ενεργές και 90% ανενεργές και προβλέπει ότι μπορεί να αντιστρέψει αυτόν τον λόγο.

Οι ανταγωνιστές του Qubole περιλαμβάνουν Databricks, AWS και Cloudera. Υπάρχουν πολλά άλλα προϊόντα που ανταγωνίζονται μόνο μερικοί των λειτουργιών του Qubole.

Το Databricks δημιουργεί σημειωματάρια, πίνακες εργαλείων και εργασίες πάνω από έναν διαχειριστή συμπλέγματος και το Spark. Το βρήκα μια χρήσιμη πλατφόρμα για τους επιστήμονες δεδομένων όταν το εξέτασα το 2016. Η Databricks άνοιξε πρόσφατα το προϊόν της Delta Lake, το οποίο παρέχει συναλλαγές ACID, χειρισμό μεταδεδομένων με δυνατότητα κλιμάκωσης και ενοποιημένη επεξεργασία δεδομένων ροής και παρτίδας σε λίμνες δεδομένων για να τα καταστήσει πιο αξιόπιστα και να τους βοηθήσει να τροφοδοτήσουν την ανάλυση Spark.

Το AWS διαθέτει ένα ευρύ φάσμα προϊόντων δεδομένων και στην πραγματικότητα το Qubole υποστηρίζει την ενσωμάτωση με πολλά από αυτά. Η Cloudera, η οποία περιλαμβάνει τώρα το Hortonworks, παρέχει υπηρεσίες αποθήκευσης δεδομένων και μηχανικής μάθησης, καθώς και υπηρεσία κόμβου δεδομένων. Η Qubole ισχυρίζεται ότι τόσο η Databricks όσο και η Cloudera στερούνται οικονομικής διακυβέρνησης, αλλά μπορείτε να εφαρμόσετε μόνοι σας τη διακυβέρνηση σε επίπεδο ενιαίου cloud ή χρησιμοποιώντας ένα προϊόν διαχείρισης πολλαπλών cloud.

Πώς λειτουργεί το Qubole

Το Qubole ενσωματώνει όλα τα εργαλεία του σε περιβάλλον που βασίζεται σε σύννεφο και πρόγραμμα περιήγησης. Θα συζητήσω τα κομμάτια του περιβάλλοντος στην επόμενη ενότητα αυτού του άρθρου. σε αυτήν την ενότητα θα επικεντρωθώ στα εργαλεία.

Η Qubole επιτυγχάνει έλεγχο κόστους ως μέρος της διαχείρισης συμπλεγμάτων. Μπορείτε να καθορίσετε ότι τα συμπλέγματα χρησιμοποιούν ένα συγκεκριμένο μείγμα τύπων παρουσιών, συμπεριλαμβανομένων στιγμιότυπων παρουσιών όταν είναι διαθέσιμα και του ελάχιστου και μέγιστου αριθμού κόμβων για αυτόματη κλιμάκωση. Μπορείτε επίσης να καθορίσετε το χρονικό διάστημα που κάθε σύμπλεγμα θα συνεχίσει να εκτελείται ελλείψει φόρτωσης, για να αποφύγετε τις εμφανίσεις "ζόμπι".

Σπίθα

Στο άρθρο του Αυγούστου, «Πώς η Qubole αντιμετωπίζει τις προκλήσεις του Apache Spark», ο Διευθύνων Σύμβουλος της Qubole Ashish Thusoo συζητά τα οφέλη και τις παγίδες του Spark και πώς η Qubole αποκαθιστά δυσκολίες όπως η διαμόρφωση, η απόδοση, το κόστος και η διαχείριση πόρων. Το Spark είναι βασικό συστατικό του Qubole για επιστήμονες δεδομένων, επιτρέποντας εύκολη και γρήγορη μετατροπή δεδομένων και μηχανική μάθηση.

Γρήγορα

Το Presto είναι μια μηχανή αναζήτησης SQL ανοιχτού κώδικα που διανέμεται για την εκτέλεση διαδραστικών αναλυτικών ερωτημάτων έναντι πηγών δεδομένων όλων των μεγεθών, που κυμαίνονται από gigabytes έως petabytes. Τα ερωτήματα Presto εκτελούνται πολύ πιο γρήγορα από τα ερωτήματα Hive. Ταυτόχρονα, το Presto μπορεί να δει και να χρησιμοποιήσει σχήματα μεταδεδομένων και δεδομένων Hive.

Κυψέλη

Το Apache Hive είναι ένα δημοφιλές έργο ανοιχτού κώδικα στο οικοσύστημα Hadoop που διευκολύνει την ανάγνωση, τη γραφή και τη διαχείριση μεγάλων συνόλων δεδομένων που διαμένουν σε κατανεμημένο χώρο αποθήκευσης χρησιμοποιώντας SQL. Η δομή μπορεί να προβάλλεται σε δεδομένα που είναι ήδη αποθηκευμένα. Η εκτέλεση ερωτήματος Hive εκτελείται μέσω Apache Tez, Apache Spark ή MapReduce. Το Hive on Qubole μπορεί να κάνει αυτόματη κλιμάκωση με γνώμονα τον φόρτο εργασίας και να κάνει άμεσες εγγραφές Το Open-source Hive δεν διαθέτει αυτές τις βελτιστοποιήσεις προσανατολισμένες στο cloud.

Οι ιδρυτές του Qubole ήταν επίσης οι δημιουργοί του Apache Hive. Ξεκίνησαν το Hive στο Facebook και το άνοιξαν το 2008.

Ποσοστό

Το Quantum είναι ο δικός του διακομιστής Qubole, αυτόματης κλιμάκωσης, διαδραστικής μηχανής ερωτήσεων SQL που υποστηρίζει τόσο Hive DDL όσο και Presto SQL. Το Quantum είναι μια υπηρεσία pay-as-you-go που είναι οικονομικά αποδοτική για σποραδικά μοτίβα ερωτημάτων που εξαπλώνονται σε μεγάλες χρονικές περιόδους και έχει έναν αυστηρό τρόπο για την αποφυγή απροσδόκητων δαπανών. Το Quantum χρησιμοποιεί το Presto και συμπληρώνει με συστάδες διακομιστών Presto. Τα κβαντικά ερωτήματα περιορίζονται σε 45 λεπτά χρόνου εκτέλεσης.

Ροή αέρα

Το Airflow είναι μια πλατφόρμα που βασίζεται στην Python για συγγραφή, προγραμματισμό και παρακολούθηση ροών εργασίας μέσω προγραμματισμού. Οι ροές εργασίας κατευθύνονται σε κυκλικά γραφήματα (DAG) εργασιών. Μπορείτε να διαμορφώσετε τα DAG γράφοντας αγωγούς σε κώδικα Python. Η Qubole προσφέρει Airflow ως μία από τις υπηρεσίες της. χρησιμοποιείται συχνά για ETL.

Το νέο QuboleOperator μπορεί να χρησιμοποιηθεί όπως και κάθε άλλος υπάρχων χειριστής Airflow. Κατά την εκτέλεση του χειριστή στη ροή εργασίας, θα υποβάλει μια εντολή στην υπηρεσία δεδομένων Qubole και θα περιμένει μέχρι να ολοκληρωθεί η εντολή. Το Qubole υποστηρίζει αισθητήρες αρχείων και πίνακα Hive που μπορούν να χρησιμοποιήσουν το Airflow για την παρακολούθηση ροών εργασίας μέσω προγραμματισμού.

Για να δείτε τη διεπαφή χρήστη Airflow, πρέπει πρώτα να ξεκινήσετε ένα σύμπλεγμα Airflow και, στη συνέχεια, να ανοίξετε τη σελίδα συμπλέγματος για να δείτε τον ιστότοπο Airflow.

RubiX

Το RubiX είναι το ελαφρύ πλαίσιο αποθήκευσης δεδομένων της Qubole που μπορεί να χρησιμοποιηθεί από ένα μεγάλο σύστημα δεδομένων που χρησιμοποιεί μια διεπαφή συστήματος αρχείων Hadoop. Το RubiX έχει σχεδιαστεί για να λειτουργεί με συστήματα αποθήκευσης cloud, όπως το Amazon S3 και το Azure Blob Storage, και για την προσωρινή αποθήκευση απομακρυσμένων αρχείων σε έναν τοπικό δίσκο. Η Qubole κυκλοφόρησε το RubiX στο open source. Η ενεργοποίηση του RubiX στο Qubole είναι θέμα ελέγχου ενός πλαισίου.

Τι κάνει το Qubole;

Το Qubole παρέχει μια πλατφόρμα από άκρο σε άκρο για αναλυτικά στοιχεία και επιστήμη δεδομένων. Η λειτουργικότητα κατανέμεται σε περίπου δώδεκα ενότητες.

Η ενότητα Εξερεύνηση σάς επιτρέπει να προβάλετε τους πίνακες δεδομένων σας, να προσθέσετε αποθηκευτικά δεδομένα και να ρυθμίσετε την ανταλλαγή δεδομένων. Στο AWS, μπορείτε να δείτε τις συνδέσεις δεδομένων σας, τους κάδους S3 και τα καταστήματα δεδομένων του Qubole Hive.

Οι ενότητες ανάλυσης και πάγκου εργασίας σάς επιτρέπουν να εκτελείτε ad hoc ερωτήματα στα σύνολα δεδομένων σας. Η ανάλυση είναι η παλιά διεπαφή και το Workbench είναι η νέα διεπαφή, η οποία ήταν ακόμα σε beta όταν το δοκίμασα. Και οι δύο διεπαφές σάς επιτρέπουν να κάνετε μεταφορά και απόθεση πεδίων δεδομένων στα ερωτήματά σας SQL και να επιλέξετε τον κινητήρα που χρησιμοποιείτε για να εκτελέσετε τις λειτουργίες: Quantum, Hive, Presto, Spark, μια βάση δεδομένων, ένα κέλυφος ή Hadoop.

Το Smart Query είναι ένα εργαλείο δημιουργίας ερωτημάτων SQL που βασίζεται σε μορφή για το Hive και το Presto. Τα πρότυπα σάς επιτρέπουν να χρησιμοποιήσετε ξανά παραμετροποιημένα ερωτήματα SQL.

Τα σημειωματάρια είναι σημειωματάρια Zeppelin που βασίζονται σε Spark ή (σε beta) Jupyter για την επιστήμη δεδομένων. Οι πίνακες ελέγχου παρέχουν μια διεπαφή για κοινή χρήση των εξερευνήσεών σας, χωρίς να επιτρέπεται η πρόσβαση στους φορητούς σας υπολογιστές.

Το Χρονοδιάγραμμα σάς επιτρέπει να εκτελείτε ερωτήματα, ροές εργασίας, εισαγωγές και εξαγωγές δεδομένων και εντολές αυτόματα σε διαστήματα. Αυτό συμπληρώνει τα ad-hoc ερωτήματα που μπορείτε να εκτελέσετε στις ενότητες ανάλυσης και πάγκου εργασίας.

Η ενότητα Clusters σάς επιτρέπει να διαχειρίζεστε τις ομάδες των διακομιστών Hadoop / Hive, Spark, Presto, Airflow και deep learning (beta). Η χρήση σάς επιτρέπει να παρακολουθείτε τη συστάδα και τη χρήση ερωτημάτων. Ο Πίνακας Ελέγχου σάς επιτρέπει να διαμορφώσετε την πλατφόρμα, είτε για εσάς είτε για άλλους, εάν έχετε δικαιώματα διαχείρισης συστήματος.

Διαδρομή από άκρο σε άκρο Qubole

Πέρασα από την εισαγωγή μιας βάσης δεδομένων, δημιουργώντας ένα σχήμα Hive και ανέλυσα το αποτέλεσμα με το Hive και το Presto και ξεχωριστά σε ένα σημειωματάριο Spark. Κοίταξα επίσης ένα Airflow DAG για την ίδια διαδικασία και σε ένα σημειωματάριο για να κάνω μηχανική εκμάθηση με το Spark σε ένα άσχετο σύνολο δεδομένων.

Βαθιά μάθηση στο Qubole

Έχουμε δει την επιστήμη δεδομένων στο Qubole μέχρι το επίπεδο της κλασικής μηχανικής μάθησης, αλλά τι γίνεται με τη βαθιά μάθηση; Ένας τρόπος για να επιτύχετε τη βαθιά μάθηση στο Qubole είναι να εισαγάγετε βήματα Python στους φορητούς σας υπολογιστές που εισάγουν πλαίσια βαθιάς μάθησης όπως το TensorFlow και να τα χρησιμοποιούν σε σύνολα δεδομένων που έχουν ήδη κατασκευαστεί με το Spark. Ένα άλλο είναι να καλέσετε το Amazon SageMaker από φορητούς υπολογιστές ή Airflow, υποθέτοντας ότι η εγκατάσταση του Qubole εκτελείται σε AWS.

Τα περισσότερα από αυτά που κάνετε στο Qubole δεν απαιτούν εκτέλεση σε GPU, αλλά η βαθιά μάθηση συχνά χρειάζεται GPU για να επιτρέψετε την ολοκλήρωση της εκπαίδευσης σε εύλογο χρονικό διάστημα. Το Amazon SageMaker το φροντίζει αυτό εκτελώντας τα βήματα βαθιάς μάθησης σε ξεχωριστές ομάδες, τα οποία μπορείτε να διαμορφώσετε με όσους κόμβους και GPU χρειάζεστε. Το Qubole προσφέρει επίσης συμπλέγματα μηχανικής εκμάθησης (σε beta). Σε AWS επιτρέπουν τους επιταχυνόμενους κόμβους εργαζομένων τύπου g και p τύπου με GPU Nvidia και στο Google Cloud Platform και το Microsoft Azure επιτρέπουν ισοδύναμους επιταχυνόμενους κόμβους εργαζομένων.

Μεγάλη εργαλειοθήκη δεδομένων στο cloud

Το Qubole, μια πλατφόρμα εγγενών δεδομένων για αναλυτικά στοιχεία και μηχανική μάθηση, σας βοηθά να εισαγάγετε σύνολα δεδομένων σε μια λίμνη δεδομένων, να δημιουργήσετε σχήματα με Hive και να υποβάλετε ερωτήματα στα δεδομένα με Hive, Presto, Quantum και Spark. Χρησιμοποιεί τόσο φορητούς υπολογιστές όσο και Airflow για την κατασκευή ροών εργασίας. Μπορεί επίσης να καλέσει άλλες υπηρεσίες και να χρησιμοποιήσει άλλες βιβλιοθήκες, για παράδειγμα την υπηρεσία Amazon SageMaker και τη βιβλιοθήκη TensorFlow Python για βαθιά μάθηση.

Το Qubole σάς βοηθά να διαχειριστείτε τις δαπάνες στο cloud ελέγχοντας το συνδυασμό παρουσιών σε ένα σύμπλεγμα, ξεκινώντας και αυτόματα κλιμάκωση των συστάδων κατ 'απαίτηση και κλείνοντας αυτόματα τα συμπλέγματα όταν δεν χρησιμοποιούνται. Τρέχει σε AWS, Microsoft Azure, Google Cloud Platform και Oracle Cloud.

Συνολικά, το Qubole είναι ένας πολύ καλός τρόπος για να εκμεταλλευτείτε (ή να "ενεργοποιήσετε") τη λίμνη δεδομένων σας, τις απομονωμένες βάσεις δεδομένων και τα μεγάλα δεδομένα. Μπορείτε να δοκιμάσετε το Drive Qubole δωρεάν για 14 ημέρες στην επιλογή AWS, Azure ή GCP με δείγματα δεδομένων. Μπορείτε επίσης να κανονίσετε μια δωρεάν δοκιμαστική έκδοση για έως και πέντε χρήστες και ένα μήνα, χρησιμοποιώντας τον δικό σας λογαριασμό υποδομής cloud και τα δικά σας δεδομένα.

Κόστος: Δωρεάν και δοκιμαστικοί λογαριασμοί. Εταιρική πλατφόρμα, 0,14 $ ανά QCU (Qubole Compute Unit) ανά ώρα.

Πλατφόρμα: Υπηρεσίες Web Amazon, Google Cloud Platform, Microsoft Azure, Oracle Cloud.