Γρήγορα δεδομένα: Το επόμενο βήμα μετά από μεγάλα δεδομένα

Ο τρόπος με τον οποίο τα μεγάλα δεδομένα μεγαλώνουν είναι μέσω μιας συνεχούς ροής εισερχόμενων δεδομένων. Σε περιβάλλοντα μεγάλου όγκου, αυτά τα δεδομένα φτάνουν σε απίστευτα ποσοστά, αλλά πρέπει ακόμη να αναλυθούν και να αποθηκευτούν.

Ο John Hugg, αρχιτέκτονας λογισμικού στη VoltDB, προτείνει, αντί να αποθηκεύουμε απλά αυτά τα δεδομένα που θα αναλυθούν αργότερα, ίσως έχουμε φτάσει στο σημείο όπου μπορεί να αναλυθεί καθώς απορροφάται, διατηρώντας παράλληλα εξαιρετικά υψηλούς ρυθμούς πρόσληψης χρησιμοποιώντας εργαλεία όπως το Apache Kafka.

- Paul Venezia

Λιγότερο από δώδεκα χρόνια πριν, ήταν σχεδόν αδύνατο να φανταστεί κανείς την ανάλυση petabytes ιστορικών δεδομένων χρησιμοποιώντας υλικό εμπορευμάτων. Σήμερα, οι συστάδες Hadoop που χτίστηκαν από χιλιάδες κόμβους είναι σχεδόν συνηθισμένοι. Τεχνολογίες ανοιχτού κώδικα όπως το Hadoop ξανασκεφτόταν τον τρόπο αποτελεσματικής επεξεργασίας petabytes σε petabytes δεδομένων χρησιμοποιώντας βασικά προϊόντα και εικονικό υλικό, καθιστώντας αυτή τη δυνατότητα διαθέσιμη φθηνά σε προγραμματιστές παντού. Ως αποτέλεσμα, εμφανίστηκε το πεδίο των μεγάλων δεδομένων.

Μια παρόμοια επανάσταση συμβαίνει με τα λεγόμενα γρήγορα δεδομένα. Αρχικά, ας ορίσουμε γρήγορα δεδομένα. Τα μεγάλα δεδομένα δημιουργούνται συχνά από δεδομένα που δημιουργούνται με απίστευτες ταχύτητες, όπως δεδομένα ροής κλικ, δεδομένα χρηματοοικονομικής κλήσης, συγκέντρωση ημερολογίου ή δεδομένα αισθητήρων. Συχνά αυτά τα συμβάντα συμβαίνουν χιλιάδες έως δεκάδες χιλιάδες φορές ανά δευτερόλεπτο. Δεν υπάρχει αμφιβολία ότι αυτός ο τύπος δεδομένων αναφέρεται συνήθως ως «εύκαμπτος σωλήνας».

Όταν μιλάμε για εύκαμπτους σωλήνες πυρκαγιάς σε μεγάλα δεδομένα, δεν μετράμε τον όγκο στα τυπικά gigabytes, terabytes και petabytes που είναι εξοικειωμένοι με τις αποθήκες δεδομένων. Μετράμε τον όγκο ως προς το χρόνο: τον αριθμό των megabyte ανά δευτερόλεπτο, gigabyte ανά ώρα ή terabyte ανά ημέρα. Μιλάμε για ταχύτητα καθώς και για ένταση, η οποία βρίσκεται στον πυρήνα της διαφοράς μεταξύ των μεγάλων δεδομένων και της αποθήκης δεδομένων. Τα μεγάλα δεδομένα δεν είναι απλά μεγάλα. είναι επίσης γρήγορο.

Τα οφέλη από τα μεγάλα δεδομένα χάνονται εάν φρέσκα, γρήγορα κινούμενα δεδομένα από τον εύκαμπτο σωλήνα απορρίπτονται σε HDFS, ένα αναλυτικό RDBMS ή ακόμα και σε επίπεδα αρχεία, επειδή η ικανότητα να ενεργεί ή να ειδοποιεί τώρα, καθώς τα πράγματα συμβαίνουν, χάθηκε. Ο σωλήνας πυρκαγιάς αντιπροσωπεύει ενεργά δεδομένα, άμεση κατάσταση ή δεδομένα με συνεχή σκοπό. Η αποθήκη δεδομένων, αντίθετα, είναι ένας τρόπος να κοιτάξουμε αν και ιστορικά δεδομένα για να κατανοήσουμε το παρελθόν και να προβλέψουμε το μέλλον.

Ενεργοποιώντας τα δεδομένα καθώς φτάνει θεωρήθηκε δαπανηρό και ανέφικτο, αν όχι αδύνατο, ειδικά σε υλικό εξοπλισμού. Ακριβώς όπως η τιμή σε μεγάλα δεδομένα, η τιμή στα γρήγορα δεδομένα ξεκλειδώνεται με την επαναπροσδιορισμένη εφαρμογή ουρών μηνυμάτων και συστημάτων ροής όπως το ανοιχτό κώδικα Kafka και το Storm και την επαναπροσδιορισμένη εφαρμογή βάσεων δεδομένων με την εισαγωγή ανοιχτών πηγών NoSQL και προσφορών NewSQL .

Λήψη τιμής σε γρήγορα δεδομένα

Για να επεξεργαστείτε δεδομένα που φθάνουν σε δεκάδες χιλιάδες έως εκατομμύρια συμβάντα ανά δευτερόλεπτο, θα χρειαστείτε δύο τεχνολογίες: Πρώτον, ένα σύστημα ροής ικανό να παραδίδει συμβάντα τόσο γρήγορα όσο εισέρχονται. Και δεύτερον, ένα κατάστημα δεδομένων ικανό να επεξεργάζεται κάθε στοιχείο όσο πιο γρήγορα φτάνει.

Παράδοση των γρήγορων δεδομένων

Το Kafka σχεδιάστηκε για να είναι μια ουρά μηνυμάτων και για την επίλυση των αντιληπτών προβλημάτων των υπαρχουσών τεχνολογιών. Είναι ένα είδος ουράς über με απεριόριστη επεκτασιμότητα, κατανεμημένες εφαρμογές, πολλαπλές λειτουργίες και ισχυρή επιμονή. Ένας οργανισμός θα μπορούσε να αναπτύξει ένα σύμπλεγμα Kafka για να ικανοποιήσει όλες τις ανάγκες ουράς μηνυμάτων. Ακόμα, στον πυρήνα του, η Κάφκα παραδίδει μηνύματα. Δεν υποστηρίζει επεξεργασία ή ερωτήσεις οποιουδήποτε είδους.

Μπορεί επίσης να σας αρέσει