Προγραμματισμός

Τι είναι το μεγάλο analytics δεδομένων; Γρήγορες απαντήσεις από διαφορετικά σύνολα δεδομένων

Υπάρχουν δεδομένα και μετά υπάρχουν μεγάλα δεδομένα. Λοιπόν, ποια είναι η διαφορά;

Ορίζονται μεγάλα δεδομένα

Ένας σαφής ορισμός μεγάλων δεδομένων μπορεί να είναι δύσκολο να εντοπιστεί επειδή τα μεγάλα δεδομένα μπορούν να καλύψουν πολλές περιπτώσεις χρήσης. Αλλά γενικά ο όρος αναφέρεται σε σύνολα δεδομένων που είναι τόσο μεγάλα σε όγκο και τόσο περίπλοκα που τα παραδοσιακά προϊόντα λογισμικού επεξεργασίας δεδομένων δεν είναι ικανά να συλλάβουν, να διαχειριστούν και να επεξεργαστούν τα δεδομένα εντός εύλογου χρονικού διαστήματος.

Αυτά τα μεγάλα σύνολα δεδομένων μπορούν να περιλαμβάνουν δομημένα, μη δομημένα και ημιδομημένα δεδομένα, καθένα από τα οποία μπορεί να εξορυχθεί για πληροφορίες.

Πόσο πραγματικά δεδομένα αποτελούν «μεγάλα» είναι ανοιχτά σε συζήτηση, αλλά συνήθως μπορούν να είναι σε πολλαπλάσια petabytes - και για τα μεγαλύτερα έργα στο εύρος των exabytes.

Συχνά, τα μεγάλα δεδομένα χαρακτηρίζονται από τα τρία Vs:

  • ένα άκρο Ενταση ΗΧΟΥ δεδομένων
  • στο εξωτερικο ποικιλία τύπων δεδομένων
  • ο ταχύτητα κατά την οποία τα δεδομένα πρέπει να υποβληθούν σε επεξεργασία και ανάλυση

Τα δεδομένα που αποτελούν μεγάλα καταστήματα δεδομένων μπορούν να προέρχονται από πηγές που περιλαμβάνουν ιστότοπους, κοινωνικά μέσα, εφαρμογές για επιτραπέζιους υπολογιστές και κινητές συσκευές, επιστημονικά πειράματα και - όλο και περισσότερο - αισθητήρες και άλλες συσκευές στο Διαδίκτυο των πραγμάτων (IoT).

Η έννοια των μεγάλων δεδομένων συνοδεύεται από ένα σύνολο σχετικών στοιχείων που επιτρέπουν στους οργανισμούς να θέσουν τα δεδομένα σε πρακτική χρήση και να λύσουν διάφορα επιχειρηματικά προβλήματα. Αυτές περιλαμβάνουν την υποδομή πληροφορικής που απαιτείται για την υποστήριξη μεγάλων τεχνολογιών δεδομένων, τα αναλυτικά στοιχεία που εφαρμόζονται στα δεδομένα. τις μεγάλες πλατφόρμες δεδομένων που απαιτούνται για έργα, σχετικά σύνολα δεξιοτήτων και τις πραγματικές περιπτώσεις χρήσης που έχουν νόημα για μεγάλα δεδομένα.

Τι είναι η ανάλυση δεδομένων;

Αυτό που πραγματικά προσφέρει αξία από όλους τους μεγάλους οργανισμούς δεδομένων που συγκεντρώνονται είναι τα αναλυτικά στοιχεία που εφαρμόζονται στα δεδομένα. Χωρίς αναλυτικά στοιχεία, τα οποία περιλαμβάνουν την εξέταση των δεδομένων για την ανακάλυψη μοτίβων, συσχετίσεων, πληροφοριών και τάσεων, τα δεδομένα είναι απλώς μια δέσμη και μηδενικά με περιορισμένη επιχειρηματική χρήση.

Εφαρμόζοντας αναλυτικά στοιχεία σε μεγάλα δεδομένα, οι εταιρείες μπορούν να δουν οφέλη όπως αυξημένες πωλήσεις, βελτιωμένη εξυπηρέτηση πελατών, μεγαλύτερη αποτελεσματικότητα και συνολική ώθηση στην ανταγωνιστικότητα.

Η ανάλυση δεδομένων περιλαμβάνει την εξέταση συνόλων δεδομένων για την απόκτηση πληροφοριών ή την εξαγωγή συμπερασμάτων σχετικά με αυτό που περιέχουν, όπως τάσεις και προβλέψεις σχετικά με τη μελλοντική δραστηριότητα.

Αναλύοντας πληροφορίες χρησιμοποιώντας μεγάλα εργαλεία ανάλυσης δεδομένων, οι οργανισμοί μπορούν να λαμβάνουν επιχειρηματικές αποφάσεις με καλύτερη πληροφόρηση, όπως πότε και πού να εκτελέσουν μια καμπάνια μάρκετινγκ ή να εισαγάγουν ένα νέο προϊόν ή υπηρεσία.

Το Analytics μπορεί να αναφέρεται σε βασικές εφαρμογές επιχειρηματικής ευφυΐας ή πιο προηγμένα, προγνωστικά αναλυτικά στοιχεία, όπως αυτά που χρησιμοποιούνται από επιστημονικούς οργανισμούς. Ανάμεσα στον πιο προηγμένο τύπο ανάλυσης δεδομένων είναι η εξόρυξη δεδομένων, όπου οι αναλυτές αξιολογούν μεγάλα σύνολα δεδομένων για να προσδιορίσουν σχέσεις, μοτίβα και τάσεις.

Η ανάλυση δεδομένων μπορεί να περιλαμβάνει διερευνητική ανάλυση δεδομένων (για τον προσδιορισμό μοτίβων και σχέσεων στα δεδομένα) και επιβεβαιωτική ανάλυση δεδομένων (εφαρμογή στατιστικών τεχνικών για να διαπιστωθεί εάν μια υπόθεση για ένα συγκεκριμένο σύνολο δεδομένων είναι αλήθεια.

Μια άλλη διάκριση είναι η ποσοτική ανάλυση δεδομένων (ή ανάλυση αριθμητικών δεδομένων που έχουν ποσοτικοποιήσιμες μεταβλητές που μπορούν να συγκριθούν στατιστικά) έναντι της ποιοτικής ανάλυσης δεδομένων (η οποία εστιάζει σε μη αριθμητικά δεδομένα όπως βίντεο, εικόνες και κείμενο).

Υποδομή πληροφορικής για την υποστήριξη μεγάλων δεδομένων

Για να λειτουργήσει η έννοια των μεγάλων δεδομένων, οι οργανισμοί πρέπει να διαθέτουν την υποδομή για να συλλέξουν και να στεγάσουν τα δεδομένα, να παρέχουν πρόσβαση σε αυτά και να ασφαλίσουν τις πληροφορίες ενώ βρίσκονται σε αποθήκευση και σε μεταφορά. Αυτό απαιτεί την ανάπτυξη μεγάλων εργαλείων ανάλυσης δεδομένων.

Σε υψηλό επίπεδο, αυτά περιλαμβάνουν συστήματα αποθήκευσης και διακομιστές που έχουν σχεδιαστεί για μεγάλα δεδομένα, λογισμικό διαχείρισης και ενοποίησης δεδομένων, επιχειρηματική ευφυΐα και λογισμικό ανάλυσης δεδομένων και μεγάλες εφαρμογές δεδομένων.

Μεγάλο μέρος αυτής της υποδομής πιθανότατα θα είναι εσωτερικά, καθώς οι εταιρείες προσπαθούν να συνεχίσουν να αξιοποιούν τις επενδύσεις τους στο κέντρο δεδομένων. Όμως όλο και περισσότερο οι οργανισμοί βασίζονται σε υπηρεσίες cloud computing για να χειριστούν πολλές από τις μεγάλες απαιτήσεις δεδομένων τους.

Η συλλογή δεδομένων απαιτεί την ύπαρξη πηγών για τη συλλογή των δεδομένων. Πολλά από αυτά - όπως εφαρμογές ιστού, κανάλια κοινωνικών μέσων, εφαρμογές για κινητά και αρχεία email - έχουν ήδη τεθεί σε εφαρμογή. Όμως, καθώς το IoT καθιερώνεται, οι εταιρείες ενδέχεται να χρειαστεί να αναπτύξουν αισθητήρες σε όλα τα είδη συσκευών, οχημάτων και προϊόντων για τη συλλογή δεδομένων, καθώς και σε νέες εφαρμογές που δημιουργούν δεδομένα χρηστών. (Τα μεγάλα analytics με γνώμονα το IoT έχουν τις δικές τους εξειδικευμένες τεχνικές και εργαλεία.)

Για να αποθηκεύσουν όλα τα εισερχόμενα δεδομένα, οι οργανισμοί πρέπει να διαθέτουν επαρκή αποθήκευση δεδομένων. Μεταξύ των επιλογών αποθήκευσης είναι οι παραδοσιακές αποθήκες δεδομένων, οι λίμνες δεδομένων και ο χώρος αποθήκευσης που βασίζεται σε σύννεφο.

Τα εργαλεία υποδομής ασφαλείας ενδέχεται να περιλαμβάνουν κρυπτογράφηση δεδομένων, έλεγχο ταυτότητας χρήστη και άλλους ελέγχους πρόσβασης, συστήματα παρακολούθησης, τείχη προστασίας, διαχείριση κινητικότητας επιχειρήσεων και άλλα προϊόντα για την προστασία συστημάτων και δεδομένων,

Μεγάλες τεχνολογίες δεδομένων

Εκτός από την προηγούμενη υποδομή πληροφορικής που χρησιμοποιείται για δεδομένα γενικά. Υπάρχουν πολλές τεχνολογίες ειδικά για μεγάλα δεδομένα που πρέπει να υποστηρίζει η υποδομή πληροφορικής σας.

Οικοσύστημα Hadoop

Το Hadoop είναι μια από τις τεχνολογίες που συνδέονται στενά με τα μεγάλα δεδομένα. Το έργο Apache Hadoop αναπτύσσει λογισμικό ανοιχτού κώδικα για επεκτάσιμη, κατανεμημένη πληροφορική.

Η βιβλιοθήκη λογισμικού Hadoop είναι ένα πλαίσιο που επιτρέπει την κατανεμημένη επεξεργασία μεγάλων συνόλων δεδομένων σε ομάδες υπολογιστών χρησιμοποιώντας απλά μοντέλα προγραμματισμού. Είναι σχεδιασμένο να αυξάνεται από έναν διακομιστή σε χιλιάδες, ο καθένας προσφέρει τοπικό υπολογισμό και αποθήκευση.

Το έργο περιλαμβάνει διάφορες ενότητες:

  • Hadoop Common, τα κοινά βοηθητικά προγράμματα που υποστηρίζουν άλλες λειτουργικές μονάδες Hadoop
  • Hadoop Distributed File System, το οποίο παρέχει πρόσβαση υψηλής απόδοσης σε δεδομένα εφαρμογών
  • Hadoop YARN, ένα πλαίσιο προγραμματισμού εργασιών και διαχείρισης πόρων συμπλέγματος
  • Hadoop MapReduce, ένα σύστημα που βασίζεται στο YARN για παράλληλη επεξεργασία μεγάλων συνόλων δεδομένων.

Apache Spark

Μέρος του οικοσυστήματος Hadoop, το Apache Spark είναι ένα πλαίσιο συμπλέγματος υπολογιστών ανοιχτού κώδικα που χρησιμεύει ως κινητήρας για την επεξεργασία μεγάλων δεδομένων στο Hadoop. Το Spark έχει γίνει ένα από τα βασικά μεγάλα δεδομένα επεξεργασμένα πλαίσια επεξεργασίας και μπορεί να αναπτυχθεί με διάφορους τρόπους. Παρέχει εγγενείς συνδέσεις για τις γλώσσες Java, Scala, Python (ειδικά το Anaconda Python distro) και R προγραμματισμού (το R είναι ιδιαίτερα κατάλληλο για μεγάλα δεδομένα) και υποστηρίζει SQL, δεδομένα ροής, μηχανική εκμάθηση και επεξεργασία γραφημάτων.

Λίμνες δεδομένων

Οι λίμνες δεδομένων είναι αποθετήρια αποθήκευσης που διατηρούν εξαιρετικά μεγάλους όγκους ανεπεξέργαστων δεδομένων στη μητρική του μορφή έως ότου τα δεδομένα απαιτηθούν από επιχειρηματικούς χρήστες. Βοηθώντας στην τροφοδότηση της ανάπτυξης των δεδομένων είναι πρωτοβουλίες ψηφιακού μετασχηματισμού και η ανάπτυξη του IoT. Οι λίμνες δεδομένων έχουν σχεδιαστεί για να διευκολύνουν τους χρήστες να έχουν πρόσβαση σε τεράστιες ποσότητες δεδομένων όταν υπάρχει ανάγκη.

Βάσεις δεδομένων NoSQL

Οι συμβατικές βάσεις δεδομένων SQL έχουν σχεδιαστεί για αξιόπιστες συναλλαγές και ad hoc ερωτήματα, αλλά συνοδεύονται από περιορισμούς όπως το άκαμπτο σχήμα που τις καθιστούν λιγότερο κατάλληλες για ορισμένους τύπους εφαρμογών. Οι βάσεις δεδομένων NoSQL αντιμετωπίζουν αυτούς τους περιορισμούς και αποθηκεύουν και διαχειρίζονται δεδομένα με τρόπους που επιτρέπουν υψηλή ταχύτητα λειτουργίας και μεγάλη ευελιξία. Πολλές αναπτύχθηκαν από εταιρείες που αναζήτησαν καλύτερους τρόπους αποθήκευσης περιεχομένου ή επεξεργασίας δεδομένων για τεράστιους ιστότοπους. Σε αντίθεση με τις βάσεις δεδομένων SQL, πολλές βάσεις δεδομένων NoSQL μπορούν να κλιμακωθούν οριζόντια σε εκατοντάδες ή χιλιάδες διακομιστές.

Βάσεις δεδομένων στη μνήμη

Μια βάση δεδομένων στη μνήμη (IMDB) είναι ένα σύστημα διαχείρισης βάσεων δεδομένων που βασίζεται κυρίως στην κύρια μνήμη, παρά στο δίσκο, για αποθήκευση δεδομένων. Οι βάσεις δεδομένων στη μνήμη είναι γρηγορότερες από τις βάσεις δεδομένων που είναι βελτιστοποιημένες στο δίσκο, μια σημαντική εκτίμηση για μεγάλες χρήσεις ανάλυσης δεδομένων και τη δημιουργία αποθηκών δεδομένων και δεδομένων.

Μεγάλες δεξιότητες δεδομένων

Οι προσπάθειες για μεγάλα δεδομένα και αναλυτικά δεδομένα απαιτούν συγκεκριμένες δεξιότητες, είτε προέρχονται από τον οργανισμό είτε από εξωτερικούς εμπειρογνώμονες.

Πολλές από αυτές τις δεξιότητες σχετίζονται με τα βασικά μεγάλα στοιχεία της τεχνολογίας δεδομένων, όπως Hadoop, Spark, βάσεις δεδομένων NoSQL, βάσεις δεδομένων στη μνήμη και λογισμικό ανάλυσης.

Άλλοι είναι συγκεκριμένοι για κλάδους όπως η επιστήμη δεδομένων, η εξόρυξη δεδομένων, η στατιστική και ποσοτική ανάλυση, η οπτικοποίηση δεδομένων, ο προγραμματισμός γενικού σκοπού και η δομή και αλγόριθμοι δεδομένων. Υπάρχει επίσης ανάγκη για άτομα με συνολικές δεξιότητες διαχείρισης να βλέπουν μεγάλα έργα δεδομένων έως την ολοκλήρωσή τους.

Δεδομένου ότι έχουν γίνει κοινά μεγάλα έργα ανάλυσης δεδομένων και έλλειψη ατόμων με αυτούς τους τύπους δεξιοτήτων, η εύρεση έμπειρων επαγγελματιών μπορεί να είναι μια από τις μεγαλύτερες προκλήσεις για τους οργανισμούς.

Μεγάλες περιπτώσεις χρήσης αναλυτικών δεδομένων

Μεγάλα δεδομένα και αναλυτικά στοιχεία μπορούν να εφαρμοστούν σε πολλά επιχειρηματικά προβλήματα και περιπτώσεις χρήσης. Ακολουθούν μερικά παραδείγματα:

  • Αναλυτικά στοιχεία πελατών. Οι εταιρείες μπορούν να εξετάσουν δεδομένα πελατών για να βελτιώσουν την εμπειρία των πελατών, να βελτιώσουν τα ποσοστά μετατροπών και να αυξήσουν τη διατήρηση.
  • Λειτουργική ανάλυση. Η βελτίωση της επιχειρησιακής απόδοσης και η καλύτερη χρήση των εταιρικών περιουσιακών στοιχείων είναι οι στόχοι πολλών εταιρειών. Τα μεγάλα εργαλεία ανάλυσης δεδομένων μπορούν να βοηθήσουν τις επιχειρήσεις να βρουν τρόπους να λειτουργούν πιο αποτελεσματικά και να βελτιώνουν την απόδοση.
  • Πρόληψη της απάτης. Μεγάλα εργαλεία και ανάλυση δεδομένων μπορούν να βοηθήσουν τους οργανισμούς να εντοπίσουν ύποπτη δραστηριότητα και μοτίβα που μπορεί να υποδηλώνουν δόλια συμπεριφορά και να μετριάσουν τους κινδύνους.
  • Βελτιστοποίηση τιμών. Οι εταιρείες μπορούν να χρησιμοποιούν μεγάλα αναλυτικά δεδομένα για τη βελτιστοποίηση των τιμών που χρεώνουν για προϊόντα και υπηρεσίες, συμβάλλοντας στην αύξηση των εσόδων.