Προγραμματισμός

Το Apache Eagle παρακολουθεί τη μεγάλη χρήση δεδομένων

Το Apache Eagle, που αναπτύχθηκε αρχικά στο eBay, στη συνέχεια δωρίστηκε στο Apache Software Foundation, γεμίζει μια μεγάλη θέση ασφαλείας δεδομένων που παραμένει αραιοκατοικημένη, αν όχι γυμνή: μυρίζει πιθανά ζητήματα ασφάλειας και απόδοσης με μεγάλα πλαίσια δεδομένων.

Για να το κάνει αυτό, το Eagle χρησιμοποιεί άλλα συστατικά ανοιχτού κώδικα Apache, όπως τα Kafka, Spark και Storm, για να δημιουργήσει και να αναλύσει μοντέλα μηχανικής μάθησης από τα δεδομένα συμπεριφοράς των μεγάλων ομάδων δεδομένων.

Κοιτάζοντας από μέσα

Τα δεδομένα για το Eagle μπορούν να προέρχονται από αρχεία καταγραφής δραστηριοτήτων για διάφορες πηγές δεδομένων (HDFS, Hive, MapR FS, Cassandra) ή από μετρήσεις απόδοσης που συλλέγονται απευθείας από πλαίσια όπως το Spark. Τα δεδομένα μπορούν στη συνέχεια να διοχετευτούν από το πλαίσιο ροής Kafka σε ένα σύστημα ανίχνευσης σε πραγματικό χρόνο που έχει κατασκευαστεί με το Apache Storm ή σε ένα σύστημα εκπαίδευσης μοντέλων που βασίζεται στο Apache Spark. Το πρώτο για τη δημιουργία ειδοποιήσεων και αναφορών με βάση τις υπάρχουσες πολιτικές. Το τελευταίο είναι για τη δημιουργία μοντέλων μηχανικής μάθησης για την προώθηση νέων πολιτικών.

Αυτή η έμφαση στη συμπεριφορά σε πραγματικό χρόνο βρίσκεται στην κορυφή της λίστας των «βασικών ιδιοτήτων» στην τεκμηρίωση του Eagle. Ακολουθείται από "επεκτασιμότητα", "βάσει μεταδεδομένων" (που σημαίνει ότι οι αλλαγές στις πολιτικές αναπτύσσονται αυτόματα όταν αλλάζουν τα μεταδεδομένα τους) και "επεκτασιμότητα". Αυτό σημαίνει ότι οι πηγές δεδομένων, τα συστήματα ειδοποίησης και οι μηχανές πολιτικής που χρησιμοποιούνται από την Eagle παρέχονται από πρόσθετα και δεν περιορίζονται σε αυτό που υπάρχει στο κουτί.

Επειδή ο Eagle δημιουργήθηκε από υπάρχοντα μέρη του κόσμου Hadoop, έχει δύο θεωρητικά πλεονεκτήματα. Πρώτον, υπάρχει λιγότερη επανεφεύρεση του τροχού. Δύο, εκείνοι που έχουν ήδη εμπειρία με τα εν λόγω κομμάτια θα έχουν ένα πόδι.

Τι κάνουν οι λαοί μου;

Εκτός από τις προαναφερθείσες περιπτώσεις χρήσης, όπως η ανάλυση της απόδοσης εργασίας και η παρακολούθηση ανωμαλιών συμπεριφοράς, ο Eagle μπορεί επίσης να αναλύσει τις συμπεριφορές των χρηστών. Αυτό δεν αφορά, ας πούμε, την ανάλυση δεδομένων από μια εφαρμογή ιστού για να μάθουν για τους δημόσιους χρήστες της εφαρμογής, αλλά μάλλον τους χρήστες του ίδιου του μεγάλου πλαισίου δεδομένων - τους ανθρώπους που χτίζουν και διαχειρίζονται το Hadoop ή το Spark back end. Περιλαμβάνεται ένα παράδειγμα του τρόπου εκτέλεσης μιας τέτοιας ανάλυσης και θα μπορούσε να αναπτυχθεί ως έχει ή να τροποποιηθεί.

Το Eagle επιτρέπει επίσης την ταξινόμηση των δεδομένων εφαρμογής ανάλογα με τα επίπεδα ευαισθησίας. Μόνο οι εφαρμογές HDFS, Hive και HBase μπορούν να κάνουν χρήση αυτής της δυνατότητας αυτήν τη στιγμή, αλλά η αλληλεπίδρασή της με αυτές παρέχει ένα μοντέλο για τον τρόπο ταξινόμησης και άλλων πηγών δεδομένων.

Ας το κρατήσουμε υπό έλεγχο

Επειδή τα μεγάλα πλαίσια δεδομένων είναι δημιουργίες που κινούνται γρήγορα, ήταν δύσκολο να δημιουργηθεί αξιόπιστη ασφάλεια γύρω τους. Η προϋπόθεση του Eagle είναι ότι μπορεί να παρέχει ανάλυση και ειδοποίηση βάσει πολιτικής ως πιθανό συμπλήρωμα σε άλλα έργα όπως το Apache Ranger. Το Ranger παρέχει έλεγχο ταυτότητας και ελέγχου πρόσβασης σε Hadoop και τις σχετικές τεχνολογίες του. Το Eagle σάς δίνει μια ιδέα για το τι κάνουν οι άνθρωποι όταν τους επιτρέψουν να εισέλθουν.

Το μεγαλύτερο ερώτημα που αιωρείται για το μέλλον της Eagle - ναι, ακόμη και νωρίς - είναι σε ποιο βαθμό οι προμηθευτές Hadoop θα το μεταφέρουν κομψά στις υπάρχουσες διανομές τους ή θα χρησιμοποιούν τις δικές τους προσφορές ασφάλειας. Η ασφάλεια των δεδομένων και η διακυβέρνηση υπήρξαν από καιρό ένα από τα ελλείποντα κομμάτια στα οποία θα μπορούσαν να ανταγωνιστούν οι εμπορικές προσφορές.

$config[zx-auto] not found$config[zx-overlay] not found