Προγραμματισμός

Η Microsoft φέρνει το .NET dev στο Apache Spark

Η Microsoft και το Ίδρυμα .NET κυκλοφόρησαν την έκδοση 1.0 του .NET για το Apache Spark, ένα πακέτο ανοιχτού κώδικα που φέρνει την ανάπτυξη .NET στη μηχανή ανάλυσης Spark για επεξεργασία δεδομένων μεγάλης κλίμακας.

Ανακοινώθηκε στις 27 Οκτωβρίου, το .NET για το Apache Spark 1.0 έχει υποστήριξη για εφαρμογές .NET που στοχεύουν .NET Standard 2.0 ή μεταγενέστερη έκδοση. Οι χρήστες μπορούν να έχουν πρόσβαση σε API Spark DataFrame, να γράφουν Spark SQL και να δημιουργούν λειτουργίες που καθορίζονται από το χρήστη UDF).

Το πλαίσιο .NET για Apache Spark είναι διαθέσιμο στη σελίδα GitHub του .NET Foundation ή από το NuGet. Άλλες δυνατότητες του .NET για Apache Spark 1.0 περιλαμβάνουν:

  • Ένα πλαίσιο επέκτασης API για να προσθέσετε υποστήριξη για επιπλέον βιβλιοθήκες Spark, συμπεριλαμβανομένων των λειτουργιών Linux Foundation Delta Lake, Microsoft OSS Hyperspace, ML.NET και Apache Spark MLlib.
  • .NET για προγράμματα Apache Spark που δεν είναι UDF δείχνουν την ίδια ταχύτητα με τις εφαρμογές που δεν βασίζονται σε Scala και PySpark που δεν βασίζονται σε UDF. Εάν οι εφαρμογές περιλαμβάνουν UDF, τα προγράμματα .NET για Apache Spark είναι τουλάχιστον τόσο γρήγορα όσο τα προγράμματα PySpark ή μπορεί να είναι ταχύτερα.
  • Το .NET για το Apache Spark είναι ενσωματωμένο στο Azure Synapse και στο Azure HDInsight. Μπορεί επίσης να χρησιμοποιηθεί σε άλλες προσφορές Apache Spark cloud, συμπεριλαμβανομένων των Azure Databricks.

Η πρώτη δημόσια έκδοση του έργου ανακοινώθηκε τον Απρίλιο του 2019. Οδηγώντας την ανάπτυξη του .NET για το Apache Spark, η αυξημένη ζήτηση για έναν ευκολότερο τρόπο δημιουργίας μεγάλων εφαρμογών δεδομένων, αντί να χρειάζεται να μάθει Scala ή Python. Το έργο λειτουργεί υπό το Ίδρυμα .NET και έχει κατατεθεί ως Spark Project Improvement Proposal που θα εξεταστεί για ένταξη στο πρόγραμμα Apache Spark απευθείας.

Κοιτάζοντας μπροστά, η Microsoft αντιμετωπίζει εμπόδια, συμπεριλαμβανομένης της ρύθμισης προϋποθέσεων και εξαρτήσεων και της εύρεσης ποιοτικής τεκμηρίωσης, με παραδείγματα όπως εικόνες "έτοιμο προς εκτέλεση" Docker που συνεισφέρει η κοινότητα και ενημερώσεις στο .NET για την τεκμηρίωση του Apache Spark. Μια άλλη προτεραιότητα είναι η υποστήριξη επιλογών ανάπτυξης, όπως η ενσωμάτωση με αγωγούς CI / CD devops και η δημοσίευση εργασιών απευθείας από το Visual Studio.