• news_banner

Υπηρεσία

Μηχανισμός καθαρισμού δεδομένων Spark Streaming
(I) DSstream και RDD
Όπως γνωρίζουμε, ο υπολογισμός του Spark Streaming βασίζεται στο Spark Core και ο πυρήνας του Spark Core είναι RDD, επομένως το Spark Streaming πρέπει να σχετίζεται και με το RDD.Ωστόσο, το Spark Streaming δεν επιτρέπει στους χρήστες να χρησιμοποιήσουν απευθείας το RDD, αλλά αφαιρεί ένα σύνολο από έννοιες DStream, το DStream και το RDD αποτελούν σχέσεις χωρίς αποκλεισμούς, μπορείτε να το καταλάβετε ως το μοτίβο διακόσμησης στην Java, δηλαδή, το DStream είναι μια βελτίωση του RDD, αλλά η συμπεριφορά είναι παρόμοια με την RDD.
Το DStream και το RDD έχουν και τα δύο αρκετές προϋποθέσεις.
(1) έχουν παρόμοιες ενέργειες μεταμόρφωσης, όπως map, reduceByKey κ.λπ., αλλά και κάποιες μοναδικές, όπως Window, mapWithStated κ.λπ.
(2) όλα έχουν ενέργειες Ενέργειας, όπως foreachRDD, count κ.λπ.
Το μοντέλο προγραμματισμού είναι συνεπές.
(Β) Εισαγωγή του DStream στο Spark Streaming
Το DStream περιέχει πολλές κλάσεις.
(1) Κλάσεις προέλευσης δεδομένων, όπως InputDStream, ειδικές ως DirectKafkaInputStream, κ.λπ.
(2) Κατηγορίες μετατροπής, συνήθως MappedDStream, ShuffledDStream
(3) κλάσεις εξόδου, συνήθως όπως ForEachDStream
Από τα παραπάνω, τα δεδομένα από την αρχή (είσοδος) έως το τέλος (έξοδος) γίνονται από το σύστημα DStream, πράγμα που σημαίνει ότι ο χρήστης κανονικά δεν μπορεί να δημιουργήσει και να χειριστεί απευθείας RDD, πράγμα που σημαίνει ότι το DStream έχει την ευκαιρία και την υποχρέωση να υπεύθυνος για τον κύκλο ζωής των RDD.
Με άλλα λόγια, το Spark Streaming έχει ένααυτόματο καθαρισμόλειτουργία.
(iii) Η διαδικασία παραγωγής RDD στο Spark Streaming
Η ροή ζωής των RDD στο Spark Streaming είναι πρόχειρη ως εξής.
(1) Στο InputDStream, τα δεδομένα που λαμβάνονται μετατρέπονται σε RDD, όπως το DirectKafkaInputStream, το οποίο δημιουργεί το KafkaRDD.
(2) στη συνέχεια μέσω της μετατροπής MappedDStream και άλλων δεδομένων, αυτή η φορά ονομάζεται απευθείας RDD που αντιστοιχεί στη μέθοδο χάρτη για τη μετατροπή
(3) Στη λειτουργία κλάσης εξόδου, μόνο όταν εκτίθεται το RDD, μπορείτε να αφήσετε τον χρήστη να εκτελέσει την αντίστοιχη αποθήκευση, άλλους υπολογισμούς και άλλες λειτουργίες.