• ziņu_reklāmkarogs

Pakalpojums

Spark Streaming datu tīrīšanas mehānisms
(I) DStream un RDD
Kā zināms, Spark Streaming aprēķini ir balstīti uz Spark Core, un Spark Core kodols ir RDD, tāpēc arī Spark Streaming ir jāsaista ar RDD. Tomēr Spark Streaming neļauj lietotājiem tieši izmantot RDD, bet gan abstrahē DStream jēdzienu kopu. DStream un RDD ir iekļaujošas attiecības, ko var saprast kā dekorācijas modeli Java valodā, tas ir, DStream ir RDD uzlabojums, taču tā darbība ir līdzīga RDD.
Gan DStream, gan RDD ir vairāki nosacījumi.
(1) ir līdzīgas transformācijas darbības, piemēram, map, reduceByKey utt., bet arī dažas unikālas, piemēram, Window, mapWithStated utt.
(2) visiem ir darbības, piemēram, foreachRDD, count utt.
Programmēšanas modelis ir konsekvents.
(B) DStream ieviešana Spark straumēšanā
DStream satur vairākas klases.
(1) Datu avotu klases, piemēram, InputDStream, specifiskas kā DirectKafkaInputStream utt.
(2) Konversijas klases, parasti MappedDStream, ShuffledDStream
(3) izvades klases, parasti tādas kā ForEachDStream
No iepriekš minētā, datus no sākuma (ievades) līdz beigām (izvades) veic DStream sistēma, kas nozīmē, ka lietotājs parasti nevar tieši ģenerēt un manipulēt ar ADD, kas nozīmē, ka DStream ir iespēja un pienākums būt atbildīgam par ADD dzīves ciklu.
Citiem vārdiem sakot, Spark Streaming irautomātiskā tīrīšanafunkcija.
(iii) RDD ģenerēšanas process Spark straumēšanas vidē
RDD dzīves plūsma Spark Streaming ir aptuvena šādi.
(1) Programmā InputDStream saņemtie dati tiek pārveidoti par RDD, piemēram, DirectKafkaInputStream, kas ģenerē KafkaRDD.
(2) pēc tam, izmantojot MappedDStream un citas datu konvertēšanas metodes, šo laiku tieši sauc par RDD, kas atbilst konvertēšanas kartēšanas metodei.
(3) Izvades klases darbībā tikai tad, kad ir pieejama RDD, lietotājs var veikt atbilstošo krātuvi, citus aprēķinus un citas darbības.