• ziņu_reklāmkarogs

apkalpošana

Spark Streaming datu tīrīšanas mehānisms
(I) DStream un RDD
Kā mēs zinām, Spark Streaming aprēķini ir balstīti uz Spark Core, un Spark Core kodols ir RDD, tāpēc Spark Streaming ir jāsaista arī ar RDD.Tomēr Spark Streaming neļauj lietotājiem tieši izmantot RDD, bet gan abstrahē DStream jēdzienu kopu, DStream un RDD ir iekļaujošas attiecības, varat to saprast kā Java dekorācijas modeli, tas ir, DStream ir RDD uzlabojums, bet uzvedība ir līdzīga RDD.
Gan DStream, gan RDD ir vairāki nosacījumi.
(1) ir līdzīgas pārveidošanas darbības, piemēram, karte, redukcijaByKey utt., bet arī dažas unikālas, piemēram, Window, mapWithStated utt.
(2) visām ir darbības darbības, piemēram, foreachRDD, count utt.
Programmēšanas modelis ir konsekvents.
(B) DStream ieviešana Spark Streaming
DStream satur vairākas klases.
(1) Datu avotu klases, piemēram, InputDStream, specifiskas kā DirectKafkaInputStream utt.
(2) Reklāmguvumu klases, parasti MappedDStream, ShuffledDStream
(3) izvades klases, parasti tādas kā ForEachDStream
No iepriekš minētā, datus no sākuma (ievades) līdz beigām (izvadei) veic DStream sistēma, kas nozīmē, ka lietotājs parasti nevar tieši ģenerēt un manipulēt ar RDD, kas nozīmē, ka DStream ir iespēja un pienākums būt atbildīgs par RDD dzīves ciklu.
Citiem vārdiem sakot, Spark Streaming irautomātiskā tīrīšanafunkcija.
(iii) RDD ģenerēšanas process Spark Streaming
RDD dzīves plūsma Spark straumēšanā ir aptuvena šāda.
(1) Programmā InputDStream saņemtie dati tiek pārveidoti par RDD, piemēram, DirectKafkaInputStream, kas ģenerē KafkaRDD.
(2) pēc tam, izmantojot MappedDStream un citu datu konvertēšanu, šo laiku tieši sauc par RDD, kas atbilst konvertēšanas kartes metodei.
(3) Izvades klases operācijā tikai tad, kad ir atvērts RDD, varat ļaut lietotājam veikt atbilstošo krātuvi, citus aprēķinus un citas darbības.