Date of Award

Summer 6-2019

Document Type

Thesis

Degree Name

Bachelor Degree

Department

Computer Science

First Advisor

Ramiz Hoxha

Language

Albanian

Abstract

Në këtë temë prezentoj 'Big Data Analysis with Apache Pig-Apache Hadoop' në fushën e grumbullimit të të dhënave, për shkak se proceset e grumbullimit të të dhënave përdoren aktualisht nga shumica e organizatave në botën dixhitale që po zgjerohet me informacione të pafundme. Platformat paralele të përpunimit dhe sistemet paralele të të dhënave që janë gjithnjë e më popullore. Frameworkat kanë përmirësuar ndjeshëm performancën e analizës së të dhënave. Dhjetëra ose qindra nyje vrapojnë së bashku për të ekzekutuar një detyrë. Është shumë e rëndësishme të përmirësohet shfrytëzimi i burimeve dhe efikasiteti i llogaritjes. Sipas Microsoftit, ekziston rreth 30% përllogaritjeve të pa-nevojshëme të punës. Llogaritja pa-nevojshëme është një humbje kohe dhe burimesh. Apache Pig është një sistem paralel i të dhënave që është në ekosistemin Apache Hadoop, e cila gjithashtu është platformë paralele e përpunimit. Pig / Hadoop është një nga kombinimet më të njohura që përdoren për përpunimin e të dhënave. Në këtë temë prezentoje frameworkat që materializonjnë dhe ripërdorin rezultatet e llogaritjeve për të shmangur tepricat e llogaritjes. Të tre rastet e studiuara në këtë temë mbuluan dy lloje të të dhënave të mëdha. Megjithatë, duke përdorur ekosistemin Apache Hadoop.

DOI

10.33107/ubt-etd.2019.1698

Share

COinS