Kas ir Lielie dati? Par Lielajiem datiem parasti runā, kad tradicionālās datu apstrādes metodes vairs nespēj tikt galā ar datu apjomu, ātrumu, dažādību un ticamību. Lai gan nav viena konkrēta datu apjoma, ko varētu nosaukt par Lielajiem datiem, parasti tie ir datu kopumi, kas pārsniedz tradicionālo datubāzu un datu apstrādes rīku spējas. Kas jādara, ja nepieciešams izpētīt šādu milzīgu datu kopumu un nav tūlītējas piekļuves pilnvērtīgai Lielo datu platformai? Šajā rakstā apskatīsim, kā ar pieejamiem rīkiem var gūt nelielu ieskatu šajos Lielajos datos, ja vēl nav pieejams specializēts risinājums.
Kā vienu no šādiem rīkiem var izmantot Power Query. Tas ir jaudīgs datu transformācijas rīks, kas ir iebūvēts Excel un Power BI un piedāvā efektīvu veidu, kā veikt nelielu ieskatu Lielajos datos, ļaujot veikt sākotnējo datu izpēti un sagatavošanu pirms sarežģītākas analīzes veikšanas. Lai gan Power Query pats par sevi nav pilnīgs Lielo datu risinājums, tas ir vērtīgs palīgs, lai izprastu un sagatavotu datus turpmākai apstrādei.
Power Query ir svarīga loma darbplūsmas sākuma posmos pirms datu apstrādes. Tas darbojas kā tilts starp dažādiem datu avotiem. Neatkarīgi no tā, vai jūsu dati atrodas lielos CSV failos, plašās datubāzēs vai citur, Power Query var savienoties un iegūt nepieciešamo informāciju. Tomēr tieša miljonu vai miljardu rindu ielāde Excel programmā bieži vien ir nepraktiska. Tādēļ Power Query dažādu datu kopu paraugu atlasīšanas iespējas kļūst ļoti svarīgas.
Ir iespējams iegūt mazākus, reprezentatīvus Lielo datu paraugus analīzei, izmantojot vairākas metodes. Pirmo N rindu iegūšana nodrošina ātru ieskatu, savukārt nejaušu paraugu atlasīšana piedāvā statistiski pamatotāku kopu. Filtrēšana, pamatojoties uz īpašiem kritērijiem, piemēram, darījumiem no konkrēta reģiona vai laika perioda, ļauj koncentrēties uz atbilstošām datu apakškopām. Kad ir atlasīts pārvaldāms datu paraugs, var izmantot Power Query datu sagatavošanas iespējas. Parasti veicamie uzdevumi ietver trūkstošo vērtību apstrādi, datu formātu (datumu, valūtu utt.) standartizāciju, datu apkopošanu augstākā detalizācijas līmenī un aprēķināto kolonnu izveidi, lai iegūtu jaunas atziņas. Piemēram, ieņēmumu īpatsvaru pa klientiem ir iespējams apstiprināt, balstoties uz darījumu vēsturi, vai kategorizēt produktus, balstoties uz pārdošanas apjomu.
Tomēr svarīgi pieminēt arī Power Query ierobežojumus, strādājot ar datu kopām, kuras var uzskatīt par Lielajiem datiem. Veiktspēja var būtiski pasliktināties, palielinoties datu apjomiem, izmantojot Excel kā datu gala ielādes vietu, rindu skaita ierobežojumi var kļūt par šķērsli. Tāpēc ir ļoti svarīgi optimizēt datu apstrādes soļus un vaicājumus, kas ietekmē apstrādes ātrumu. Nepieciešams filtrēt datus procesa sākumā, lai samazinātu ielādēto datu apjomu. Vēlams samazināt transformācijas soļu skaitu un izmantot atbilstošas datu tipu konvertācijas, lai izvairītos no nevajadzīgas procesēšanas jaudas izmantošanas. Šī pieeja ir piemērota sākotnējai izpētei un mazāka mēroga analīzei. Uzdevumiem, kuriem nepieciešama liela apjoma datu apstrāde, ir nepieciešamas specializētas Lielo datu platformas, piemēram, Hadoop, Spark vai mākoņdatošanas datu noliktavas.
Viens no piemēriem, kad jāveic sākotnējo datu izpēte, ir klientu darījumu datu analīze no e-komercijas platformas. Izmantojot Power Query, var izveidot savienojumu ar datubāzi, kurā atrodas darījumu dati. No tiem var atlasīt nejaušu 10 000 darījumu paraugu un pēc tam izmantot Power Query, lai aprēķinātu vidējo darījuma vērtību vienam klientam. Identificēt vislabāk pārdotos produktu veidus un segmentēt klientus, pamatojoties uz darījumu vēsturi. Šī sākotnējā analīze var sniegt vērtīgas atziņas un norādīt, kuras datu kopas ir vērts analizēt padziļināti ar specializētiem rīkiem.
Apkopojot iepriekš minēto, Power Query ir praktisks un pieejams rīks, lai gūtu nelielu ieskatu par Lielajiem datiem. Tas nodrošina datu paraugu atlasīšanu un apstrādi, kas dod lietotājiem iespēju izpētīt milzīgus datu kopumus un gūt sākotnējo ieskatu bez pilnīgas Lielo datu infrastruktūras. Pat ja Lielo datu apstrādes platforma nav pieejama, ar Power Query var veikt nelielu sākotnējo datu izpēti. Lai papildinātu savas zināšanas par Lielajiem datiem, aicinām izpētīt resursus par datu noliktavām, mākoņdatošanu un sadalītas apstrādes metodēm.
Ja Jums ir kāds komentārs par šo rakstu, lūdzu, iesūtiet to šeit lv_mindlink@pwc.com
Uzdot jautājumuKā zināms, Ekonomiskās sadarbības un attīstības organizācija (ESAO) ir unikāls forums un globāli atzīts ekspertīzes centrs, kas dalībvalstīm, tostarp, Latvijai dod iespēju efektīvi risināt tās interesējošos jautājumus par transfertcenu atbilstību.
Šajā īsziņā - par ESAO izstrādātajām Summas B vadlīnijām saistītajiem uzņēmumiem, kuri veic preču izplatītāja funkciju uzņēmumu grupā.
Šā gada 9. septembrī Valsts ieņēmumu dienests (VID) atgādināja Latvijas nodokļu maksātājiem par iespēju pieteikties automātiskai iedzīvotāju ienākuma nodokļa (IIN) atmaksai, neiesniedzot gada ienākumu deklarāciju (GID). Fiziskas personas, kas vēlas saņemt iepriekšējā taksācijas gadā pārmaksāto IIN uz savu kredītiestādes kontu, tiek aicinātas pieteikties pakalpojumam līdz šā gada 30. septembrim. Tāpat vēršam uzmanību, ka no šā gada augusta VID ir paplašinājis nodokļu maksātāju iespējas pieslēgties Elektroniskās deklarēšanas sistēmai (EDS) ar rīku “Smart-ID”, piedāvājot ērtāku autentifikācijas veidu.
Valsts un pašvaldību iestādēm ir pienākums veidot piekļūstamu saturu tīmekļvietnēs jau kopš 2016. gada. To paredz 2016. gadā pieņemtā Eiropas Parlamenta un Padomes Direktīva par publiskā sektora struktūru tīmekļvietņu un mobilo lietotņu piekļūstamību. Tomēr izpēte liecina, ka cilvēkiem ar invaliditāti joprojām ir lielas grūtības piekļūt informācijai sev nepieciešamā veidā. Piemēram, šā gada augustā pēc 15 valsts un pašvaldību iestāžu mājaslapu izpētes tiesībsargs secinājis, ka neviena no tām nav pilnvērtīgi piekļūstama cilvēkiem ar invaliditāti. Šajā rakstā skaidrosim, kas tieši ir piekļūstamība un kāpēc tā ir svarīga arī uzņēmumiem, kā arī aplūkosim digitālo resursu un pakalpojumu piekļūstamības būtību, pamatojumu, normatīvo regulējumu, praksi un ieteikumus sekmīgai piekļūstamības nodrošināšanai.
Mēs izmantojam sīkdatnes vietnes funkcionalitātes nodrošināšanai un satura kvalitātes uzlabošanai. Sīkdatnes bez kurām vietne nespēj funkcionēt ir vienmēr ieslēgtas, pārējās var brīvi ieslēgt/izslēgt izmantojot šo konfigurācijas paneli. PwC nepārdod Tavus datus trešajām personām.
Noklikšķinot uz “Apstiprināt visas sīkdatnes”, Tu piekrīti visu sīkdatņu veidu izmantošanai.
Plašāka informācija par sīkdatnēm pieejama sīkdatņu izmantošanas politikā..
Šīs sīkdatnes ir nepieciešamas lietotāju autentifikācijas nodrošināšanai. Tās var bloķēt izmantojot pārlūka uzstādījumus, taču šādā gadījumā nebūs iespējams autentificēties.
Šīs sīkdatnes ļauj mums analizēt tīmekļa vietnes apmeklējumu, datu plūsmu avotus un mērtīt vietnes veiktspēju. Šīs sīkdatnes neuzglabā personiski identificējamu informāciju.
Sīs sīkdatnes palīdz mums pielāgot vietnes saturu Jūsu interesēm un uzlabo reklāmu kvalitāti (neļauj tām nepārtraukti atkārtoties, utt).