Impormasyon sa istatistika: koleksyon, pagproseso, pagsusuri

Talaan ng mga Nilalaman:

Impormasyon sa istatistika: koleksyon, pagproseso, pagsusuri
Impormasyon sa istatistika: koleksyon, pagproseso, pagsusuri
Anonim

Sa buong kasaysayan ng mga istatistika, iba't ibang mga pagtatangka ang ginawa upang lumikha ng isang taxonomy ng mga antas ng pagsukat. Tinukoy ng psychophysicist na si Stanley Smith Stevens ang nominal, ordinal, interval, at proportional scale.

Ang mga nominal na sukat ay walang makabuluhang pagkakasunud-sunod ng mga ranggo sa mga halaga at nagbibigay-daan sa anumang one-to-one na conversion.

Ang mga regular na dimensyon ay may mga hindi eksaktong pagkakaiba sa pagitan ng magkakasunod na halaga, ngunit may partikular na pagkakasunud-sunod ng mga halagang iyon at pinapayagan ang anumang pagbabagong nagpapanatili ng order.

May mga makabuluhang distansya sa pagitan ng mga punto ang mga sukat sa pagitan, ngunit ang zero na halaga ay arbitrary (tulad ng kaso ng longitude at mga sukat ng temperatura sa Celsius o Fahrenheit) at nagbibigay-daan para sa anumang linear na pagbabago.

Ang mga sukat ng ratio ay may parehong makabuluhang zero na halaga at mga distansya sa pagitan ng iba't ibang dimensyon, at nagbibigay-daan para sa anumang pagbabago sa scaling.

Image
Image

Mga variable at klasipikasyon ng impormasyon

Dahil ang mga variableAng naaayon lamang sa mga nominal o ordinal na sukat ay hindi makatwirang masusukat ayon sa numero, at kung minsan ay pinagsama-sama bilang mga variable na kategorya. Ang mga sukat ng ratio at agwat ay pinagsama-sama bilang mga variable na dami, na maaaring maging discrete o tuloy-tuloy dahil sa kanilang numerical na katangian. Ang ganitong mga pagkakaiba ay kadalasang maluwag na nauugnay sa uri ng data sa computer science, dahil ang mga dichotomous categorical na variable ay maaaring katawanin ng mga boolean value, polytomous categorical variable na may mga arbitrary integer sa isang integral na uri ng data, at tuluy-tuloy na mga variable na may mga tunay na bahagi na kinabibilangan ng floating point computation. Ngunit ang pagpapakita ng mga uri ng data ng impormasyon sa istatistika ay nakasalalay sa kung aling pag-uuri ang inilalapat.

Impormasyon sa istatistika sa mga manggagawa
Impormasyon sa istatistika sa mga manggagawa

Iba pang mga klasipikasyon

Nagawa na rin ang iba pang mga klasipikasyon ng istatistikal na data (impormasyon). Halimbawa, pinag-iba ni Mosteller at Tukey ang mga marka, ranggo, binilang na bahagi, bilang, halaga, at balanse. Sa isang pagkakataon, inilarawan ni Nelder ang mga tuloy-tuloy na bilang, tuluy-tuloy na mga ratio, ugnayan ng mga bilang, at mga kategoryang paraan ng pakikipag-ugnayan ng data. Ang lahat ng mga pamamaraan ng pag-uuri na ito ay ginagamit sa pangongolekta ng impormasyong istatistika.

Problems

Ang tanong kung angkop bang maglapat ng iba't ibang uri ng istatistikal na pamamaraan sa data na nakuha sa pamamagitan ng iba't ibang pamamaraan ng pagsukat (pagkolekta) ay kumplikado ng mga isyung nauugnay sa conversion ng mga variable at ang tumpak na interpretasyon ng mga tanongpananaliksik. Ang ugnayan sa pagitan ng data at kung ano ang inilalarawan nito ay sumasalamin lamang sa katotohanan na ang ilang mga uri ng istatistikal na pahayag ay maaaring magkaroon ng mga halaga ng katotohanan na hindi nagbabago sa ilalim ng ilang mga pagbabago. Kung ang pagbabago ay nagkakahalaga ng pagsasaalang-alang ay depende sa tanong na sinusubukan mong sagutin.

Isang halimbawa ng istatistikal na impormasyon
Isang halimbawa ng istatistikal na impormasyon

Ano ang uri ng data

Ang uri ng data ay isang pangunahing bahagi ng semantic na nilalaman ng isang variable at kinokontrol kung anong mga uri ng probability distribution ang maaaring lohikal na magamit upang ilarawan ang variable, ang mga operasyong pinapayagan dito, ang uri ng regression analysis na ginamit upang hulaan ito, atbp. Ang konsepto ng isang uri ng data ay magkapareho sa konsepto ng antas ng pagsukat, ngunit mas tiyak - halimbawa, ang mga bilang ng data ay nangangailangan ng ibang distribusyon (Poisson o binomial) kaysa sa mga hindi negatibong tunay na halaga, ngunit pareho ang nasa ilalim ng pareho antas ng pagsukat (coefficient scale).

Impormasyong istatistika sa mga hukom
Impormasyong istatistika sa mga hukom

Scales

Iba't ibang pagsubok ang ginawa upang lumikha ng isang taxonomy ng mga antas ng pagsukat para sa pagproseso ng istatistikal na impormasyon. Tinukoy ng psychophysicist na si Stanley Smith Stevens ang nominal, ordinal, interval, at proportional na kaliskis. Ang mga nominal na sukat ay walang makabuluhang pagkakasunud-sunod ng mga ranggo sa mga halaga at pinapayagan ang anumang one-to-one na conversion. Ang mga karaniwang sukat ay may mga hindi tumpak na pagkakaiba sa pagitan ng magkakasunod na mga halaga, ngunit naiiba sa makabuluhang pagkakasunud-sunod ng mga halagang iyon, at nagbibigay-daananumang pagbabagong nagpapanatili ng kaayusan. Ang mga pagsukat sa pagitan ay may makabuluhang mga distansya sa pagitan ng mga sukat, ngunit ang zero na halaga ay arbitrary (tulad ng kaso ng longitude at mga sukat ng temperatura sa Celsius o Fahrenheit) at nagbibigay-daan para sa anumang linear na pagbabago. Ang mga sukat ng ratio ay may parehong makabuluhang zero na halaga at mga distansya sa pagitan ng iba't ibang tinukoy na mga dimensyon, at nagbibigay-daan para sa anumang pagbabago sa scaling.

Modelo ng diagram
Modelo ng diagram

Ang Data na hindi mailalarawan gamit ang isang numero ay kadalasang kasama sa mga random na vector ng mga tunay na random na variable, bagama't may lumalagong trend na magpoproseso ng mga ito mismo. Ang mga ganitong halimbawa ay tatalakayin sa ibaba.

Mga random na vector

Ang mga indibidwal na elemento ay maaaring magkaugnay o hindi. Ang mga halimbawa ng mga distribusyon na ginamit upang ilarawan ang mga magkakaugnay na random na vector ay ang multivariate na normal na distribution at ang multivariate na t-distribution. Sa pangkalahatan, maaaring magkaroon ng di-makatwirang mga ugnayan sa pagitan ng anumang elemento, gayunpaman, ito ay kadalasang nagiging hindi mapangasiwaan nang higit sa isang partikular na laki, na nangangailangan ng karagdagang mga hadlang sa mga nauugnay na bahagi.

mga katangian ng istatistika
mga katangian ng istatistika

Random na matrice

Ang mga random na matrice ay maaaring isaayos nang linear at ituring bilang mga random na vector, gayunpaman ito ay maaaring hindi isang mahusay na paraan upang kumatawan sa mga ugnayan sa pagitan ng iba't ibang elemento. Ang ilang distribusyon ng posibilidad ay partikular na idinisenyo para sa mga random na matrice, tulad ng normal na matrixpamamahagi at pamamahagi ng Wishart.

Random Sequence

Minsan ay itinuturing ang mga ito na kapareho ng mga random na vector, ngunit sa ibang mga kaso, partikular na inilalapat ang termino sa mga kaso kung saan ang bawat random na variable ay nauugnay lamang sa mga kalapit na variable (tulad ng sa isang modelo ng Markov). Ito ay isang espesyal na kaso ng Bayesian network at ginagamit para sa napakahabang sequence, gaya ng mga gene chain o mahabang text na dokumento. Ang ilang mga modelo ay espesyal na idinisenyo para sa mga naturang sequence, tulad ng mga nakatagong Markov sequence.

Karaniwang tsart
Karaniwang tsart

Random na proseso

Ang mga ito ay katulad ng mga random na sequence, ngunit kapag ang haba ng sequence ay hindi tiyak o walang katapusan, at ang mga elemento sa sequence ay isa-isang pinoproseso. Madalas itong ginagamit para sa data na maaaring ilarawan bilang time series. Totoo ito pagdating sa, halimbawa, sa presyo ng stock sa susunod na araw.

Konklusyon

Ang pagsusuri ng istatistikal na impormasyon ay ganap na nakasalalay sa kalidad ng koleksyon nito. Ang huli, sa turn, ay malakas na nauugnay sa mga posibilidad ng pag-uuri nito. Siyempre, maraming uri ng pag-uuri ng istatistikal na impormasyon, na makikita ng mambabasa para sa kanyang sarili kapag binabasa ang artikulong ito. Gayunpaman, ang pagkakaroon ng mga epektibong tool at isang mahusay na utos ng matematika, pati na rin ang kaalaman sa larangan ng sosyolohiya, ay gagawin ang kanilang trabaho, na nagpapahintulot sa iyo na magsagawa ng anumang survey o pag-aaral nang walang makabuluhang pagwawasto para sa pagkakamali. Mga mapagkukunan ng istatistikal na impormasyon sa formmga tao, organisasyon at iba pang mga paksa ng sosyolohiya, sa kabutihang palad, ay kinakatawan sa malaking kasaganaan. At walang kahirapan ang makakahadlang sa isang tunay na explorer.

Inirerekumendang: