Ang mga pagpapalagay na nakapaloob sa istatistikal na pagmomodelo ay naglalarawan ng isang hanay ng mga pamamahagi ng probabilidad, ang ilan sa mga ito ay ipinapalagay na sapat na tinatayang ang pamamahagi. Ang isang tiyak na hanay ng data ay pinili mula sa kahulugan. Ang mga distribusyon ng probabilidad na likas sa pagmomodelo ng istatistika ay ang nagpapakilala sa mga modelo ng istatistika mula sa iba, hindi pang-istatistika, mga modelong pangmatematika.
Koneksyon sa matematika
Ang siyentipikong pamamaraang ito ay pangunahing nakaugat sa matematika. Ang pagmomodelo ng istatistika ng mga system ay karaniwang ibinibigay ng mga mathematical equation na nag-uugnay ng isa o higit pang random na variable at posibleng iba pang hindi random na variable. Kaya, ang istatistikal na modelo ay isang "pormal na representasyon ng isang teorya" (Hermann Ader, sinipi si Kenneth Bollen).
Lahat ng istatistikal na pagsusuri ng hypothesis at lahat ng istatistikal na pagtatantya ay hinango mula sa mga istatistikal na modelo. Sa pangkalahatan, ang mga istatistikal na modelo ay bahagi ng batayan ng istatistikal na hinuha.
Mga paraan ng istatistikapagmomodelo
Impormal, ang isang istatistikal na modelo ay maaaring ituring bilang isang istatistikal na pagpapalagay (o hanay ng mga istatistikal na pagpapalagay) na may isang partikular na katangian: ang pagpapalagay na ito ay nagbibigay-daan sa amin na kalkulahin ang posibilidad ng anumang kaganapan. Bilang halimbawa, isaalang-alang ang isang pares ng ordinaryong anim na panig na dice. Pag-aaralan natin ang dalawang magkaibang istatistikal na pagpapalagay tungkol sa buto.
Ang unang statistical assumption ay bumubuo sa statistical model, dahil sa isang assumption lang ay makalkula natin ang probabilidad ng anumang kaganapan. Ang alternatibong statistical assumption ay hindi bumubuo ng statistical model, dahil sa isang assumption lang hindi natin makalkula ang probabilidad ng bawat event.
Sa halimbawa sa itaas na may unang palagay, madaling kalkulahin ang posibilidad ng isang kaganapan. Gayunpaman, sa ilang iba pang mga halimbawa, ang pagkalkula ay maaaring kumplikado o kahit na hindi praktikal (halimbawa, maaaring mangailangan ito ng milyun-milyong taon ng pagkalkula). Para sa pag-aakalang bumubuo ng istatistikal na modelo, ang kahirapan na ito ay katanggap-tanggap: ang pagsasagawa ng pagkalkula ay hindi kailangang praktikal na magagawa, sa teoryang posible lamang.
Mga halimbawa ng mga modelo
Ipagpalagay na mayroon tayong populasyon ng mga mag-aaral na may pantay na distribusyon ng mga bata. Ang taas ng isang bata ay stochastically na nauugnay sa edad: halimbawa, kapag alam natin na ang isang bata ay 7 taong gulang, ito ay nakakaapekto sa posibilidad na ang bata ay 5 talampakan ang taas (mga 152 cm). Maaari naming gawing pormal ang relasyong ito sa isang linear na regression na modelo, halimbawa: paglago=b0 + b1agei+ εi, kung saan ang b0 ay ang intersection, ang b1 ay ang parameter kung saan ang edad ay pinarami kapag nakuha ang forecast ng paglago, ang εi ay ang term ng error. Ito ay nagpapahiwatig na ang taas ay hinuhulaan ng edad na may ilang error.
Ang isang wastong modelo ay dapat tumugma sa lahat ng mga punto ng data. Kaya ang isang tuwid na linya (heighti=b0 + b1agei) ay hindi maaaring maging isang equation para sa isang modelo ng data - maliban kung ito ay akma sa lahat ng mga punto ng data nang eksakto, ibig sabihin, ang lahat ng mga punto ng data ay ganap na namamalagi sa linya. Dapat isama ang termino ng error na εi sa equation para magkasya ang modelo sa lahat ng data point.
Upang makagawa ng istatistikal na hinuha, kailangan muna nating ipalagay ang ilang distribusyon ng posibilidad para sa εi. Halimbawa, maaari nating ipagpalagay na ang mga distribusyon ng εi ay Gaussian, na may zero mean. Sa kasong ito, magkakaroon ng 3 parameter ang modelo: b0, b1 at ang variance ng Gaussian distribution.
Pangkalahatang Paglalarawan
Ang istatistikal na modelo ay isang espesyal na klase ng mathematical model. Ang pinagkaiba ng isang istatistikal na modelo sa iba pang mga modelo ng matematika ay ang pagiging non-deterministic. Ito ay ginagamit upang magmodelo ng istatistikal na datos. Kaya, sa isang istatistikal na modelo na tinukoy sa mga mathematical equation, ang ilang mga variable ay walang mga tiyak na halaga, ngunit sa halip ay may mga distribusyon ng posibilidad; ibig sabihin, ang ilang mga variable ay stochastic. Sa halimbawa sa itaas, ang ε ay isang stochastic variable; kung wala ang variable na ito, ang modelo aymagiging deterministiko.
Ang mga modelong istatistika ay kadalasang ginagamit sa pagsusuri at pagmomodelo ng istatistika, kahit na deterministiko ang pisikal na prosesong ginagampanan. Halimbawa, ang paghagis ng mga barya sa prinsipyo ay isang deterministikong proseso; gayunpaman, karaniwan itong itinulad bilang stochastic (sa pamamagitan ng proseso ng Bernoulli).
Parametric models
Ang
parametric na modelo ay ang pinakakaraniwang ginagamit na istatistikal na modelo. Tungkol sa mga semi-parametric at non-parametric na mga modelo, sinabi ni Sir David Cox: "Karaniwang kasama nila ang mas kaunting mga pagpapalagay tungkol sa istraktura at hugis ng pamamahagi, ngunit kadalasang naglalaman ng mga malakas na pagpapalagay ng kalayaan." Tulad ng lahat ng iba pang nabanggit na modelo, madalas ding ginagamit ang mga ito sa istatistikal na paraan ng pagmomodelo ng matematika.
Multilevel models
Ang
multilevel models (kilala rin bilang hierarchical linear models, nested data models, mixed models, random coefficients, random effects models, random parameter models, o partitioned models) ay mga statistical parameter models na nag-iiba sa higit sa isang level. Ang isang halimbawa ay isang modelo ng tagumpay ng mag-aaral na naglalaman ng mga sukatan para sa mga indibidwal na mag-aaral pati na rin ang mga sukatan para sa mga silid-aralan kung saan ang mga mag-aaral ay pinagsama-sama. Ang mga modelong ito ay maaaring ituring na mga generalization ng mga linear na modelo (sa partikular, linear regression), bagama't maaari din silang palawigin sa mga non-linear na modelo. Ang mga modelong ito ay nagingmas sikat kapag naging available na ang sapat na computing power at software.
Ang mga multilevel na modelo ay partikular na angkop sa mga proyekto sa pagsasaliksik kung saan ang data para sa mga kalahok ay nakaayos sa higit sa isang antas (ibig sabihin, nested data). Ang mga yunit ng pagsusuri ay karaniwang mga indibidwal (sa mas mababang antas) na naka-nest sa loob ng konteksto/pinagsama-samang mga yunit (sa mas mataas na antas). Habang ang pinakamababang antas ng data sa mga multilevel na modelo ay karaniwang indibidwal, ang mga paulit-ulit na pagsukat ng mga indibidwal ay maaari ding isaalang-alang. Kaya, ang mga multilevel na modelo ay nagbibigay ng alternatibong uri ng pagsusuri para sa univariate o multivariate repeated measures analysis. Maaaring isaalang-alang ang mga indibidwal na pagkakaiba sa mga kurba ng paglago. Bilang karagdagan, ang mga multilevel na modelo ay maaaring gamitin bilang isang alternatibo sa ANCOVA, kung saan ang mga dependent variable na marka ay inaayos para sa mga covariates (hal., mga indibidwal na pagkakaiba) bago ang pagsubok para sa mga pagkakaiba sa paggamot. Nasusuri ng mga multilevel na modelo ang mga eksperimentong ito nang walang pag-aakala ng mga pare-parehong slope ng regression na kinakailangan ng ANCOVA.
Maaaring gamitin ang mga multilevel na modelo para sa data na may maraming antas, bagama't ang dalawang antas na modelo ang pinakakaraniwan at ang iba sa artikulong ito ay nakatuon sa mga ito. Dapat suriin ang dependent variable sa pinakamababang antas ng pagsusuri.
Pagpili ng modelo
Pagpili ng modeloay ang gawain ng pagpili mula sa isang hanay ng mga modelo ng kandidato na ibinigay ng data, na isinasagawa sa loob ng balangkas ng istatistikal na pagmomolde. Sa pinakasimpleng mga kaso, ang isang umiiral nang set ng data ay isinasaalang-alang. Gayunpaman, ang gawain ay maaari ring kasangkot sa pagdidisenyo ng mga eksperimento upang ang data na nakolekta ay angkop na angkop sa gawain sa pagpili ng modelo. Dahil sa mga modelo ng kandidato na may katulad na predictive o explanatory power, ang pinakasimpleng modelo ay malamang na ang pinakamahusay na pagpipilian (Occam's razor).
Sabi ng
Konishi & Kitagawa, "Karamihan sa mga problema sa inference sa istatistika ay maaaring ituring na mga problemang nauugnay sa pagmomodelo ng istatistika." Katulad nito, sinabi ni Cox, "Paano ginagawa ang pagsasalin ng paksa sa istatistikal na modelo ay kadalasang pinakamahalagang bahagi ng pagsusuri."
Maaari ding tumukoy ang pagpili ng modelo sa problema sa pagpili ng ilang kinatawang modelo mula sa malaking hanay ng mga computational na modelo para sa mga layunin ng pagpapasya o pag-optimize sa ilalim ng kawalan ng katiyakan.
Mga pattern ng graphics
Ang
Graphic model, o probabilistic graphic model, (PGM) o structured probabilistic model, ay isang probabilistic na modelo kung saan ang graph ay nagpapahayag ng istruktura ng isang kondisyon na relasyon sa pagitan ng mga random na variable. Karaniwang ginagamit ang mga ito sa probability theory, statistics (lalo na sa Bayesian statistics), at machine learning.
Econometric models
Ang
Econometric na modelo ay mga istatistikal na modelo na ginamit saeconometrics. Ang isang econometric na modelo ay tumutukoy sa mga istatistikal na relasyon na pinaniniwalaang umiiral sa pagitan ng iba't ibang dami ng ekonomiya na nauugnay sa isang partikular na pang-ekonomiyang phenomenon. Ang isang econometric na modelo ay maaaring makuha mula sa isang deterministikong modelo ng ekonomiya na isinasaalang-alang ang kawalan ng katiyakan, o mula sa isang pang-ekonomiyang modelo na mismong stochastic. Gayunpaman, posible ring gumamit ng mga econometric na modelo na hindi nakatali sa anumang partikular na teoryang pang-ekonomiya.