Statistical na modelo: ang kakanyahan ng pamamaraan, pagbuo at pagsusuri

Talaan ng mga Nilalaman:

Statistical na modelo: ang kakanyahan ng pamamaraan, pagbuo at pagsusuri
Statistical na modelo: ang kakanyahan ng pamamaraan, pagbuo at pagsusuri
Anonim

Ang istatistikal na modelo ay isang mathematical projection na naglalaman ng isang hanay ng iba't ibang mga pagpapalagay tungkol sa pagbuo ng ilang sample na data. Ang termino ay madalas na ipinakita sa isang napaka-ideal na anyo.

Ang mga pagpapalagay na ipinahayag sa istatistikal na modelo ay nagpapakita ng isang hanay ng mga pamamahagi ng posibilidad. Marami sa mga ito ay inilaan upang tama na tantiyahin ang pamamahagi kung saan kinukuha ang isang partikular na hanay ng impormasyon. Ang mga pamamahagi ng probabilidad na likas sa mga istatistikal na modelo ang siyang nagpapaiba sa projection mula sa iba pang mga pagbabago sa matematika.

General projection

mga modelo ng proseso ng istatistika
mga modelo ng proseso ng istatistika

Ang

mathematical model ay isang paglalarawan ng system gamit ang ilang partikular na konsepto at wika. Nalalapat ang mga ito sa mga natural na agham (gaya ng physics, biology, earth science, chemistry) at mga disiplina sa engineering (tulad ng computer science, electrical engineering), pati na rin sa mga social science (tulad ng economics, psychology, sociology, political science).

Makakatulong ang modelo na ipaliwanag ang system atpag-aralan ang impluwensya ng iba't ibang bahagi, at gumawa ng mga hula sa pag-uugali.

Maaaring magkaroon ng maraming anyo ang mga modelong matematika, kabilang ang mga dynamical system, statistical projection, differential equation, o game-theoretic na parameter. Ang mga ito at iba pang mga uri ay maaaring mag-overlap, at ang modelong ito ay may kasamang maraming abstract na istruktura. Sa pangkalahatan, ang mga mathematical projection ay maaari ding magsama ng mga lohikal na bahagi. Sa maraming mga kaso, ang kalidad ng isang pang-agham na larangan ay nakasalalay sa kung gaano kahusay ang theoretically binuo na mga modelo ng matematika ay sumasang-ayon sa mga resulta ng paulit-ulit na mga eksperimento. Ang kawalan ng pagkakasundo sa pagitan ng mga teoretikal na proseso at mga pang-eksperimentong sukat ay kadalasang humahantong sa mahahalagang pag-unlad habang nabuo ang mas mahuhusay na teorya.

Sa mga pisikal na agham, ang tradisyonal na modelo ng matematika ay naglalaman ng malaking bilang ng mga sumusunod na elemento:

  • Control equation.
  • Mga karagdagang submodel.
  • Tukuyin ang mga equation.
  • Constituent equation.
  • Mga pagpapalagay at limitasyon.
  • Mga kundisyon sa una at hangganan.
  • Mga klasikal na hadlang at kinematic equation.

Formula

Isang istatistikal na modelo, bilang panuntunan, ay itinakda ng mga mathematical equation na pinagsasama ang isa o higit pang mga random na variable at, posibleng, iba pang natural na nagaganap na mga variable. Katulad nito, ang projection ay itinuturing na "ang pormal na konsepto ng isang konsepto."

Lahat ng statistical hypothesis testing at statistical evaluation ay nakukuha mula sa mathematical models.

Introduction

mga modelo ng istatistikal na matematika
mga modelo ng istatistikal na matematika

Impormal, ang isang istatistikal na modelo ay maaaring tingnan bilang isang pagpapalagay (o hanay ng mga pagpapalagay) na may isang partikular na katangian: pinapayagan nito ang isa na kalkulahin ang posibilidad ng anumang kaganapan. Bilang halimbawa, isaalang-alang ang isang pares ng ordinaryong anim na panig na dice. Dalawang magkaibang istatistikal na pagpapalagay tungkol sa buto ang kailangang tuklasin.

Ang unang pagpapalagay ay:

Para sa bawat isa sa mga dice, ang posibilidad na makakuha ng isa sa mga numero (1, 2, 3, 4, 5, at 6) ay: 1/6.

Mula sa pagpapalagay na ito, maaari nating kalkulahin ang posibilidad ng parehong dice: 1:1/6×1/6=1/36.

Sa pangkalahatan, maaari mong kalkulahin ang posibilidad ng anumang kaganapan. Gayunpaman, dapat itong maunawaan na imposibleng kalkulahin ang posibilidad ng anumang iba pang hindi mahalagang kaganapan.

Tanging ang unang opinyon ang nangongolekta ng istatistikal na modelo ng matematika: dahil sa katotohanan na sa isang palagay lang posibleng matukoy ang posibilidad ng bawat aksyon.

Sa sample sa itaas na may paunang pahintulot, madaling matukoy ang posibilidad ng isang kaganapan. Sa ilang iba pang mga halimbawa, ang pagkalkula ay maaaring mahirap o kahit na hindi makatotohanan (halimbawa, maaaring mangailangan ito ng maraming taon ng mga kalkulasyon). Para sa isang taong nagdidisenyo ng modelo ng pagsusuri sa istatistika, ang ganitong pagiging kumplikado ay itinuturing na hindi katanggap-tanggap: ang pagpapatupad ng mga kalkulasyon ay hindi dapat halos imposible at sa teoryang imposible.

Pormal na kahulugan

Sa mga termino sa matematika, ang istatistikal na modelo ng isang sistema ay karaniwang itinuturing bilang isang pares (S, P), kung saan ang S ayang set ng mga posibleng obserbasyon, ibig sabihin, ang sample space, at ang P ay ang set ng probability distribution sa S.

Ang intuwisyon ng kahulugang ito ay ang mga sumusunod. Ipinapalagay na mayroong "totoo" na pamamahagi ng posibilidad na dulot ng prosesong bumubuo ng ilang partikular na data.

Itakda

Siya ang nagtatakda ng mga parameter ng modelo. Ang parameterization ay karaniwang nangangailangan ng iba't ibang mga halaga upang magresulta sa iba't ibang mga distribusyon, i.e.

Modelong Bunga
Modelong Bunga

dapat hawakan (sa madaling salita, dapat itong injective). Ang isang parametrization na nakakatugon sa kinakailangan ay sinasabing makikilala.

Halimbawa

Graph ng Istatistika
Graph ng Istatistika

Ipagpalagay na may ilang bilang ng mga mag-aaral na may iba't ibang edad. Ang taas ng bata ay stochastically na nauugnay sa taon ng kapanganakan: halimbawa, kapag ang isang batang lalaki sa paaralan ay 7 taong gulang, ito ay nakakaapekto sa posibilidad ng paglaki, kaya lamang na ang tao ay mas matangkad sa 3 sentimetro.

Maaari mong gawing pormal ang diskarteng ito sa isang rectilinear regression model, halimbawa, tulad ng sumusunod: taas i=b 0 + b 1agei + εi, kung saan ang b 0 ay ang intersection, ang b 1 ay ang parameter kung saan ang edad ay dumami kapag kumukuha ng elevation monitoring. Ito ay isang termino ng error. Ibig sabihin, ipinapalagay nito na ang taas ay hinuhulaan ng edad na may tiyak na error.

Ang isang wastong form ay dapat tumugma sa lahat ng mga punto ng impormasyon. Kaya, ang rectilinear na direksyon (antas i=b 0 + b 1agei) ay hindi kayang maging isang equation para sa isang modelo ng data - kung hindi nito malinaw na sinasagot ang lahat ng puntos. I.enang walang pagbubukod, ang lahat ng impormasyon ay namamalagi nang walang kamali-mali sa linya. Ang margin ng error εi ay dapat na ilagay sa equation upang ang form ay ganap na tumugma sa lahat ng mga item ng impormasyon.

Upang makagawa ng istatistikal na hinuha, kailangan muna nating ipalagay ang ilang distribusyon ng posibilidad para sa ε i. Halimbawa, maaaring ipagpalagay na ang mga distribusyon ng ε i ay may hugis na Gaussian na may zero mean. Sa kasong ito, magkakaroon ng 3 parameter ang modelo: b 0, b 1 at ang variance ng Gaussian distribution.

Maaari mong pormal na tukuyin ang modelo bilang (S, P).

Sa halimbawang ito, ang modelo ay tinukoy sa pamamagitan ng pagtukoy sa S at kaya maaaring gumawa ng ilang pagpapalagay tungkol sa P. Mayroong dalawang opsyon:

Ang paglago na ito ay maaaring tantiyahin sa pamamagitan ng linear function ng edad;

Na ang mga error sa approximation ay ibinahagi bilang sa loob ng Gaussian.

Mga pangkalahatang komento

Ang mga istatistikal na parameter ng mga modelo ay isang espesyal na klase ng mathematical projection. Ano ang pagkakaiba ng isang species sa iba? Kaya ito ay ang istatistikal na modelo ay hindi deterministiko. Kaya, sa loob nito, hindi tulad ng mga mathematical equation, ang ilang mga variable ay walang tiyak na mga halaga, ngunit sa halip ay may distribusyon ng mga posibilidad. Iyon ay, ang mga indibidwal na variable ay itinuturing na stochastic. Sa halimbawa sa itaas, ang ε ay isang stochastic variable. Kung wala ito, magiging deterministiko ang projection.

Ang pagbuo ng istatistikal na modelo ay kadalasang ginagamit, kahit na ang materyal na proseso ay itinuturing na deterministiko. Halimbawa, ang paghagis ng mga barya, sa prinsipyo, ay isang paunang pagtukoy na aksyon. Gayunpaman, ito pa rin sa karamihan ng mga kaso ay na-modelo bilang stochastic (sa pamamagitan ng proseso ng Bernoulli).

Ayon kina Konishi at Kitagawa, may tatlong layunin para sa isang istatistikal na modelo:

  • Mga Hula.
  • Pagmimina ng impormasyon.
  • Paglalarawan ng mga stochastic na istruktura.

Laki ng projection

Ipagpalagay na mayroong istatistikal na modelo ng hula, Ang modelo ay tinatawag na parametric kung ang O ay may hangganan na dimensyon. Sa solusyon, dapat mong isulat ang

Pagkakaiba ng modelo
Pagkakaiba ng modelo

kung saan ang k ay isang positibong integer (R ay nangangahulugang anumang tunay na numero). Dito tinatawag na k ang dimensyon ng modelo.

Bilang halimbawa, maaari nating ipagpalagay na ang lahat ng data ay nagmumula sa isang univariate na pamamahagi ng Gaussian:

Formula ng Istatistika
Formula ng Istatistika

Sa halimbawang ito, ang dimensyon ng k ay 2.

At bilang isa pang halimbawa, ang data ay maaaring ipagpalagay na binubuo ng (x, y) na mga puntos, na ipinapalagay na ibinahagi sa isang tuwid na linya na may mga natitirang Gaussian (na may zero mean). Pagkatapos ang dimensyon ng istatistikal na modelo ng ekonomiya ay katumbas ng 3: ang intersection ng linya, ang slope nito at ang pagkakaiba-iba ng pamamahagi ng mga nalalabi. Dapat tandaan na sa geometry ang isang tuwid na linya ay may sukat na 1.

Bagama't ang value sa itaas ay technically ang tanging parameter na may dimensyon k, minsan ito ay itinuturing na naglalaman ng k natatanging mga halaga. Halimbawa, na may isang-dimensional na pamamahagi ng Gaussian, ang O ay ang tanging parameter na may sukat na 2, ngunit minsan ay itinuturing na naglalaman ng dalawa.indibidwal na parameter - mean value at standard deviation.

Ang modelo ng proseso ng istatistika ay hindi parametric kung ang hanay ng mga halaga ng O ay infinite-dimensional. Ito rin ay semi-parametric kung mayroon itong parehong finite-dimensional at infinite-dimensional na mga parameter. Sa pormal, kung ang k ay dimensyon ng O at n ang bilang ng mga sample, ang mga semi-parametric at non-parametric na modelo ay may

Formula ng Modelo
Formula ng Modelo

kung gayon ang modelo ay semi-parametric. Kung hindi, ang projection ay hindi parametric.

Ang

Parametric na mga modelo ay ang pinakakaraniwang ginagamit na istatistika. Tungkol sa semi-parametric at non-parametric projection, sinabi ni Sir David Cox:

"Karaniwan, kinasasangkutan ng mga ito ang pinakamakaunting hypotheses tungkol sa texture at hugis ng pamamahagi, ngunit kasama sa mga ito ang makapangyarihang mga teorya tungkol sa self-sufficiency."

Mga nested na modelo

Huwag ipagkamali sila sa mga multilevel na projection.

Dalawang istatistikal na modelo ang naka-nest kung ang una ay mako-convert sa pangalawa sa pamamagitan ng pagpapataw ng mga hadlang sa mga parameter ng una. Halimbawa, ang set ng lahat ng Gaussian distribution ay may nested set ng zero-mean distribution:

Ibig sabihin, kailangan mong limitahan ang mean sa set ng lahat ng Gaussian distribution para makakuha ng mga distribution na may zero mean. Bilang pangalawang halimbawa, ang quadratic na modelo y=b 0 + b 1 x + b 2 x 2 + ε, ε ~N (0, σ 2) ay may naka-embed na linear na modelo y=b 0 + b 1 x + ε, ε ~ N (0,σ 2) - ibig sabihin, ang parameter b2 ay katumbas ng 0.

Sa parehong mga halimbawang ito, ang unang modelo ay may mas mataas na dimensyon kaysa sa pangalawang modelo. Ito ay madalas, ngunit hindi palaging ang kaso. Ang isa pang halimbawa ay ang hanay ng mga distribusyon ng Gaussian na may positibong mean, na may dimensyon 2.

Paghahambing ng mga modelo

modelo ng istatistika
modelo ng istatistika

Ipinapalagay na mayroong "totoo" na distribusyon ng probabilidad na pinagbabatayan ng naobserbahang data na dulot ng prosesong nakabuo nito.

At maaari ding ihambing ang mga modelo sa isa't isa, gamit ang exploratory analysis o confirmatory. Sa isang pagsusuri sa paggalugad, ang iba't ibang mga modelo ay nabuo at isang pagtatasa ay ginawa kung gaano kahusay ang bawat isa sa kanila ay naglalarawan ng data. Sa isang confirmatory analysis, ang naunang nabuong hypothesis ay inihambing sa orihinal. Kasama sa karaniwang pamantayan para dito ang P 2, Bayesian factor at relative probability.

Konishi and Kitagawa's Thought

“Karamihan sa mga problema sa isang statistical mathematical model ay maaaring ituring na mga predictive na tanong. Karaniwang binubuo ang mga ito bilang paghahambing ng ilang salik.”

Higit pa rito, sinabi ni Sir David Cox: "Bilang pagsasalin mula sa paksa, ang problema sa istatistikal na modelo ay kadalasang pinakamahalagang bahagi ng pagsusuri."

Inirerekumendang: