Ang pagsusuri sa hypothesis ay isang kinakailangang pamamaraan sa mga istatistika. Sinusuri ng isang pagsubok sa hypothesis ang dalawang magkaparehong eksklusibong pahayag upang matukoy kung aling pahayag ang pinakamahusay na sinusuportahan ng sample na data. Kapag ang isang natuklasan ay sinabing makabuluhan ayon sa istatistika, ito ay dahil sa isang pagsubok sa hypothesis.
Mga paraan ng pag-verify
Ang mga pamamaraan para sa pagsubok ng mga istatistikal na hypotheses ay mga paraan ng pagsusuri sa istatistika. Karaniwan, dalawang set ng mga istatistika ang inihahambing, o ang isang sample na set ng data ay inihahambing sa isang synthetic na set ng data mula sa isang idealized na modelo. Ang data ay dapat bigyang kahulugan sa paraang magdagdag ng mga bagong kahulugan. Maaari mong bigyang-kahulugan ang mga ito sa pamamagitan ng pag-aakala ng isang tiyak na istruktura ng huling resulta at paggamit ng mga istatistikal na pamamaraan upang kumpirmahin o tanggihan ang palagay. Ang palagay ay tinatawag na hypothesis, at ang mga istatistikal na pagsusulit na ginamit para sa layuning ito ay tinatawag na istatistikal na hypothesis.
H0 at H1 hypotheses
Mayroong dalawang pangunahingang mga konsepto ng istatistikal na pagsubok ng mga hypothesis - ang tinatawag na "pangunahing, o null hypothesis" at " alternatibong hypothesis". Tinatawag din silang Neyman-Pearson hypotheses. Ang pagpapalagay ng pagsusulit sa istatistika ay tinatawag na null hypothesis, ang pangunahing hypothesis, o H0 para sa maikling salita. Madalas itong tinutukoy bilang default na pagpapalagay o ang pagpapalagay na walang nagbago. Ang isang paglabag sa pagpapalagay ng pagsubok ay madalas na tinutukoy bilang ang unang hypothesis, alternatibong hypothesis, o H1. Ang H1 ay shorthand para sa ilang iba pang hypothesis, dahil ang alam lang natin tungkol dito ay maaaring itapon ang H0 data.
Bago tanggihan o hindi tanggihan ang null hypothesis, dapat bigyang-kahulugan ang resulta ng pagsusulit. Ang isang paghahambing ay itinuturing na makabuluhang istatistika kung ang ugnayan sa pagitan ng mga dataset ay malamang na hindi ang pagpapatupad ng null hypothesis ayon sa threshold na posibilidad - ang antas ng kahalagahan. Mayroon ding goodness-of-fit na pamantayan para sa statistical hypothesis testing. Ito ang pangalan ng pamantayan sa pagsubok ng hypothesis, na nauugnay sa dapat na batas ng hindi kilalang distribusyon. Isa itong numerical na sukat ng pagkakaiba sa pagitan ng empirical at theoretical distribution.
Pamamaraan at pamantayan para sa pagsubok ng mga istatistikal na hypotheses
Ang pinakakaraniwang paraan ng pagpili ng hypothesis ay nakabatay sa alinman sa Akaike information criterion o Bayesian coefficient. Ang statistic hypothesis testing ay isang pangunahing pamamaraan sa parehong inference at Bayesian inference, bagama't ang dalawang uri ay may kapansin-pansing pagkakaiba. Mga Pagsusulit sa Statistical Hypothesistukuyin ang isang pamamaraan na kumokontrol sa posibilidad ng maling pagpapasya sa isang maling default o null hypothesis. Ang pamamaraan ay batay sa kung gaano ito malamang na gumana. Ang posibilidad na gumawa ng maling desisyon ay ang kawalan ng posibilidad na ang null hypothesis ay totoo at walang partikular na alternatibong hypothesis na umiiral. Hindi maipapakita ng pagsubok kung ito ay totoo o mali.
Mga alternatibong pamamaraan ng teorya ng desisyon
May mga alternatibong pamamaraan ng teorya ng desisyon, kung saan ang mga null at unang hypotheses ay isinasaalang-alang sa isang mas pantay na katayuan. Ang iba pang mga diskarte sa paggawa ng desisyon, tulad ng Bayesian theory, ay nagtatangkang balansehin ang mga kahihinatnan ng masasamang desisyon sa lahat ng posibilidad sa halip na tumuon sa isang solong null hypothesis. Ang isang bilang ng iba pang mga diskarte sa pagpapasya kung alin sa mga hypotheses ang tama ay batay sa data, kung alin sa mga ito ang may nais na mga katangian. Ngunit ang pagsubok sa hypothesis ay ang nangingibabaw na diskarte sa pagsusuri ng data sa maraming larangan ng agham.
Pagsubok sa istatistikal na hypothesis
Sa tuwing ang isang hanay ng mga resulta ay naiiba sa isa pang hanay, dapat umasa ang isa sa istatistikal na pagsusuri ng hypothesis o istatistikal na pagsusuri ng hypothesis. Ang kanilang interpretasyon ay nangangailangan ng wastong pag-unawa sa mga p-value at kritikal na halaga. Mahalaga rin na maunawaan na, anuman ang antas ng kahalagahan, ang mga pagsusulit ay maaari pa ring maglaman ng mga error. Samakatuwid, maaaring hindi tama ang konklusyon.
Ang proseso ng pagsubok ay binubuo ngmaraming hakbang:
- Gumagawa ng paunang hypothesis para sa pananaliksik.
- Isinasaad ang mga nauugnay na null at alternatibong hypotheses.
- Ipinapaliwanag ang mga istatistikal na pagpapalagay tungkol sa sample sa pagsubok.
- Pagtukoy kung aling pagsusulit ang angkop.
- Piliin ang antas ng kahalagahan at ang threshold ng posibilidad sa ibaba kung saan tatanggihan ang null hypothesis.
- Ang distribusyon ng null hypothesis test statistic ay nagpapakita ng mga posibleng halaga kung saan ang null hypothesis ay tinanggihan.
- Kasalukuyang isinasagawa ang pagkalkula.
- Ang isang desisyon ay ginawa upang tanggihan o tanggapin ang null hypothesis pabor sa isang alternatibo.
May alternatibong gumagamit ng p-value.
Mga pagsusuri sa kahalagahan
Ang dalisay na data ay walang praktikal na gamit kung walang interpretasyon. Sa mga istatistika, pagdating sa pagtatanong tungkol sa data at pagbibigay-kahulugan sa mga resulta, ginagamit ang mga pamamaraan ng istatistika upang matiyak ang katumpakan o posibilidad ng mga sagot. Kapag sinusuri ang mga istatistikal na hypotheses, ang klase ng mga pamamaraan na ito ay tinatawag na statistical testing, o significance tests. Ang terminong "hypothesis" ay nakapagpapaalaala sa mga pamamaraang siyentipiko, kung saan sinisiyasat ang mga hypothesis at teorya. Sa mga istatistika, ang isang pagsubok sa hypothesis ay nagreresulta sa isang dami na ibinigay sa isang ibinigay na palagay. Binibigyang-daan ka nitong bigyang-kahulugan kung totoo ang isang pagpapalagay o may nagawang paglabag.
Statistical na interpretasyon ng mga pagsubok
Mga pagsubok sa hypothesisay ginagamit upang matukoy kung aling mga resulta ng pananaliksik ang hahantong sa pagtanggi sa null hypothesis para sa isang paunang natukoy na antas ng kahalagahan. Ang mga resulta ng isang statistical hypothesis test ay dapat bigyang-kahulugan upang ang trabaho ay makapagpatuloy dito. Mayroong dalawang karaniwang anyo ng pamantayan sa pagsusuri ng istatistikal na hypothesis. Ang mga ito ay p-value at kritikal na halaga. Depende sa napiling criterion, ang mga resultang nakuha ay dapat na magkaiba ang interpretasyon.
Ano ang p-value
Ang
Output ay inilalarawan bilang makabuluhang istatistika kapag binibigyang-kahulugan ang p-value. Sa katunayan, ang tagapagpahiwatig na ito ay nangangahulugan ng posibilidad ng pagkakamali kung ang null hypothesis ay tinanggihan. Sa madaling salita, maaari itong gamitin upang pangalanan ang isang halaga na maaaring magamit upang bigyang-kahulugan o tumyak ng dami ng resulta ng pagsusulit, at upang matukoy ang posibilidad ng pagkakamali sa pagtanggi sa null hypothesis. Halimbawa, maaari kang magsagawa ng normality test sa isang sample ng data at malaman na maliit ang pagkakataong magkaroon ng outlier. Gayunpaman, ang null hypothesis ay hindi kailangang tanggihan. Ang isang statistical hypothesis test ay maaaring magbalik ng p-value. Ginagawa ito sa pamamagitan ng paghahambing ng halaga ng p laban sa isang paunang natukoy na halaga ng threshold na tinatawag na antas ng kahalagahan.
Antas ng Kahalagahan
Ang antas ng kahalagahan ay kadalasang isinusulat sa maliit na titik ng Griyego na "alpha". Ang pangkalahatang value na ginamit para sa alpha ay 5%, o 0.05. Ang isang mas maliit na alpha value ay nagmumungkahi ng mas maaasahang interpretasyon ng null hypothesis. Ang p-value ay inihambing sapaunang napiling alpha value. Ang resulta ay makabuluhang istatistika kung ang p-value ay mas mababa sa alpha. Ang antas ng kahalagahan ay maaaring baligtarin sa pamamagitan ng pagbabawas nito mula sa isa. Ginagawa ito upang matukoy ang antas ng kumpiyansa ng hypothesis na ibinigay sa naobserbahang sample na data. Kapag ginagamit ang pamamaraang ito ng pagsubok sa mga istatistikal na hypotheses, ang P-value ay probabilistic. Nangangahulugan ito na sa proseso ng pagbibigay-kahulugan sa resulta ng isang istatistikal na pagsusulit, hindi alam ng isa kung ano ang totoo o mali.
Statistical hypothesis testing theory
Ang pagtanggi sa null hypothesis ay nangangahulugan na mayroong sapat na istatistikal na ebidensya na mukhang malamang. Kung hindi, nangangahulugan ito na walang sapat na istatistika upang tanggihan ito. Maaaring isipin ng isa ang mga istatistikal na pagsusulit sa mga tuntunin ng dichotomy ng pagtanggi at pagtanggap sa null hypothesis. Ang panganib ng istatistikal na pagsubok ng null hypothesis ay, kung tatanggapin, ito ay maaaring mukhang totoo. Sa halip, mas tamang sabihin na ang null hypothesis ay hindi tinatanggihan dahil walang sapat na istatistikal na ebidensya upang tanggihan ito.
Ang sandaling ito ay kadalasang nakakalito sa mga baguhan na extra. Sa ganoong sitwasyon, mahalagang paalalahanan ang iyong sarili na ang resulta ay probabilistic at kahit na ang pagtanggap sa null hypothesis ay may maliit pa ring pagkakataon na magkamali.
Totoo o mali null hypothesis
Ang interpretasyon ng halaga ng p ay hindi nangangahulugan na zerotama o mali ang hypothesis. Nangangahulugan ito na ang isang pagpipilian ay ginawa upang tanggihan o hindi tanggihan ang null hypothesis sa isang tiyak na antas ng istatistikal na kahalagahan batay sa empirical na data at ang napiling istatistikal na pagsubok. Samakatuwid, ang p-value ay maaaring isipin bilang ang posibilidad ng data na ibinigay sa ilalim ng isang paunang natukoy na pagpapalagay na naka-embed sa mga istatistikal na pagsubok. Ang p-value ay isang sukatan kung gaano kalamang na maobserbahan ang sample ng data kung totoo ang null hypothesis.
Pagbibigay kahulugan sa mga kritikal na halaga
Ang ilang mga pagsubok ay hindi nagbabalik ng p. Sa halip, maaari silang magbalik ng listahan ng mga kritikal na halaga. Ang mga resulta ng naturang pag-aaral ay binibigyang-kahulugan sa katulad na paraan. Sa halip na ihambing ang isang solong p-value sa isang paunang natukoy na antas ng kahalagahan, ang istatistika ng pagsubok ay inihambing sa isang kritikal na halaga. Kung ito ay lumabas na mas kaunti, nangangahulugan ito na hindi posibleng tanggihan ang null hypothesis. Kung mas malaki sa o katumbas, ang null hypothesis ay dapat tanggihan. Ang kahulugan ng statistical hypothesis testing algorithm at ang interpretasyon ng resulta nito ay katulad ng p-value. Ang antas ng kahalagahan na pinili ay isang probabilistikong desisyon na tanggihan o hindi tanggihan ang base test assumption na ibinigay sa data.
Mga error sa istatistikal na pagsubok
Ang interpretasyon ng isang statistical hypothesis test ay probabilistic. Ang gawain ng pagsubok sa mga istatistikal na hypotheses ay hindi upang makahanap ng totoo o maling pahayag. Maaaring mali ang ebidensya sa pagsubok. Halimbawa, kung ang alpha ay 5%, nangangahulugan ito na sa karamihan ng bahagi 1 sa 20ang null hypothesis ay tatanggihan nang hindi sinasadya. O hindi dahil sa statistical noise sa sample ng data. Dahil sa puntong ito, ang isang maliit na p value kung saan tatanggihan ang null hypothesis ay maaaring mangahulugan na ito ay mali o na may nagawang pagkakamali. Kung ang ganitong uri ng error ay ginawa, ang resulta ay tinatawag na false positive. At ang ganitong error ay isang error ng unang uri kapag sinusubukan ang mga istatistikal na hypotheses. Sa kabilang banda, kung ang p-value ay sapat na malaki upang mangahulugan ng pagtanggi sa null hypothesis, maaari itong mangahulugan na ito ay totoo. O hindi tama, at may ilang hindi malamang na kaganapan na naganap dahil sa kung saan ang pagkakamali ay ginawa. Ang ganitong uri ng error ay tinatawag na false negative.
Probability ng mga error
Kapag sinusuri ang mga istatistikal na hypotheses, mayroon pa ring pagkakataong makagawa ng alinman sa mga ganitong uri ng mga error. Malamang na maling data o maling konklusyon. Sa isip, dapat pumili ng antas ng kahalagahan na nagpapaliit sa posibilidad ng isa sa mga error na ito. Halimbawa, ang pagsusuri sa istatistika ng mga null hypotheses ay maaaring may napakababang antas ng kahalagahan. Bagama't karaniwan ang mga antas ng kabuluhan gaya ng 0.05 at 0.01 sa maraming larangan ng agham, ang pinakakaraniwang ginagamit na antas ng kabuluhan ay 310^-7, o 0.0000003. Madalas itong tinutukoy bilang "5-sigma". Nangangahulugan ito na ang konklusyon ay random na may posibilidad na 1 sa 3.5 milyong independiyenteng pag-uulit ng mga eksperimento. Ang mga halimbawa ng pagsubok sa mga istatistikal na hypotheses ay kadalasang nagdadala ng mga ganitong pagkakamali. Ito rin ang dahilan kung bakit mahalagang magkaroon ng mga independiyenteng resulta.pagpapatunay.
Mga halimbawa ng paggamit ng statistical verification
May ilang karaniwang halimbawa ng pagsubok sa hypothesis sa pagsasanay. Ang isa sa pinakasikat ay kilala bilang "Pagtikim ng tsaa". Si Dr. Muriel Bristol, isang kasamahan ng biometrics founder na si Robert Fisher, ay nag-claim na masasabi niya kung ito ay unang idinagdag sa isang tasa ng tsaa o gatas. Nag-alok si Fisher na bigyan siya ng walong tasa (apat sa bawat iba't) nang random. Ang istatistika ng pagsubok ay simple: pagbibilang ng bilang ng mga tagumpay sa pagpili ng isang tasa. Ang kritikal na rehiyon ay ang tanging tagumpay sa 4, posibleng batay sa karaniwang pamantayan ng posibilidad (< 5%; 1 sa 70 ≈ 1.4%). Nagtalo si Fisher na hindi kinakailangan ang isang alternatibong hypothesis. Natukoy nang tama ng ginang ang bawat tasa, na itinuturing na makabuluhang resulta sa istatistika. Ang karanasang ito ay humantong sa aklat ni Fisher na Statistical Methods for Researchers.
Halimbawa ng Nasasakdal
Ang pamamaraan ng istatistikal na paglilitis ay maihahambing sa isang kriminal na hukuman kung saan ang nasasakdal ay ipinapalagay na inosente hanggang sa mapatunayang nagkasala. Sinusubukan ng tagausig na patunayan ang pagkakasala ng nasasakdal. Kapag may sapat na ebidensiya para sa isang akusasyon maaari lamang mapatunayang nagkasala ang nasasakdal. Sa simula ng pamamaraan, mayroong dalawang hypotheses: "The defendant is not guilty" at "The defendant is guilty." Ang hypothesis ng kawalang-kasalanan ay maaari lamang tanggihan kapag ang pagkakamali ay napakaimposible dahil ayaw ng isa na mahatulan ang isang inosenteng nasasakdal. Ang ganitong error ay tinatawag na Type I error, at ang paglitaw nitobihirang kontrolin. Bilang resulta ng asymmetric na pag-uugali na ito, ang Type II error, ibig sabihin, ang pagpapawalang-sala sa may kasalanan, ay mas karaniwan.
Ang mga istatistika ay kapaki-pakinabang kapag nagsusuri ng malaking halaga ng data. Nalalapat ito nang pantay-pantay sa pagsubok ng mga hypotheses, na maaaring bigyang-katwiran ang mga konklusyon kahit na walang teoryang siyentipikong umiiral. Sa halimbawa ng pagtikim ng tsaa, "halata" na walang pagkakaiba sa pagitan ng pagbuhos ng gatas sa tsaa o pagbuhos ng tsaa sa gatas.
Ang tunay na praktikal na aplikasyon ng pagsusuri ng hypothesis ay kinabibilangan ng:
- pagsusubok kung mas maraming bangungot ang mga lalaki kaysa sa mga babae;
- attribution ng dokumento;
- Pagsusuri sa impluwensya ng kabilugan ng buwan sa pag-uugali;
- pagtukoy sa hanay kung saan makakakita ang paniki ng insekto gamit ang echo;
- pagpili ng pinakamahusay na paraan upang huminto sa paninigarilyo;
- Tinitingnan kung ang mga bumper sticker ay nagpapakita ng gawi ng may-ari ng sasakyan.
Ang pagsusuri sa hypothesis ng istatistika ay gumaganap ng mahalagang papel sa mga istatistika sa pangkalahatan at sa inference ng istatistika. Ang pagsusuri sa halaga ay ginagamit bilang kapalit para sa tradisyonal na paghahambing ng hinulaang halaga at pang-eksperimentong resulta sa ubod ng siyentipikong pamamaraan. Kapag ang isang teorya ay may kakayahang hulaan lamang ang tanda ng isang relasyon, ang mga nakadirektang pagsusuri sa hypothesis ay maaaring i-configure sa paraang ang isang makabuluhang resulta sa istatistika ang sumusuporta sa teorya. Ang paraan ng teorya ng pagsusuri ay ang pinaka-matigaspagpuna sa paggamit ng hypothesis testing.