Logistic regression: modelo at pamamaraan

Talaan ng mga Nilalaman:

Logistic regression: modelo at pamamaraan
Logistic regression: modelo at pamamaraan
Anonim

Ang mga paraan ng logistic regression at discriminant analysis ay ginagamit kapag kinakailangan na malinaw na pag-iba-ibahin ang mga respondent ayon sa mga target na kategorya. Sa kasong ito, ang mga pangkat mismo ay kinakatawan ng mga antas ng isang solong-variant na parameter. Tingnan natin ang modelo ng logistic regression at alamin kung bakit ito kailangan.

logistic regression
logistic regression

Pangkalahatang impormasyon

Isang halimbawa ng problema kung saan ginagamit ang logistic regression ay ang pag-uuri ng mga respondent sa mga pangkat na bumibili at hindi bumibili ng mustasa. Isinasagawa ang differentiation alinsunod sa mga katangiang sosyo-demograpiko. Kabilang dito, sa partikular, ang edad, kasarian, bilang ng mga kamag-anak, kita, atbp. Sa mga operasyon, mayroong mga pamantayan sa pagkakaiba-iba at isang variable. Ine-encode ng huli ang mga target na kategorya kung saan, sa katunayan, dapat hatiin ang mga respondent.

Nuances

Dapat sabihin na ang hanay ng mga kaso kung saan inilapat ang logistic regression ay mas makitid kaysa sa discriminant analysis. Sa pagsasaalang-alang na ito, ang paggamit ng huli bilang isang unibersal na paraan ng pagkita ng kaibhan ay isinasaalang-alangmas ginusto. Bukod dito, inirerekomenda ng mga eksperto ang pagsisimula ng mga pag-aaral sa pag-uuri na may discriminant analysis. At sa kaso lamang ng kawalan ng katiyakan tungkol sa mga resulta, maaari mong gamitin ang logistic regression. Ang pangangailangang ito ay dahil sa maraming salik. Ginagamit ang logistic regression kapag may malinaw na pag-unawa sa uri ng independent at dependent variables. Alinsunod dito, napili ang isa sa 3 posibleng pamamaraan. Sa discriminant analysis, ang mananaliksik ay palaging tumatalakay sa isang static na operasyon. Ito ay nagsasangkot ng isang umaasa at ilang independiyenteng pangkategoryang variable na may anumang uri ng sukat.

Views

Ang gawain ng isang istatistikal na pag-aaral na gumagamit ng logistic regression ay upang matukoy ang posibilidad na ang isang partikular na respondent ay itatalaga sa isang partikular na grupo. Ang pagkita ng kaibhan ay isinasagawa ayon sa ilang mga parameter. Sa pagsasagawa, ayon sa mga halaga ng isa o higit pang mga independiyenteng mga kadahilanan, posibleng pag-uri-uriin ang mga sumasagot sa dalawang grupo. Sa kasong ito, nagaganap ang binary logistic regression. Gayundin, ang mga tinukoy na parameter ay maaaring gamitin kapag naghahati sa mga grupo ng higit sa dalawa. Sa ganoong sitwasyon, nagaganap ang multinomial logistic regression. Ang mga resultang pangkat ay ipinahayag sa mga antas ng iisang variable.

logistic regression
logistic regression

Halimbawa

Ipagpalagay nating may mga sagot ang mga respondent sa tanong kung interesado ba sila sa alok na bumili ng land plot sa mga suburb ng Moscow. Ang mga pagpipilian ay "hindi"at oo. Ito ay kinakailangan upang malaman kung aling mga kadahilanan ang may pangunahing impluwensya sa desisyon ng mga potensyal na mamimili. Upang gawin ito, ang mga sumasagot ay tinanong ng mga katanungan tungkol sa imprastraktura ng teritoryo, ang distansya sa kabisera, ang lugar ng site, ang pagkakaroon / kawalan ng isang gusali ng tirahan, atbp. Gamit ang binary regression, posible na ipamahagi ang mga respondente sa dalawang pangkat. Ang una ay isasama ang mga interesado sa pagkuha - mga potensyal na mamimili, at ang pangalawa, ayon sa pagkakabanggit, ang mga hindi interesado sa naturang alok. Para sa bawat respondent, bilang karagdagan, ang posibilidad na maitalaga sa isa o ibang kategorya ay kakalkulahin.

Mga katangian ng paghahambing

Ang pagkakaiba sa dalawang opsyon sa itaas ay ang magkaibang bilang ng mga pangkat at ang uri ng mga umaasa at malayang variable. Sa binary regression, halimbawa, ang pag-asa ng isang dichotomous factor sa isa o higit pang independiyenteng mga kondisyon ay pinag-aaralan. Bukod dito, ang huli ay maaaring magkaroon ng anumang uri ng sukat. Ang multinomial regression ay itinuturing na isang pagkakaiba-iba ng opsyon sa pag-uuri na ito. Sa loob nito, higit sa 2 grupo ang nabibilang sa dependent variable. Ang mga independiyenteng salik ay dapat magkaroon ng ordinal o nominal na sukat.

Logistic regression sa spss

Sa statistical package 11-12 isang bagong bersyon ng pagsusuri ang ipinakilala - ordinal. Ginagamit ang pamamaraang ito kapag ang dependent factor ay kabilang sa parehong pangalan (ordinal) na sukat. Sa kasong ito, ang mga independiyenteng variable ay pinipili ng isang partikular na uri. Dapat silang maging ordinal o nominal. Ang pag-uuri sa ilang mga kategorya ay itinuturing na pinakaunibersal. Ang pamamaraang ito ay maaaring gamitin sa lahat ng pag-aaral na gumagamit ng logistic regression. Gayunpaman, ang tanging paraan upang mapabuti ang kalidad ng isang modelo ay ang paggamit sa lahat ng tatlong diskarte.

sapat na pagsusuri sa kalidad at logistic regression
sapat na pagsusuri sa kalidad at logistic regression

Ordinal na pag-uuri

Dapat sabihin na mas maaga sa statistical package ay walang tipikal na posibilidad na magsagawa ng espesyal na pagsusuri para sa mga umaasa na salik na may ordinal na sukat. Para sa lahat ng variable na may higit sa 2 pangkat, ginamit ang multinominal na variant. Ang medyo kamakailang ipinakilala na ordinal analysis ay may ilang mga tampok. Isinasaalang-alang nila ang mga detalye ng sukat. Samantala, sa mga pantulong sa pagtuturo, ang ordinal logistic regression ay kadalasang hindi isinasaalang-alang bilang isang hiwalay na pamamaraan. Ito ay dahil sa mga sumusunod: ang ordinal na pagsusuri ay walang anumang makabuluhang pakinabang sa multinomial. Maaaring gamitin ng mananaliksik ang huli sa pagkakaroon ng parehong ordinal at nominal na dependent variable. Kasabay nito, ang mga proseso ng pag-uuri mismo ay halos hindi naiiba sa bawat isa. Nangangahulugan ito na ang pagsasagawa ng ordinal analysis ay hindi magdudulot ng anumang kahirapan.

Pagpipilian sa pagsusuri

Pag-isipan natin ang isang simpleng kaso - binary regression. Ipagpalagay, sa proseso ng pananaliksik sa marketing, ang pangangailangan para sa mga nagtapos ng isang partikular na unibersidad sa metropolitan ay tinasa. Sa talatanungan, tinanong ang mga respondente, kabilang ang:

  1. May trabaho ka ba? (ql).
  2. Ipasok ang taon ng pagtatapos (q 21).
  3. Ano ang averagemarka ng pagtatapos (aver).
  4. Kasarian (q22).

Logistic regression ay susuriin ang epekto ng mga independent factor aver, q 21 at q 22 sa variable na ql. Sa madaling salita, ang layunin ng pagsusuri ay upang matukoy ang posibleng trabaho ng mga nagtapos batay sa impormasyon tungkol sa larangan, taon ng pagtatapos at GPA.

tagapagpahiwatig ng logistic sigmoid regression
tagapagpahiwatig ng logistic sigmoid regression

Logistic Regression

Upang magtakda ng mga parameter gamit ang binary regression, gamitin ang Analyze►Regression►Binary Logistic menu. Sa window ng Logistic Regression, piliin ang dependent factor mula sa listahan ng mga available na variable sa kaliwa. Ito ay ql. Dapat ilagay ang variable na ito sa Dependent field. Pagkatapos nito, kinakailangang ipasok ang mga independiyenteng salik sa plot ng Covariates - q 21, q 22, aver. Pagkatapos ay kailangan mong piliin kung paano isama ang mga ito sa iyong pagsusuri. Kung ang bilang ng mga independiyenteng kadahilanan ay higit sa 2, kung gayon ang paraan ng sabay-sabay na pagpapakilala ng lahat ng mga variable, na itinakda bilang default, ay ginagamit, ngunit hakbang-hakbang. Ang pinakasikat na paraan ay Backward:LR. Gamit ang button na Piliin, maaari mong isama sa pag-aaral ang hindi lahat ng respondente, ngunit isang partikular na target na kategorya lamang.

Tukuyin ang Mga Kategorya na Variable

Ang Categorical na button ay dapat gamitin kapag ang isa sa mga independent variable ay nominal na may higit sa 2 kategorya. Sa sitwasyong ito, sa window ng Define Categorical Variables, isang parameter lang ang inilalagay sa seksyong Categorical Covariates. Sa halimbawang ito, walang ganoong variable. Pagkatapos nito, sa drop-down na listahan ay sumusunod ang Contrastpiliin ang Deviation item at pindutin ang Change button. Bilang resulta, maraming dependent variable ang mabubuo mula sa bawat nominal na salik. Ang kanilang numero ay tumutugma sa bilang ng mga kategorya ng paunang kundisyon.

I-save ang Mga Bagong Variable

Gamit ang I-save na button sa pangunahing dialog box ng pag-aaral, ang paglikha ng mga bagong parameter ay nakatakda. Maglalaman sila ng mga indicator na kinakalkula sa proseso ng regression. Sa partikular, maaari kang lumikha ng mga variable na tumutukoy sa:

  1. Nakabilang sa isang partikular na kategorya ng pag-uuri (Groupmembership).
  2. Probability ng pagtatalaga ng respondent sa bawat grupo ng pag-aaral (Probability).

Kapag ginagamit ang Options button, hindi nakakakuha ang researcher ng anumang makabuluhang opsyon. Alinsunod dito, maaari itong balewalain. Pagkatapos i-click ang button na "OK", ang mga resulta ng pagsusuri ay ipapakita sa pangunahing window.

koepisyent ng logistic regression
koepisyent ng logistic regression

Pagsusuri ng kalidad para sa kasapatan at logistic regression

Isaalang-alang ang talahanayan ng Omnibus Testsof Model Coefficients. Ipinapakita nito ang mga resulta ng pagsusuri ng kalidad ng approximation ng modelo. Dahil sa ang katunayan na ang isang hakbang-hakbang na opsyon ay naitakda, kailangan mong tingnan ang mga resulta ng huling yugto (Step2). Ang isang positibong resulta ay isasaalang-alang kung ang isang pagtaas sa Chi-square indicator ay makikita kapag lumipat sa susunod na yugto sa isang mataas na antas ng kahalagahan (Sig. < 0.05). Ang kalidad ng modelo ay sinusuri sa linya ng Modelo. Kung nakakuha ng negatibong halaga, ngunit hindi ito itinuturing na makabuluhan sa pangkalahatang mataas na materyalidad ng modelo, ang hulimaaaring ituring na praktikal na angkop.

Tables

Ginagawang posible ng

Buod ng Modelo na tantyahin ang kabuuang variance index, na inilalarawan ng ginawang modelo (R Square index). Inirerekomenda na gamitin ang halaga ng Nagelker. Ang parameter ng Nagelkerke R Square ay maaaring ituring na isang positibong tagapagpahiwatig kung ito ay higit sa 0.50. Pagkatapos nito, ang mga resulta ng pag-uuri ay sinusuri, kung saan ang mga aktwal na tagapagpahiwatig ng pag-aari sa isa o ibang kategorya sa ilalim ng pag-aaral ay inihambing sa mga hinulaang batay sa modelo ng regression. Para dito, ginagamit ang Classification Table. Nagbibigay-daan din ito sa amin na gumawa ng mga konklusyon tungkol sa kawastuhan ng pagkakaiba para sa bawat pangkat na isinasaalang-alang.

modelo ng logistic regression
modelo ng logistic regression

Ang sumusunod na talahanayan ay nagbibigay ng pagkakataong malaman ang istatistikal na kahalagahan ng mga independiyenteng salik na ipinasok sa pagsusuri, gayundin ang bawat hindi pamantayang logistic regression coefficient. Batay sa mga indicator na ito, posibleng mahulaan ang pag-aari ng bawat respondent sa sample sa isang partikular na grupo. Gamit ang pindutang I-save, maaari kang magpasok ng mga bagong variable. Maglalaman ang mga ito ng impormasyon tungkol sa pagiging kabilang sa isang partikular na kategorya ng pag-uuri (Predictedcategory) at ang posibilidad na mapabilang sa mga pangkat na ito (Predicted probabilities membership). Pagkatapos i-click ang "OK", lalabas ang mga resulta ng pagkalkula sa pangunahing window ng Multinomial Logistic Regression.

Ang unang talahanayan, na naglalaman ng mga indicator na mahalaga para sa mananaliksik, ay ang Model Fitting Information. Ang mataas na antas ng istatistikal na kahalagahan ay magsasaad ng mataas na kalidad atpagiging angkop ng paggamit ng modelo sa paglutas ng mga praktikal na problema. Ang isa pang makabuluhang talahanayan ay ang Pseudo R-Square. Ito ay nagpapahintulot sa iyo na tantyahin ang proporsyon ng kabuuang pagkakaiba sa umaasa na salik, na tinutukoy ng mga independyenteng variable na pinili para sa pagsusuri. Ayon sa talahanayan ng Likelihood Ratio Tests, maaari tayong gumawa ng mga konklusyon tungkol sa istatistikal na kahalagahan ng huli. Ang mga pagtatantya ng Parameter ay nagpapakita ng mga hindi pamantayang koepisyent. Ginagamit ang mga ito sa pagbuo ng equation. Bilang karagdagan, para sa bawat kumbinasyon ng mga variable, ang istatistikal na kahalagahan ng kanilang epekto sa umaasa na kadahilanan ay natukoy. Samantala, sa pagsasaliksik sa marketing, madalas na kinakailangan na pag-iba-ibahin ang mga respondent ayon sa kategorya hindi nang indibidwal, ngunit bilang bahagi ng target na grupo. Para dito, ginagamit ang talahanayan ng Observedand Predicted Frequencies.

Praktikal na aplikasyon

Ang itinuturing na paraan ng pagsusuri ay malawakang ginagamit sa gawain ng mga mangangalakal. Noong 1991, binuo ang logistic sigmoid regression indicator. Ito ay isang madaling gamitin at epektibong tool para sa paghula ng malamang na mga presyo bago sila "mag-overheat". Ang indicator ay ipinapakita sa chart bilang isang channel na nabuo sa pamamagitan ng dalawang parallel na linya. Ang mga ito ay pantay na pagitan mula sa uso. Ang lapad ng koridor ay magdedepende lang sa timeframe. Ginagamit ang indicator kapag nagtatrabaho sa halos lahat ng asset - mula sa mga pares ng currency hanggang sa mahahalagang metal.

logistic regression sa spss
logistic regression sa spss

Sa pagsasanay, 2 pangunahing estratehiya para sa paggamit ng instrumento ang nabuo: para sa breakout atpara sa isang pagliko. Sa huling kaso, ang mangangalakal ay tututuon sa dynamics ng mga pagbabago sa presyo sa loob ng channel. Habang papalapit ang halaga sa linya ng suporta o paglaban, ang isang taya ay inilalagay sa posibilidad na ang paggalaw ay magsisimula sa kabaligtaran na direksyon. Kung malapit na ang presyo sa itaas na hangganan, maaari mong alisin ang asset. Kung ito ay nasa mas mababang limitasyon, dapat mong isipin ang tungkol sa pagbili. Ang diskarte sa breakout ay nagsasangkot ng paggamit ng mga order. Naka-install ang mga ito sa labas ng mga limitasyon sa medyo maliit na distansya. Isinasaalang-alang na ang presyo sa ilang mga kaso ay lumalabag sa mga ito sa maikling panahon, dapat mong i-play ito nang ligtas at itakda ang mga stop loss. Kasabay nito, siyempre, anuman ang napiling diskarte, kailangang makita at suriin ng negosyante ang sitwasyon na lumitaw sa merkado nang mahinahon hangga't maaari.

Konklusyon

Kaya, binibigyang-daan ka ng paggamit ng logistic regression na mabilis at madaling uriin ang mga respondent sa mga kategorya ayon sa ibinigay na mga parameter. Kapag nagsusuri, maaari mong gamitin ang anumang partikular na pamamaraan. Sa partikular, ang multinomial regression ay unibersal. Gayunpaman, inirerekomenda ng mga eksperto ang paggamit ng lahat ng mga pamamaraan na inilarawan sa itaas nang magkakasama. Ito ay dahil sa ang katunayan na sa kasong ito ang kalidad ng modelo ay magiging mas mataas. Ito naman, ay magpapalawak ng saklaw ng aplikasyon nito.

Inirerekumendang: