Ang
Multivariate scaling (MDS) ay isang tool para sa pagpapakita ng antas ng pagkakatulad ng mga indibidwal na kaso sa isang set ng data. Ito ay tumutukoy sa isang hanay ng mga kaugnay na paraan ng ordinasyon na ginagamit sa visualization ng impormasyon, lalo na upang ipakita ang impormasyong nakapaloob sa isang distance matrix. Ito ay isang anyo ng non-linear dimensionality reduction. Ang MDS algorithm ay naglalayong ilagay ang bawat bagay sa isang N-dimensional na espasyo sa paraang ang mga distansya sa pagitan ng mga bagay ay mapangalagaan hangga't maaari. Ang bawat bagay ay pagkatapos ay itinalagang mga coordinate sa bawat isa sa N dimensyon.
Ang bilang ng mga dimensyon ng MDS graph ay maaaring lumampas sa 2 at tinukoy ng priori. Ang pagpili sa N=2 ay nag-o-optimize ng paglalagay ng object para sa 2D scatterplot. Makakakita ka ng mga halimbawa ng multidimensional scaling sa mga larawan sa artikulo. Ang mga halimbawang may mga simbolo sa Russian ay partikular na naglalarawan.
Essence
Paraan ng multidimensional scaling (MMS,MDS) ay isang pinahabang hanay ng mga klasikal na tool na nagsa-generalize ng pamamaraan ng pag-optimize para sa isang hanay ng mga function ng pagkawala at mga input matrice ng mga kilalang distansya na may mga timbang at iba pa. Sa kontekstong ito, ang isang kapaki-pakinabang na function ng pagkawala ay tinatawag na stress, na kadalasang binabawasan ng isang pamamaraan na tinatawag na stress majorization.
Manual
May ilang mga opsyon para sa multidimensional scaling. Awtomatikong pinapaliit ng mga programa ng MDS ang pagkarga upang makakuha ng solusyon. Ang core ng nonmetric MDS algorithm ay isang dalawang beses na proseso ng pag-optimize. Una, dapat matagpuan ang pinakamainam na pagbabagong monotonic proximity. Pangalawa, ang mga configuration point ay dapat na mahusay na nakaposisyon upang ang kanilang mga distansya ay tumugma sa mga naka-scale na proximity value nang mas malapit hangga't maaari.
Expansion
Isang extension ng metric multidimensional scaling sa mga istatistika kung saan ang target na space ay isang arbitrary na makinis na non-Euclidean space. Kung saan ang mga pagkakaiba ay mga distansya sa isang ibabaw at ang target na espasyo ay ibang ibabaw. Binibigyang-daan ka ng mga thematic program na makahanap ng attachment na may kaunting pagbaluktot ng isang surface papunta sa isa pa.
Mga Hakbang
May ilang hakbang sa pagsasagawa ng pag-aaral gamit ang multivariate scaling:
- Pagbubuo ng problema. Anong mga variable ang gusto mong ihambing? Ilang variable ang gusto mong ihambing? Para sa anong layunin gagamitin ang pag-aaral?
- Pagkuha ng input data. Ang mga tumugon ay tinanong ng isang serye ng mga katanungan. Para sa bawat pares ng mga produkto, hinihiling sa kanila na i-rate ang pagkakatulad (karaniwan ay nasa 7-puntong Likert na sukat mula sa halos kapareho hanggang sa napaka dissimilar). Ang unang tanong ay maaaring para sa Coca-Cola/Pepsi, halimbawa, ang susunod para sa beer, ang susunod para kay Dr. Pepper, atbp. Ang bilang ng mga tanong ay depende sa bilang ng mga brand.
Mga alternatibong diskarte
Mayroong dalawa pang diskarte. Mayroong isang pamamaraan na tinatawag na "Perceptual Data: Derived Approach" kung saan ang mga produkto ay nabubulok sa mga katangian at ang pagsusuri ay ginagawa sa isang semantic differential scale. Ang isa pang paraan ay ang “preference data approach,” kung saan tatanungin ang mga respondent tungkol sa mga kagustuhan sa halip na pagkakatulad.
Binubuo ito ng mga sumusunod na hakbang:
- Paglulunsad ng MDS statistical program. Ang software para sa pagsasagawa ng pamamaraan ay magagamit sa maraming statistical software packages. Madalas may mapagpipilian sa pagitan ng metric MDS (na tumatalakay sa data ng interval o ratio level) at non-metric na MDS (na tumatalakay sa ordinal na data).
- Pagtukoy sa bilang ng mga sukat. Dapat matukoy ng mananaliksik ang bilang ng mga sukat na nais niyang gawin sa computer. Kung mas maraming sukat, mas maganda ang statistical fit, ngunit mas mahirap bigyang-kahulugan ang mga resulta.
- Ipakita ang mga resulta at tukuyin ang mga sukat - ipapakita ng statistical program (o kaugnay na module) ang mga resulta. Ipapakita ng mapa ang bawat produkto (karaniwan ay nasa 2D).space). Ang kalapitan ng mga produkto sa isa't isa ay nagpapahiwatig ng alinman sa kanilang pagkakatulad o kagustuhan, depende sa kung aling diskarte ang ginamit. Gayunpaman, kung paano aktuwal na tumutugma ang mga sukat sa mga sukat ng gawi ng system ay hindi palaging malinaw. Maaaring gawin dito ang isang pansariling paghuhusga ng pagsunod.
- Suriin ang mga resulta para sa pagiging maaasahan at bisa - kalkulahin ang R-squared upang matukoy ang proporsyon ng naka-scale na pagkakaiba-iba ng data na maaaring isaalang-alang ng pamamaraan ng MDS. Ang Square R 0.6 ay itinuturing na pinakamababang katanggap-tanggap na antas. Ang R squared 0.8 ay itinuturing na mabuti para sa metric scaling, habang ang 0.9 ay itinuturing na mabuti para sa non-metric scaling.
Iba't ibang pagsubok
Ang iba pang posibleng pagsubok ay ang mga Kruskal-type na stress test, split data test, data stability test, at retest reliability test. Sumulat nang detalyado tungkol sa mga resulta sa pagsusulit. Kasama ng pagmamapa, dapat na tukuyin ang hindi bababa sa isang sukat ng distansya (hal. Sorenson index, Jaccard index) at pagiging maaasahan (hal. stress value).
Ito rin ay lubos na kanais-nais na magbigay ng isang algorithm (hal. Kruskal, Mather) na kadalasang tinutukoy ng program na ginagamit (kung minsan ay pinapalitan ang ulat ng algorithm), kung nagbigay ka ng panimulang configuration o nagkaroon ng random na pagpipilian, numero ng mga pagtakbo ng dimensyon, mga resulta ng Monte Carlo, bilang ng mga pag-ulit, marka ng katatagan, at proporsyonal na pagkakaiba-iba ng bawat axis (r-square).
Visual na impormasyon at paraan ng pagsusuri ng datamultidimensional scaling
Ang
Ang visualization ng impormasyon ay ang pag-aaral ng mga interactive (visual) na representasyon ng abstract na data upang mapahusay ang katalinuhan ng tao. Kasama sa abstract na data ang parehong numeric at non-numeric na data tulad ng textual at geographic na impormasyon. Gayunpaman, iba ang visualization ng impormasyon sa visualization na pang-agham: "ito ay nagbibigay-impormasyon (information visualization) kapag pinili ang isang spatial na representasyon, at scivis (scientific visualization) kapag ibinigay ang isang spatial na representasyon."
Ang larangan ng visualization ng impormasyon ay lumitaw mula sa pananaliksik sa pakikipag-ugnayan ng tao-computer, mga aplikasyon sa computer science, graphics, visual na disenyo, sikolohiya, at mga pamamaraan ng negosyo. Lalo itong ginagamit bilang mahalagang bahagi sa siyentipikong pananaliksik, mga digital na aklatan, data mining, financial data, market research, production control, at iba pa.
Mga paraan at prinsipyo
Iminumungkahi ng visualization ng impormasyon na sinasamantala ng visualization at mga paraan ng pakikipag-ugnayan ang yaman ng perception ng tao, na nagbibigay-daan sa mga user na sabay na makita, galugarin at maunawaan ang malaking halaga ng impormasyon. Nilalayon ng visualization ng impormasyon na lumikha ng mga diskarte para sa pakikipag-usap ng abstract na data, impormasyon sa intuitive na paraan.
Ang pagsusuri ng data ay isang mahalagang bahagi ng lahat ng inilapat na pananaliksik at paglutas ng problema sa industriya. KaramihanAng mga pangunahing diskarte sa pagsusuri ng data ay visualization (histograms, scatter plot, surface plot, tree maps, parallel coordinate plot, atbp.), statistics (hypothesis testing, regression, PCA, atbp.), data analysis (pagtutugma, atbp.)..d.) at mga paraan ng machine learning (clustering, classification, decision tree, atbp.).
Sa mga diskarteng ito, ang visualization ng impormasyon o pagsusuri ng visual na data ay ang pinakanakadepende sa mga kasanayang nagbibigay-malay ng analytical staff at nagbibigay-daan sa pagtuklas ng mga hindi nakaayos na mga insight na naaaksyunan na nililimitahan lamang ng imahinasyon at pagkamalikhain ng tao. Ang isang analyst ay hindi kailangang matutunan ang anumang kumplikadong mga diskarte upang ma-interpret ang mga visualization ng data. Ang visualization ng impormasyon ay isa ring scheme ng pagbuo ng hypothesis na maaari at kadalasang sinasamahan ng mas analytical o pormal na pagsusuri gaya ng statistical hypothesis testing.
Pag-aaral
Ang modernong pag-aaral ng visualization ay nagsimula sa computer graphics, na "mula sa simula ay ginamit upang pag-aralan ang mga problemang pang-agham. Gayunpaman, sa mga unang taon, ang kakulangan ng graphics power ay kadalasang naglilimita sa pagiging kapaki-pakinabang nito. Nagsimula ang priyoridad sa visualization. na bumuo noong 1987, kasama ang paglabas ng espesyal na software para sa Computer Graphics at Visualization sa Scientific Computing Simula noon, nagkaroon ng ilang mga kumperensya at workshop na magkasamang inorganisa ng IEEE Computer Society at ACM SIGGRAPH".
Sila ang sumasaklaw sa mga pangkalahatang paksa ng data visualization, information visualization at scientific visualization,pati na rin ang mga mas partikular na lugar gaya ng pag-render ng volume.
Buod
Ang
Generalized Multidimensional Scaling (GMDS) ay isang extension ng metric multidimensional scaling kung saan ang target na space ay hindi Euclidean. Kapag ang mga pagkakaiba ay mga distansya sa isang surface, at ang target na space ay isa pang surface, binibigyang-daan ka ng GMDS na mahanap ang nesting ng isang surface papunta sa isa pa na may kaunting distortion.
Ang
GMDS ay isang bagong linya ng pananaliksik. Sa kasalukuyan, ang mga pangunahing application ay ang deformable object recognition (halimbawa, para sa 3D face recognition) at texture mapping.
Ang layunin ng multidimensional scaling ay upang kumatawan sa multidimensional na data. Ang multidimensional na data, iyon ay, ang data na nangangailangan ng higit sa dalawa o tatlong dimensyon upang kumatawan, ay maaaring mahirap bigyang-kahulugan. Ang isang diskarte sa pagpapasimple ay ang pagpapalagay na ang data ng interes ay nasa isang naka-embed na non-linear manifold sa isang high-dimensional na espasyo. Kung ang kolektor ay may sapat na mababang dimensyon, ang data ay maaaring makita sa mababang-dimensional na espasyo.
Marami sa mga non-linear na paraan ng pagbabawas ng dimensyon ay nauugnay sa mga linear na pamamaraan. Ang mga nonlinear na pamamaraan ay maaaring malawak na mauri sa dalawang pangkat: ang mga nagbibigay ng pagmamapa (mula sa high-dimensional na espasyo hanggang sa mababang-dimensional na pag-embed, o vice versa), at ang mga nagbibigay lamang ng visualization. Sa konteksto ng machine learning, ang mga pamamaraan ng pagmamapa ay maaaring tingnan bilangisang paunang yugto ng pagkuha ng tampok, pagkatapos kung saan inilapat ang mga algorithm sa pagkilala ng pattern. Karaniwan ang mga nagbibigay lang ng mga visualization ay nakabatay sa proximity data - ibig sabihin, mga sukat ng distansya. Ang multidimensional scaling ay karaniwan din sa sikolohiya at iba pang humanities.
Kung ang bilang ng mga attribute ay malaki, kung gayon ang espasyo ng mga natatanging posibleng string ay malaki rin ang exponentially. Kaya, kung mas malaki ang dimensyon, mas nagiging mahirap na ilarawan ang espasyo. Nagdudulot ito ng maraming problema. Ang mga algorithm na gumagana sa high-dimensional na data ay may posibilidad na magkaroon ng napakataas na pagiging kumplikado ng oras. Ang pagbabawas ng data sa mas kaunting mga dimensyon ay kadalasang ginagawang mas mahusay ang mga algorithm ng pagsusuri at maaaring makatulong sa mga algorithm ng machine learning na gumawa ng mas tumpak na mga hula. Ito ang dahilan kung bakit napakasikat ng multidimensional data scaling.