Pagsusuri ng dalas ng teksto: mga tampok at halimbawa

Talaan ng mga Nilalaman:

Pagsusuri ng dalas ng teksto: mga tampok at halimbawa
Pagsusuri ng dalas ng teksto: mga tampok at halimbawa
Anonim

Nakilala mo ang konseptong ito nang higit sa isang beses sa iyong buhay kung kailangan mong magtrabaho sa mga text. Sa partikular, maaari kang bumaling sa mga online na calculator na nagsasagawa ng eksaktong pagsusuri sa dalas ng teksto. Ipinapakita ng mga madaling gamiting tool na ito kung gaano karaming beses naganap ang isang partikular na karakter o titik sa anumang sipi ng teksto. Kadalasan ang isang porsyento ay ipinapakita din. Bakit kailangan ito? Paano nakakatulong ang pagtatasa ng dalas ng teksto sa "pag-crack" ng mga simpleng cipher? Ano ang kakanyahan nito, sino ang nag-imbento nito? Sasagutin namin ang mga ito at ang iba pang mahahalagang tanong sa paksa sa kurso ng artikulo.

Definition

Ang pagsusuri sa dalas ay isa sa mga uri ng cryptanalysis. Ito ay batay sa palagay ng mga siyentipiko tungkol sa pagkakaroon ng istatistikal na di-trivial na pamamahagi ng mga indibidwal na character at ang kanilang mga regular na pagkakasunud-sunod sa parehong plain at cipher text.

Pinaniniwalaan na ang naturang pamamahagi, hanggang sa pagpapalit ng mga indibidwal na character, ay pananatilihin din sa mga proseso ng pag-encrypt/decryption.

pagsusuri ng dalas ng mga sistema
pagsusuri ng dalas ng mga sistema

Katangian ng proseso

Ngayon, tingnan natin ang pagsusuri sa dalas sa mga simpleng termino. Ito ay nagpapahiwatig na ang bilang ng mga paglitaw ng parehong alpabetikong karakter sa mga teksto na may sapat na haba ay pareho sa iba't ibang mga teksto na nakasulat sa parehong wika.

At ngayon kumusta naman ang monoalphabetic encryption? Ipinapalagay na kung mayroong isang karakter na may katulad na posibilidad ng paglitaw sa seksyong may ciphertext, makatotohanang ipagpalagay na iyon ang naka-cipher na titik.

Ang mga tagasubaybay ng frequency text analysis ay naglalapat ng parehong pangangatwiran sa mga digram (mga pagkakasunud-sunod ng dalawang titik). Trigrams - ito ay para sa kaso ng mga polyalphabetic cipher na.

Kasaysayan ng pamamaraan

Ang pagsusuri sa dalas ng mga salita ay hindi paghahanap ng modernidad. Ito ay kilala sa siyentipikong mundo mula pa noong ika-9 na siglo. Ang paglikha nito ay nauugnay sa pangalang Al-Kindi.

Ngunit ang mga kilalang kaso ng paggamit ng paraan ng pagtatasa ng dalas ay nabibilang sa mas huling panahon. Ang pinaka-kapansin-pansin na halimbawa dito ay ang pag-decipher ng mga hieroglyph ng Egypt, na ginawa noong 1822 ni J.-F. Champollion.

Kung tutungo tayo sa fiction, makakakita tayo ng maraming kawili-wiling sanggunian sa paraan ng pag-decryption na ito:

  • Conan Doyle - "The Dancing Men".
  • Jules Verne - "Mga Anak ni Captain Grant".
  • Edgar Poe - "Gold Bug".

Gayunpaman, mula noong kalagitnaan ng huling siglo, karamihan sa mga algorithm na ginamit sa pag-encrypt ay binuo nang isinasaalang-alang ang kanilang pagtutol sa naturang frequency cryptanalysis. Samakatuwid itongayon ang mga ito ay kadalasang ginagamit lamang para sa pagsasanay ng mga hinaharap na cryptographer.

pagsusuri ng dalas ng teksto
pagsusuri ng dalas ng teksto

Basic na paraan

Ipakita natin ngayon nang detalyado ang pagsusuri sa dalas ng pagtugon. Ang ganitong uri ng pagsusuri ay direktang batay sa katotohanan na ang pagsusulit ay binubuo ng mga salita, at ang mga, naman, ng mga titik. Limitado ang bilang ng mga titik na pumupuno sa mga pambansang alpabeto. Ang mga titik ay maaaring ilista lamang dito.

Ang pinakamahalagang katangian ng naturang teksto ay ang parehong pag-uulit ng mga titik, iba't ibang bigram, trigram at n-gram, pati na rin ang pagkakatugma ng iba't ibang mga titik sa isa't isa, ang paghalili ng mga katinig / patinig at iba pa uri ng mga simbolong ito.

Ang pangunahing ideya ng mga pamamaraan ay ang pagbibilang ng mga paglitaw ng mga posibleng n-grams (na tinutukoy ng nm) sa mga plaintext na sapat ang haba para sa pagsusuri (tinutukoy ng T=t1t2…tl) na binubuo ng mga titik ng pambansang alpabeto (tinutukoy ng {a1, a2, …, an}). Ang lahat ng nasa itaas ay nagdudulot ng ilang magkakasunod na m-gram ng teksto:

t1t2…tm, t2t3… tm+1, …, ti-m+1tl-m+2…tl.

Kung ito ang bilang ng mga paglitaw ng m-gram ai1ai2…layunin ang isang tiyak na tekstong T, at ang L ay ang kabuuang bilang ng m-grams na sinuri ng mananaliksik, kung gayon posible na maitatag ang empirikal na para sa sapat na malaking L, ang mga frequency para sa naturang m-gram ay magiging kaunti lamang ang pagkakaiba sa isa't isa.

pagsusuri ng dalas
pagsusuri ng dalas

Mga madalas na liham ng alpabetong Ruso

Ngunit ang pagsusuri sa dalas ng oras, sa kabila ng katulad na pangalan, ay walang kinalaman sa paksa ng aming pag-uusap. Ang ganitong uri ng pagsusuri ay isinasagawa para sasignal mula sa mga low-observable na istasyon ng radar gamit ang isang espesyal na wavelet transform.

Ngayon, bumalik tayo sa pangunahing paksa. Kapag nagsasagawa ng pagsusuri sa dalas, maaari mong malaman kung aling mga titik ng alpabetong Ruso ang pinakamadalas na matatagpuan sa medyo makapal na mga teksto (porsiyento mula 0.062 hanggang 0.018):

  • A.
  • V.
  • D.
  • F.
  • I.
  • K.
  • M.
  • O.
  • R.
  • T.
  • F.
  • T.
  • Sh.
  • b.
  • E.
  • I.

Maging ang isang espesyal na mnemonic na panuntunan ay ipinakilala, na tumutulong upang matutunan ang mga pinakakaraniwang titik ng alpabetong Ruso. Para magawa ito, sapat na na tandaan ang isang salita lamang - "hayloft".

Sa mga pangkalahatang kaso, ang dalas ng paggamit ng mga titik sa mga terminong porsyento ay itinakda nang simple: binibilang ng espesyalista kung gaano karaming beses naganap ang titik sa text, pagkatapos ay hinahati ang resultang halaga sa kabuuang bilang ng mga character sa text. At upang ipahayag ang halagang ito bilang isang porsyento, sapat na upang i-multiply ito sa 100.

Mahalagang isaalang-alang na ang dalas ay hindi lamang nakadepende sa dami ng teksto, kundi pati na rin sa kalikasan nito. Halimbawa, sa mga teknikal na mapagkukunan ang titik na "F" ay lumilitaw nang mas madalas kaysa sa fiction. Samakatuwid, para sa mga layuning resulta, ang isang espesyalista ay dapat mag-type ng mga teksto ng iba't ibang uri at istilo para sa pananaliksik.

mga programa sa pagsusuri ng dalas ng teksto
mga programa sa pagsusuri ng dalas ng teksto

Bi-, tri-, apat na gramo

Sa mga makabuluhang teksto, mahahanap mo rin ang pinakakaraniwan (ayon sa pagkakabanggit, ang pinakapaulit-ulit) kumbinasyon ng dalawa o higit pang mga titik. Nag-compile din ang mga espesyalista ng ilang talahanayan, na nagsasaad ng mga frequency ng magkatulad na digram ng iba't ibang alpabeto.

Tungkol sa Russian, ang frequency analysis ng mga system ng napakaraming makabuluhang teksto ay naging posible upang maitatag ang pinakakaraniwang bigram at trigram:

  • EN.
  • ST.
  • PERO.
  • HINDI.
  • ON.
  • RA.
  • OV.
  • KO.
  • VO.
  • STO.
  • BAGO
  • ENO.
  • TOV.
  • OVA.
  • OVO.

Mga ginustong relasyon ng mga liham sa isa't isa

At hindi lang ito ang lahat ng posibilidad na maibibigay ng frequency analysis sa mga text researcher. Sa pamamagitan ng pag-systematize ng impormasyon mula sa mga katulad na talahanayan ng mga bigram at trigram, posible na kunin ang data sa mga pinakakaraniwang kumbinasyon ng mga titik. O, sa madaling salita, ang gusto nilang relasyon sa isa't isa.

Ang ganitong malawak na pag-aaral ay naisagawa na ng mga eksperto. Ang resulta nito ay isang talahanayan kung saan, kasama ang bawat titik ng alpabeto, ang mga kapitbahay nito ay ipinahiwatig. Bukod dito, ang mga character na iyon na madalas na matatagpuan kaagad bago ito at pagkatapos nito. Ang mga titik sa talahanayan ay hindi nabaybay nang nagkataon. Mas malapit sa simbolo, ipinapahiwatig ang pinakamadalas na kapitbahay, higit pa - mas bihira.

Isaalang-alang ang mga halimbawa:

  • Letter "A". Ang mga sumusunod na ginustong koneksyon ay nakikilala dito: l-d-k-t-v-r-n-A-l-n-s-t-r-v-to-m. Mula dito makikita natin na madalas bago ang "A" sa mga teksto ay mayroong "H" ("NA"). At pagkatapos ng "A" madalas sa mga teksto sa Russian maaari nating makilala ang "L"("AL").
  • Letter "M". Natukoy ng mga eksperto ang mga gustong koneksyon: "I-s-a-i-e-o-M-i-e-o-u-a-n-p-s".
  • Letter "b". Ang mga gustong koneksyon ay ang mga sumusunod: "n-s-t-l-b-n-k-v-p-s-e-o-i".
  • Letter na "Sh". Mga gustong koneksyon: "e-b-a-i-u-Sch-e-i-a".
  • Letter "P". Mga ginustong koneksyon sa simbolong ito ng alpabetong Ruso: "v-s-u-a-i-e-o-P-o-r-e-a-u-i-l".
pagsusuri ng dalas ng oras
pagsusuri ng dalas ng oras

Ano ang tumutukoy sa pagsusuri?

Nakakatulong ang mga modernong programa sa pagsusuri ng teksto ng dalas na pag-aralan ang malalaking volume ng iba't ibang uri ng artikulo, sanaysay, sipi, at iba pa. Ang sumusunod na impormasyon ay ibinibigay sa mananaliksik bilang pamantayan:

  • Kabuuang bilang ng mga character sa text.
  • Bilang ng mga puwang na ginamit ng may-akda.
  • Bilang ng mga digit.
  • Impormasyon tungkol sa mga ginamit na bantas - mga tuldok, kuwit, atbp.
  • Ang bilang ng mga titik sa bawat isa sa mga available na alpabeto - Cyrillic, Latin, atbp.
  • Impormasyon tungkol sa dalas ng paggamit ng bawat titik at simbolo sa text - ang bilang ng mga pagbanggit at porsyento kumpara sa buong text.

Pakikibaka laban sa overoptimization at oversaturation

Bakit isinasagawa ang pagsusuri sa dalas ng teksto? Ito ba ay para lamang sa layunin ng pag-usisa - upang maitaguyod kung aling mga character sa nakasulat na teksto ang naging madalas na nakakaharap? Hindi, praktikal ang pangunahing aplikasyon ng pagsusuri, at nasa ibang lugar ito.

Kasama sa N-grams ang hindi lamang mga stable na bigram at trigram. Sa parehoKasama sa mga kategorya ang mga keyword (tag), mga collocation. Iyon ay, matatag na kumbinasyon na binubuo ng dalawa o higit pang mga salita. Ang mga ito ay nakikilala sa pamamagitan ng katotohanan na ang mga naturang komposisyon ay nangyayari nang magkakasama sa teksto at sa parehong oras ay nagdadala ng isang tiyak na semantic load.

Ito ay gumaganap sa mga kamay ng mga walang prinsipyong SEO specialist. Sa kanilang trabaho, minsan ay inaabuso nila ang pag-uulit ng mga tag at keyword sa teksto upang artipisyal na mapataas ang kaugnayan ng isang partikular na web page. Sinusubukan nilang linlangin ang sistema na may ganitong "panlilinlang": gawing hindi pantay-pantay ang natural na kumbinasyon sa karaniwang kumbinasyon ng mga salita, tradisyonal para sa wikang Ruso ("bumili ng mink coat"). Ibig sabihin, nakuha sa pamamagitan ng muling pagsasaayos ng mga salita sa natural na N-gram ("bumili ng mink coat").

Ngunit ngayon, natutunan ng mga algorithm sa paghahanap na tuklasin ang sobrang pag-optimize nang kasing-epektibo ng overspam - sobrang saturation ng teksto sa mga keyword, mga tag na nakakaapekto sa pagraranggo ng mga resulta sa pahina ng paghahanap. Ang mga over-optimized na page ay ngayon, sa kabaligtaran, ay niraranggo nang mas mababa ayon sa query ng user. At ang mga tao mismo ay hindi madalas na magbasa ng walang kabuluhan, sobrang puspos ng mga tag na teksto, mas pinipili ang kapaki-pakinabang na impormasyon sa isa pang mapagkukunan.

paraan ng pagsusuri ng dalas
paraan ng pagsusuri ng dalas

Pagtulong sa pribadong pagsusuri para sa mga SEO specialist

Kaya, ang mga modernong search engine text filter ngayon ay nagbibigay ng kagustuhan sa mga Internet page na iyon, ang impormasyon kung saan hindi lamang madaling basahin, ngunit kapaki-pakinabang din sa mga bisita. Upang i-optimize ang kanilang trabaho para sa mga bagong pamantayan, mga SEO specialistat bumaling sa pagsusuri ng dalas ng teksto. Maraming sikat na serbisyo ang nagbibigay nito ngayon.

Ang pagsusuri sa dalas ay nakakatulong upang suriin ang tekstong inihahanda para sa paglalathala para sa pagiging impormasyon. Tanggalin ang hindi kinakailangang redundancy ng mga tag at pangunahing parirala. Nagbibigay-daan din ito sa iyo na maakit ang atensyon ng may-akda sa mga hindi natural na kumbinasyon ng mga salita na pumukaw ng hinala sa mga filter ng teksto ng mga search engine.

pagsusuri ng dalas ng tugon
pagsusuri ng dalas ng tugon

Pagsusuri ng dalas ng teksto sa gayon ay nakakatulong upang matukoy ang dalas ng pagbanggit ng isang partikular na karakter sa pinagmulan. Ang paraan ay ginagamit ngayon upang masuri ang text overload na may mga tag, hindi natural na mga permutasyon ng mga salita.

Inirerekumendang: