Ano ang corpus linguistics?

2026 May -akda: Angel Austin | austin@vogueindustry.com. Huling binago: 2025-01-23 12:36:11

Ilang dekada na ang nakararaan, pangarap lang ng mga scientist na i-automate ang linguistic research. Ang gawain ay ginawa sa pamamagitan ng kamay, isang malaking bilang ng mga mag-aaral ang kasangkot dito, mayroong isang malaking posibilidad ng isang "kawalan ng pansin" na error, at higit sa lahat, ang lahat ay tumagal ng maraming, maraming oras.

Sa pag-unlad ng teknolohiya ng kompyuter, naging posible na magsagawa ng pananaliksik nang mas mabilis, at ngayon ang isa sa mga promising na lugar sa pag-aaral ng wika ay ang corpus linguistics. Ang pangunahing tampok nito ay ang paggamit ng malaking halaga ng textual na impormasyon, pinagsama-sama sa isang database, na minarkahan sa isang espesyal na paraan at tinatawag na corpus.

Ngayon, maraming corpora ang nilikha para sa iba't ibang layunin, batay sa iba't ibang materyal ng wika, na sumasaklaw mula sa milyun-milyon hanggang sampu-sampung bilyong lexical units. Ang direksyon na ito ay kinikilala bilang may pag-asa at nagpapakita ng makabuluhang pag-unlad sa pagkamit ng mga layuning inilapat at pananaliksik. Mga propesyonal, sa isang paraan o iba pang pakikitungonatural na wika, inirerekomenda na maging pamilyar ka sa text corpora kahit man lang sa basic level.

Kasaysayan ng corpus linguistics

Ang pagbuo ng direksyong ito ay konektado sa paglikha ng Brown Corps sa USA noong unang bahagi ng 60s ng huling siglo. Ang koleksyon ng mga teksto ay binubuo lamang ng 1 milyong mga anyo ng salita, at ngayon ang isang corpus ng naturang dami ay magiging ganap na hindi mapagkumpitensya. Ito ay higit sa lahat dahil sa bilis ng pag-unlad ng teknolohiya ng computer, gayundin sa lumalaking pangangailangan para sa mga bagong mapagkukunan ng pananaliksik.

Noong 90s, ang corpus linguistics ay nabuo sa isang ganap at independiyenteng disiplina, ang mga koleksyon ng mga teksto ay pinagsama-sama at minarkahan para sa ilang dosenang mga wika. Sa panahong ito, halimbawa, ang British National Corpus ay nilikha para sa 100 milyong paggamit ng salita.

Habang ang direksyong ito ng linguistics ay umuunlad, ang dami ng mga teksto ay nagiging mas malaki (at umabot sa bilyun-bilyong yunit ng bokabularyo), at ang markup ay nagiging mas magkakaibang. Ngayon, sa espasyo ng Internet, mahahanap mo ang corpora ng nakasulat at oral na pananalita, multilinggwal at pang-edukasyon, na nakatuon sa fiction o akademikong literatura, gayundin sa marami pang iba.

Anong mga kaso ang mayroon

Ang mga uri ng corpus sa corpus linguistics ay maaaring katawanin sa ilang paraan. Malinaw na malinaw na ang batayan para sa pag-uuri ay maaaring ang wika ng mga teksto (Russian, German), access mode (open source, closed source, commercial), genre ng source material (fictionpanitikan, dokumentaryo, akademiko, pamamahayag).

Sa isang kawili-wiling paraan, ang pagbuo ng mga materyales na kumakatawan sa pasalitang pananalita ay isinasagawa. Dahil ang sadyang pagtatala ng naturang pananalita ay lilikha ng mga artipisyal na kundisyon para sa mga sumasagot, at ang resultang materyal ay hindi matatawag na "kusang", ang modernong corpus linguistics ay napunta sa ibang paraan. Ang boluntaryo ay nilagyan ng mikropono, at sa araw ang lahat ng mga pag-uusap kung saan siya nakikilahok ay naitala. Siyempre, hindi malalaman ng mga tao sa paligid na sa takbo ng pang-araw-araw na pag-uusap ay nakakatulong sila sa pag-unlad ng agham.

Mamaya, ang mga natanggap na audio recording ay iniimbak sa data bank at sinasamahan ng naka-print na text tulad ng isang transcript. Sa ganitong paraan, nagiging posible ang markup na kailangan para gumawa ng corpus ng pasalitang pang-araw-araw na pananalita.

Application

Kung saan posible na gumamit ng wika, posible ring gumamit ng text corpora. Ang layunin ng paggamit ng mga pamamaraan ng corpus sa linggwistika ay maaaring:

Paggawa ng mga programa ng damdamin na malawakang ginagamit sa pulitika at negosyo upang subaybayan ang positibo at negatibong feedback mula sa mga botante at customer, ayon sa pagkakabanggit.
Pag-uugnay sa sistema ng impormasyon sa mga diksyunaryo at tagasalin upang mapabuti ang kanilang pagganap.
Iba't ibang gawain sa pananaliksik na nakakatulong sa pag-unawa sa istruktura ng wika, ang kasaysayan ng pag-unlad nito at mga hula sa pagbabago nito sa malapit na hinaharap.
Pagbuo ng mga sistema ng pagkuha ng impormasyon batay sa morphological,syntactic, semantic at iba pang feature.
Pag-optimize ng gawain ng iba't ibang sistema ng linguistic, atbp.

Paggamit ng mga shell

Ang interface ng mapagkukunan ay katulad ng isang karaniwang search engine at sinenyasan ang user na magpasok ng ilang salita o kumbinasyon ng mga salita upang maghanap sa infobase. Bilang karagdagan sa eksaktong form ng kahilingan, maaari mong gamitin ang pinahabang bersyon, na nagbibigay-daan sa iyong makahanap ng impormasyon sa teksto ayon sa halos anumang pamantayang pangwika.

Ang batayan para sa paghahanap ay maaaring:

na kabilang sa isang partikular na pangkat ng mga bahagi ng pananalita;
mga tampok na gramatikal;
semantics;
stylistic at emosyonal na pangkulay.

Gayundin, maaari mong pagsamahin ang mga pamantayan sa paghahanap para sa isang pagkakasunud-sunod ng mga salita: halimbawa, hanapin ang lahat ng paglitaw ng isang pandiwa sa kasalukuyang panahunan, unang panauhan, isahan na sinusundan ng pang-ukol na "sa" at isang pangngalan sa accusative case. Ang paglutas ng ganoong simpleng gawain ay tumatagal ng user ng ilang segundo at nangangailangan lamang ng ilang pag-click ng mouse sa mga ibinigay na field.

Proseso ng paglikha

Ang paghahanap mismo ay maaaring isagawa pareho sa lahat ng mga subcorpus, at sa isa, partikular na pinili, depende sa mga pangangailangan kapag nakakamit ang isang partikular na layunin:

Una sa lahat, tinutukoy kung aling mga teksto ang magiging batayan ng corpus. Para sa mga praktikal na layunin, kadalasang ginagamit ang pamamahayag, mga materyales sa pahayagan, mga komento sa Internet. Sa mga proyekto ng pananaliksik, ang karamihaniba't ibang uri ng corpora, ngunit ang mga teksto ay dapat piliin sa ilang karaniwang batayan.
Ang resultang set ng mga text ay paunang naproseso, ang mga error ay itinatama, kung mayroon man, isang bibliographic at extralinguistic na paglalarawan ng teksto ang inihanda.
Lahat ng di-tekstuwal na impormasyon ay na-filter out: ang mga graphics, larawan, mga talahanayan ay tinanggal.
Ang mga token, kadalasang mga salita, ay inilalaan para sa karagdagang pagproseso.
Sa wakas, naisasagawa ang morphological, syntactic at iba pang markup ng resultang set ng mga elemento.

Ang resulta ng lahat ng isinagawang operasyon ay isang syntactic na istraktura na may isang hanay ng mga elemento na ipinamahagi sa ibabaw nito, para sa bawat isa kung saan ang isang bahagi ng pananalita, gramatikal at, sa ilang mga kaso, mga tampok na semantiko ay tinukoy.

Mga kahirapan sa paggawa ng mga kaso

Mahalagang maunawaan na para makakuha ng corpus, hindi sapat ang pagsasama-sama ng maraming salita o pangungusap. Sa isang banda, ang isang koleksyon ng mga teksto ay dapat na balanse, iyon ay, nagpapakita ng iba't ibang uri ng mga teksto sa ilang mga proporsyon. Sa kabilang banda, dapat markahan ang mga nilalaman ng case sa isang espesyal na paraan.

Naresolba ang unang isyu sa pamamagitan ng kasunduan: halimbawa, kasama sa koleksyon ang 60% ng mga fiction text, 20% ng mga dokumentaryo, isang partikular na proporsyon ang ibinibigay sa nakasulat na presentasyon ng oral speech, legislative acts, scientific papers, atbp.. Ang perpektong recipe para sa isang balanseng corpus ngayon ay hindi umiiral.

Ang pangalawang tanong tungkol sa markup ng nilalaman ay mas mahirap lutasin. May mga espesyal na programa at algorithm na ginagamit para sa awtomatikong markup ng mga teksto, ngunit hindi sila nagbibigay ng 100% na resulta, maaaring maging sanhi ng mga pagkabigo at nangangailangan ng manu-manong pagpipino. Ang mga pagkakataon at problema sa paglutas ng problemang ito ay inilarawan nang detalyado sa gawain ni V. P. Zakharov sa corpus linguistics.

Isinasagawa ang text markup sa ilang antas, na ililista namin sa ibaba.

Morphological markup

Mula sa bangko ng paaralan, naaalala namin na sa wikang Ruso ay may iba't ibang bahagi ng pananalita, at bawat isa sa kanila ay may sariling katangian. Halimbawa, ang isang pandiwa ay may mga kategorya ng mood at panahunan na wala sa isang pangngalan. Tinatanggihan ng isang katutubong nagsasalita ang mga pangngalan at pinagsasama-sama ang mga pandiwa nang walang pag-aalinlangan, ngunit hindi angkop ang manu-manong paggawa para sa pagmamarka ng isang corpus ng 100 milyong paggamit ng salita. Ang lahat ng kinakailangang operasyon ay maaaring gawin ng isang computer, gayunpaman, para dito kailangan itong ituro.

Morphological markup ay kinakailangan para sa computer na "maunawaan" ang bawat salita bilang ilang bahagi ng pananalita na may ilang partikular na mga tampok sa gramatika. Dahil ang isang bilang ng mga regular na panuntunan ay gumagana sa Russian (tulad ng sa anumang iba pang) wika, posible na bumuo ng isang awtomatikong pamamaraan para sa morphological analysis sa pamamagitan ng paglalagay ng isang bilang ng mga algorithm sa makina. Gayunpaman, may mga pagbubukod sa panuntunan, pati na rin ang iba't ibang mga kumplikadong kadahilanan. Bilang resulta, ang dalisay na pagsusuri ng computer ngayon ay malayo sa perpekto, at kahit 4% na error ay nagbibigay ng halaga ng 4 na milyong salita sa isang corpus na 100 milyong unit, na nangangailangan ng manu-manong pagpipino.

Ang problemang ito ay inilarawan nang detalyado ng aklat ni V. P. Zakharov na "Corpus Linguistics".

Syntactic markup

Ang

Syntactic analysis o parsing ay isang pamamaraan na tumutukoy sa kaugnayan ng mga salita sa isang pangungusap. Sa tulong ng isang hanay ng mga algorithm, nagiging posible upang matukoy ang paksa, panaguri, mga karagdagan, at iba't ibang mga liko ng pagsasalita sa teksto. Sa pamamagitan ng pag-alam kung aling mga salita sa pagkakasunud-sunod ang pangunahin at alin ang nakasalalay, maaari naming mahusay na kumuha ng impormasyon mula sa teksto at sanayin ang makina na ibalik lamang ang impormasyong interesado kami bilang tugon sa isang kahilingan sa paghahanap.

mga laboratoryo ng corpus linguistics sa mga unibersidad ng Russia

Nga pala, ginagamit ito ng mga makabagong search engine para magbigay ng mga partikular na numero sa halip na mahahabang text bilang tugon sa mga nauugnay na query tulad ng: "ilang calories ang nasa isang mansanas" o "distansya mula Moscow hanggang St. Petersburg." Gayunpaman, upang maunawaan kahit ang pinakapangunahing bahagi ng inilarawang proseso, kakailanganin mong maging pamilyar sa "Introduction to Corpus Linguistics" o isa pang pangunahing aklat-aralin.

Semantic markup

Ang semantika ng isang salita ay, sa simpleng termino, ang kahulugan nito. Ang isang malawak na naaangkop na diskarte sa pagsusuri ng semantiko ay ang pagpapatungkol ng mga tag sa isang salita, na sumasalamin sa pag-aari nito sa isang hanay ng mga semantic na kategorya at subcategory. Ang naturang impormasyon ay mahalaga para sa pag-optimize ng mga algorithm ng pagsusuri ng sentimento ng text, awtomatikong pagre-refer, at pagsasagawa ng iba pang mga gawain gamit ang mga pamamaraan ng corpus linguistics.

Mayroong ilang "ugat" ng puno, na mga abstract na salita na mayroongnapakalawak na semantika. Habang ang mga sanga ng punong ito, ang mga node ay nabuo na naglalaman ng higit at mas tiyak na mga elemento ng leksikal. Halimbawa, ang salitang "nilalang" ay maaaring iugnay sa mga konsepto tulad ng "tao" at "hayop". Ang unang salita ay patuloy na sasanga sa iba't ibang mga propesyon, mga tuntunin ng pagkakamag-anak, nasyonalidad, at ang pangalawa - sa mga klase at uri ng mga hayop.

Paggamit ng mga information retrieval system

Ang mga saklaw ng paggamit ng corpus linguistics ay sumasaklaw sa malawak na iba't ibang larangan ng aktibidad. Ginagamit ang Corpora para sa pag-compile at pagwawasto ng mga diksyunaryo, paggawa ng mga awtomatikong sistema ng pagsasalin, pagbubuod, pagkuha ng mga katotohanan, pagtukoy ng damdamin at iba pang pagproseso ng text.

Sa karagdagan, ang mga mapagkukunang ito ay aktibong ginagamit sa pag-aaral ng mga wika ng mundo at ang mga mekanismo ng paggana ng wika sa kabuuan. Ang pag-access sa malalaking volume ng pre-prepared na impormasyon ay nakakatulong sa mabilis at komprehensibong pag-aaral ng mga uso sa pag-unlad ng mga wika, pagbuo ng mga neologism at matatag na pagbabago sa pagsasalita, pagbabago sa mga kahulugan ng lexical unit, atbp.

Dahil ang pagtatrabaho sa napakaraming dami ng data ay nangangailangan ng automation, ngayon ay may malapit na pakikipag-ugnayan sa pagitan ng computer at corpus linguistics.

National Corpus of the Russian Language

Ang corpus na ito (pinaikling NKRC) ay may kasamang bilang ng mga subcorpus na nagbibigay-daan sa paggamit ng mapagkukunan upang malutas ang maraming uri ng mga gawain.

Ang mga materyales sa database ng NCRA ay nahahati sa:

sa mga publikasyon sa media noong dekada 90 at 2000taon, parehong domestic at dayuhan;
recording ng oral speech;
mga tekstong may markang accentologically (ibig sabihin, may mga accent mark);
dialect speech;
akdang patula;
material na may syntactic markup, atbp.

Kasama rin sa sistema ng impormasyon ang mga subcorpus na may mga parallel na pagsasalin ng mga gawa mula sa Russian patungo sa English, German, French at marami pang ibang wika (at vice versa).

Gayundin, ang database ay may isang seksyon ng mga makasaysayang teksto na kumakatawan sa nakasulat na pananalita sa Russian sa iba't ibang panahon ng pag-unlad nito. Mayroon ding training corpus na maaaring maging kapaki-pakinabang para sa mga dayuhang mamamayan sa pag-master ng wikang Russian.

Ang pambansang corpus ng wikang Ruso ay kinabibilangan ng 400 milyong lexical unit at sa maraming paraan ay nauuna sa isang mahalagang bahagi ng corpora ng mga wikang European.

Prospect

Ang isang katotohanang pabor sa pagkilala sa lugar na ito bilang promising ay ang pagkakaroon ng mga laboratoryo ng corpus linguistics sa mga unibersidad sa Russia, gayundin sa mga dayuhang laboratoryo. Sa paggamit at pagsasaliksik sa loob ng balangkas ng itinuturing na mapagkukunan ng pagkuha ng impormasyon, ang pagbuo ng ilang mga lugar sa larangan ng matataas na teknolohiya, mga sistema ng tanong-sagot ay nauugnay, ngunit ito ay tinalakay sa itaas.

Ang karagdagang pag-unlad ng corpus linguistics ay hinuhulaan sa lahat ng antas, mula sa teknikal, sa mga tuntunin ng pagpapakilala ng mga bagong algorithm na nag-o-optimize sa mga proseso ng paghahanap at pagproseso ng impormasyon, pagpapalawak ng mga kakayahan ng mga computer, pagtaas ng pagpapatakbomemorya, at nagtatapos sa mga sambahayan, habang ang mga gumagamit ay nakakahanap ng parami nang parami upang magamit ang ganitong uri ng mapagkukunan sa pang-araw-araw na buhay at sa trabaho.

Sa konklusyon

Sa kalagitnaan ng huling siglo, ang 2017 ay tila isang malayong hinaharap, kung saan ang spacecraft ay nagsu-surf sa kalawakan ng Uniberso at ginagawa ng mga robot ang lahat ng gawain para sa mga tao. Sa katotohanan, gayunpaman, ang agham ay puno ng "blank spot" at gumagawa ng desperadong pagtatangka upang sagutin ang mga tanong na gumugulo sa sangkatauhan sa loob ng maraming siglo. Ang mga tanong tungkol sa paggana ng wika ay ipinagmamalaki dito, at ang corpus at computational linguistic ay makakatulong sa atin na sagutin ang mga ito.

Ang pagpoproseso ng malalaking halaga ng data ay nagbibigay-daan sa iyong makakita ng mga pattern na dati ay hindi naa-access, mahulaan ang pagbuo ng ilang partikular na feature ng wika, subaybayan ang pagbuo ng mga salita nang halos real time.

Sa isang praktikal na pandaigdigang antas, ang corpora ay maaaring isaalang-alang, halimbawa, bilang isang potensyal na tool para sa pagtatasa ng pampublikong damdamin - ang Internet ay isang patuloy na na-update na database ng iba't ibang mga teksto na nilikha ng mga tunay na gumagamit: ito ay mga komento, pagsusuri, mga artikulo, at marami pang ibang anyo ng pananalita.

Sa karagdagan, ang pakikipagtulungan sa corpora ay nakakatulong sa pagbuo ng parehong teknikal na paraan na kasangkot sa pagkuha ng impormasyon, na pamilyar sa amin mula sa mga serbisyo ng Google o Yandex, machine translation, mga electronic na diksyunaryo.

Ligtas na sabihin na ang corpus linguistics ay gumagawa lamang ng mga unang hakbang nito at mabilis na uunlad sa malapit na hinaharap.