PormasyonMga kolehiyo at unibersidad

Anong Corpus Linguistics?

Ilang dekada na ang nakaraan upang i-automate ang linguistic pananaliksik, siyentipiko ay maaari lamang managinip ng. Ang gawain ay ginagawa sa pamamagitan ng kamay, ito umaakit ng isang malaking bilang ng mga mag-aaral, mayroong isang malaking posibilidad "walang ingat" pagkakamali, at pinaka-mahalaga - ang lahat ng ito ay kinuha sa isang mahaba, mahabang panahon.

Gamit ang pag-unlad ng computer na teknolohiya ay naging posible upang magsagawa ng pananaliksik sa pagkakasunud-sunod ng magnitude mas mabilis, at ngayon ay isa sa mga pinaka-promising direksyon sa pag-aaral ng wika ay isang corpus lingguwistika. Ang mga pangunahing tampok ay ang paggamit ng malaking halaga ng impormasyon teksto, impormasyon sa isang solong database, sa isang espesyal na paraan at tinawag ang markadong katawan.

Sa kasalukuyan, mayroong maraming mga gusali na nilikha na may iba't ibang mga layunin sa batayan ng iba't-ibang linguistic materyal na sumasaklaw mula sa mga milyon-milyong sa sampu-sampung ng bilyun-bilyong lexical units. direksyon na ito ay kinikilala bilang isang promising at nagpapakita ng makabuluhang progreso patungo sa application at pananaliksik. Eksperto, isang paraan o iba dealing na may natural na wika, ito ay inirerekomenda upang makakuha ng pamilyar sa ang katawan ng teksto ng hindi bababa sa isang pangunahing antas.

History of corpus linguistics

Ang pagbuo ng trend na ito ay dahil sa ang paglikha ng Estados Unidos sa Brown katawan sa unang bahagi ng 60-ies ng huling siglo. Ang koleksyon ay kinabibilangan ng mga teksto ng lahat ng 1 milyon ng mga form salita, at sa araw na ito sa katawan ng ganitong laki ay magiging ganap uncompetitive. Ito ay dahil sa ang tiyempo ng pag-unlad ng computer na teknolohiya, pati na rin ang lumalaking pangangailangan para sa mga bagong mapagkukunan ng pananaliksik.

Sa mula sa 90s corpus lingguwistika lumitaw sa isang puno na at malayang disiplina, isang koleksyon ng mga teksto ay na-iguguhit up at minarkahan para sa dose-dosenang mga wika. Sa panahon na ito ito ay nilikha, halimbawa, ang British Pambansang Corpus 100 milyong mga token.

Gamit ang pag-unlad ng lugar na ito ng lingguwistika, volume ng teksto ay nagiging higit pa at higit pa (at maabot bilyun-bilyong diksyunaryo yunit), at ang layout ay nagiging mas magkakaibang. Upang petsa, ang Internet space ay matatagpuan carcasses nakasulat at pasalitang wika, multilingual, at sa pag-aaral-oriented pansining o pang-akademikong panitikan, pati na rin ang maraming iba pang mga species.

Ano ang mga pabahay

mga uri ng katawan sa linguistics katawan ay maaaring ibinigay para sa ilang mga kadahilanan. Intuitively, ang batayan para sa pag-uuri ay maaaring maging isang text wika (Russian, German), ang access mode (open source, sarado, komersyal), ang genre ng source materyal (fiction, dokumentaryo, akademiko, journalism).

Kagiliw-giliw na paraan ay bumubuo ng mga materyales ng pasalitang wika. Dahil ang sinadya pag-record ng naturang speech upang lumikha ng isang artipisyal na kapaligiran para sa mga respondents, at ang mga nagresultang materyal ay hindi ma-tinatawag na "kusang", moderno corpus lingguwistika Sumailalim sa iba pang mga paraan. Ang isang volunteer ay nilagyan ng mikropono, at sa panahon ng araw na ginawa ng isang talaan ng lahat ng pag-uusap, kung saan ito nakikilahok. Ang mga tao sa paligid, siyempre, maaaring hindi malaman na sa kurso ng araw-araw na pag-uusap nag-aambag sa pag-unlad ng agham.

Mamaya natanggap record na naka-imbak sa database at ay sinamahan ng naka-print na i-type ang text transcript. Kaya, ito ay nagiging posible markup na kailangan upang lumikha ng isang bibig-araw-araw na salita sa pabahay.

application

Hangga't maaari ang paggamit ng wika, at marahil ang paggamit ng mga gusali teksto. Paraan upang ilapat ang hull sa lingguwistika ay maaaring:

  • Ang paglikha ng isang programa ng pagtukoy ng mga susi, ay malawakang ginagamit sa pulitika at negosyo upang subaybayan ang mga positibo at negatibong tugon ng mga botante at mga customer, ayon sa pagkakabanggit.
  • Connection impormasyon sistema upang diksyunaryo at tagasalin upang mapabuti ang kanilang pagganap.
  • Ang iba't-ibang ng pananaliksik gawain na mag-ambag sa pag-unawa ng ang yunit ng wika, kasaysayan ng pag-unlad nito at hula ng mga pagbabago sa malapit na hinaharap.
  • Development ng mga impormasyon retrieval system batay sa morphological, sintaktik, semantiko at iba pang mga tampok.
  • Pag-optimize ng mga iba't ibang linguistic systems at iba pa.

Paggamit ng mga gusali

katulad na mapagkukunan interface na may isang tipikal na search engine, at prompt sa gumagamit na magpasok ng isang salita o kombinasyon ng mga salita upang maghanap para sa impormasyon base. Bukod bumuo ng ang eksaktong query ay maaaring gumamit ng pinahusay na bersyon, na kung saan ay nagbibigay-daan upang mahanap tekstuwal impormasyon sa halos anumang linguistic pamantayan.

search base ay maaaring:

  • kasapi ng isang partikular na grupo ng mga bahagi ng pananalita;
  • katangiang gramatika;
  • semantics;
  • pangkakanyahan at emosyonal pangkulay.

Maaari mo ring pagsamahin pamantayan sa paghahanap para sa isang pagkakasunod-sunod ng mga salita, halimbawa, upang mahanap ang lahat ng paglitaw ng pandiwa sa pangkasalukuyan, unang tao isahan, na kung saan ay dumating pagkatapos ng pang-ukol "sa" at ang pangngalan sa accusative case. Ang solusyon sa tulad ng isang simpleng gawain ay tumatagal ng user sa loob ng ilang segundo at nangangailangan lamang ng ilang mga pag-click ng mouse sa tinukoy na mga patlang.

Ang proseso ng paglikha

Ang search mismo ay maaaring natupad sa lahat ng subcorpus at isa na partikular na pinili, depende sa mga pangangailangan sa pagkamit ng isang partikular na layunin:

  1. Ang unang hakbang ay upang tukuyin kung saan teksto bumubuo ng batayan para sa kaso. Para sa mga praktikal na layunin, madalas na ito ay ginagamit ng mga periyodista, mga kwento ng balita, online komento. Ang pananaliksik proyekto ay ang paggamit ng isang malawak na iba't ibang mga uri ng pakete, ngunit ang teksto ay dapat na napili ayon sa ilang mga karaniwang lupa.
  2. Ang resultang koleksyon ng mga teksto sumailalim sa pre-paggamot, mayroong pagwawasto ng mga error, kung mayroon man, na inihanda ng bibliographic at extra-linguistic paglalarawan ng teksto.
  3. Ay eliminated lahat ng hindi-tekstuwal impormasyon: Iniaalis ang graphics, mga larawan, mga talahanayan.
  4. Ay isang paglalaan ng mga token, na kung saan ay karaniwang pagsasalita, para sa karagdagang processing.
  5. Sa wakas, ito dala morphological, syntactical at iba pang mga markings nakuha mayorya ng mga elemento.

Ang resulta ng lahat ng mga transaksyon na ginawa sa pamamagitan ng isang sintaktik istraktura na may ibinahagi sa ganyang bagay ang isang mayorya ng mga elemento, ang bawat isa ay kinilala sa bahagi ng pananalita, panggramatika at, sa ilang mga kaso, ang semantic katangian.

Kahirapan sa paglikha ng mga gusali

Ito ay mahalaga na maunawaan na ito ay hindi sapat upang ilagay ang sama-sama ng isang set ng mga salita o pangungusap para sa katawan. Sa isang banda, isang koleksyon ng mga teksto ay dapat na balanse, iyon ay, ay magpapakita ng magkakaibang uri ng mga teksto sa ilang mga sukat. Sa kabilang - ang mga nilalaman ng enclosure ay dapat na may pagitan sa isang espesyal na paraan.

Ang unang problema ay lutasin sa pamamagitan ng isang kasunduan: halimbawa, sa koleksyon ay nagsasama ng 60% ng pampanitikan teksto, 20% ng mga dokumentaryo, isang tiyak na porsyento ay binigyan ng isang nakasulat na representasyon ng pasalitang wika, batas, agham gawa, atbp perpektong recipe iskor sa katawan sa araw na ito ay hindi umiiral ...

Ang ikalawang tanong, may kinalaman sa nilalaman layout, malutas ang mapaghamong. May mga espesyal na mga programa at mga algorithm na ginagamit para sa awtomatikong pagmamarka ng mga teksto, ngunit hindi nila magbigay ng isang perpektong resulta, maaaring maging sanhi ng pagkagambala at nangangailangan ng manual rework. Oportunidad at hamon sa pagharap sa mga problemang ito ay inilarawan sa detalye sa isang papel V. P. Zaharova ng corpus lingguwistika.

Text markup ay ipinatupad sa ilang mga antas, na kung saan inilista namin sa ibaba.

morphological pag-tag

Mula sa paaralan, tandaan namin na sa wikang Russian, mayroong iba't ibang mga bahagi ng pananalita, at bawat isa sa kanila ay may sariling mga katangian. Halimbawa, ang verb ay may mga kategorya ng mga hilig at ang oras kung walang pangngalan. isang katutubong nagsasalita nang walang pag-aalinlangan tanggihan nouns at banghayin pandiwa, ngunit upang markahan ang mga katawan ng 100 milyong. token manual labor ay hindi gagana. Ang lahat ng mga kinakailangang mga operasyon ay maaaring execute ang computer, gayunpaman, para sa ito ay kailangang maturuan.

Morphological pag-tag, ang computer ay dapat "maunawaan" ang bawat salita bilang isang tiyak na bahagi ng pananalita pagkakaroon ng ilang mga pambalarila mga tampok. Dahil ang Russian (at anumang iba pang mga wika) ay nagpapatakbo ng isang bilang ng mga regular na mga panuntunan, ito ay posible na bumuo ng isang awtomatikong pamamaraan para sa morphological analysis, pamumuhunan sa ang kotse para sa isang bilang ng mga algorithm. Subalit, may mga pagbubukod sa mga panuntunan, pati na rin ang iba't-ibang mga complicating kadahilanan. Bilang isang resulta, net computer na pagtatasa ng mga araw na ito ay malayo mula sa perpekto, at kahit 4% error magbubunga ang halaga ng 4 mln. Mga salita sa katawan ng 100 milyong. Units, na nangangailangan ng manual rework.

Detalyadong aklat na naglalarawan ng problema Zaharova V. P. "Corpus Linguistics".

sintaktik annotation

Pag-parse o pag-parse - isang pamamaraan na tumutukoy sa relasyon ng mga salita sa isang pangungusap. Gamit ang isang hanay ng mga algorithm ay posible upang matukoy ang teksto ng paksa, tambalan, mga karagdagan, ang maramihang mga liko sa pananalita. Alamin kung anong mga salita ang mga pangunahing pagkakasunod-sunod, at kung saan - umaasa, maaari naming epektibong kunin ang impormasyon mula sa text at upang turuan ang mga machine upang magpalabas bilang tugon sa isang kahilingan sa paghahanap lamang ng impormasyon na interesante sa amin.

Siya nga pala, modernong mga search engine gamitin ito upang magbigay ng tiyak na mga numero sa halip ng napakahabang mga teksto bilang tugon sa mga kaugnay na mga query tulad ng "kung gaano karaming mga calories sa isang apple" o "ang layo mula sa Moscow sa St Petersburg." Gayunpaman, upang maunawaan kahit na ang mga pangunahing kaalaman ng proseso ng inilarawan sa pamamagitan ng ang pangangailangan upang kumonsulta sa "Panimula sa Corpus Linguistics" o iba pang basic tutorial.

semantiko markup

Ang semantics ng salita - ay, sa madaling salita, ang kahulugan. Malawak na naaangkop diskarte sa semantiko pagtatasa ng isang salita Pagpapatungkol tag, na sumasalamin sa kanyang pag-aari sa isang hanay ng semantic kategorya at mga subcategory. Ang nasabing impormasyon ay mahalaga para sa pag-optimize algorithm-aralan ang teksto tono, automatic summarization at iba pang mga gawain pamamaraan ng corpus lingguwistika.

Mayroong isang bilang ng mga "ugat" ng mga punong kahoy, na kumakatawan sa isang abstract salita na may isang napaka-malawak na semantics. Matatapong katulad ng sanga ng puno nodes ay nabuo, na naglalaman ng higit pa at mas tiyak na leksiko mga elemento. Halimbawa, ang salitang "nilalang" ay maaaring kaugnay sa naturang mga konsepto ng "tao" at "hayop". Ang unang salita ay patuloy na magpalago ng negosiyo sa iba't ibang mga propesyon, pagkakamag-anak terms, nasyonalidad, at ang pangalawang - sa mga klase at mga uri ng hayop.

Ang paggamit ng impormasyon retrieval system

Mga lugar ng paggamit ng corpus lingguwistika masakop ang mga magkakaibang mga patlang ng aktibidad. Housings ay ginagamit para sa paghahanda at pagwawasto ng mga dictionaries, lumikha ng automated system pagsasalin, annotating, pagbawi ng mga katotohanan, pagtukoy ng tono at iba pang mga teksto processing.

Sa karagdagan, tulad resources ay aktibong ginagamit sa pag-aaral ng mga wika mundo at mekanismo ng gumagana ng wika sa pangkalahatan. Access sa malaking volume ng mga pre-handa ng impormasyon facilitates mabilis at komprehensibong pag-aaral ng mga uso ng wika pag-unlad, at matatag na pagbuo neologisms speech pagbabago ng bilis halaga lexical units at iba pa.

Dahil ang trabaho na may tulad na malaking halaga ng data ay nangangailangan ng automation, ngayon diyan ay malapit na pakikipag-ugnayan sa pagitan ng mga computer at corpus lingguwistika.

Russian Pambansang Corpus

Ito kaso (dinaglat NKRYA) ay nagsasama ng isang bilang ng mga subcorpus, na nagpapahintulot sa ang paggamit ng isang mapagkukunan para sa iba't ibang uri ng mga gawain.

Ang mga materyales sa database ay nahahati NKRYA:

  • sa mga pahayagan sa media '90s at 2000s, parehong domestic at sa ibang bansa;
  • pagtatala ng talumpati;
  • aktsentologicheski minarkahan teksto (ibig sabihin, ang mga marka ng stress);
  • diyalekto speech;
  • tula;
  • Materyales sa sintaktik at iba pang mga markings.

Ang impormasyon ng system Kasama rin Subcorpus na may parallel pagsasalin ng mga gawa mula sa Russian sa Ingles, Aleman, Pranses at marami pang ibang mga wika (at vice versa).

Gayundin sa database doon ay isang seksyon ng mga makasaysayang mga teksto, na kumakatawan sa mga nakasulat na salita sa Russian sa iba't ibang mga panahon ng kanyang pag-unlad. Mayroon ding isang pagsasanay ng katawan, na maaaring maging kapaki-pakinabang para sa mga banyagang mamamayan sa mastering ang Russian wika.

Russian Pambansang Corpus Binubuo 400 milyong lexical units, at sa maraming mga paraan nangunguna sa isang makabuluhang bahagi ng mga wika ng Europa katawan.

prospects

Fact pabor sa pagkilala ng trend na ito ay ang kakayahang magamit ng may pag-asa laboratory corpus lingguwistika sa Russian unibersidad, pati na rin sa ibang bansa. Sa pamamagitan ng paggamit ng at pananaliksik sa ang balangkas ng impormasyon at mga paghahanap na ito resources entails ang pag-unlad ng ilang mga lugar sa larangan ng mataas na teknolohiya, tanong-pagsagot sa mga sistema, ngunit ito ay tinalakay sa itaas.

Ang karagdagang pag-unlad ng corpus lingguwistika ay hinuhulaan sa lahat ng antas, mula sa mga teknikal at sa mga tuntunin ng pagpapatupad ng mga bagong algorithm na i-optimize ang proseso ng paghahanap at pagproseso ng impormasyon, empowering mga computer, mas RAM, at sa consumer, dahil ang mga gumagamit ay mas at mas maraming mga paraan upang gamitin ang ganitong uri ng mga mapagkukunan sa kanilang pang araw-araw buhay at trabaho.

sa pagtatapos

Sa gitna ng huling siglo sa 2017 tila nalalapit na hinaharap, kung saan spaceships paglalakbay sa pamamagitan ng uniberso at mga robot gawin ang lahat ng mga trabaho para sa mga tao. Sa katunayan, agham ay puspos na may "white spot" at paggawa ng desperado pagtatangka upang sagutin ang mga katanungan ng sangkatauhan para sa siglo nakakagambala. Tanong gumagana ng wika dito sumasakop ng isang lugar ng karangalan, at cabinet at computational linguistics ay makakatulong sa amin upang sagutin ang mga ito.

Processing ng mga malalaking mga hanay ng data ay maaaring tuklasin ang mga pattern, dati hindi maa-access, mahuhulaan ang pag-unlad ng mga tiyak na mga katangian ng wika upang masubaybayan ang mga pormasyon ng mga salita sa halos real time.

Sa isang praktikal na antas, ang global na enclosures ay maaaring makita, halimbawa, bilang isang potensyal na kasangkapan upang masuri ang pampublikong kalooban - ang Internet ay isang patuloy na-update araw-araw sa iba't-ibang mga teksto na nilikha ng mga tunay na mga gumagamit: ito ang mga komento at mga review, at mga artikulo, at marami pang ibang mga paraan ng pagsasalita.

Bilang karagdagan, nagtatrabaho sa mga katawan nag-aambag sa pag-unlad ng parehong hardware, na kasangkot sa pagkuha ng impormasyon, kami ay pamilyar sa mga serbisyo ng "Google" o "Yandex", machine translation, electronic diksyunaryo.

Maaari naming confidently igiit na ang corpus lingguwistika ay gumagawa lamang ang unang hakbang, at sa malapit na hinaharap ay umunlad.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 tl.birmiss.com. Theme powered by WordPress.