Filozofska fakulteta Univerze v Ljubljani
Oddelek za primerjalno in splošno jezikoslovje

Seminarska naloga pri predmetu
Računalništvo za filologe / 2010

(Primož Jakopin)


Vsebina:

1. Uvod
2. Črkovne statistike
3. Statistike besed
     3.1 Krivulja rasti
     3.2 Porazdelitev dolžin različnih besed
     3.3 Porazdelitev dolžin vseh besed
     3.4 Seznami samostalnikov, glagolov in pridevnikov



1. Uvod

Seminarska naloga obsega oblikoslovno označitev izbranega domačega ali tujega besedila, izdelavo njegovega besednega zaklada in statistični opis besedila. Izbirati je mogoče med proznimi deli, zbranimi za izvedbo naloge na strežniku FF in med preko interneta dostopnimi deli v angleškem ali nemškem jeziku.
Za izvedbo naloge potrebujete:

ki ju namestite na ustrezno diskovno območje vašega računalnika (z levo tipko na miši izberete najprej program in ga shranite, nato pa še datoteko virov). Če delate s terminala FF ali kakega drugega omrežja, v katerem na računalnike ni dovoljena namestitev datotek tipa .EXE z interneta, izberite namesto zgornje datoteke EVA.EXE datoteko EVA.EX in jo po namestitvi na vaš računalnik preimenujte - končnico ji spremenite iz .EX v .EXE.
          Nekaj navodil za uporabo je shranjenih v naslednjih datotekah:

Program lahko nato uporabite na leposlovnem delu, izbranem s pomočjo enega izmed spodaj navedenih seznamov. Naslovi knjig so živi in z njimi prikličete na zaslon kratek odlomek ustreznega dela.

  1. Izvirna in prevedena leposlovna dela v slovenskem jeziku na strežniku FF
  2. Izvirna leposlovna dela v angleškem jeziku

Celotno besedilo izbranega dela dobite pri izvajalcu predmeta. Za lažjo izdelavo naloge je priložen primer seminarske naloge, ki vsebuje kvantitativni oris dela Neizstreljeni naboj Damijana Šinigoja.

Poleg splošnih elementov, ki niso odvisni od besedila in ki jih lahko razberete iz izvorne oblike vzorčnega primera, je v nadaljevanju opisana pot do posameznih slik in številskih podatkov. Podatki, obdelani v vzorčni nalogi, so seveda samo za vajo in primer - naloga, ki jo boste napravili, razpored gradiva v njej in način predstavitve so seveda vaši. V nadaljevanju je nekaj napotkov za izdelavo seminarske naloge, ki obravnavajo primer Samorastnikov Prežihovega Voranca.

2. Črkovne statistike

Do splošnih podatkov o številu vrstic, številu znakov in številu vseh črk v besedilu pridemo lahko na naslednji način:

  1. izbrano besedilo preberemo z diska:
    Disk -> Izbira -> Beri datoteko z diska -> ime datoteke



    Slika 1: Začetek datoteke z besedilom Samorastnikov

  2. odstranimo vse vrstice zaglavja datoteke, to je tiste, ki se začnejo z dvojnim karo - to napravimo z osmimi ukazi <Ctrl><d> na začetku datoteke.
  3. uporabimo zaporedje izbir:
    Orodja -> Črkovne statistike -> Posameznih znakov
    in v predzadnji vrstici datoteke preberemo število znakov, v zadnji pa število vrstic.
  4. da bi dobili še število vseh črk, moramo sešteti njihove frekvence. V tabeli na koncu datoteke spravimo v blok vse vrstice s črkami: na prvo, ki ima črko 'A'... postavimo začetek bloka - ukaz <Ctrl><Home>, na zadnjo, navadno s črko 'ž'... ali 'Ž'... pa konec bloka, z ukazom <Ctrl><End>.
  5. Z zaporedjem izbir:
    Blok -> Odstrani vse ostalo(1)
    odstranimo iz datoteke vse razen črk s frekvencami. Izjema so le znaki, ki so za 'Z'... in pred 'a'.... Potolčemo jih z ustreznim številom ukazov <Ctrl>d (odstrani vrstico).
  6. Zdaj je potrebno le še sešteti frekvence črk. Odpravimo se na začetek (<Home>) in z zaporedjem izbir:
    Zbirke -> Orodja z desne strani -> Izračuni -> Seštej polje navpično -> Številke polj: 2
    dosežemo, da se na koncu datoteke prikaže iskano število vseh črk v besedilu.

Histogram s porazdelitvijo črk v besedilu dobimo z naslednjim postopkom:

  1. izbrano besedilo spet preberemo z diska:
    Disk -> Izbira -> Beri datoteko z diska -> ime datoteke
    in na vprašanje, ali povozimo trenutno vsebino pomnilnika, odgovorimo pritrdilno.
  2. Kot prej spet odstranimo 8 vrstic zaglavja z ukazi <Ctrl><d>.
  3. Seznam vseh črk s frekvencami dobimo z:
    Orodja -> Črkovne statistike -> posameznih črk
    Abecedno ga uredimo z:
    Zbirke -> 2. SORTIRANJE -> Zaporedje ključev: 1,a.
    Ostane še, da odstranimo črke, kjer je relativna frekvenca prenizka (npr. < 0.05); to naredimo spet z ukazom za izbris vrstic: <Ctrl>d.
  4. Histogram napravimo z:
    <Home> -> Zbirke -> 6. DODATKI -> Napravi histogram iz zbirke.

V primeru Samorastnikov bi bil histogram takle:



Slika 2: Osnovni zapis podatkov za generiranje histograma

Dopolnimo in spremenimo ga še z oznakama pri abscisi in ordinati, spremenimo njegovo velikost (na velikost računalnikovega zaslona, druga vrstica), dodamo črtkane vodoravne črte pri vrednostih 2%, 4%, 6%, 8% in 10% (pomišljaji za številkami v peti vrstici, ter na koncu dodamo še konec strani:



Slika 3: Dopolnjen zapis podatkov za generiranje histograma

Znak dvojne kare (double-diamond character) dobimo s pomočjo <Alt>q. Vse, kar še ostane, je, da napravimo sliko histograma in jo shranimo kot datoteko, da jo bo potem uporabilo še internetni prikazovalnik, npr. Internet Explorer. V ta namen najprej preverimo nastavitve v Evinem pregledu strani:
Tisk -> Nastavitve strani ter postavimo vrednosti Left margin in Top margin na 0.

Sledi samo še pregled strani: Tisk -> Pokaži stran, pri čemer mora kazalec na zaslonu seveda biti nekje v opisu histograma (vseeno kje, le na zadnji vrstici z mejo strani - dvema dvojnima karoma - ne). Namesto zgornjega zaporedja izbir lahko pritisnemo tudi na funkcijsko tipko <F3>.



Slika 4: Prikaz histograma

V pregledu strani preverimo, če je s histogramom vse, kot je treba in, če je treba, še kaj popravimo. V ta namen zapustimo pregled strani (s tipko q), popravimo in gremo z <F3> spet nazaj. Kot je vse po naših pričakovanjih, histogram shranimo na disk kot datoteko:
Konec -> Shrani kopijo kot .GIF -> Ime datoteke: slika_1.gif.


Pri poti do histograma lahko uberemo tudi bližnjico - tako, da na datoteki z besedilom izberemo zaporedje izbir:
Orodja -> Označevanje besedila -> Statistike -> Porazdelitev črk in popravimo ta rezultat.

Seveda lahko napravimo poleg omenjenega pri črkah še kako drugo statistiko - kar nekaj možnosti se skriva predvsem za izbirami:
Orodja -> Črkovne statistike -> Statistika dvojčkov, trojčkov ...

3. Statistike besed

Še več možnosti možnosti kot pri črkovnih statistikah nudi EVA pri številskem opisu besed. Oglejmo si najprej, kako izmerimo število vseh besed in število različnih besed ter kako pridemo do povprečnih dolžin. Najprej spet preberemo izbrano besedilo z diska v pomnilnik, potem ga razbijemo na besede:
Orodja -> Označevanje besedila -> Razno -> Prelom datoteke na besede -> Ne.
Pomaknemo se na konec novonastalega seznama: <End> in s tipko <-> z desne (številske) tipkovnice vprašamo, koliko je vseh besednih oblik (12.944 pri Samorastnikih). Zatem skočimo na začetek seznama (<Home>), besedne oblike najprej spremenimo v malo začetnico:
Uredi -> Izberi vse -> Blok -> Velike v male
jih abecedno uredimo:
Zbirke -> 1. SORTIRANJE -> Zaporedje ključev: 1,a
in z zaporedjem izbir:
Zbirke -> Orodja z leve strani -> Frekvence
dosežemo, da enake besede v seznamu popadajo skupaj, vsaka pa dobi za seboj še frekvenco (število enakih v seznamu). Malo si ga ogledamo, ugotovimo da je prva beseda a, zadnja žvotjo, za njo pa še 1875. Ker nas zanimajo samo besede v ožjem smislu, letnico odstranimo z ukazom <Ctrl>d.

Ker bomo seznam še potrebovali, ga shranimo na disk:
Disk -> Izbira -> Shrani jo na disk -> Ime datoteke: besede.fre
Skok na konec <End> in <-> z desne tipkovnice nam zdaj povesta še število različnih besed.
Da bi dobili povprečno dolžino različnih besed in vseh besed se spet pomaknemo na začetek seznama - <Home> - in z izbiro:
Zbirke -> Orodja z leve strani -> Dolžine -> Polje, za katero naj se izračuna dolžina: 1
pred vsako besedo pripeljemo še njeno dolžino v znakih. Sledi le še izračun vsote dolžin vseh različnih besed:
Zbirke -> Orodja z desne strani -> Izračuni -> Seštej polje navpično -> Številka polja, ki ga je treba sešteti: 1
Na koncu datoteke se znajde vsota dolžin vseh različnih besed (v primeru Samorastnikov 27.159), ki jo je treba deliti s številom različnih besed (4.058). Ko dobimo rezultat (povpr. 6.69 črk na besedo v Vorančevem delu), zadnjo vrstico v datoteki (s tem številom) odstranimo s <Ctrl>d. Vrnemo se na začetek <Home> - in izračunamo se skupno dolžino vseh pojavitev vsake besede:
Zbirke -> Orodja z desne strani -> Izračuni -> Izračunaj novo polje -> Izračunaj: #1 * #3
se pravi zmnožek prvega (dolžina) in tretjega podatkovnega polja (frekvenca ali število pojavitev). Dobljene vrednosti še seštejemo:
Zbirke -> Orodja z desne strani -> Izračuni -> Seštej polje navpično -> Številka polja, ki ga je treba sešteti: 1
in na koncu datoteke (tja seveda pridemo z <end>) se znajde vsota dolžin vseh besednih oblik (v primeru Samorastnikov 58.646). Delimo jo s številom vseh besednih oblik in dobimo iskani rezultat (4.53).
Najdaljšo besedo dobimo tako, da skočimo na začetek seznama in ga padajoče uredimo po drugem polju:
Zbirke -> 1. SORTIRANJE -> Zaporedje ključev: 2,d

Poglejmo še krivuljo rasti in histograma porazdelitev besednih dolžin.

3.1 Krivulja rasti

Krivulja rasti za besede pove hitrost, s katero se polni besedni zaklad besedila.



Slika 5: Prikaz krivulje rasti

V ta namen spet najprej preberemo izbrano besedilo z diska, kot pri črkovnih statistikah:
Disk -> Izbira -> Beri datoteko z diska -> ime datoteke (rezultate od prej smo seveda že pospravili na varno in se zato strinjali z odstranitvijo trenutne pomnilniške datoteke):



Slika 6: Začetek datoteke z besedilom Samorastnikov

Sledi ustrezni ukaz za izdelavo krivulje rasti:
Orodja -> Označevanje besedila -> Statistike -> Krivulja rasti besednih oblik. Dobimo njeno določitev:



Slika 7: Osnovni zapis podatkov za generiranje histograma

ki jo je treba kot pri histogramu s frekvencami črk le še malo popraviti in dopolniti. V našem primeru je različnih besed samo 4.058, zato zmanjšamo tudi število oznak pod abscisno osjo - nehamo pri 4K, da ne bi imeli na koncu slike dveh praznih stolpcev:



Slika 8: Dopolnjeni zapis podatkov za generiranje histograma

Pogledamo jo le še v pregledu strani (<F3>) in jo, ko smo z njo zadovoljni, shranimo na podoben način kot že prej histogram:
Konec -> Shrani kopijo kot .GIF -> Ime datoteke: slika_2.gif.

3.2 Porazdelitev dolžin različnih besed

Dolžine različnih besednih oblik povedo precej o zvrsti besedila - strokovne razprave imajo seveda precej daljše dolžine kot leposlovje. V primeru vzorčnega besedila dobimo spodnji porazdelitveni histogram:



Slika 9: Prikaz histograma za porazdelitev dolžin različnih besednih oblik

Pot do njega je razmeroma kratka:
Orodja -> Označevanje besedila -> Statistike -> ... dolžin različnih besednih oblik. Dobljeni osnutek:



Slika 10: Osnovni zapis podatkov za generiranje histograma dolžin različnih besednih oblik

le še malo popravimo:



Slika 11: Dopolnjeni zapis podatkov za generiranje histograma dolžin različnih besednih oblik

in ga po uspešnem pregledu strani shranimo z:

Konec -> Shrani kopijo kot .GIF -> Ime datoteke: slika_3.gif.

3.3 Porazdelitev dolžin vseh besed

Dolžine vseh besednih oblik, v odnosu na dolžine različnih besednih oblik ponujajo precej podatkov o tem, kako gibko je besedilo, koliko je v njem npr. premega govora. V primeru Samorastnikov dobimo porazdelitveni histogram:



Slika 12: Prikaz histograma za porazdelitev dolžin vseh besednih oblik

ki se precej razlikuje od tistega za različne besedne dolžine. Dve črki dolge besedne oblike, tak je pomožni glagol biti (je), veliko veznikov in predlogov, obsegajo skupaj skoraj tretjino besedila in poskrbijo za asimetričnost porazdelitve z izrazitim odklonom pri 2. Pot do nje ni nič daljša kot prej:
Orodja -> Označevanje besedila -> Statistike -> ... dolžin vseh besednih oblik. Dobljeni osnutek:



Slika 13: Osnovni zapis podatkov za generiranje histograma dolžin vseh besednih oblik

popravimo kot že prej:



Slika 14: Dopolnjeni zapis podatkov za generiranje histograma dolžin vseh besednih oblik

in ga po uspešnem pregledu strani shranimo z:

Konec -> Shrani kopijo kot .GIF -> Ime datoteke: slika_4.gif.

3.4 Seznami samostalnikov, glagolov in pridevnikov

Pot do besednega zaklada izbranega dela ni tako kratka in gladka kot do prejšnjih statistik, pa je rezultat vseeno vreden truda. Delo lahko opravimo na dva načina, krajši je z oblikoslovnim označevalnikom za slovenski jezik, razvitim v okviru projekta Sporazumevanje v slovenskem jeziku (3.4.1), daljši pa s pomočjo določevalnika osnovnih besednih oblik in besednih vrst (3.4.2) z Inštituta za slovenski jezik Frana Ramovša ZRC SAZU. Obe poti peljeta do istega cilja.

3.4.1 Pot z oblikoslovnim označevalnikom

Potrebovali bomo več delovnih datotek hkrati, pa jih razporedimo na naslednji način:

  1. V delovni datoteki 1 (do nje pridemo z ukazom ALT 1) naj bo besedilo seminarske naloge, ki ga dopolnjujemo, kot gremo z nalogo naprej.
  2. V delovni datoteki 2 (ALT 2) bomo imeli besedilo izbranega dela.
  3. V delovni datoteki 3 (ALT 3) bomo gradili seznam besednih lem in njihovih oblikoslovnih oznak.

Oglejmo si zdaj postopek, s katerim pridemo do seznama lem polnopomenskih besednih vrst.

  1. odpravimo se v delovno datoteko 2 (ALT 2) in z diska preberemo besedilo izbranega dela:
    Disk -> Izbira -> Beri datoteko z diska -> samorast.eva
    in na vprašanje, ali povozimo trenutno vsebino pomnilnika, odgovorimo pritrdilno.
  2. z zaporedjem ukazov <Ctrl><d> odstranimo vse vrstice na začetku besedila, ki se začnejo z znakom dvojni karo.



    Slika 15: Začetek besedila Samorastnikov

  3. Znebimo se zdaj še oznak za začetke in konce odstavkov, povedi in podobnega iz besedila. Uporabimo zaporedje izbir:
    Orodja -> Črkovne statistike -> Posameznih znakov
    ter se s tipko <end> najprej odpravimo na konec datoteke, potem pa kazalček premaknemo na mesto, označeno na sliki 16:



    Slika 16: Prva oznaka v statistiki znakov

  4. z ukazom <Ctrl><Home> na to mesto postavimo začetek pravokotnega bloka, kazalček pomaknemo na zadnjo oznako in s <Ctrl><End> tu določimo konec pravokotnega bloka:



    Slika 17: Oznake v pravokotnem bloku

  5. s tipko <End> se pomaknemo na konec datoteke, z <Enter> pa še vrstico niže. S <Ctrl><o><r> tja preslikamo vse oznake ter jih z zaporedjem ukazov <Ctrl><j> združimo v eno vrstico, na začetek pa vrinemo še presledek (<Insert>)



    Slika 18: Oznake v vrstici na koncu datoteke

  6. presledke v tej vrstici nadomestimo z vejicami (tudi prvega na začetku) in vse skupaj, z ukazom <Ctrl><Home> na začetku vrstice in <Ctrl><End> na koncu, postavimo v pravokotni blok:



    Slika 19: Z vejicami ločene oznake v pravokotnem bloku

  7. z ukazom <Ctrl><c> oznake in vejice prekopiramo na odložišče in se z <Home> pomaknemo na začetek datoteke. Tam se odločimo za večkratno zamenjavo:
    Išči -> Večkratna zamenjava
    , in v prvi vrstici (<Zamenjaj:>) pobrišemo vse, kar je že bilo tam ter s <Ctrl><v> z odložišča prinesemo vejice in oznake. V naslednjo vrstico (<z:>) napišemo toliko vejic, kot jih je v vrstici višje, v našem primeru 12:



    Slika 20: Večkratna zamenjava

  8. oznake po tem postopku izginejo iz besedila:



    Slika 21: Besedilo brez oznak

  9. poženemo spletni pregledovalnik, npr. Internet Explorer, in izberemo spletno stran:
    http://oznacevalnik.slovenscina.eu/Vsebine/Sl/SpletniServis/SpletniServis.aspx
    oblikoslovnega označevalnika za slovenski jezik, ki je nastal v okviru projekta Sporazumevanje v slovenskem jeziku. V okence pod vrstico:
    Vnesite besedilo:
    odnesemo prvih 500 vrstic našega besedila. Pri tem si v Evi pomagamo z ukazi: <Shift><Home> za označitev začetka vrstičnega bloka, <Ctrl><f><l> za skok na vrstico številka (500), <Shift><End> za označitev konca vrstičnega bloka ter izbiri Uredi -> Kopiraj > za prenos vrstičnega bloka na odložišče. Meje ne postavimo natančno na 500-to vrstico, ampak na konec odstavka za to mejo.
  10. V izbiri pod okencem z besedilom:
    Oblika izpisa označenega besedila
    izberemo TEI-XML in kliknemo na ploščico Označi besedilo.
  11. Rezultat počrnimo in prenesemo na odložišče s <Ctrl><c> Iz spletnega pregledovalnika se odpravimo spet v Evo, tam v datoteko 3 in rezultat označevalnika prenesemo v Evo z ukazom <Ctrl><c>:



    Slika 22: Začetek besedila, obdelanega z oblikoslovnim označevalnikom

    Postopek ponovimo z naslednjimi 500 vrsticami besedila, jih po obdelavi dodamo na konec rezultatov v datoteki 3 in tako naprej do konca besedila:



    Slika 23: Konec besedila, obdelanega z oblikoslovnim označevalnikom

  12. V datoteki 3 imamo zdaj celotno besedilo, oblikoslovno označeno s pomočjo označevalnika. Odpravimo se na začetek datoteke: <Home> in z zaporedjem izbir: Orodja -> Označevanje besedila -> Postopki z jezikom SGML -> Naberi izbrano SGML oznako -> w iz rezultatov polovimo poleg besed le še leme in oblikoslovne oznake:



    Slika 24: Začetek seznama besed z lemami in oblikoslovnimi oznakami

  13. Datoteko 3 še malo uredimo. Najprej z zaporedjem izbir:
    Išči -> Zamenjava -> Zamenjaj: </w> z: <188> -> Gremo! na konec vsake vrstice dodamo dvignjeno piko, podatkovno ločilo. Nato s podobno izbiro: Išči -> Zamenjava -> Zamenjaj: "" z: <188> -> Gremo! osamimo leme in oblikoslovne oznake, z izbiro Išči -> Zamenjava -> Zamenjaj: > z: <188> -> Gremo! pa še besedne oblike same:



    Slika 25: Začetek že malo preurejenega seznama besed

    Nastala je zbirka s sedmimi podatkovnimi polji (vsaka vrstica ima 6 dvignjenih pikic, podatkovnih ločil), izmed katerih so za nadaljnjo obdelavo zanimiva polja 2, 4 in 6. Z zaporedjem izbir Zbirke -> 3. IZBOR POLJ -> 2,4,6 se znebimo balasta:



    Slika 26: Leme, oblikoslovne oznake in besede

  14. Ker nas pri oblikoslovnih oznakah, shranjene so v drugem podatkovnem polju, zanima le besedna vrsta (S = samostalnik, G = glagol, P = pridevnik, R = prislov, D = predlog ...), ne pa dodatne podrobnosti, v drugem polju odvržemo vse znake razen prvega:
    Zbirke -> Orodja z desne strani -> Dodaj, krajšaj, premakni -> Skrajšaj ali dopolni polje -> Oznaka polja, nova dolžina, poravnava, dopolnitev: 2,1,L,*



    Slika 27: Začetek seznama lem s skrajšanimi oblikoslovnimi oznakami

    Besednih oblik v tretjem podatkovnem polju ne potrebujemo več, zato se jih znebimo z:
    Zbirke -> 3. IZBOR POLJ -> 1,2
    zatem pa se omejimo še na le polnopomenske besedne vrste, glagole (G), pridevnike (P) in samostalnike (S):
    Zbirke -> 1. Iskanje -> #2=G,#2=P,#2=S



    Slika 28: Polnopomenske leme z oznakami besednih vrst

  15. Zbirka v delovni datoteki 3 (ALT 3) je zdaj že blizu resnice. Besede še razvrstimo po besednih vrstah in lemah:
    Zbirke -> 2. Sortiranje -> Zaporedje ključev: 2,a,1,a. Z določilom: 2,a,1,a smo izbrali najprej abecedno razvrščanje po drugem podatkovnem polju, to je po besedni vrsti (2,a), znotraj besedne vrste pa še abecedno razvrščanje po lemah (1,a)



    Slika 29: Po besednih vrstah in po abecedi urejen seznam lem

    Na začetku se je znašlo nekaj napak, ki jih bomo popravili v naslednji alinei. Zdaj je potrebno še pošteti enake leme, kar naredimo z zaporedjem izbir:
    Home -> Zbirke -> Orodja z leve strani -> Frekvence:


    Slika 30: Po besednih vrstah in po abecedi urejen seznam lem s frekvencami

  16. Dobljeni seznam še enkrat pregledamo in po potrebi popravimo. Tako npr. beseda bajti ni glagol, ampak samostalnik bajta.
Pot do tega seznama ni bila ravno kratka zato ga hitro shranimo, z zaporedjem izbir:
Disk -> Izbira -> Shrani jo na disk -> Ime datoteke: leme_b_vrste.fre
(leme, besedne vrste, frekvence).

Postopek nadaljujemo v razdelku 3.4.3.
 

3.4.2 Pot z določevalnikom osnovnih besednih oblik in besednih vrst

Tudi pri tem načinu bomo potrebovali več delovnih datotek hkrati, pa jih razporedimo na naslednji način:

  1. V delovni datoteki 1 (do nje pridemo z ukazom ALT 1) naj bo besedilo seminarske naloge, ki ga dopolnjujemo, kot gremo z nalogo naprej.
  2. V delovni datoteki 2 (ALT 2) bomo imeli seznam besed s frekvencami.
  3. V delovni datoteki 3 (ALT 3) bo seznam besed s frekvencami in besednimi lemami.
  4. V delovni datoteki 4 (ALT 4) bo naše leposlovno besedilo, da bomo po njem lahko iskali, kadar bomo morali kaj preverjati.
  5. V delovni datoteki 5 (ALT 5) bo sistemska tabela s funkcijskimi tipkami, s katerimi si bomo pomagali za lažje in hitrejše delo.

Oglejmo si zdaj postopek, s katerim pridemo do seznama lem polnopomenskih besednih vrst.

  1. odpravimo se v delovno datoteko 2 (ALT 2) in z diska preberemo že prej shranjeni seznam besed s frekvencami:
    Disk -> Izbira -> Beri datoteko z diska -> besede.fre
    in na vprašanje, ali povozimo trenutno vsebino pomnilnika, odgovorimo pritrdilno.



    Slika 31: Izsek seznama besed iz Samorastnikov s pogostnostmi

  2. poženemo spletni pregledovalnik, npr. Internet Explorer, in izberemo spletno stran:
    http://bos.zrc-sazu.si/dol_lem.html
    na Inštitutu za slovenski jezik Frana Ramovša ZRC SAZU, ki ima naslov
    Določevanje osnovnih besednih oblik in besednih vrst.
  3. V podatkovno okno te strani lahko naenkrat odnesemo do približno 5.000 besed in njihovih frekvenc. Kadar prenašamo čez odložišče (angl. clipboard) tako obsežne sezname, je treba biti potrpežljiv in dati operacijskemu sistemu kako minuto časa, da izvrši želene postopke, npr. kopiraj ali prilepi. V primeru Samorastnikov besedni seznam ni predolg (4.059 oblik) in ga torej lahko celega damo spletnemu pregledovalniku v nadaljnjo obravnavo. V programu EVA izberemo celoten seznam z ukazom Uredi -> Izberi vse , na odložišče pa ga odnesemo z Uredi -> Kopiraj . Spet aktiviramo spletni pregledovalnik in v okno na strani z odložišča potegnemo seznam besed z ukazom Uredi -> Prilepi ali krajše s <Ctrl><v>.



    Slika 32: Izsek osnovnega seznama v oknu pregledovalnika

    Ko nam je to uspelo, kliknemo še na ploščico Določi.
  4. Pregledovalnik vrne naš seznam, pri vseh že kdaj obdelanih besednih oblikah dopolnjen z lemami in oznakami osnovnih besednih vrst. Imamo štiri podatkovna polja: v prvih dveh sta besedna oblika in njena pogostnost, kot v izvornem seznamu, v tretjem polju je ena ali več lem te besedne oblike, če jih je več so ločene s podpičjem, za njimi pa še dvopičje in enočrkovna oznaka besedne vrste: A prislov, Č členek, E predlog, G glagol, M medmet, P pridevnik, S(I) samostalnik (ime), Š števnik, V veznik in Z zaimek. V četrtem polju je navedeno število vseh besednih vrst, ki lahko nastopajo za to besedno obliko. Kadar program neke besedne oblike ne pozna, vrne polji 3 in 4 prazni, v idealnem primeru dobimo samo eno besedno vrsto (v spodnjem primeru v 15-ih primerih od 18-ih), kadar je možnih besednih vrst več (besedna oblika bala npr. lahko nastane iz samostalnika bala ali iz glagola bati se) pa dobimo v četrtem polju vrednost, večjo od 1.



    Slika 33: Izsek obdelanega seznama na strani pregledovalnika

    Včasih se zgodi, da pregledovalnik programu za določevanje lem ne posreduje podatkovnega ločila (dvignjene pikice) s pravo kodo. V takem primeru ne dobimo vrnjenih ustreznih vrednosti in sta polji 3 in 4 vedno prazni. Takrat se vrnemo na točko 1 tega poglavja, preberemo besedne oblike s frekvencami z diska v programu EVA še enkrat in nadomestimo dvignjene pikice z znakom grabljice: # (v mobilnotelefonskem izrazoslovju se imenuje lojtra).


    Slika 34: Izsek seznama besed z grabljicami za ločilo

    To naredimo z zaporedjem ukazov:
    Home -> Išči -> Zamenjava -> Zamenjaj: <188> -> z: # -> Gremo! ter nadaljujemo običajni postopek (prenos na odložišče, od tam v spletni pregledovalnik in obdelava s programom za določevanje osnovnih besednih oblik).
  5. Obdelani seznam iz pregledovalnika spet prenesemo na odložišče, z ukazi:
    Uredi -> Izberi vse in Uredi -> Kopiraj ter se vrnemo v program EVA. Tam se odpravimo eno delovno datoteko višje od našega seznama, z ukazom ALT 3 in poberemo rezultate z odložišča, npr. s <Ctrl><v>.


    Slika 35: Stran z rezultati določevanja, vrnjena v program EVA

    Nepotrebne vrstice (prve 3 in zadnjih 7) iz datoteke odstranimo z ukazi <Ctrl><d>. Če smo morali pred obdelavo podatkovna ločila zamenjati z grabljicami, kot na sliki 18, moramo ustrezno popraviti tudi vrnjeni rezultat. To napravimo z zaporedjem izbir:
    Home -> Išči -> Večkratna zamenjava -> Zamenjaj: ,<0>,# -> z: ,<188>,<188>.


    Slika 36: Zbirka z rezultati določevanja

  6. Če je besedni seznam daljši kot 5.000 besed, ga razdelimo na več delov po 5.000 besed in obdelamo vsak del posebej. Najprej označimo kot blok prvih 5.000 vrstic:
    <Home> -> <Shift><Home> <Ctrl> <f> <l> Skoči na vrstico številka: 5000 -> <Shift><End>,
    ter ta del odnesemo na odložišče, z Uredi -> Kopiraj . Postopek nadaljujemo z določevanjem tega dela na ustrezni spletni strani, iz spletnega pregledovalnika rezultat preko odložišča prenesemo nazaj v datoteko programa EVA, označimo v njem nadaljnjih 5000 besed in tako naprej ...
  7. Nato zbirko v delovni datoteki 3 (ALT 3) uredimo, da se znajdejo skupaj besedne oblike z eno lemo, neznane besedne oblike in tiste z več lemami. Uporabimo zaporedje izbir:
    Zbirke -> 2. Sortiranje -> Zaporedje ključev: 4,d,1,a - zbirko smo uredili padajoče po četrtem polju in, za vsak primer, še naraščajoče po prvem. Na ta način so se na začetku datoteke znašle besedne oblike z več lemami, za njimi tiste z eno lemo, na koncu pa tiste besedne oblike, kjer se leme ni dalo ugotoviti. Prvi in zadnji del bo treba še ročno urediti, srednji del, ki vsebuje oblike s samo eno lemo in ki obsega veliko večino celote, pa je že dober in z njim ne bo dodatnega dela.


    Slika 37: Zbirka, razvrščena po določenosti lem

    Prva beseda v seznamu tem se je v delu pjavila 24-krat in lahko izhaja iz samostalnika tema (rodilnik množine ali dvojine), lahko je tudi veznik ali ima zaimkovni izvor. Zanimajo nas le polnopomenske besedne vrste, vezniki in zaimki torej ne, in je zato treba ovreči ali potrditi le samostalniško hipotezo. Za lažje ukrepanje si pomagamo s celotnim besedilom tega proznega dela, ki ga naložimo v četrti Evin datotečni pomnilnik, da bomo po njem lahko iskali (ALT 4, Disk -> Izbira -> Beri datoteko z diska -> samorast.eva oziroma naše izbrano besedilo namesto Samorastnikov). Nato se v urejevalniku EVA pomaknemo še eno datoteko višje, v peto delovno datoteko, z ukazom ALT 5, tja prikličemo sistemsko tabelo funkcijskih tipk: EVA -> Sistemsko tabelo sem -> FUNCTION KEYS in prvih šest funkcijskih tipk popravimo, da bodo take kot jih kaže slika 38:


    Slika 38: Funkcijske tipke za lažje popravljanje seznama in za lažje iskanje neznanih besed in besed z več lemami

    Da ne bo treba tega seznama tipkati, ga prikličemo s klikom na besedilo pod sliko 22.
              Na tipki <F5> je zdaj shranjeno zaporedje ukazov: shrani vsebino prvega polja v iskalni niz (^938), pomakni se v četrto delovno datoteko (^254), pojdi na njen začetek (^006) in poišči besedo, shranjeno v iskalnem nizu (^028). Ukaze na ostalih funkcijskih tipkah bomo razložili kasneje, ko jih bomo potrebovali pri delu. Nato sistemsko tabelo s funkcijskimi tipkami vrnemo urejevalniku: EVA -> tako tabelo nazaj.
              Vrnemo se v seznam besednih oblik, ki ga imamo v datoteki 3 ALT 3 (slika 37), na začetek prve vrstice (tem) in se jo odpravimo iskat v besedilo s funkcijsko tipko <F5>. Ko jo pritisnemo, se znajdemo v besedilu (v delovni datoteki 4), pred seboj imamo pa iskalno okence z besedico tem. Pritisnemo na temveč tudi po vseh krajih Koroške .... Ker želimo iskati tem kot samostojno besedo in ne kot del besed, izberemo iskanje še enkrat, s ukazom 5 z desne, številske tipkovnice in v okencu iskalni izraz tem popravimo v " tem " - spredaj in zadaj dodamo še presledek in dvojni narekovaj. Še en <Enter> in že najdemo prvo pravo pojavitem besedne oblike tem, v besedni zvezi pri tem mu je zvijala ustnice besna zloba. Očitno ne gre za samostalnik, ampak za zaimek, zato gremo iskat naprej, z naslednjim <Enter>. Kmalu se prepričamo, da ni bilo nobene samostalniške rabe, zato se vrnemo v seznam besednih oblik, z ALT 3 in vrstico s tem odstranimo z ukazom <Ctrl><d>.
              Naslednja besedna oblika, tako, je lahko samo prislov, veznik, členek ali zaimek, nima nobene polnopomenske leme, zato se je tudi znebimo s <Ctrl><d>. Sledi oblika druge, ki se pojavi dvakrat - prepričamo se, da obakrat kot zaimek in jo zato tudi črtamo, po enakem premisleku pa tudi obliko druge vrstico nižje. Oblika je, ki pride naslednja na vrsto, je drugačna, primerov je veliko preveč, da bi jih lahko obdelali s to metodo, se pravi v kratkem času ročno pregledali. Zato vse tri vloge glagola biti - kot pomožni glagol, v relacijskem smislu in v smislu obstajanja združimo v eno samo: biti:G, glagol jesti in rodilnik zaimka ona pa opustimo.
              Poglejmo še uporabo drugih funkcijskih tipk. Vzemimo za primer tri oblike s slike 23, pri katerih je potrebno ohraniti eno lemo, druge pa odstraniti.


    Slika 39: Primeri besednih oblik z več lemami

    Izkaže se, da prva besedna oblika, dela, izhaja iz leme delo, ki je navedeno kot druga možnost. Zaslonski kazalček zapeljemo na začetek vrstice in pritisnemo <F2> pa se ohrani samo lema delo, ostali dve pa izgineta. V drugem primeru, pri obliki peči je pravilna lema peč, se pravi tretja možnost. Z <F3> jo ohranimo, drugih dveh pa ni več. Pri tretji obliki, balo, je prava prva možnost, samostalnik bala, zato uporabimo tipko <F1>. Primeri s slike 23 se potem poenostavijo v:


    Slika 40: Razrešeni primeri besednih oblik z več lemami

    Tipka <F4> bi prišla v poštev, kadar bi želeli ohraniti četrto lemo pri besedni obliki z vsaj štirimi lemami. Ostane še funkcijska tipka <F6>. Uporabimo jo, kadar imamo več zaporednih vrstic besednih oblik z isto lemo in smo prvo že popravili, drugih pa še ne, kot npr. na sliki 25:


    Slika 41: Zaporedne besedne oblike z isto lemo

    V tem primeru funkcijska tipka <F6> v trenutni vrstici ohrani besedno obliko in pogostnost, lemo pa ponovi iz vrstice nad njo. V primeru s slike 25 bi torej še trikrat pritisnili na <F6> in s tem razrešili preostale tri vrstice.
              Ko gledamo še ostale primere, se včasih zgodi, da ima kakšna oblika dve različni lemi. Tak primer je besedna oblika dekle s pogostnostjo 5. Izkaže se, da gre pri tem dvakrat za osnovno obliko dekle, trikrat pa za lemo dekla. Zato zapeljemo zaslonski kazalček na vrstico z obliko dekle, vrinemo za njo prazno vrstico, kar napravimo z ukazom <Shift><Insert>, potem pa v tej prazni vrstici z ukazom <Ctrl><a><l> (zadnja je črka l in ne številka 1) ponovimo zgornjo vrstico. V prvi enakih vrstic potem z <F1> obdržimo le dekle:S in popravimo pogostnost s 5 na 2, v drugi pa z <F2> ohranimo samo dekla:S in popravimo pogostnost s 5 na 3.
              Ko smo tako uredili vse besedne oblike z več kot eno lemo (v primeru Samorastnikov je takih 625) lahko oblike, ki imajo eno samo lemo (tu jih je 3241) in se posvetimo tistim oblikam, ki jih program ni prepoznal:


    Slika 42: Besedne oblike z neprepoznano lemo

    Takih besednih oblik je pri Samorastnikih 191. Kazalček zapeljemo na prvo izmed njih, na aherci, in za lažji nadaljnji postopek izberemo besedno obliko še enkrat - manj dela je, če popravimo besedno obliko v lemo kot pa če moramo celo lemo natipkati še enkrat. Izbiro opravimo z zaporedjem ukazov:
    <Esc> -> Zbirke -> 3. Izbor polj -> Izberi polja: 1,2,1,3,3. Z <:Esc> smo dosegli, da nam kazalček ni pobegnil iz vrstice, ko smo potrebovali izbiro na vrhu zaslona. Rezultat je prikazan na sliki 27:


    Slika 43: Besedne oblike z neprepoznano lemo, oblika ponovljena

    Dodamo še dvopičje za besedno obliko in podatke, da bo lema samo ena:
    <Esc> -> Išči -> Zamenjava -> Zamenjaj: <188><188> -> z: :x<188>1 -> Gremo! Zbirka dobi za malenkost prijaznejšo podobo:


    Slika 44: Besedne oblike z neprepoznano lemo, po zamenjavi

    Zdaj lahko nadaljujemo z delom, popraviti bo treba le še leme in namesto črke x napisati ustrezne vrednosti: S, G ali P (samostalnik, glagol, pridevnik). Prva oblika, aherci izvira iz samostalnika aherc - vrstico popravimo v aherci·1·aherc:S·1
              Vrstica belanski·1·belanski:x·1 je že skoraj dobra. Le P (kot pridevnik) napišemo namesto x. Naslednja oblika, belanskih ima enako lemo. Zato na njej uporabimo funkcijsko tipko <F6> pa je oblika urejena z eno potezo. S to tipko si pomagamo tudi pri lemah Burga, Celovec in celovški. Nadaljujemo in oblike s slike 28 dopolnimo v:


    Slika 45: Besedne oblike z neprepoznano lemo, popravljene in dopolnjene

    Na koncu je seznam gotov in vse besedne oblike v njem imajo zdaj samo eno lemo. Najprej ga abecedno razvrstimo (po lemah):
    Home -> Zbirke -> 2. SORTIRANJE -> Zaporedje ključev: 3,a:


    Slika 46: Abecedno razvrščene besedne oblike z urejenimi lemami

    Vrstice besednih oblik so sestavljene iz štirih podatkovnih polj:
    besedna oblika·pogostnost·lema:besedna vrsta·število lem
    Četrto polje, število lem, zdaj vedno vsebuje vrednost 1. Ker nas zanimajo leme in njihove pogostnosti, najprej odvržemo polji 1 in 4, polji 2 in 3 pa zamenjamo:
    Home -> Zbirke -> 3. IZBOR POLJ -> Izberi polja: 3,2


    Slika 47: Leme besednih oblik s pogostnostmi

    Kot vidimo, je treba le še združiti enake leme in sešteti njihove pogostnosti. To dosežemo z ukazom Home -> Zbirke -> Orodje z leve strani -> Frekvence:


    Slika 48: Besedne leme s pogostnostmi

    Da bi lahko ločili leme za posamezne besedne vrste (npr. samostalnike, pridevnike, glagole) med seboj, zamenjamo še dvopičje s podatkovnim ločilom:
    <Esc> -> Išči -> Zamenjava -> Zamenjaj: : -> z: <188> -> Gremo!
    ter nastalo zbirko še enkrat abecedno uredimo:
    Zbirke -> 1. SORTIRANJE -> Zaporedje ključev: 1,a,2,a
    Nastane seznam, katerega začetek je prikazan na sliki 33:


    Slika 49: Besedne leme z besedno vrsto in pogostnostjo

Tudi pot do tega seznama ni bila kratka, zato ga hitro shranimo, z zaporedjem izbir:
Disk -> Izbira -> Shrani jo na disk -> Ime datoteke: leme_b_vrste.fre
(leme, besedne vrste, frekvence).

3.4.3 Priprava seznamov za vključitev v spletno stran seminarske naloge

Ostane še, da ločimo sezname samostalnikov, pridevnikov in glagolov in jih pripravimo za spletno predstavitev. V ta namen najprej izberemo samo samostalnike:
Zbirke -> 1. ISKANJE -> Iskalni izraz: #2=S.
V seznamu ostanejo le še samostalniki, zato tega podatka ne potrebujemo več in ga odvržemo:
Home -> Zbirke -> 3. IZBOR POLJ -> Izberi polja: 1,3
Ostanejo le še leme in njihove pogostnosti. Da bi jih lepo pripravili za izpis, jih damo v blok:
Uredi -> Izberi vse
in zložimo v stolpce:
Orodja -> Orodja za internet -> ... vrstic z besedo in pogostnostjo v HTML
Na zaslonu se pojavi naslednji vprašalnik:


Slika 50: Nastavitev stolpcev za izvoz tabele v HTML

Pustimo vse kot je, bo ravno 100 lem na enem zaslonu (5 krat 20). Zadnje določilo, o tem ali gre za odzadnji slovar ali ne, bi uporabili, če bi imeli besede razvrščene po koncih in bi želeli, da so tudi v stolpcih poravnane ne po začetkih ampak po koncih. Kakorkoli že, pojavi se tabela, na prvi pogled nič kaj lepa:


Slika 51: Tabela s podatki o samostalniških lemah v formatu HTML


ki pa nam postane veliko bolj všeč, ko jo prenesemo v seminarsko nalogo, shranimo in pogledamo s spletnim pregledovalnikom:

aherc1   bogatija1   brežina1   čar2   deklič3
amažnik2   bognasvaruj1   bridkost1   čas19   deklina2
baba4   boj7   bršlin1   čast4   del3
bajta20   bok1   bučanje1   čeljust1   delež1
bala1   bolečina8   bukva1   čelo2   delo10
barti1   bolest1   Burga3   čer1   denar2
Bela1   bolezen1   camar3   četrt1   desetina1
belina1   borba1   carapa1   človek8   desetletje1
berač1   Borovlje1   Celovec3   čredica1   dež1
beseda7   boter4   cepljenje1   črv1   dežela4
besnost1   božanje1   cerkev2   čustvo3   dih1
birič17   bran1   cesar1   čutilo1   dimnica9
biser1   branje1   cesta2   dača1   dir2
bivališče3   brat4   ciganstvo1   dan27   dlan7
bivanje1   brazda2   cmerač1   dar1   dnina1
blisk1   brazgotina1   cmeravka1   dečva1   dninar1
bližina2   breg3   cokle1   dediščina1   dninarica1
bližnji1   breme1   cula2   dejanje1   dninarstvo1
bodočnost1   brezobzirnež1   cundra3   dekla10   doba1
bog1   brezovina1   cunja1   dekle2   Dobrač3

Slika 52: Tabela iz slike 51, kot jo prikaže spletni pregledovalnik

Lahko bi jo uredili tudi padajoče po pogostnostih, da bi bili najpogostejši samostalniki spredaj.
          Kot se hitro prepričamo, je program celoten seznam samostalnikov pripravil v obliki takih strani kot je zgornja - vsakič 5 stolpcev po 20 vrstic. Da se te strani ne bi preveč stikale, jih lahko še malo razmaknemo. To naredimo tako, da na konec vsake tabele:


Slika 53: Oznaka za konec tabele

dodamo še dve oznaki za prazno vrstico, kar najhitreje naredimo z izbirami:
<Esc> -> Išči -> Zamenjava -> Zamenjaj: </table> -> z: </table><br><br> -> Gremo!


Slika 54: Oznaka za konec tabele z dodanima praznima vrsticama


Na zelo podoben način (le v iskanju nadomestimo izraz #2=S z #2=P za pridevnike oz. #2=G za glagole) pripravimo še tabeli za obe drugi polnopomenski besedni vrsti.

Tako smo seminarsko nalogo pripeljali bolj ali manj do konca. Ostane le še, da napišemo zaključek in poglavje o uporabljenih virih in literaturi.

Pa veliko uspeha pri pisanju!


Stran je postavil Primož Jakopin 23. februarja 1998 in jo nazadnje spremenil 12. oktobra 2010

Naslov strani: http://www.ff.uni-lj.si/hp/pj/seminar/seminar.html