UNIVERZA V LJUBLJANI

FILOZOFSKA FAKULTETA

ODDELEK ZA PREVAJALSTVO

 

 

 

 

 

 

 

 

 

 

 

 

 

 

DIPLOMSKA NALOGA

 

 

RAČUNALNIŠKA PODPORA

PREVAJALSKEMU IN TERMINOLOŠKEMU DELU

NA PRIMERU PREVAJANJA

V OKOLJU SEKTORJA ZA PREVAJANJE SVEZ

 

 

 

 

 

 

 

 

 

Mentor: izr. prof. Rastislav Šuštaršič              Avtorica: Meselina Ponikvar

Somentor: asist. Špela Vintar

 

 

 

 

Ljubljana, oktober 2002


RAČUNALNIŠKA PODPORA PREVAJALSKEMU IN TERMINOLOŠKEMU DELU NA PRIMERU PREVAJANJA V OKOLJU SEKTORJA ZA PREVAJANJE

SLUŽBE VLADE REPUBLIKE SLOVENIJE ZA EVROPSKE ZADEVE

POVZETEK

Naloga v prvem sklopu predvsem z vidika uporabnosti in učinkovitosti na kratko predstavi najbolj razširjene računalniške tehnologije, ki jih po svetu in v Sloveniji uporabljajo prevajalci in terminologi pri svojem delu. Te tehnologije so strojno prevajanje, računalniško podprto prevajanje, kamor sodijo pomnilniki prevodov in terminološki programi, ter korpusi.

 

V osrednjem delu je kot primer opisano delovno okolje Sektorja za prevajanje Službe Vlade RS za evropske zadeve in računalniška podpora, ki jo nudi prevajanju in upravljanju terminologije. Za ta dva postopka sta podrobneje predstavljena programa MultiTerm in Translator's Workbench, skupaj z njunima spletnima različicama Evrotermom in Evrokorpusom. Avtorica se osredotoča tudi na orodja, ki jih uporablja Prevajalska služba Evropske komisije, in jih primerja s Sektorjevimi.

 

Zadnje poglavje predstavlja sporne točke področja jezikovnih tehnologij pri nas, ki med drugim obsegajo terminološko problematiko strokovnega jezika ter okrnjeno širjenje in zagotavljanje slovenskih jezikovnih virov. Potem predlaga rešitve in ukrepe ter nakaže smernice nadaljnjega razvoja s (pol)samodejnim luščenjem terminologije in pomenom terminologije pri poizvedovanju po informacijah. V sklepnem delu naloge Sektorju ob zgledu drugih držav kandidatk in glede na razvitost tega področja v Sloveniji priporočimo določena orodja in nazadnje podamo še vizijo razvoja računalniškega jezikoslovja pri nas in po svetu.


COMPUTER-AIDED TRANSLATION AND TERMINOLOGY PROCESS

IN THE ENVIRONMENT OF THE TRANSLATION UNIT

AT THE GOVERNMENT OFFICE FOR EUROPEAN AFFAIRS OF THE REPUBLIC OF SLOVENIA

ABSTRACT

The thesis describes the most widespread computational technologies used by translators and terminologists around the world and in Slovenia, particularly from the point of view of applicability and effectiveness. These technologies include Machine Translation, Computer-Aided Translation (translation memories and terminological programs) and corpora.

 

The computer-aided translation and terminology process in the environment of the Translation Unit at the Government Office for European Affairs of the Republic of Slovenia is set as an example. The author describes two tools in more detail, MultiTerm and Translator's Workbench, together with on-line versions of the databases created so far. We then focus on tools used by the Translation Service of the European Commission and compare them to the ones used by the Translation Unit.

 

The last chapter discusses the points of controversy in the field of language technologies in Slovenia, which include terminological issues of technical translation as well as the limited applicability of Slovenian language resources. The author proposes solutions and guidelines for future development such as the potential of semi-automatic Terminology Extraction and the role of terminology in Information Retrieval. Furthermore, we recommend additional tools to the Translation Unit in view of the state-of-the-art technologies in Slovenia and the examples set by other EU membership candidates. Finally, the thesis presents a vision of future developments in Language Technologies for Slovene and within the global context.


KAZALO

 

POVZETEK.. 1

ABSTRACT.. 2

KAZALO.. 3

 

1     UVOD.. 4

1.1     SPLOŠNI ORIS PODROČJA.. 6

 

2     RAČUNALNIŠKE TEHNOLOGIJE ZA PREVAJANJE IN TERMINOLOGIJO.. 11

2.1     STROJNO PREVAJANJE.. 13

2.2     RAČUNALNIŠKO PODPRTO PREVAJANJE.. 16

2.2.1     POMNILNIKI PREVODOV.. 16

2.2.2     TERMINOLOŠKI PROGRAMI 20

2.3     KORPUSI 22

 

3     OKOLJE SEKTORJA ZA PREVAJANJE.. 29

3.1     DELOVNI POTEK PREVAJANJA.. 30

3.2     RAČUNALNIŠKA PODPORA.. 34

3.2.1     RAČUNALNIŠKA PODPORA TERMINOLOŠKEMU DELU.. 36

3.2.1.1  MULTITERM.. 37

3.2.1.2  EVROTERM.. 42

3.2.2     RAČUNALNIŠKA PODPORA PREVAJALSKEMU DELU.. 43

3.2.2.1  TRANSLATOR'S WORKBENCH.. 43

3.2.2.2  EVROKORPUS.. 50

3.3     RAČUNALNIŠKA PODPORA PREVAJANJU V PREVAJALSKI SLUŽBI EVROPSKE KOMISIJE.. 51

3.3.1     PRIMERJAVA Z RAČUNALNIŠKO PODPORO V SEKTORJU ZA PREVAJANJE.. 58

 

4     VIZIJE NADALJNJEGA RAZVOJA.. 61

4.1     TERMINOLOŠKA PROBLEMATIKA STROKOVNEGA JEZIKA.. 61

4.2     ŠIRJENJE IN ZAGOTAVLJANJE SLOVENSKIH JEZIKOVNIH VIROV   64

4.2.1     DOSTOPNOST INFORMACIJ PRAVNEGA ZNAČAJA.. 65

4.2.2     IZMENJLJIVOST JEZIKOVNIH PODATKOV.. 68

4.3     (POL)SAMODEJNO LUŠČENJE TERMINOLOGIJE.. 71

4.4     TERMINOLOGIJA IN POIZVEDOVANJE PO INFORMACIJAH.. 73

4.4.1     SEMANTIČNI SPLET.. 74

 

5     ZAKLJUČEK.. 76

6     SEZNAM UPORABLJENIH VIROV.. 79

ZAHVALA.. 83

IZJAVA.. 84


1  UVOD

Povsod po svetu je vse več povpraševanja po prevajalskih storitvah. Zaradi vse hitrejšega razvoja komunikacijsko-informacijskih tehnologij ter gospodarskih in političnih postopkov evropskega in svetovnega združevanja se jezikovne in računalniške tehnologije razvijajo zelo hitro.

 

Razvoj sodobnih jezikovnih tehnologij zahteva pospešeno pridobivanje ustreznih jezikovnih virov, za kar v zadnjih letih še posebej intenzivno skrbijo države članice Evropske unije. Nova odkritja na tem področju in širjenje kroga uporabnikov namreč predstavljajo osnovno infrastrukturo za razvoj sistemov jezikovnih tehnologij, ki bodo omogočili preseganje jezikovnih pregrad v sodobni Evropi.

 

Ker pa je pri nas računalniška podpora prevajalskemu in terminološkemu delu – tako kot prevodoslovje samo – novo področje, je njeno poznavanje in raba zaenkrat še v začetni fazi. Težava, s katero se srečuje razvoj teh tehnologij pri nas, je neosveščenost. Slabo poznavanje prevajalskih orodij je posledica majhnosti trga in zamude pri vključevanju v večje evropske in svetovne združbe. Ponudnikov prevajalske in terminološke programske opreme na slovenskih tleh skoraj ni. Prevajalec lahko pride v stik s temi orodji prek študijskih programov ali na delovnem mestu. Eden prvih uporabnikov terminoloških programov in programov s pomnilnikom prevodov je Sektor za prevajanje Službe Vlade RS za evropske zadeve, te programe pa uporablja tudi nekaj večjih agencij (npr. Amidas), nekatera izvozna podjetja in nekaj samostojnih prevajalcev.

 

Poleg osveščenosti pa morajo biti za uporabo računalniške podpore izpolnjeni tudi drugi pogoji. Uporabnik mora vložiti denar za nakup programskega orodja (ne vedno, saj je na spletu določena programska oprema brezplačna), čas za učenje dela s programom in za gradnjo baze podatkov, poleg tega pa mora znati izrabljati jezikovne vire in imeti določene računalniške spretnosti.

 

Računalniške tehnologije terminološkemu in prevajalskemu delu omogočajo kompaktno, poceni in dolgoročno shranjevanje, hitro obdelavo velikih količin podatkov, lažjo izmenjavo in distribucijo podatkov, posodabljanje, raznovrstno iskanje po podatkovnih bazah, urejanje vnosov delov besedil, povezave med njimi in z drugimi programi (npr. urejevalnikom besedil, lokalizacijskimi programi) ter avtomatizacijo iskanja terminologije in prevodnih ustreznic.

 
Pričujoča naloga opisuje računalniške in organizacijske vidike prevajalskega in terminološkega dela na treh ravneh, in sicer računalniške tehnologije svetovne razsežnosti, jezikovne tehnologije v Sloveniji ter v okolju Sektorja za prevajanje Službe Vlade RS za evropske zadeve, ki služi kot primer največjega uporabnika in zato najprimernejšega za raziskavo.
 
Da bi bralcu omogočili razumevanje tematike, mu v uvodnem delu predstavimo tri vrste računalniških tehnologij, ki jih uporabljajo prevajalci in terminologi po svetu, in ki služijo kot osnova za nadaljnji razvoj tudi v Sloveniji. Na začetku predstavimo strojno prevajanje, ki se je v zgodovini najprej pojavilo. Z razvojem in raziskavami na tem področju so se kmalu oblikovala računalniško podprta orodja, ki nič več ne simulirajo prevajalskega postopka, ampak so mu le v pomoč. Podrobneje opišemo delovanje in uporabnost pomnilnika prevodov in terminološkega programa. Kot zadnjo predstavimo še posebno kategorijo. Korpusi so jezikovni vir, ki ga lahko uporabimo za digitalno preučevanje jezika in izdelavo drugih prevajalskih in terminoloških orodij. 
 
V drugem delu predstavimo delovno okolje Sektorja za prevajanje in podrobneje raziščemo prednosti in slabosti pomnilnika prevodov Translator's Workbench in terminološke baze MultiTerm, ki ju uporabljajo prevajalci Sektorja. Kot velik dosežek omenimo tudi spletni različici orodij, Evrokorpus in Evroterm. Da bi potrebe računalniške podpore v Sektorju lahko pravilno ocenili, ga umestimo v mednarodno okolje in primerjamo z evropsko sorodnico Prevajalsko službo Evropske komisije. 
 

Tretji del je posvečen opisu težav v Sloveniji, ki zajemajo terminološko problematiko strokovnega jezika in okrnjeno širjenje in zagotavljanje slovenskih jezikovnih virov. Znanje, ki smo ga pridobili v uvodnem delu, pri preučevanju tehnologij in okolij, kjer se uporabljajo, izkoristimo za razmišljanje o prihodnosti terminologije in jezikovnih tehnologij pri nas in po svetu. Kot dve možnosti nadaljnjega razvoja na kratko predstavimo (pol)samodejno luščenje terminologije iz korpusov in uporabnost terminologije pri iskanju podatkov v podatkovni bazi. Poleg tega Sektorju za prevajanje predlagamo izbrana računalniška orodja, ki bi bila najbolj učinkovita in s tem najbolj koristna pri prevajalskem postopku.

1.1       SPLOŠNI ORIS PODROČJA

Alan K. Melby (1998: 1-2), predsednik Odbora za prevajanje in računalnike Ameriške zveze prevajalcev (American Translators Association Translation and Computers Committee) in član pomembnih institucij, ki se ukvarjajo s prevajanjem in terminologijo (Association for Computing in the Humanities, Association for Computational Linguistics, Association for Literary and Linguistic Computing, ISO itn.), razdeli računalniško podporo prevajanju na osem tipov, ki so v uporabi na treh stopnjah prevajanja, na ravni posameznega izraza in celega segmenta (tj. del besedila, večji od izraza, ponavadi stavek):

 

INFRASTRUKTURA

 

 

IZRAZ

PRED

PREVAJANJEM

  • Pol(samodejno) luščenje terminoloških kandidatov
  • Raziskovanje terminologije
  • Poravnava in označevanje prejšnjih izhodiščnih in ciljnih besedil ter segmentacija novega izhodiščnega besedila

MED

PREVAJANJEM

  • Samodejno iskanje in vstavljanje izrazov
  • Pomnilnik prevodov
  • Strojni prevajalnik

PO

PREVAJANJU

  • Pregled terminološke doslednosti in nedovoljene terminologije
  • Zaznava manjkajočega segmenta ter pregledi oblike in slovnice

 

PREGLED NAD PREVAJALSKIM POSTOPKOM IN OBRAČUN

 

Slika 1 – Osem tipov prevajalskih tehnologij

 

1. INFRASTRUKTURA (ni neposredno del prevajanja) je pomembna zlasti v večjezikovnih situacijah. Elementi infrastrukture morajo biti čim bolj enotni, med seboj in s prevajalskim postopkom. Ti so:

 orodja za pripravo elektronske oblike besedila:

 orodja za skeniranje in pretvorbo grafičnega zapisa v elektronsko besedilo (optično čitanje znakov – OCR)

 

 orodja za ustvarjanje in upravljanje dokumenta:

 urejevalnik besedil (npr. Microsoftov Word, Sunov StarOffice) z najpomembnejšimi funkcijami: oblikovanje dokumentov, štetje besed in znakov (za izračun prevajalskih strani), nastavitev jezikovne podpore v operacijskem sistemu, tuji nabori znakov, primerjava različic dokumentov itd.

 jezikovna orodja, integrirana v urejevalnik besedil: črkovalnik, osebni slovarji, preverjanje slovnice, slovar sopomenk, tezaver, delilnik besed, prevajanje itd.

 

 podatkovne zbirke:

 elektronski slovarji (eno-, dvo- in večjezični slovarji) kot npr. Slovensko-angleški, Collins Cobuild, LINA (zadnji in najnovejši program istega podjetja, ki omogoča delo z različnimi slovarji hkrati), s katerimi je mogočih več načinov iskanja, dodajanje opomb itd.

 drugi elektronski viri na zgoščenkah: enciklopedije (Encarta, World Atlas, Britannica), serijske publikacije (Uradni list) itd.

 splošni programi za izdelavo podatkovnih baz: Microsoftov Excel in Access, Oracle 8i itd.

 

 telekomunikacije (internet/intranet, elektronska pošta, protokol za prenos datotek (FTP), telefonski stiki), ki nam omogočajo dostop tudi do drugih prevajalskih virov in programov:

 podatkovne zbirke na internetu: slovarji, tezavri, terminološke baze, bibliografske baze (npr. COBISS), zbirke besedil (različni korpusi), primerljiva besedila itn.

 programi za prevajanje in urejanje terminologije na internetu: programi s pomnilniki prevodov, terminološki programi, strojni prevajalniki, orodja za lokalizacijo računalniških programov (prilagoditev programske opreme jezikovnim in kulturnim zahtevam okolja, kjer se uporablja) idr.

 drugi viri na internetu: serijske publikacije, domače strani proizvajalcev programske opreme, prevajalskih inštitutov, društev, agencij, konferenc, kongresov, druga poročila iz akademsko-raziskovalnih krogov, informacije o prevodoslovju, jezikoslovju, jezikovnih in računalniških tehnologijah ipd.

 

2. PRED PREVAJANJEM NA RAVNI IZRAZA: (Pol)samodejno luščenje terminoloških kandidatov in raziskovanje terminologije

 

S tema dvema orodjema določamo, katere prevodne ustreznice bi lahko vključili v terminološko bazo. Ko orodje za luščenje izrazov (ali kateri drug program) prepozna izhodiščni izraz, uporabimo orodje za raziskovanje terminologije, ki določi ciljnega. Program za luščenje terminoloških kandidatov je po nalogi podoben črkovalniku, vendar deluje dosti bolje, saj prevajalcu ponudi tudi izraze, iz katerih lahko nastanejo novi večbesedni izrazi (npr. ne odločamo se le med izrazoma thermal in layer, ampak lahko izberemo tudi celo besedno zvezo thermal layer). Orodje za iskanje terminologije lahko išče v več virih, npr. v že prevedenih besedilih, na internetu, v večjezikovnih besedilnih zbirkah ipd.

 

3. MED PREVAJANJEM NA RAVNI IZRAZA: Samodejno iskanje in vstavljanje izrazov

 

Ta postopek bi lahko opisali kot strojno prevajanje na ravni izrazov. Ko prevajalec začne z urejanjem in prevajanjem segmenta, se na zaslonu pojavijo ciljni izrazi. Prevajalec izbere pravega in ga samodejno prenese v dokument brez tveganja napak pri črkovanju. Takšno iskanje terminologije omogoča dosledno uporabo izrazov.

 

4. PO PREVAJANJU NA RAVNI IZRAZA: Pregled terminološke doslednosti in nedovoljene terminologije

 

Pregledovalci se sprožijo, ko je prevod že končan. Označijo terminološke nedoslednosti in izraze, ki niso primerni oz. dovoljeni v besedilu.

 

5. PRED PREVAJANJEM NA RAVNI SEGMENTA: Poravnava in označevanje prejšnjih izhodiščnih in ciljnih besedil ter segmentacija novega izhodiščnega besedila

 

Poravnava in označitev segmentov izhodiščnega in ciljnega besedila za ponovno uporabo sta nujni za pravilno delovanje programa s pomnilnikom prevodov. Označeni pari so uporabni tudi za iskanje izrazov.

 

6. MED PREVAJANJEM NA RAVNI SEGMENTA: Pomnilnik prevodov in strojni prevajalnik

 

Ko so segmenti označeni in poravnani, pomnilnik prevodov pregleda prejšnja prevedena besedila, primerja nove segmente s segmenti v svoji bazi in samodejno prikliče tiste, ki niso (veliko) spremenjeni ter jih pripravi za ponovno uporabo. Pri prevedenih besedilih, ki potrebujejo le nekaj majhnih popravkov, je pomnilnik prevodov še posebej učinkovit.

 

Strojni prevajalnik algoritmično obdela izhodiščno besedilo, prepozna besede in razmerja med njimi, izbere izraze v ciljnem jeziku, jih postavi v besedni red ciljnega jezika in jih pregiba. Strojno prevajanje je najbolj učinkovito za besedila v t.i. nadzorovanem jeziku (jezik z vnaprej definiranimi besedišči in stavčnimi strukturami, ki zagotavlja kakovost in terminološko ustreznost strojnih prevodov; ang. controlled language) z ozkim semantičnim poljem, ki potrebuje le še naknadno preverjanje. Strojno prevajanje svojim uporabnikom daje možnost izbire in dopolnjevanja slovarjev.

 

7. PO PREVAJANJU NA RAVNI SEGMENTA: Zaznava manjkajočih segmentov ter pregled oblike in slovnice

 

Program opozori na manjkajoče segmente, slovnične nepravilnosti in spremembe oblik.

 

8. PREGLED NAD PREVAJALSKIM POSTOPKOM IN OBRAČUN

 

Ta posredni del prevajanja služi spremljanju napredka prevajalskih projektov. Vsebuje podatke o prevajalcu, rokih, spremembah besedil, prevajalskih prioritetah, datumih popravljanja itn. Takšna logistika spremljanja stopenj prevodov in obračunavanja je pomembna predvsem pri večjih in večjezičnih prevajalskih projektih.


2  RAČUNALNIŠKE TEHNOLOGIJE ZA PREVAJANJE IN TERMINOLOGIJO

Sanje o samodejnem prevajanju med ljudmi obstajajo že dolgo (predlog o mehanskem slovarju Descartesa in Leibniza seže v 17. stol.). Sistemi za samodejno prevajanje se tako razvijajo že od časov izuma elektronskega računalnika v štiridesetih letih. Dolga leta zatem se je tako prevajanje izvajalo neposredno prek dvojezičnih slovarjev in postopek je vključeval skopo analizo drugih jezikovnih prvin.

 

V osemdesetih letih je napredek v računalniškem jezikoslovju prinesel bolj kompleksen pristop k prevajalskemu postopku. Ti sistemi so vključevali programe za prepoznavanje besednih oblik (morfološka raven), strukture stavkov (skladenjska raven) in razpoznavanje večpomenskosti, homonimov ter leksikalnih razmerij (leksikalna raven).

 

Skozi zgodovino so bili razviti trije tipi sistemov strojnega prevajanja (Hutchins 1992: 4):

        Pri neposrednem pristopu, ki je najstarejši, gre za strojno prevajanje posameznega para jezikov v eno smer. Izhodiščno besedilo je analizirano zgolj za potrebe pretvarjanja v ciljni jezik.

        Vmesno stopnjo prevajalskega postopka predstavlja od jezikov neodvisni t.i. vmesni jezik (ang. interlingua). Pri tem gre za dva dela postopka: prevod iz izhodiščnega jezika v vmesni jezik, kateremu sledi prevod iz vmesnega jezika v ciljni jezik.

        Transferni pristop ima tri stopnje:

        pretvorbo izhodiščnega besedila v abstraktno izhodiščno predstavo, kjer se razreši večpomenskost ne glede na jezik,

        prenos predstave v abstraktno ciljno predstavo in

        tvorbo besedila v ciljnem jeziku.

S pojavitvijo osebnih računalnikov se je začel tudi razvoj prevajalske programske opreme zanje. Danes je razvoj usmerjen k statističnim sistemom, ki se prevajanja naučijo iz vzporednih korpusov (npr. EGYPT[1]).

 

V devetdesetih so postala priljubljena t.i. prevajalska namizja (ang. workbench), ki združujejo večino prevajalskih orodij (za štetje besed, pretvarjanje formatov, filtriranje, poravnavanje že prevedenega besedila). Tako so omogočala večjezično obdelovanje besedil, pošiljanje in sprejemanje dokumentov v elektronski obliki, pretvorbo grafičnih zapisov v besedila elektronske oblike, upravljanje terminologije s konkordančnim iskanjem, pomnilnike prevodov itn.

 

Prevajalska namizja so računalnik prevajalcem predstavila v povsem novi luči. Dobili so orodja, ki so jim omogočala širok razpon uporabe. Kot vedno pa je vrednost tehnologij odvisna od kakovosti dela. Pri strojnem prevajanju slovarji in terminologija zahtevajo trud, čas in denar, pomnilniki prevodov pa se zanašajo na zbirko uporabnih prevodov.

 

Štiri največja prevajalska namizja, ki jih poznamo danes, so TRADOS[2], STAR (Transit[3]), LinguaNet (TranslationManager[4]) in LANT (Eurolang Optimizer[5]).

Slika 2 – Prevajalski postopek namizja Transit (http://www.star-transit.com)

Do pred nekaj leti so ti sistemi tekli na velikih računalnikih (ang. mainframe computers) in so bili naprodaj za več milijonov dolarjev. S kasnejšim razvojem moči osebnih računalnikov in operacijskih sistemov Unix je postalo dostopnih veliko rešitev enake kakovosti in natančnosti in to po ceni, ki si jo prevajalci lahko privoščijo (ItoCAT 2002).

 

Poleg tega je na internetu dostopna celo brezplačna programska oprema, s katero se proti patentiranju bori projekt prostovoljcev, imenovan GNU[6] (GNU's Not Unix). Posledica možnosti nalaganja programske opreme, za katero ni potrebno plačilo in ki se jo pod njihovimi pogoji (v nespremenjeni obliki in brezplačno) lahko ponuja naprej, sta širjenje in lokalizacija. Slovenski GNUsl7 skuša v duhu GNU ponuditi tiste tehnologije, ki so prosto dostopne in vezane na slovenski prostor: internetni črkovalni servis Primož Trubar, prazne besede slovenskega jezika (predlogi, vezniki, zaimki, pomožni glagoli itn.), navodila za prilagoditev nekaterih računalniških orodij slovenskemu jeziku (npr. kodni nabori, tezaver slovenskega jezika, oblikoskladenjski slovar) ter nenazadnje orodje za lokalizacijo programov v obliki pomnilnika prevodov SMART8 skupine za slovenjenje Linuxa (Košir, Peterlin in Erjavec 1998).

 

Področje prevajalskih tehnologij se deli na dve veji, ki se med seboj tudi povezujeta: strojno in računalniško podprto prevajanje.

2.1       STROJNO PREVAJANJE

Strojni prevajalniki so programi z lastnimi moduli za jezikovno analizo izhodiščnega in sintezo ciljnega besedila, tako da prevajanje poteka bolj ali manj samodejno. Usmerjeno je v simulacijo samega miselnega, introspektivnega dela prevajalskega postopka.

 

Kakšen je dober prevod, je kompleksno vprašanje, na katerega se ne da preprosto odgovoriti. Pri strojnih prevajalnikih je odločilen podatek, koliko sprememb in popravkov potrebuje prevod (čeprav zna prevajalnik tudi sam zaznati nekatere napake in sam ponuja načine, kako se izogniti napakam), da ustreza prevajalcu, bralcu ali naročniku, in koliko časa se pri tem porabi (Ilič, Golob in Čurić 1999). Pred tem kriterijem pa se slovenski uporabnik strojnega prevajanja spopade še z večjo oviro. Širše uporabnih in prosto dostopnih strojnih prevajalnikov pri nas namreč še ni. Na srečo so nekatera orodja za pridobivanje slovenskih jezikovnih virov in jezikovni viri drugih jezikov dostopni v tujini ali celo brezplačno na internetu.

 

Uporabnost sistemov strojnega prevajanja pa je odvisna tudi od drugih dejavnikov, med katerimi je treba posebej upoštevati izhodiščno besedilo samo. Da se izognemo nepotrebnim napakam, je priporočljivo izhodiščno besedilo najprej pripraviti (ali prenesti v nadzorovani jezik), pri čemer moramo paziti na enostavno stavčno strukturo in manjši obseg besedila, ki gre v prevod. Besedila ne smejo imeti napak pri črkovanju (te so lahko posledica nenatančnega skeniranja dokumenta), slovničnih napak, neslovničnih struktur in leksikalnih dvoumnosti.

 

Prevajalniki so uporabni predvsem pri besedilih z določenega področja, za katera mora biti v računalnik vnešena tudi vsa potrebna terminologija (tudi žargonski izrazi), ki se v takšnih besedilih velikokrat ponavlja. Stavčna struktura takšnih besedil navadno ni zapletena oz. bi jo lahko lažje prilagodili.

 

Ob nepravi uporabi se lahko strojni prevajalnik res izkaže za zamudnega. Vseeno uporabniki počasi začenjajo sprejemati prednosti strojnega prevajanja pri enostavno strukturiranih besedilih, saj je uporabno tudi za preverjanje besedila.

 

Strojno prevajanje je dostopno tudi na internetu. Uporabniki lahko v določenem obdobju uporabljajo poskusne različice strojnih prevajalnikov ali pa kot stalni uporabniki izkoristijo strežniško ponudbo (Systran9, Logos, GLOBALink10).

 

Dodaten znak velikega vpliva interneta je naraščanje programov za strojno prevajanje spletnih strani, elektronske pošte in pripetih dokumentov ter klepetalnic. Nekatera orodja lahko za uporabo strojnih prevajalnikov in pomnilnikov prevodov jezik izhodiščnega besedila priredijo nadzorovanemu jeziku.

Strojne prevajalnike uporabljajo tudi poslovni ljudje, in sicer za prevajanje glavnega pomena dokumentov, elektronske pošte, časopisnih člankov, poslovnih pisem; koristni so pri izbiri besedil, ki potrebujejo prevod strokovnjaka, za posredovanje informacij, ki spremljajo izhodiščno besedilo ter za izdelavo prevodov kot polizdelkov za nadaljnjo uporabo.

 

V zadnjem času se vedno pogosteje pojavlja težnja po združevanju strojnih prevajalnikov s pomnilniki prevodov. Translator's Workbench je danes na voljo z integriranim sistemom za strojno prevajanje podjetja Logos11, ki vskoči pri vseh prevodnih enotah, ki nimajo ustreznic v pomnilniku prevodov. Obratno tudi vse več komercialnih sistemov za strojno prevajanje (npr. Langenscheidt12) ponuja komponento za arhiviranje strojno prevedenih in popravljenih stavkov, ki (kot pomnilnik prevodov) služijo za referenco ob novih prevodih. Pri nas komercialni prevajalnik PRESIS, ki ima vgrajen tudi pomnilnik prevodov, prevaja zaenkrat iz slovenščine v angleščino).

 

Slika 3 – Primer strojnega prevajalnika Langenscheidts T1 Professional 4.0 (http://www.langenscheidt.de)

Podjetja se zavedajo potenciala strojnega prevajanja, zato se v bližnji prihodnosti obetajo nove, izboljšane verzije in sveže ideje. V Singapurju, na primer, je bil že leta 1995 lokalno razvit sistem za prevajanje iz angleščine v kitajščino, malajščino, japonščino in korejščino, ki ga pregledujejo poklicni prevajalci. Sistem omogoča prevajanje ogromnih količin dokumentov za naročnike z vsega sveta, ponuja pa tudi lokalizacijo podjetjem, ki razvijajo programsko opremo za kitajsko govoreči del tržišča (Hutchins 1999).

2.2       RAČUNALNIŠKO PODPRTO PREVAJANJE

Računalniško podprto prevajanje (ang. CAT – Computer-Aided Translation) predstavlja drugo vejo prevajalskih računalniških tehnologij, ki se je razvila s prevlado osebnih računalnikov.

 

Uporaba teh orodij olajšuje in pospešuje, optimizira in poceni prevajalski postopek in ga ne simulira kot strojno prevajanje. Ti programi nam služijo za podporo referenčnega dela, tj. iskanja po slovarjih, vzorčnih besedilih, terminoloških bazah. V to skupino orodij spadajo elektronski slovarji, črkovalniki, programi za preverjanje slovnice, slovarji sopomenk, terminološke baze, pomnilniki prevodov in drugi računalniški podatkovni viri.

2.2.1     POMNILNIKI PREVODOV

Po definiciji skupine strokovnjakov za standarde jezikovnega inženiringa EAGLES (Expert Advisory Group on Language Engineering Standards) je pomnilnik prevodov »večjezični besedilni arhiv, ki vsebuje (segmentirana, poravnana, razčlenjena in klasificirana) večjezična besedila in dovoljuje shranjevanje besedil in iskanje po njih glede na različne pogoje« (Peterlin in sod. 2002: 57). Natančneje pa pomnilnik prevodov opiše Špela Vintar (Vintar 1998): »Pomnilnik prevodov je podatkovna zbirka prevodnih enot, navadno povedi ali krajših delov besedila, ki so v izvirniku in prevodu shranjeni v pomnilnik in so ob morebitni ponovitvi enakega ali zelo podobnega dela besedila na razpolago za ponovno uporabo.«

 

Pomnilnik prevodov je lahko integriran v urejevalnik besedil, lahko pa ima lastno delovno namizje, v katerega uvozimo dokument, ki ga želimo prevesti. Navadno obsega še orodje za izdelavo in upravljanje terminoloških enot, komponento za vzporejanje, s katero pomnilnike ustvarjamo iz že prevedenih besedil, preverjanje črkovanja, strojno prevajanje, lahko pa ima tudi statistični program, s katerim lahko ugotovimo t.i. faktor ponavljanja v besedilu. Ta nam pove, kako pogosto pride do ponovitev, kar nam je v pomoč pri izbiri primernega prevajalskega postopka in orodja.

 

To orodje nima vgrajenih modulov za oblikoskladenjsko analizo prevodnih enot, niti lastnih leksikonov, saj deluje na jezikovno neodvisnem principu, kar pomeni, da ne zaznava podobnosti pomenov. Sposobno je prepoznavati podobnost na ravni besed ali besednih nizov, zato je uporabno za vse jezikovne pare oz. za vse jezike, za katere je zagotovljena znakovna podpora. Program med prevajanjem v ozadju išče enake (popolni zadetek, ang. exact match) ali podobne enote (megleni zadetek, ang. fuzzy match), ki jih prevajalcu samodejno ponudi. Podobnost je odvisna predvsem od števila besed, ki se ujemajo v obeh prevodnih enotah, in besednega reda. Prag ujemanja lahko določi prevajalec sam.

 

Na učinkovitost in uporabnost pomnilnika prevodov vplivajo naslednji dejavniki (Vintar 1998; Webb 2000):

 

   Elektronski izvirnik, ki je nujno potreben za kakršno koli računalniško obdelavo besedila in nenazadnje tudi za obračunavanje prevedenih znakov oz. prevajalskih strani. Z internetom, elektronsko pošto in drugimi orodji postajamo vedno bolj brezpapirna družba. Z leti in s širjenjem elektronskega poslovanja so elektronsko obliko dokumentov sprejeli tudi naročniki, medtem ko prevajalci že dalj časa delajo z računalniki.

 

   Obseg projekta oz. dolžina besedila, saj pri manjši količini obstaja možnost, da se začetna časovna in finančna investicija ne povrne.

 

   Povprečna dolžina prevodnih enot. Daljše in bolj netipične so izhodiščne prevodne enote, več možnosti je, da bo odstotek ujemanja manjši.

   Velikost, število in kakovost terminoloških baz in pomnilnikov prevodov, ki jih imamo na razpolago med prevajanjem. Sorazmerno s časom in posledično s številom prevodnih enot v pomnilniku ter izrazov v bazi se povečuje učinkovitost prevajalskega postopka.

 

   Prepoznavanje segmentov in podpora naborov znakov. Če za segmente izberemo povedi, potem mora pomnilnik segmente prepoznati glede na končna ločila in ne na ločila, ki jih uporabljamo sredi povedi, kot npr. Mr., vs. ali oz. Poleg tega mora pomnilnik prevodov podpirati in prepoznati znake tako dolžine enega bajta kot tudi dveh bajtov, da lahko določi konec segmenta.

 

   Faktor ponavljanja v različnih tipih besedil. Za pomnilnik prevodov so primerna besedila, za katera prevajalec ve, da bodo v prihodnosti dopolnjena ali spremenjena, besedila, ki vsebujejo strokovno terminologijo, ponavljanje določenih besednih zvez in stavčnih struktur. Faktor ponavljanja je tako najvišji v pravnih, poslovnih, tehničnih, strokovnih in znanstvenih besedilih, ne pa v literarnih, publicističnih, esejističnih in drugih ekspresivnih besedilih s stilno-pragmatičnimi lastnostmi.

Poznamo tri tipe ponavljajočih se besedil:

   terminološko ponavljajoča se besedila

Pri teh besedilih bi bila bolj kot pomnilnik prevodov učinkovita terminološka baza s samodejnim vstavljanjem izrazov, saj vsebujejo veliko strokovnega izrazja in malo utečenih stavčnih struktur in fraz. Sem spadajo visoko strokovna ali znanstvena besedila za ozko definirani tip bralcev.

   megleno ponavljajoča se besedila

Pri teh besedilih gre za ponavljanje struktur z manjšimi variacijami. Zelo pomembno je kakovostno in hitro iskanje meglenih zadetkov. V ta tip besedil lahko spadajo na primer pravna besedila.

   identično ponavljajoča se besedila

Pri teh besedilih so določeni deli vedno v enaki obliki. Taka besedila so npr. vložni listki pri zdravilih, besedila v poslovni korespondenci, ponudbe, ceniki, računi, dobavna pisma itn.

 

   Pogoji naročnika so približno enaki, pa naj gre za posameznika, podjetje, prevajalsko agencijo ali državni organ:

    dobiček ter čim manj stroškov pri prevajanju: Povrnitev začetne denarne investicije je postopna. Rast produktivnosti rabe pomnilnika prevodov je lahko malce dolgotrajnejša od konvencionalnih prevajalskih postopkov, saj moramo upoštevati spoznavanje z orodjem (sploh če prevajalec dobi program skupaj z izvirnim besedilom in kratkim rokom, ima pa še težave z nastavitvami) in postopno kopičenje podatkov v pomnilniku. Produktivnost dela s pomnilniki prevodov naj bi se s časom povečala za približno 30 do 40 odstotkov, s tem pa bi postalo delo cenejše in hitrejše. Samostojni prevajalci bodo prej ali slej tudi sami morali začeti uporabljati pomnilnike prevodov, če bodo hoteli konkurirati kolegom, ki jih že uporabljajo. Slabost, ki se pri tem pojavlja, pa je zahtevani popust pri plačilu prevoda. Naročniki in prevajalske agencije menijo, da so zaradi uporabe pomnilnika prevodov za enake dele besedil upravičeni do popusta. Prevajalci to odklanjajo z argumentom, da bi jim morali plačati kvečjemu več, saj imajo z uporabo tega orodja več časa, da se posvetijo kakovosti prevajanja. Poleg tega pa jim orodje zagotavlja doslednost v prevodu, saj lahko pomnilnik prevodov tudi prek mreže predlaga izraz oz. segment, ki se nahaja drugje v dokumentu oz. projektu.

 

    kakovosten prevod: Kakovost prevoda s pomnilnikom prevodov mora ustrezati standardom (standardi skupine ISO 9000, SIST ISO 9001:2000).

 

    čim krajši čas prevajanja: Ker je podatkovna baza ob nakupu orodja prazna, moramo za vnos že prevedenih besedil uporabiti program za vzporejanje, ki navadno zahteva še ročno popravljanje segmentacijskih napak. Ko je to opravljeno in ko imamo v pomnilniku že večje število prevodov, prevajalec pri delu prihrani več časa, saj se ukvarja samo s prevodnimi enotami, ki jih ni še nikoli prevedel.

 

    prejem prevoda v zaželenem formatu

    možnost načrtovanja proračuna za prevajanje in ocenjevanja časa, ki je potreben, da prevod pride na trg

   Možnost uporabe v povezavi s terminološko bazo ali pa s strojnim prevajalnikom, s katerim bi bilo treba prevesti samo še tiste dele besedila, za katere pomnilnik prevodov ne bi našel zadetka (ang. no match). Ker pa še nimamo prevajalnikov za slovenski jezik, je ta možnost zaenkrat izključena.

 

Ti programi se v svetu najhitreje uveljavljajo v velikih industrijskih podjetjih z mednarodno dejavnostjo in državnih institucijah, kjer se prevajajo velike količine besedil z istega področja in kjer se že prevedena besedila pogosto posodabljajo in izdajajo na novo (npr. navodila za uporabo, uporabniški priročniki, dokumenti mednarodnih in državnih upravnih organov). Shranjene prevodne enote pa so dragocen jezikovni vir za bodoče delo (za korpus ali (pol)samodejno pridobivanje terminologije) terminologov in prevodoslovcev.

 

Največkrat uporabljani programi s pomnilnikom prevodov so TRADOS Translator's Workbench, ATRIL DéjaVu13 in STAR Transit.

2.2.2     TERMINOLOŠKI PROGRAMI

Spreminjajoče se terminologije, zaradi nenehnega razvoja strokovnih in drugih področij, pogosto ne more spremljati ne slovaropisje ne prevajalec. Prevajanje besedil s področij kot so proizvodnja, energija, pravo, medicina idr. je lahko zato zelo naporno, saj je iskanje izrazov in njihovih prevodov lahko dolgotrajno in neuspešno. Veliko izrazov je moč najti na internetu in v drugih javnih medijih, terminologija pa je lahko v lasti izdelovalca terminološke baze oz. naročnika prevoda in tako zaščitena z avtorskimi pravicami. Prevajalec ali skupina prevajalcev, ki večinoma prevajajo besedila določenega področja, si zato sami ustvarjajo terminološko bazo, ki jim v naslednjih prevodih zagotavlja tudi enotnost pri izbiri izrazov. Delajo pa lahko tudi na različnih jezikih, saj lahko terminološki program za posamezen izraz shranjuje večjezične prevodne ustreznice (ItoCAT 2002).

Terminološki programi so orodja za izdelavo in vzdrževanje terminologije. Imajo vlogo skladišča, kamor se zbirajo in shranjujejo izhodiščni in ciljni izrazi za kasnejšo uporabo v prevodu. Hranijo lahko neomenjeno število terminoloških vnosov. Tehnike shranjevanja in prikazovanja izrazov pa so različne od programa do programa. Ta (lahko) vsebuje orodja, ki:

   strukturirajo, posodabljajo in povezujejo vnose,

   omogočajo preproste funkcije iskanja,

   omogočajo konceptualni prikaz popolnih in meglenih zadetkov,

   podpirajo shranjevanje grafičnih prikazov,

   omogočajo samodejno vnašanje izrazov v urejevalnik besedil

   z jezikovno analizo izhodiščnega in ciljnega besedila prepoznajo in izločijo izraze za uvoz v terminološki program,

   vključujejo tudi slovarsko upravljanje terminologije,

   podatkovno bazo izvozijo in uvozijo v druge aplikacije.

 

V nekaterih pogledih so zelo podobni pomnilnikom prevodov:

   Podpirajo vse jezike, za katere je zagotovljena znakovna podpora, saj je iskanje tudi tu pogojeno s podobnostjo besed.

   Omogočajo globalno iskanje (iskanje tudi po delih izraza), megleno iskanje (prikaže se kazalo besednih zvez, ki poleg korena iskane besede vsebuje tudi tvorjenke, oblikoslovne različice besed ipd.) in filtriranje (prikaz vnosov po kriterijih, kot jih določi uporabnik).

   Omogočajo doslednost in enotnost.

   Terminološki vnosi so opremljeni s podatki o vnašanju (vnašatelj, datum vnosa, datum spremembe, področje, kje v besedilu se izraz nahaja itn.) in o izrazu samem (o rabi, obliki, lastnostih, definiciji idr.).

   Terminološka baza je ob nakupu prazna in neuporabna, dokler vanjo ne vnesemo terminoloških vnosov. Čas, ki ga potrebujemo za vnašanje izrazov, lahko skrajšamo s predpripravo enojezične baze, ki ji samo dodamo prevodne ustreznice.

   Prevajalec lahko uporablja terminološko bazo kot dopolnilo pomnilniku prevodov ali drugim jezikovnim virom. Podjetjem, ki se resno ukvarjajo s prevajanjem, pomeni takšen terminološki program dragocen jezikovni vir.

 

Največkrat uporabljani terminološki programi so TRADOS MultiTerm, ATRIL Terminology Management in STAR TermStar.

2.3       KORPUSI

»Korpus je zbirka besedil, ki so izbrana tako, da karakterizirajo stanje ali raznovrstnost nekega jezika. Uporaben je kot osnova, na kateri gradimo opise jezika, ali pa kot sredstvo za preverjanje hipotez o jeziku.« (Erjavec 1997: 1)

 

Obdelava korpusov, takrat večinoma še v papirnati obliki, je bila v veliki meri prisotna že v petdesetih in šestdesetih letih. Zaradi Chomskyjeve podpore preučevanja »notranjega jezika« oz. človeške sposobnosti produkcije jezika in njegovih drugih vplivnih teorij je zanimanje za korpuse za nekaj let zbledelo in se spet prebudilo v osemdesetih, predvsem zaradi hitrega razvoja najrazličnejših tehnologij, empirične narave raziskovanja in povečanja količine besedil ter kakovosti korpusov (Hirci 1998).

 

Pred leti sta si kontrastivno jezikoslovje in prevodoslovje s svojimi introspektivnimi metodologijami stala nasproti, zdaj pa empirične študije potekajo na osnovi dvo- in večjezičnih računalniških podatkov. Veliko raziskovalcev se ukvarja z njimi, večinoma uporabljajo jezikovna programska orodja za (pol)samodejne analize. Raziskovalni projekti se širijo v akademski družbi in nad učinkovitostjo analiz računalniškega korpusa se navdušujeta obe veji. Seveda pa je za določene vrste analiz (npr. semantično ali analizo diskurza) še vedno potrebno pretežno človeško delo.

 

Prevodoslovci uporabljajo korpuse kot vir za preučevanje prevajanja z opisnimi študijami, strojno prevajanje in druga področja obdelave jezika. Zanimajo jih predvsem dvojezični in vzporedni korpusi kot vir prevodnih ustreznic.

 

Osnovni namen korpusov je omogočanje temeljitega vpogleda v jezik na najrazličnejših ravneh in področjih. Tako jih lahko s pridom uporabljamo v jezikoslovju, v humanističnih in družboslovnih vedah in celo v informatiki in matematiki. Večinoma so uporabni v leksikologiji in predvsem leksikografiji, zdaj pa se z različnimi tipi, ki so dostopni širšemu krogu ljudi, vse bolj širijo na vsa jezikoslovna področja. Koristno jih torej lahko uporabljamo v slovaropisju, pri jezikovnih študijah, razvoju jezikovnih tehnologij, pa tudi za dinamična in z gospodarstvom neposredno povezana področja jezika, kot je terminologija. Z njihovo pomočjo lahko sestavljamo terminološke slovarje, odkrivamo že uporabljene izraze, prevode in razlage, s čimer je izdelovanje slovarjev ažurnejše in cenejše.

 

Korpusi so zgrajeni po različnih kriterijih. Pomembni so zunajjezikovni dejavniki, kot so medij, slog, žanr, datum publikacije itn. Vzporedno z gradnjo velikih računalniških korpusov se gradijo tudi vse boljša računalniška orodja za njihovo označevanje, analizo, upravljanje in iskanje po njih.

 

Programi za delo s korpusi so pregledovalniki oziroma konkordančniki, ki so sposobni poiskati željene dele korpusa in informacije ustrezno predstaviti. Najbolj znana orodja na internetnem tržišču so Wordsmith14, MonoConc15 (za enojezične korpuse) in ParaConc16 (za vzporedne korpuse). Pregledovalniki iščejo s pomočjo naslednjih postopkov (Hirci 1998):

   Izdelava frekvenčnih seznamov. Ta statistični podatek pove, kolikokrat se določena beseda ali besedna zveza v korpusu pojavi, kar olajša izbiro ustreznice pri prevajanju.

   Konkordančni programi prikažejo pojave določene besede (ali niza) poravnane skupaj s sobesedilom v oknu KWIC (ang. Key Word in Context). Z njimi lahko ugotovimo, v kakšnem sobesedilu je mogoče uporabiti besedo, s katerim predlogom se veže, ali jo je mogoče uporabiti figurativno itn. Če je konkordanca zadosti velika, si lahko pogledamo primere rabe besede v dejanskih besedilih. To je še posebej koristno pri neologizmih, izposojenkah in drugih besedah, ki jih v običajnih slovarjih (še) ni mogoče najti.

   Iskanje kolokacij. Prikaz vezav besed, tako s skladenjskega kot s pomenskega stališča, je še posebej zanimiv pri iskanju predlogov, s katerimi se določena beseda veže ipd.

   Programi, ki naredijo abecedni seznam vseh oblik besed (pri vzporednih korpusih v dveh poravnanih oknih KWIC).

   Divje iskanje za dele besed, morfeme in njihove načine obnašanja, besede, ki se z določenim nizom končajo ali začnejo, sopojave dveh ali več besed, rime ipd.

   Iskanje idiomatske rabe. Za raziskave pri enojezičnih korpusih se lahko išče vse pojavitve besede, katere prevod se ne pojavi v prevodu stavka, v katerem se beseda nahaja.

 

Uporabnost nekega korpusa je odvisna od njegove velikosti pa tudi urejenosti, tj. kako podrobno je dokumentiran in označen, ter standardiziranosti njegovega zapisa. (Erjavec 1997). Koristnost korpusa je nedvoumna, a njegova izdelava, razširjanje in uporaba so razmeroma zahtevni. Izdelava korpusa pa je smiselna le, če se ta tudi uporablja. Lahko je zelo draga, dodatne težave pa lahko povzroča še pravno vprašanje, kdo je njegov lastnik (avtorji, založbe, prevajalci idr.)

 

Delitev korpusov po nekaterih tipih glede na uporabnost pri prevajanju in v prevodoslovju (Baker 1995):

   Vzporedni korpusi (izvirna besedila in njihovi prevodi) so nepogrešljivi pri prevajanju, za izdelavo prevajalskih pripomočkov, pri izboljšavah za strojno prevajanje in za izdelavo terminoloških baz, kot orodje pri programih za poučevanje prevajanja, pri učenju jezikov s pomočjo jezikovnih tehnologij in pri terminoloških študijah, kjer so terminološki izrazi izluščeni iz korpusov. Največji uporabniki vzporednih korpusov so Združeni narodi, Nato, Evropska unija in države z dvema uradnim jezikoma (npr. Kanada). V vzporednih korpusih lahko iščemo prevodne ustreznice s pomočjo vzporednih konkordanc. Primerjamo lahko pogostost posameznih prevodnih ustreznic in njihova sobesedila, kar olajša izbiro primernega prevoda.

   Z večjezičnimi korpusi (nizi dveh ali več enojezičnih korpusov v različnih jezikih, izdelanih na podlagi podobnih kriterijev) dostopamo do naravnih vzorcev v jeziku, saj nam nudijo vpogled v jezikovne strukture v njihovem domačem okolju in ne v prevedenem besedilu. S prepoznavanjem strokovnih izrazov oz. njihovih prevodov, besed in fraz se približujejo pomnilnikom prevodov in terminološkim bazam. Pomembno vlogo imajo pri materialih za pisanje, poučevanju prevajalcev in pri izboljšavi programov za strojno prevajanje.

    Primerljivi korpusi (križanci med večjezičnimi in vzporednimi korpusi) so sestavljeni iz dveh posameznih ločenih zbirk besedil v istem jeziku: iz besedil v izvirnem jeziku in iz zbirke prevodov v ta jezik iz enega ali več drugih jezikov (npr. časopisni članki iz evropskih časopisov v nekem obdobju). S tem je možno prepoznavanje vzorcev, ki so specifični za prevedena besedila ne glede na izhodiščni oz. ciljni jezik, kar sproži nove hipoteze o postopku prevajanja, ugotavljanje prevodnih norm v specifičnih kontekstih ter odkrivanje metod in rešitev za poklicne prevajalce.

Primer vzporednih in primerljivih korpusov je korpus MULTEXT-East17, ki zajema šest srednje- in vzhodnoevropskih jezikov (med njimi tudi slovenskega) in je nadaljevanje projekta MULTEXT šestih jezikov Evropske unije.

   Tako je korpus izvirnih besedil pravzaprav enojezični korpus, ki je prav tako uporaben kot pomoč študentu prevajanja pri razumevanju nematernega jezika in razvijanju sposobnosti izražanja v maternem.

   Za prevajalce so lahko uporabni tudi referenčni korpusi (osnovna zvrst korpusov). Ti služijo kot jezikovni standardi, predstavljali naj bi idealizirano podobo jezika. Kot nasprotje referenčnim korpusom stojijo specializirani (služijo nekemu namenu) in oportunistični (cenena različica referenčnih korpusov; zbrani so glede na dane možnosti) ali spremljevalni korpusi (dinamični korpusi, v katerih je vidno spreminjanje jezika).

 

Največ raznovrstnih korpusov je za angleški jezik. Referenčni korpus angleškega jezika British National Corpus18 in spremljevalni korpus Bank of English19 sta dva največjih. Po njiju lahko iščemo od posameznih besed do daljših besednih zvez, do neke meje lahko celo določimo besedilno vrsto. Računalniški korpusi besedil so dandanes zelo priljubljeni tudi v Evropski uniji (PEDANT20, Intersect21).

 

V vlogi največjega svetovnega korpusa nastopa internet (ogromno podatkov, najhitrejše posodabljanje), vendar z določenimi pomanjkljivostmi (različno zastopane besedilne vrste – največ je besedil o računalništvu, nereprezentativnost). Za iskanje besed in besednih zvez ter večjezikovnih izrazov lahko uporabimo spletne iskalnike kot so Google (išče tudi po slovenskih izrazih), Altavista, Yahoo! ipd. Pri tem moramo upoštevati, da bo iskalnik našel uporabne rezultate predvsem za dokaj redke besede. Med iskalniki so za prevajalca učinkovitejši tisti, ki mu poleg z naslovi spletnih strani postrežejo tudi s kratkim povzetkom vsebine. Eden najnovejših korpusnih iskalnikov na spletu je WebCorp21, ki se pri iskanju besed poveže z spletnim iskalnikom (izbere ga uporabnik sam) in nam postreže s pravo konkordanco, obkroženo s sobesedilom.

 

Slika 4 – WebCorp: Internet kot korpus

 

Slovenščina je jezik z malim številom govorcev. Vseeno pa je zanj, sicer brez vladnega financiranja, s sodelovanjem založb, računalniških hiš in akademskih institucij pred kratkim prišlo do večjega premika z enojezičnim referenčnim korpusom FIDA in dvojezičnim vzporednim korpusom ELAN (skoraj polovico besedil je prispeval Sektor za prevajanje SVEZ). Za to področje sedaj skrbi Slovensko društvo za jezikovne tehnologije.

 

Korpusi slovenskega jezika so:

                      J. Toporišič (ur.): Besedila slovenskega jezika, 1975.

          P. Tancig et al.: Napadi na JNA, 198922.

          M. Hladnik: Literat, 1995 - 200023.

          T. Erjavec et al.: MULTEXT-East, 199824.

          T. Erjavec et al.: ELAN, 199925.

          P. Jakopin: Beseda, 199926; Nova beseda, 200027.

          S. Krek et al.: FIDA, 200028.

         M. Željko, A. Krstič: Evrokorpus, 2002.

 

 

Slika 5 – dvojezični vzporedni korpus ELAN

V zadnjem času se izgradnja jezikovnih virov in tehnologij pospešuje. Korpusi so postali resnično uporabni šele v zadnjih letih, ko jih je vse več javno dostopnih prek interneta. Lahko jih uporabljamo tudi za lastne potrebe, bodisi s pomočjo orodij, ki jih nudijo programi s pomnilnikom prevodov, bodisi z že naštetimi orodji.


3  OKOLJE SEKTORJA ZA PREVAJANJE

Služba Vlade Republike Slovenije za evropske zadeve (v nadaljnjem besedilu SVEZ) je decembra 1997 prevzela delo Urada za evropske zadeve, ki je deloval v okviru Ministrstva za zunanje zadeve.

 

Služba Vlade za evropske zadeve

 

         usklajuje in nadzoruje priprave Republike Slovenije za vstop v Evropsko unijo;

 

          vodi medresorske priprave za pogajanja in usklajevanje pogajanj z Evropsko unijo;

 

          oblikuje prednostne naloge, izvaja vsebinski nadzor in usklajevanje uresničevanja programov PHARE ter drugih programov pomoči Republiki Sloveniji pri vključevanju v Evropsko unijo;

 

          usklajuje sodelovanje Republike Slovenije pri delu ustanov in teles Evropske unije;

 

          opravlja strokovne naloge za ministrsko koordinacijo za odnose z Evropsko unijo, vodi medresorski odbor za odnose z Evropsko unijo na ravni državnih sekretarjev in usklajuje delovne skupine odbora.

 

SVEZ sodeluje z ministrstvi in drugimi vladnimi službami, s predstavništvi Republike Slovenije v tujini, z delovnimi telesi Državnega zbora Republike Slovenije ter s strokovnimi službami ustanov in teles Evropske unije (PraOrSi 1998: 1; SVEZ-ova spletna stran29).

 

Sektor za prevajanje Službe Vlade Republike Slovenije za evropske zadeve (v nadaljnjem besedilu SP) je pooblaščen za izvedbo obsežne in zahtevne prevajalske naloge pred vstopom Slovenije v Evropsko unijo (PraOrSi 1998: 3). V skladu s tem:

   pripravlja slovensko različico pravnih predpisov Evropskih skupnosti;

    skrbi za izobraževanje in usposabljanje vseh, ki sodelujejo pri prevajanju pravnih predpisov;

    vzpostavlja novo slovensko pravno in strokovno terminologijo na področju evropskih zadev;

   ureja terminološko zbirko;

   arhivira slovenske različice pravnih aktov Evropskih skupnosti.

3.1       DELOVNI POTEK PREVAJANJA

Proces vključevanja Slovenije v Evropsko unijo med drugim pomeni prilagajanje in usklajevanje naše zakonodaje s pravnim redom EU. Osnova za pregled usklajenosti obeh zakonodaj so prevodi pravnih aktov ES v slovenščino ter ustrezne slovenske zakonodaje v enega od uradnih jezikov EU. Pri obeh sta najbolj zastopana ciljna jezika angleščina in slovenščina.

 

Ko bo Slovenija postala polnopravna članica EU, bo tudi slovenščina postala uradni jezik EU, zakonodaja Evropskih skupnosti pa za državo Slovenijo in njene državljane zavezujoča. Vsi dokumenti, ki jih uradno izdajajo organi EU, bodo morali biti v slovenski različici. Do takrat je treba prevesti toliko strani uradnih dokumentov, kolikor jih je bilo napisanih od nastanka Evropske skupnosti za premog in jeklo (1951) do danes in bodo na dan včlanitve veljavni (približno 85.000 strani dokumentov). SP je prevedel že približno 40.000 strani pravnih aktov in drugih dokumentov, ki so jih izdali organi EU in RS: Državni program za prevzem pravnega reda EU do leta 2002, ki se je večkrat spreminjal in dopolnjeval, predpristopna strategija, programi PHARE, mnenja in poročila Evropske komisije o napredku Slovenije pri vključevanju v EU itd. Zadnji dve leti se SP ukvarja izključno s prevajanjem oz. s pripravo slovenske različice pravnih aktov ES (Krstič, Belc 2000: 3-4).

 

Obvladovanje tolikšne količine prevajanja zahteva veliko število usposobljenih prevajalcev, premišljeno organizacijo dela, spremljanje prevoda od naročila do končnega izdelka, večkratno pregledovanje prevoda, urejanje terminologije in uporabo enotnega izrazja. To delo je prevzel SP, ki trenutno šteje 35 redno zaposlenih (prevajalci, prevajalci-redaktorji, pravniki-redaktorji, lektorji-redaktorji, terminologi idr.). Dokumente EU in relevantno slovensko zakonodajo prevaja tudi približno 120 zunanjih sodelavcev, prevajalskih agencij in samostojnih prevajalcev, izbranih prek javnih razpisov.

 

Celotni delovni potek prevajanja v SP je razdeljen na šest stopenj, ki jih povezuje Oddelek za organizacijo, distribucijo in arhiviranje prevodov (v nadaljnjem besedilu ODA).

 

Slika 6 – Delovni potek prevajanja v SP

Opis stopenj delovnega poteka prevajanja (PogPrRed 2001: 1; PosPrRed 2002: 1-7; Zužič-Žerjal 1999: 1-4):

 

1 – prevod: Prevod pomeni prevod besedila iz izhodiščnega v ciljni jezik, jezikovno redakcijo/pregled prevoda glede na izvirnik ter izročitev prevoda in glosarja izrazov v elektronski obliki.

 

2 – prevajalska redakcija: Prvi pregled prevoda opravi prevajalec-redaktor. Na tej stopnji pregleda, če je prevod narejen skladno z Navodili za prevajanje in lektoriranje (Zužič-Žerjal 2002) in če je zunanji prevajalec upošteval terminološko bazo Evroterm.

 

3 – strokovna redakcija: Strokovni redaktor skrbi, da je pomen prevoda enak pomenu izvirnika, da je terminologija v okviru pravnega akta oziroma v okviru pravno-vsebinskega sklopa usklajena in enotna. Kadar ima redaktor utemeljen razlog, da za (v izvirniku) enotno poimenovanje v slovenskem prevodu uporabi različne izraze, mora taka izbira biti v glosarju obrazložena.

 

4 – pravna redakcija: Pregled prevedenega besedila z vidika istovetnosti pravnega pomena prevoda s pomenom, ki ga vsebuje izvirnik v tujem jeziku, pravilnega navajanja členov in dosledne uporabe pravnih izrazov. Izvajajo ga pravniki-redaktorji Službe Vlade RS za zakonodajo (v nadaljnjem besedilu SVZ) in imenovani pravniki redaktorji po ministrstvih.

 

5 – jezikovna redakcija: Jezikovni pregled prevoda v jeziku prevoda (odprava pravopisnih, skladenjskih in oblikoslovnih napak, skrb za ustreznejšo jezikovno in stilno obliko ter terminološko enotnost in doslednost). Jezikovno revidiranje poteka tudi sproti na vseh stopnjah.

 

6 – Komisija za pravno redakcijo prevodov (v nadaljnjem besedilu KPR) je skupno telo SVZ in SVEZ in je pristojna za koordinacijo projekta priprave slovenske različice pravnih aktov ES na področju pravne redakcije ter potrjuje pravno in vsebinsko istovetnost prevodov pravnih aktov ES z izvirnikom. Ko KPR potrdi prevod kot slovensko različico pravnega akta ES, ga preda organom EU. Različico še enkrat pregledajo slovenski pravniki-redaktorji v Evropskem svetu in Komisiji.

3.2       RAČUNALNIŠKA PODPORA

Za nemoteno delovanje računalniškega sistema SVEZ, njegovo nadgradnjo ter razvoj in povezavo v ostale dele računalniško opremljene državne uprave skrbita Oddelek za informacijsko tehnologijo in Informacijsko dokumentacijski center (v nadaljnjem besedilu Oddelek IT in IDC).

 

Naloge Oddelka IT in IDC (PraOrSi 1998: 4):

 

         strokovna podpora pri delu z informacijsko infrastrukturo,

         zagotavljanje elektronske povezljivosti v sklopu državne uprave, javnosti in EU,

         usklajevanje vsebinskih zasnov in nadgradenj IDC in

         strokovna podpora, tekoče vnašanje ter spremljanje dokumentov in drugih informacij v IDC.

 

Za učinkovito izvajanje tako velikega prevajalskega projekta, kot je prevajanje evropske in slovenske zakonodaje, je pomembno natančno računalniško spremljanje delovnega poteka in dostop do prevodov za vse, ki jih bodo potrebovali pri pripravah za vstop RS v EU. Strategija programa projektov IDC-ja je usmerjena v podporo informacijske infrastrukture državni upravi, strokovni javnosti in povezavam z EU (IDCInfOs 1998: 1). Del teh informacij je prek različnih spletnih strani na internetu dostopen tudi javnosti. Eden od projektov, ki sestavljajo IDC, je tudi projekt Prevodi in terminologija.

 

V SP potekata spremljanje in pretok dokumentov (pol)samodejno s posegi ODA, zadolženega za določene zaporedne operacije (od naročila, prehajanja dokumentov med različnimi redakcijami do končne potrditve pri Komisiji za pravno redakcijo), v programu za vodenje dokumentov (ang. DMS – document management system) Dolphin. Zaenkrat še ni povezan z enotami zunaj SVEZ in ne omogoča neposrednega in samodejnega pretoka dokumentov med delovnimi stopnjami prevajanja. Zato se na stopnji strokovne redakcije evidenca stanja prevodov vodi s tabelo v programu MS Excel. Strokovno revidirani prevodi se nato vložijo v bazo v Lotus Notes, iz koder jih na stopnji pravne redakcije prevzame SVZ. Po potrditvi prevoda kot slovenske različice pravnega akta ES ga KPR vloži v bazo CC-Vista, s čimer ga preda organom ES.

 

Celoten delovni postopek prevajanja poteka na osrednjem strežniku z operacijskim sistemom Linux, pri čemer ODA, prevajalci in terminologinji uporabljajo še veliko drugih orodij:

 

   operacijski sistem Windows 2000

    Microsoftov Office 2000 z urejevalnikom besedil Word z integriranimi jezikovnimi orodji (črkovalnik, osebni slovarji, preverjanje slovnice, slovar sopomenk, tezaver) in splošnimi programi za izdelavo razpredelnic Excel in podatkovnih baz Access;

   dodatek za mrežo Novell;

    elektronska pošta in aplikacije IBM Lotus Notes (skupaj z bazo pravne redakcije in SRC SPIS-om za shranjevanje izhodnih, lastnih in vhodnih dokumentov);

    orodja za pretvorbo grafičnega zapisa v elektronsko obliko besedila (optični čitalniki);

    razne podatkovne zbirke, tudi na zgoščenkah: elektronski slovarji (Knjižna polica, Duden, Collins Cobuild, Oxford itn.), enciklopedije in serijske publikacije (Uradni list, Justis – pravni akti EU v obliki HTML idr.)

    podatkovne baze Register predpisov Slovenije (kmalu na voljo tudi slovenske različice pravnih aktov ES), Celex, Lotus Domino, CC-Vista;

    intranet javne uprave, za katerega nudi podporo Center Vlade RS za informatiko, tudi v sodelovanju s ponudniki storitev. Tako ima SP dostop do baze pravnih aktov ES Celex in Registra predpisov Slovenije (na voljo tudi širši javnosti30), v katerem je mogoč vzporedni izpis evropskih in slovenskih pravnih aktov (skupaj z evidenčnim podatkom o prevodu), ki so usklajeni po registru predpisov zakonodaje EU in slovenske zakonodaje.

    internet, na katerem uporabljajo on-line podatkovne zbirke. Med drugim je zelo koristen strežnik Evropske komisije Europa, na katerem je v bazi Celex31 (na voljo proti plačilu) moč iskati izvirna besedila dokumentov EU po številnih ključih, v terminološki bazi Eurodicautom32 pa izraze v vseh uradnih jezikih EU. Na Eur-lexu lahko najdemo tekoče dokumente EU zadnjih dveh mesecev ter veljavne predpise ES33. Zelo uporaben je tudi komercialni Pravni in poslovni informacijski sistem IUS-INFO34, v katerem je mogoče enostavno in sestavljeno hitro iskanje po več zbirkah hkrati (zbirke besedil sodišč, Državnega zbora, Uradni list idr.). Koristna je tudi vladna stran z mnogimi elektronskimi on-line slovarji35.

   ostali viri: Priročnik Slovenija in Evropska unija36 (Prispeva k čim večji enotnosti in natančnosti pri uporabi terminologije. V njem so razlage osnovnih pojmov, povezanih z EU in vključevanjem Slovenije vanjo.), Navodila za prevajanje in lektoriranje prevodov pravnih aktov Evropske skupnosti37 (napotki za urejanje in oblikovanje besedila, delo s prevajalskim orodjem Translator's Workbench ter nasveti za boljši jezik in slog)

   Tradosovo orodje s pomnilnikom prevodov Translator's Workbench

   Tradosovo orodje za upravljanje terminologije MultiTerm

 

Pomnilnik prevodov in terminološka banka SP predstavljata dragocena referenčna vira. Iz njiju sta se razvila Evrokorpus38 in Evroterm39, ki sta na razpolago tudi zunanjim prevajalcem in širši javnosti. Spletni različici omogočata celo lažje iskanje, saj sta povezani tako, da ima uporabnik poleg posameznih izrazov na vpogled tudi sobesedilo, ki se nahaja v korpusu.

3.2.1     RAČUNALNIŠKA PODPORA TERMINOLOŠKEMU DELU

Zbiranje izrazja in terminološka redakcija potekata na različnih ravneh. Že pri prevodu mora prevajalec sestaviti glosar, v katerem navede izraze, za katere je težko najti ustreznice ter izraze, ki so pogosti ali se ponavljajo in ki sicer niso povzročali težav, a je verjetno, da jih drugi prevajalci prevajajo drugače. Poleg izrazov iz izhodiščnega besedila mora glosar torej vsebovati ustreznico v ciljnem jeziku (če prevajalec uporablja izvirnike v drugih jezikih, v glosar vključi tudi te ustreznice), podatek o tem, kje v dokumentu se izraz nahaja, ter o viru, ki ga je prevajalec uporabil pri prevajanju.

 

Zunanji prevajalci, ki prevajajo za SP, se glede terminologije posvetujejo z notranjimi prevajalci, terminologinjama in s strokovnjaki po ministrstvih in drugih institucijah, ki sodelujejo pri redakcijah za SP in so pristojni za to področje.

 

Glosar, ki ga sestavi prevajalec, se odda v pregled strokovnjakom, skupaj s prevodom. Dogovarjanje o terminologiji najpogosteje poteka po elektronski pošti (zbiranje in utemeljevanje različnih rešitev z navajanjem virov). V primeru večjih razhajanj oz. večje količine spornih izrazov se oblikuje terminološko skupino, ki jo sestavljajo ustrezni strokovnjaki državne uprave, po potrebi zunanji strokovnjak, prevajalec SP, lektor in po možnosti resorni pravnik. Timsko se je tako opravila redakcija prevodov primarne zakonodaje (ustanovitveni in pristopni akti) in pomembnejših aktov sekundarne zakonodaje (strukturni skladi, kmetijska politika, del carinske zakonodaje).

 

Učinkovito, hitro in kvalitetno prevajanje mora biti podprto z urejeno terminološko bazo, ki med drugim spodbuja doslednost pri rabi terminologije.

3.2.1.1     MULTITERM

Adriana Krstič in Jasna Belc (2000: 5) opisujeta urejanje izrazja s programom MultiTerm (trenutno različica 5), izdelkom zdaj že multinacionalnega proizvajalca Trados, ki ga je priporočila in financirala evropska tehnična služba za podporo (v nadaljnem besedilu TAIEX). SP ga je začel uporabljati že spomladi 1998. Ker program sam predstavlja le arhitekturo, opremljeno s funkcijami za potrebe uporabnikov, je bilo treba terminološko banko šele ustvariti. To nalogo je prevzela terminologinja Adriana Krstič, ki zbirko tudi ureja, vzdržuje in pripravlja na njen uvoz v spletni glosar Evropske komisije Eurodicautom ob vstopu Slovenije v EU.

 

Glavni priskrbovalci terminologije so prevajalci, ki po vsakem prevodu izdelajo glosar, in vsi redaktorji, ki jih na vsaki stopnji popravljajo skladno s popravki v prevodih. Po pravni redakciji, oziroma pri tehničnih besedilih že po strokovni redakciji, jih terminologinja prenese v obliko, ki jo podpira MultiTerm, in jih uvozi v bazo. V bazi se opravlja tudi redakcija, dodaja nove podatke in briše napačne, kar pomeni, da je MultiTerm živa in ne statična terminološka baza. Trenutno vsebuje približno 27.000 dvojezičnih (angleško-slovenskih) vnosov (tj. opisov pojmov). Približno tretjina vnosov je tri- ali štirijezičnih (sl-an-fr-ne), npr. prevodi nazivov slovenskih državnih ustanov, izrazje iz Bele knjige o pridruženih članicah in izrazje iz Maastrichtske pogodbe. Baza vsebuje tudi izrazje iz prevodov slovenskih zakonov, iz Državnega programa za prevzem pravnega reda EU, prevode naslovov slovenskih zakonov itd.

 

Vsak vnos v MultiTerm vsebuje vsaj izraz v izhodiščnem in ciljnem jeziku, področje, v katerega izraz sodi ter navedbo prevajanega dokumenta. Z besedilnimi in opisnimi polji lahko vsak vnos opremimo še z dodatnimi informacijami in kvalifikatorji: definicije, kontekst, vir, zanesljivost, navedbo projekta, kjer so se izrazi usklajevali (npr. različne terminološke komisije), opombe in opozorila (npr. pomenski odtenki, preverjenost prevedenega izraza in priporočljivost).

 

OZNAKA PODATKA

PODATEK

Creation Date

datum vnosa v bazo

Created by

kratica ministrstva/vladne službe, kjer je bil prevod opravljen

Entry number

zaporedna številka vnosa v bazo

Subject

področje (v angleščini, s kodo)

Subj

področje (v slovenščini)

Project

projekt, kjer so prevodi nastajali ali so se preverjali izrazi

SourceDoc&Lang

naslov/številka dokumenta, ki se je prevajal, oz. vir izrazja; iz podatka je mogoče sklepati, ali se je dokument prevajal iz tujega jezika v slovenščino (npr. akti ES kot direktive, uredbe, odločbe, včasih označeni s številko Celex) ali iz slovenščine v tuj jezik (slovenska zakonodaja, Državni program za prevzem pravnega reda ES) itd.

Definition

opredelitev pojma

TermRef

vir prevedenega izraza (dokument, natančno mesto v dokumentu, organ, ki ga je priporočil)

Reliability

zanesljivost prevoda (od 1 do 5)

Note

opombe

 

Slika 7 – Glavni podatki, ki jih lahko vsebujejo vnosi v MultiTermu

 

MultiTerm se od klasičnih slovarjev razlikuje po tem, da deluje po načelu pojma (ang. concept), kar pomeni, da lahko en vnos (ang. entry) vsebuje vse izraze, ki to geslo opisujejo. Vsak vnos lahko vsebuje ustreznice v do 20 jezikih. Po bazi lahko zato iščemo v katerikoli jezikovni smeri.

 

Poleg preprostega iskanja po začetnicah besed program podpira tudi globalno in megleno iskanje. Globalno lahko poišče tudi samo dele izraza, pri meglenem iskanju pa prebere celotno terminološko bazo, ustvari meglene podobe vseh izrazov in naredi kazalo. Takšno iskanje omogoča iskanje izrazov, pri katerih pride do napak pri črkovanju in tako prikaže besedne zveze, ki ne vsebujejo le korena besede ter tvorjenke in oblikoslovne različice besed. Megleno iskanje je učinkovito tudi pri iskanju terminologije. Vendar pa že samo slovnična obrazila v slovenskem jeziku lahko povzročijo le 75- (pri spremembi ene črke) ali 63-odstotno ujemanje (pri spremembi dveh črk), odvisno od dolžine besede. Pri takem ponavljanju struktur z manjšimi variacijami je zato pomembno kakovostno in hitro iskanje meglenih zadetkov, za kar bi moral program izvajati stavčno in besedno analizo. S tem bi postal jezikovno odvisen, kar bi spet omejilo izbor jezikov (kot pri strojnih prevajalnikih).

 

MultiTerm omogoča tudi t.i. filtriranje vnosov po kriterijih, ki si jih izbere uporabnik sam (npr. po datumu spremembe, datumu ustvarjenja itn.). Velika prednost tega programa je tudi v tem, da je integriran v urejevalnik besedil MS Word (omogoča kopiranje ter lepljenje izrazov v Word s preprostim dvojnim klikom). MultiTerm omogoča tudi navzkrižne povezave med vnosi, če jih za ta namen ustrezno označimo.

Struktura terminološkega vnašanja v MultiTerm je premišljena, oblikovana v skladu z značilnostmi področij dejavnosti EU, namenom same zbirke in potrebami uporabnikov. Zbrano terminološko gradivo in njegova predstavitev v terminološki zbirki izražata deskriptivnost, s hkratnim predpisovanjem terminologije za to področje in svetovanjem prednostnih izrazov pa preskriptivnost terminološke vede.

 

Na žalost program MultiTerm ne podpira grafičnega prikaza razmerij med pojmi (podpomenskost, nadpomenskost, istorednost, posledičnost) v večjezikovnih pojmovnih sistemih, kot so npr. drevesne ali tabelarične strukture. Tako bi lahko uredili znanje in razumevanje področja v celoti.

 

Izrazje v terminološki bazi ima na lestvici od 1 (najmanjša zanesljivost) do 5 (največja zanesljivost) povprečno zanesljivost 3-4. Zbirka ni omejena zgolj na povsem zanesljivo, konsistentno in dokončno izrazje, saj bi ga bilo v tem primeru bistveno manj.


Kot v večini terminoloških bank besednovrstno med izrazi z veliko prednostjo prevladujejo samostalniške zveze, sestavljene iz pridevnika in samostalnika (npr. galvanska baterija), enega samostalnika (npr. kalcit), dveh pridevnikov in samostalnika (npr. bančni nadzorni organ), samostalnika in predložne zveze (npr. davek na dodano vrednost), samostalnika in samostalnika v rodilniku (npr. oskrbovanje zrakoplova), akronima (npr. KVSE) itd. Največ izrazov je dvobesednih, od teh pri obeh jezikih najpogosteje v obliki pridevnik + samostalnik. Sledijo jim tribesedni in enobesedni. Najdaljši izrazi imajo tudi do 30 besed.

 


Slika 8 – Dolžina izrazov v MultiTermu po besedah (Vintar 1999)

Izrazje je različnih oblik:

 

            enobesedni izrazi:

          enostavni (npr. act)

          sestavljeni iz podstav in obrazil (npr. ubiquitous)

 

            večbesedni izrazi:

          različni skladenjski vzorci (npr. Ucits directive)

          krajšave (npr. AAC – annual available cut)

 

Zaradi razvejanosti in interdisciplinarnosti dvajsetih področij dejavnosti EU (kolikor jih je v registru veljavne zakonodaje Evropske unije) je udejanjanje načel enoznačnosti (izraz znotraj strokovnega področja ne sme imeti več pomenov) malce manj zastopano. V strokovnih podsistemih je veliko enako zapisanih izrazov, ki označujejo različne pomene (npr. act: 1. zakon, 2. odločati, ukrepati, 3. Združenje komercialnih televizij).

 

 

Slika 9 - Prikaz vnosa v bazi MultiTerm

Za ohranitev vseh popravkov je najbolj priporočljivo delo v programu in ne v urejevalniku besedila, saj je naknadno vzporejanje in uvoz besedil v pomnilnik lahko zamudnejše od klasičnega prevajalskega postopka.

3.2.1.2     EVROTERM

Delo brez terminološke zbirke si je pri takšni ekipi prevajalcev in zunanjih sodelavcih težko zamišljati, zato jo je Center Vlade RS za informatiko postavil tudi na internetu (http://www.sigov.si/evroterm). Kmalu bodo tudi notranji prevajalci SP začeli uporabljati to spletno različico in terminološki program MultiTerm bo služil samo še urejanju zbirke (delno tudi zaradi preobremenjenosti strežnika, ki omogoča hkratno uporabo vseh notranjih prevajalcev). Baza Evroterm se dnevno dopolnjuje in revidira (hkrati z interno bazo SVEZ). Samo lansko leto je število zahtevkov preseglo številko 170.000, kar postavlja Evroterm med 20 najbolj priljubljenih spletnih strani slovenske vlade.

 

Razvijalec Evroterma in Evrokopusa, Miran Željko s CVI-ja (2002: 3), pravi, da je funkcionalnost vmesnika zelo podobna Tradosovi. Iskanje izrazov je preprosto, hitro in učinkovito, saj je s klikom na podčrtane izraze mogoče dobiti izpis zadetkov o rabi posamezne besede v korpusu prevodov zakonodaje Evropske unije.

 

Slika 10 – Spletni vmesnik terminološke zbirke izrazov pravnih aktov EU – Evroterm (http://www.sigov.si/evrokorpus)

3.2.2     RAČUNALNIŠKA PODPORA PREVAJALSKEMU DELU

Pravni akti ES imajo visok faktor ponavljanja, kar je eden od ključnih pogojev za učinkovito rabo programa s pomnilnikom prevodov. Ti dokumenti namreč vsebujejo večinoma enake začetne in končne dele dokumentov, nekaj utečenih stavčnih struktur in fraz z manjšimi variacijami ter veliko strokovnih izrazov, ki se ponavljajo znotraj istega tematskega področja. Poleg tega bo vsaj nekaj teh besedil v prihodnosti gotovo dopolnjenih ali spremenjenih. Takrat se bo unovčilo sedanje vnašanje prevedenih segmentov v pomnilnik prevodov.

 

Ker je besedil, ki so bila obdelana s komponentami TWB-ja, že veliko, se je začetna časovna in finančna investicija že povrnila. Skupaj z vedno večjim številom prevodnih enot v pomnilniku ter izrazov v terminološki banki se postopoma povečuje časovna in kakovostna učinkovitost prevajalskega postopka.

3.2.2.1     TRANSLATOR'S WORKBENCH

Translator’s Workbench (v nadaljnjem besedilu TWB), Tradosovo programsko orodje s pomnilnikom prevodov (trenutno različica 5), je integrirana 32-bitna delovna postaja. Omogoča upravljanje in urejanje jezikovnih podatkov, predvsem hiter dostop do prejšnjih prevodov, vnesenih v pomnilnik prevodov. Tudi ta program je SVEZ-u priporočila Tehnična služba za podporo TAIEX. SP ga je začel v prevajalsko delo uvajati spomladi 2000. Danes je prevodnih enot v vseh pomnilnikih prevodov približno 150.000.

 

Adriana Krstič in upravljavka pomnilnikov prevodov TWB, Jasna Belc (2000: 6-11), opisujeta uporabo TWB-ja od samega začetka uporabe. Ko so bili pomnilniki prevodov še prazni, jih je bilo potrebno opremiti s tehnično in jezikovno ustreznimi parametri in jim določiti sistemska (s podatki o uporabniku prevajalskega projekta, prevajalcu, datumu, področju prevajanja) in vsebinska polja (vrste obravnavanih besedil, spremljanje izboljševanja besedil skozi redakcije, tematska umestitev besedila, oznaka besedila »Celex«, smer prevajanja in zaznamki prevajalca). Tako ima prevajalec pri prevajanju na voljo vse podatke o segmentu in dokumentu, iz katerega segment izhaja.

 

Elementi te zbirke so lahko segmenti s stavčne in besednozvezne ravni. Za uskladitev tehnično predvidenih možnosti v programu z jezikovnimi značilnostmi je pomemben parameter, ki opredeljuje pravila za segmentacijo besedila z ločili. Nabor ločil v pravopisu pa je seveda drugačen od nabora ločil v programu s pomnilnikom prevodov (pika, podpičje, skok v novo vrsto, skok na novo stran, element naštevanja po točkah, znak za odstavek ipd.). Ker TWB zaznava podobnost po besedah in besednih zvezah in ne po pomenih, je uporaben za vse evropske, azijske in tudi druge jezikovne pare (zaenkrat so ti jeziki v SP angleški, francoski, nemški, italijanski in seveda slovenski).

 

TWB je integriran v urejevalnik besedil (SP uporablja MS Word). Vanj se shranjuje prevod skupaj z izhodiščnim besedilom in s podatkom o zadetku, označenim v odstotkih. Urejevalnik besedil je funkcijsko v sozvočju s TWB-jem, če vsebuje povezovalni element, t.i. ikone tw4win (za priklic, zapiranje, shranjevanje ali obnavljanje izvirnega segmenta, kadar prevoda ne moremo takoj zagotoviti, vendar želimo kljub temu delo nadaljevati na naslednjih enotah). Za urejevalnik Word je povezanost s TWB-jem omogočena preko posebne predloge dokumenta (tw4win.dot), ki v vmesniku prikaže dodatne ikone ter Tradosov meni. Delo v urejevalniku je mogoče brez posredniških operacij, kot so uvoz in izvoz podatkov in shranjevanje tiskarskih značilnostih (ležeče, krepko, podčrtano se prenašajo iz urejevalnika besedil v pomnilnik prevodov). Vse te značilnosti se beležijo ob segmentih v pomnilniku prevodov.

 

Sledi dela s TWB so v urejevalniku besedil izražene s skritim besedilom izvirnika in s posebnimi skritimi znaki, ki so po vsebini ločilniki segmentov. Pri redakcijah velikokrat pride do nenamernega brisanja teh skritih znakov (kljub opozorilom SP), zaradi česar pride do napak pri nadaljnji obdelavi dokumenta in do prekinitev operacij, kakršno je t.i. čiščenje besedil, pri katerem se odstranijo vsi skriti znaki, z izvirnim besedilom vred, in ostane nam le golo prevedeno besedilo.

 

Glavni priskrbovalci prevodnih enot pomnilnikov prevodov so notranji prevajalci. Zunanji prevajalci imajo možnost dela s programom s pomnilnikom prevodov Wordfast, ki je brezplačno na voljo na internetu40. Po končanem prevodu pomnilnik prevodov iz programa izvozijo, upravljavka pa ga spet s TWB-jem uvozi v pomnilnik prevodov. Druga možnost pa je, da upravljavka za prevedeni dokument v TWB-ju izbere funkcijo čiščenje besedil.

 

Besedila, ki so bila prevedena že pred začetkom uporabe TWB-ja, upravljavka prav tako lahko naknadno uvede v TWB-jev pomnilnik prevodov s pomočjo orodja za poravnavo – WinAlign. WinAlign je komponenta za poravnavo že pred časom prevedenih besedil, ki jih je potrebno vključiti v pomnilnik prevodov. Gre za tvorjenje segmentnih parov, pri čemer je izhodiščni element para vedno povezan s ciljno ustreznico. Del poravnave lahko izvedemo samodejno, vendar mora upravljavka ročno popraviti rezultate, saj velikokrat pride do napak zaradi segmentacije (ločitev segmentov z računalniškimi ločili, ki se ne ujemajo z ločili naravnega jezika). To se lahko izkaže za zelo zamudno.

 

Izvirnike, ki jih pošlje v prevod prevajalcem, dobi SP v elektronski obliki ali pa jih v to obliko pretvori. Od prevajalcev prav tako zahteva elektronsko obdelavo besedila in uporabo pomnilnika prevodov, ki ga ustvarijo oz. dopolnijo s TWB-jem. Poleg izvirnika prejme prevajalec tudi pomnilnik, ki se z besedilom tematsko ujema in ki je tisti hip najbolj posodobljen. Ko prevajalec konča prevod, vrne neočiščene dokumente in uporabljeni pomnilnik prevodov upravljavki zbirke. Tematske zbirke so na skupnem strežniku na voljo vsem prevajalcem. Vseeno pa lahko uporabljajo tudi svoje lokalne pomnilnike prevodov, ki jih gradijo sami.

 

Za posodabljanje pomnilnika prevodov zadošča upravljavki zbirke že sam neočiščen dokument, vendar pa mora imeti ta zaradi shranjevanja v osrednjo zbirko zabeležena tudi določitvena polja, ki opredeljujejo prevodni dokument. Iz ODA mora dobiti upravljavka, ki posodablja zbirko, podatek o statusu redakcije, ki je bila tisti hip dokončana. S tem dobi prevod v osrednji zbirki že novejšo, popravljeno podobo in postane bolj zanesljiv.

Redaktorji najraje beležijo svoje popravke v urejevalniku besedil s funkcijo Sledi spremembam (tudi zato, ker niso opremljeni z licenčnimi programi TWB). Tako zabeleženi popravki pa niso usklajeni s programom s pomnilnikom prevodov. Pomnilnik prevodov lahko z njihovimi popravki posodobimo z operacijo čiščenje, ki jo izvedemo na popravljenem prevodu.

 

Pri prevajanju ima uporabnik TWB-ja vidno polje računalnikovega zaslona razdeljeno na 2 dela:

 

   Zgornji del zaslona zavzema aplikacija TWB, ki se sama deli v tri prekate: izhodiščni segment, izhodiščni segment s prevodom, ki ga predlaga pomnilnik in povezavo z MultiTermom (ki mora teči v ozadju). Na levi strani pa lahko vidimo podatke o segmentu in odstotek ujemanja.

 

   Spodnji del zavzema urejevalnik besedil, ki mora vsebovati orodno vrstico tw4win. V prevajanem stavku so s posebnimi barvnimi oznakami prikazani izrazi, vsebovani v terminološki zbirki MultiTerm, ter podobnosti in razlike s prevajanim stavkom.

Slika 11 – Prikaz dela s pomnilnikom prevodov

Najpomembnejše komponente programa, ki omogočajo hitro in sistematično iskanje, so:

 

         pomnilnik prevodov

 

Program med prevajanjem v ozadju s statistično zasnovano komponento izvaja popolno in megleno iskanje oz. zaznava podobnost, ki je odvisna predvsem od števila besed, ki se ujemajo v obeh prevodnih enotah in od njunega besednega reda. Priporočljivo ujemanje je vsaj 60 – 70 odstotno, saj lahko pomnilnik v nasprotnem primeru najde in primerja med seboj segmente, ki imajo komaj kaj skupnega.

 

S TWB-jem lahko prevajalci izvajajo tudi samodejno prevajanje oz. predprevajanje, še preden odprejo urejevalnik besedil, saj TWB nudi statistično razčlembo o tem, koliko stavkov se je ponovilo, koliko delnih stavkov je potencialno mogoče uporabiti iz pomnilnika prevodov in koliko izrazov iz terminološke zbirke MultiTerm. Te sistemske predloge se lahko potrdi in shrani v pomnilnik kot prevedene. Od tod naprej se prevajalec loti samega prevajanja s pomočjo pomnilnika prevodov. Tako predprevajanje utegne olajšati delo, če smo prepričani, da nam samodejno prevedeni stavki ne bodo naredili prevelike zmede v končnem izdelku.

 

TWB omogoča tudi filtriranje, npr. po kronološkem vrstnem redu ali po prevajalcu, kar je še posebno pomembno pri večjih prevajalskih projektih, na katerih dela več prevajalcev na istem jezikovnem paru.

 

         prepoznavalnik terminologije

 

Da si prihranimo dolgotrajno iskanje izrazov po slovarjih in zagotovimo njihovo dosledno uporabo, uporabimo prepoznavalnik, ki terminologijo išče v MultiTermu. Prepoznavalnik terminologije prav tako deluje na osnovi meglenega iskanja. Tako lahko odkrije podobnosti med stavki z besedami v ednini, dvojini in množini, stavki z drugačnim besednim redom (npr. sprejemanje zakonov in zakoni so bili sprejeti) ter tvorjenke in oblikoslovne različice besed, čeprav so v drugačni obliki. Ta komponenta omogoča tudi samodejni prenos izraza v prevod s klikom miške ali pritiskom na tipko. Pri tem pa moramo upoštevati besedilno načelo členitve po aktualnosti in segment ustrezno spremeniti.

 

S TWB-jem lahko tudi ustvarjamo nove terminološke predloge, ki jih nato vključimo v terminološko zbirko MultiTerm. Iz oken, ki prikazujejo po 5 ali 10 parov stavkov, lahko preslikujemo želeno geslo in njegovo ustreznico iz prevoda v kakršen koli drug dokument, tabelo, glosar ali terminološko zbirko, posredno ali neposredno.

 

         dvojezični konkordančnik

 

Pri iskanju izrazov je lahko v veliko pomoč seznam vzporednih segmentov z iskanim izrazom, ki ga ponudi dvojezični konkordančnik (ang. bilingual concordancer). Gre za iskanje na podstavčni ravnini, ki ni nujno jezikoslovno (kategorialno) kakor koli opredeljena, saj gre za iskanje linearnega niza, ki pa ga zna TWB tudi razcepiti na besede.

 

Slika 12 – Primer iskanja konkordanc v pomnilniku prevodov

Težav, ki se pojavljajo pri tako zapletenem postopku prevajanja, tudi pri TWB-ju ni malo. Sistem vsebuje zabeleževalne mehanizme, ki uporabnika opozorijo na verjetnost in mesto pojavitve napake.

 

Ob okvari pomnilnika prevodov lahko prevajalec tudi brez upravljavke pomnilnika ustvari novo zbirko, tako da posname standardno in dogovorjeno zgradbo stare. Tako se v novi pomnilnik prenesejo vsi takrat obstoječi izbrani parametri in njihove vrednosti, skupaj z vsebinskimi polji.

 

Pravilna izbira segmentacijskih možnosti igra pomembno vlogo pri pravilni delitvi besedila na segmente in povzroča manj zapletov pri delu prevajalcev. Kadar programske izbire glede teh znamenj ne ustrezajo dovolj pravilom naravnega jezika, program ponudi možnost neposrednega posega prevajalca z daljšanjem ali krajšanjem segmenta.

 

Do težav lahko pride tudi pri namestitvi drugih programov v sistem in pri koliziji sistemskih parametrov. Slabost TWB-ja pa je tudi počasno delo. Za svoje funkcije potrebuje namreč zelo veliko spomina, kadar pa tega primanjkuje, program sam onesposobi delovanje in javi napako, za katero pa prevajalec sam navadno ne ve, kako se jo lahko reši. Upoštevati je treba tudi dejstvo, da preveliko število izbirnih polj (splošna postavitev, postavitev polj, pisava, samodejne zamenjave, delitvena pravila na segmente, ravnanje z neprevedljivimi elementi kot so simboli, povezave in hiperpovezave) lahko obremeni hitrost dostopanja do zbirke prevodov.

 

Prevajalci glede uporabnosti TWB-ja niso enotnega mnenja. Za ključno slabost pomnilnika prevodov navajajo dejstvo, da pri iskanju upošteva dolžino besed, delež ponovljenih besed in znakov, premalo pa podobnost med smiselnimi deli besed, besednih zvez, slovničnimi kategorijami, kot so koreni in osnove besed, pretvorbe iz ednine v množino, iz tvornika v trpnik, ujemanje v slovničnih kategorijah, kot so spol, število, oseba itd. Tej potrebi bi lahko zadostil razvoj jezikovno odvisnih orodij, s katerimi bi lahko prilagodili program s pomnilnikom prevodov.

 

SP v sodelovanju z ministrstvi vsaj dvakrat na leto sestavlja, prevaja in pošilja v Bruselj letno poročilo o napredku v prilagajanju nacionalne zakonodaje zakonodaji EU. Takrat se izrazi problem prevajanja in uporabe računalniško podprtih sistemov za prevajanje iz slovenščine, torej neuradnega jezika EU, v nek uradni jezik EU.

3.2.2.2     EVROKORPUS

Zbirka jezikovnih dvojic izvirnih in prevedenih besedil SP je pod imenom Evrokorpus na voljo tudi na internetu (http://www.sigov.si/evrokorpus). Pregledovalnik korpusa so izdelali na CVI-ju, kjer ga tudi mesečno posodabljajo in vzdržujejo. Vsebino pomnilnikov prevodov so pretvorili v tekstno obliko in jo grupirali po področjih. Trenutno vsebuje več kot 1,5 milijona besed, ki pa še niso povsem prečiščene, saj je korpus šele v testni obliki.

 

Miran Željko (2002: 4-5) opisuje tri načela, po katerih se uporablja Evrokorpus in po katerih združuje lastnosti, ki jih prevajalec pri Tradosovem TWB-ju pogreša:

   kot razširitev podatkov Evroterma: Ob kliku na podčrtan izraz v Evrotermu pregledovalnik preišče korpus in izpiše seznam prevodnih enot, ki vsebujejo tudi podatek o področju. Evrokorpus tako služi kot vir primerov dejanske rabe izrazja v večjih segmentih.

 

 kot dvojezični konkordančnik pri iskanju besed, ki jih ni moč najti v Evrotermu ali za iskanje dejanske rabe izrazov v večjih segmentih. Uporabnik lahko tudi omeji iskanje na eno področje ali pa išče po vseh.

 

   kot enojezični konkordančnik. Pri iskanju po korpusu enega jezika je izpis v obliki KWIC (sobesedilo je omejeno na 50 znakov). Taka zbirka je uporabna pri prevajanju v tuji jezik, saj poleg nepoznanih izrazov prikazuje tudi razmerja v segmentu (skladenjska, oblikoslovna itn.).



Slika 13 – Dvojezične konkordance Evrokorpusa (http://www.sigov.si/evrokorpus)

3.3       RAČUNALNIŠKA PODPORA PREVAJANJU V PREVAJALSKI SLUŽBI EVROPSKE KOMISIJE

Evropsko načelo demokratičnosti narekuje, da morajo imeti vsi državljani Evropske unije (v nadaljnjem besedilu EU) možnost branja evropske zakonodaje v svojem jeziku. Zato je napisana v vseh enajstih uradnih jezikih in državljani imajo tudi pravico komunicirati z institucijami EU v svojem jeziku.

 

Enota RL3 Prevajalske službe Evropske komisije (Service de traduction; v nadaljnjem besedilu SdT) pravi (Translating for a multilingual community 2002: 4), da je izmed organov EU, ki so zadolženi za prevajanje največja in najkompleksnejša prevajalska služba na svetu, saj prevajanje poteka v vseh enajstih uradnih jezikih EU (angleškem, danskem, finskem, francoskem, grškem, italijanskem, nemškem, nizozemskem, portugalskem, španskem in švedskem). Letna količina prevedenega besedila znaša več kot 1.250.000 strani.

 

SdT se nahaja v Bruslju in Luksemburgu in ima zaposlenih več kot 1300 prevajalcev in 400 administratorjev. Razdeljeni so na šest tematskih skupin, ki se ukvarjajo z določenim področjem dejavnosti EU. Razdeljene so na enajst jezikovnih enot, za vsak uradni jezik EU. Te enote so torej enojezične in specializirane na posamezno področje. Prevod, ki ga naročijo oddelki Komisije, poteka iz več jezikov, vendar vedno v materni jezik (razen redkih izjem). Znotraj teh enot je poskrbljeno za zagotavljanje doslednosti in kvalitete.

 

Po podatkih SdT (prav tam: 5, 8) je večina dokumentov napisana v angleščini (56,8 %), francoščini (29,8 %) in nemščini (4,3 %). Čeprav je vseh enajst ciljnih jezikov zastopanih v približno enakem razmerju, pa med temi spet prevladujejo nemški (13,2 %), francoski (12,7 %) in angleški (11,3 %) jezik.

 

Vrst besedil, ki jih prevaja SdT, je več. Lahko so zapiski sestankov, odgovori na vprašanja poslancev Evropskega parlamenta ali pa veljavna zakonodaja EU.

Čeprav ima SdT največ prevajalcev na svetu, mora vseeno sklepati pogodbe tudi z zunanjimi samostojnimi prevajalci.

 

Enota RL3 SdT (TWSdT 2002: 4-5) navaja tudi, da prevajalec za kakovostno opravljanje svojega dela potrebuje ustrezno terminologijo, referenčne dokumente (papirni in elektronski arhivi, poravnana besedila itd.), možnost uporabe že prevedenih besedil ter centralno (v tematski skupini) in lokalno (v jezikovni enoti) pomoč administratorjev, ki za dokument poskrbijo na začetku postopka in spet na koncu, tako da se prevajalci lahko osredotočijo na konkretno prevajanje. SdT ima na voljo tudi računalniško in jezikovno podporo, ki jo nudijo oddelki kot so Terminology in Multilingual Tools.

 

Z željo po zmanjšanju odvečnega dela ter večji doslednosti v jeziku in metodologiji, je SdT leta 1995 začela uporabljati strežniško-odjemalski vmesnik Euramis (European Advanced Multilingual Information System). Projekt skladišči ogromne količine jezikovnih virov v obliki skupnih podatkov (ang. data sharing) in omogoča uporabo večjezičnih orodij ter njihovo integracijo v večjezične storitve.

 

Pri celotnem prevajalskem postopku uporabljajo v SdT dve vrsti orodij: orodja za administracijo ter orodja za računalniško podprto prevajanje (TWSdT 2002: 6-15).

 

Orodja za administracijo elektronsko upravljajo celoten prevajalski postopek. Prenos naročil, izvirnikov, referenčnih dokumentov in predpripravljenih dokumentov ter oddaja končanih prevodov potekajo prek spletnih vmesnikov in programov Poetry (Processing Of Electronic Translation Requests), WinSuivi in DossierManagement.

Elektronski arhivski sistem SdTVista je SdT dostopen prek strežniško-odjemalskega vmesnika. Vsebuje izvirnike in prevode, ki so bili posredovani med organi EU in SdT od januarja 1994. Omogoča iskanje po kriterijih (po številki dokumenta, avtorju, naročniku, naslovu, vsebini). Je zelo hiter in poleg podatkov o besedilu nudi tudi dvojezični vzporedni pogled in enostaven prenos v urejevalnik besedil. Vsebuje prek dva milijona dokumentov v vseh enajstih jezikih.

 

Celex je baza celih različic vseh pravnih aktov v vseh jezikih EU. Poiskati zna tudi dokumente, ki se nanašajo na določen pravni akt. SdT ima do baze Celex neomejen dostop prek spleta ali prek vmesnika Euramis. Proti plačilu je baza dostopna tudi širši javnosti.

 

Eur-Lex je baza dokumentov, v kateri je prost dostop do Uradnih listov Evropskih skupnosti serij L (vsa zakonodaja) in C (komunikacija in informacije) v času 45 dni po izdaji akta ter veljavne zakonodaje Komisije. Ponuja tudi povezave k drugih pravnim besedilom.

 

Kot baza podatkov služi med drugim tudi SdTdoc. Ta večjezična virtualna knjižnica vsebuje dokumentacijo tudi o dokumentih, ki niso povezani z Evropsko unijo in to v vseh uradnih jezikih EU. Gradivo so zbrali uradniki dokumentacijskih centrov. Na voljo je tudi veliko povezav do baz univerz, vladnih služb in mednarodnih organizacij.

 

K orodjem za računalniško podprto prevajanje sodijo terminološka orodja, pomnilniki prevodov, strojni prevajalniki in orodje za prepoznavanje govora. Pri prvih dveh orodjih moramo ločiti centralno (služi kot baza podatkov) in lokalno raven (za oblikovanje, upravljanje in vnašanje podatkov v bazo).

 

        Terminološka orodja v SdT

Zastopajo jih centralna in lokalna terminološka baza ter iskalnik terminologije.

 

Centralna terminološka baza Eurodicautom (Europe dictionnaire automatisé) je največja terminološka banka na svetu, saj vsebuje več kot 7 milijonov izrazov (in 400.000 kratic). Izrazi so v vseh enajstih jezikih EU in v latinščini. Vzdržujejo jo terminologi SdT. Kljub temu, da še ne vsebuje slovenskih izrazov, je baza vseeno uporabna za razlago izrazov v drugem tujem jeziku prevajalca. Na razpolago je tudi širši javnosti.

 

Posamezne jezikovne enote vnašajo izraze v lokalno terminološko bazo MultiTerm. Ko so potrjeni, jih vključijo v Eurodicautom. Vanjo se lahko prek vmesnika Euramis uvozi terminologija iz Eurodicautoma, kar je uporabno pri pomnilniku prevodov, v katerega je integrirana.

 

One-stop Shop je spletni vmesnik, ki je bil razvit za poenostavitev in pospešitev iskanja terminologije. Hkrati išče po več bazah, ki jih je izbere prevajalec.

 

        Pomnilnika prevodov

Centralni pomnilnik prevodov Euramis se ne uporablja med samim prevajanjem, ampak služi kot baza za shranjevanje in izpis podatkov, ki so bili obdelani s Translator's Workbench in/ali Wordom. Vsebuje več kot 50 milijonov prevodnih enot v vseh uradnih jezikih EU. V letu 2001 je Euramis izpisal več kot 1.700.000 strani.

 

Lokalni pomnilnik prevodov Translator's Workbench je prirejen potrebam ustanov EU. Prevodne enote se lahko izpišejo iz centralnega Euramisa, kamor jih po končanem prevodu tudi shranijo.

 

        Strojni prevajalnik

EC SYSTRAN (System Translation) so začeli razvijati že leta 1976. Dostopen je tako prevajalcem kot tudi administratorjem. Uporaben je za iskanje, hitro prevajanje (prevede tudi do 2.000 strani na uro) in hiter dostop do informacij.

Prevajalnikovi slovarji so prilagojeni delu Komisije in zahtevani hitrosti. Systran je dostopen prek elektronske pošte, uporabniku prijaznega vmesnika na intranetu in prek Euramisa. Na zahtevo je lahko na voljo tudi javnim oblastem, šolam, univerzam držav članic itn. SdT napoveduje, da bo kmalu na voljo tudi prek spleta na strežniku Europa.

 

Strojni prevod je praviloma uporaben kot osnutek v nematernem jeziku ali jeziku, ki ga oseba ne prevaja in ne pozna. Nekateri uradniki namreč rajši pišejo v maternem jeziku in nato uporabijo strojni prevajalnik, za katerim potem prevod še ročno popravijo. S strojnim prevajalnikom je bilo v letu 2001 prevedenih 800.000 strani. Od tega je 40 % uporabnikov prevajalcev, preostali delež pa predstavljajo administratorji.

 

EC Systran nudi prevod v 19 jezikovnih parih.

 

 

Jezikovni pari Systrana

 

Iz angleščine v

  • italijanščino
  • francoščino
  • grščino
  • nemščino
  • nizozemščino
  • portugalščino
  • španščino

 

Iz španščine v

  • angleščino
  • francoščino

 

Iz italijanščine v

  • francoščino

 

Iz francoščine v

  • angleščino
  • italijanščino
  • nemščino
  • nizozemščino
  • portugalščino
  • španščino

 

Iz grščine v

  • francoščino

 

Iz nemščine v

  • angleščino
  • francoščino

 

Slika 14 – Jezikovni pari strojnega prevajalnika EC Systrana

Trenutno se s financiranjem držav članic in skupino SYSTRAN razvijajo še jezikovni pari grščina-angleščina, francoščina-grščina, portugalščina-angleščina/francoščina in nizozemščina-angleščina/francoščina.

 

         Orodje za prepoznavanje govora

Program Dragon NaturallySpeaking uporablja 75 prevajalcev. Letos ga nameravajo namestiti vsaj še 200 prevajalcem. Z njim prevajalec prihrani čas in napor, saj preprosto narekuje računalniškemu namizju v naravnem (neprekinjenem) govoru. Natančnost prepoznavanja obsega do 98 %, hitrost računalnikovega zapisovanja pa znaša 160 besed na minuto. Program deluje v nemščini, španščini, angleščini, francoščini, italijanščini in nizozemščini.

 

V posebno kategorijo sodi orodje TMan, ki nadomesti vnaprej definirane sklope besed (od posamezne besede do celega odstavka) v izhodiščnem besedilu s sklopi v ciljnem jeziku. Zamenjave temeljijo na analizi podobnosti te vrste besedila in po načelu iskanja polnega niza. Izpisi so lahko kombinirani z izpisi iz centralnega pomnilnika prevodov Euramis in/ali strojnega prevajalnika Systrana.

 

Celotni prevajalski postopek (TWSdT 2002: 17-23) naj bi bil v idealnih okoliščinah videti takole:

 

Najprej program Poetry elektronsko prenese naročilo SdT-ju. Sistem izpiše ustrezna pravna besedila iz baz Celex in SdTViste. Naredi analizo ponavljanja in tako izbere najbolj učinkovit način obdelave besedila. Določi najprimernejši pomnilnik prevodov in razdeli besedilo na prevodne enote. Za segmente, za katere pomnilnik prevodov ni izpisal ničesar, zažene strojno prevajanje in/ali program TMan. Baza MultiTerm je z luščenjem (ang. extract) terminologije iz Eurodicautoma še zadnja od jezikovnih virov. Nato ustvari datoteko v formatu urejevalnika besedil z najboljšim predlogom za vsak stavek in datoteko v formatu Translator's Workbencha ali celo začasno Translator's Workbench bazo (z drugimi rešitvami), statistično poročilo rezultatov, vse referenčne dokumente, ki so bili rezultat analize ter predloge za optimalno obdelavo. Prevajalec lahko najde naročilo skupaj z vsemi temi datotekami v DossierManagementu. Če ni zadovoljen z rezultati, lahko besedilo pošlje še v nadaljnjo obdelavo, ki jo izbere sam. Prevajalec dobi npr. strojno prevedeno besedilo skupaj z izpisi iz centralnega pomnilnika prevodov Euramisa ali izhodiščno strojno prevedeno besedilo z vstavljenimi ciljnimi izrazi (TMan) skupaj z izpisi iz centralnega pomnilnika prevodov Euramis itn.

 

 

Slika 15 – Storitve, ki jih nudi vmesnik Euramis (TWSdT 2002: 17)

 

Po končanem prevajalskem postopku je prevod s programom WinSuivi posredovan naročniškemu oddelku. Hkrati je samodejno arhiviran v SdTVisti, prevodne enote pa se samodejno izvozijo iz lokalne baze Translator's Workbench in shranijo v centralno bazo Euramis, ali pa se dokument poravna.

 

SdT v prihodnosti načrtuje še bolj samodejen postopek prevajanja, še več možnih integracij jezikovnih aplikacij in storitev ter novo namizje (Translator's Desktop) ter še večjo aktivnost na področjih tehnične pomoči, izobraževanja, usposabljanja, podpiranja centrov, razvoja tržišča samostojnih prevajalcev v državah kandidatkah ter pospešenega razvoja organiziranja prevajalskih študijev.

 

Organi Evropske unije že od leta 1998 razmišljajo o združitvi terminoloških baz (Eurodicautom, Euterpe, TIS in drugih manjših) v središčno, ki bo namenjena vsem institucijam, agencijam in drugim telesom Unije. Projekt se imenuje Inter-Agency Terminology Exchange (IATE), njegovo uresničitev pa napovedujejo v drugem letu (Macphail 1999).

3.3.1     PRIMERJAVA Z RAČUNALNIŠKO PODPORO V SEKTORJU ZA PREVAJANJE

Jasna Belc (2001: 2-3) je prepričana, da je ključna razlika med organizacijo dela v SdT in v SP v tem, da prva združuje veliko dvojezičnih jezikovnih kombinacij iz enajstih uradnih jezikov, večina prevajanja v SP pa poteka med angleščino in slovenščino, deloma med francoščino in slovenščino. Osnovna in najbolj zastopana smer prevajanja je iz angleščine v slovenščino.

 

Glede velikosti predstavlja SP s 35 zaposlenimi 1/50 SdT, v primerjavi z drugimi prevajalskimi enotami držav kandidatk za vstop v EU pa gre za povprečno veliko enoto. SP ima sicer razmeroma malo redno zaposlenih prevajalcev, vendar pa sodeluje s še 3 do 5-kratnim številom zunanjih (pogodbenih) prevajalcev, redaktorjev in lektorjev, kar pa ni več zanemarljivo število. V SdT se s podvojitvijo števila uradnih jezikov EU (ob vstopu držav kandidatk v EU) ter rastjo velikosti centralnih zbirk večajo tudi potrebe po skrbi za ohranjanje zgradbe podatkovnih zbirk, sprotnem dopolnjevanju in izboljševanju programov, vedno večji zmogljivosti strojne in programske opreme, konstruktivni delitvi nalog, disciplini pri delu, vlaganju v človeške vire ter izpopolnjevanju znanja zaradi nenehnega prilagajanja novim okoliščinam v organizacijski shemi.

 

Razlikujejo se tudi besedila, ki jih prevajata SdT in SP. Osnovna naloga slednjega je prevajanje zbirke pravnih aktov Evropskih skupnosti, ki so za članice EU obvezujoči, medtem ko skrbi SdT tudi za shranjevanje, vodenje in prevajanje nastajajočih dokumentov, še preden so potrjeni v Evropskem parlamentu.

 

Računalniška opremljenost SP je do določene mere podobna SdT-jevi zaradi financiranja in napotkov TAIEX-a, ki organizira letne posvete strokovnjakov različnih področij (pravnikov, prevajalcev, organizatorjev dela, terminologov in informatikov). Podobnost prevajalskega postopka je vidna predvsem v programih MultiTerm in TWB.

 

Vseeno pa SP ne uporablja lastnega delovnega namizja, ki bi uvoženi dokument sam prevedel strojno, s pomnilnikom prevodov, samodejno zamenjavo izhodiščne terminologije s ciljno ali kakšnim drugim postopkom, saj te tehnologije v Sloveniji še niso vse razvite. Operacije v programu s pomnilniki prevodov TWB ne potekajo samodejno, vseeno pa uporabljajo več komponent, ki združene prinašajo prav tako dobre rezultate, čeprav v časovno večjem obsegu. SP prav tako uporablja drugačen program za spremljanje in pretok dokumentov.

 

Terminologija je pri obeh telesih na voljo širši javnosti v spletni različici. Evroterm je celo boljši od Eurodicautoma (če zanemarimo velikost zbirke), saj so vnosi opremljeni z več podatki, ki prevajalcu povedo tudi, iz katerega projekta je vzet izraz, v katerem dokumentu se nahaja, razlago izraza idr., iz česar prevajalec lahko sklepa, kako zanesljiva je uporaba izraza, če o tem ne priča že konkretni podatek (Reliability). Javno dostopne različice zbirke prevodov, kot je Evrokorpus, pa SdT ne nudi.

 

Pri programski opremi za shranjevanje in delo z jezikovnimi viri SdT opazimo dvojno programsko zasnovo, pri kateri se na vsaki stopnji dela izoblikujejo lokalne in centralne zbirke podatkov. Te se strokovno neprestano prečiščujejo in dopolnjujejo tudi v SP in sicer na več stopnjah.

Slika 16 – Uporabnost TWB in MultiTerm

 

V sliki 16 sem prikazala delovni postopek prevajanja z vsemi stopnjami redakcij, skozi katere gre dokument 1, preden ga SP kot slovensko različico pošlje organom EU. Na skoraj vsaki stopnji redaktorji posodabljajo tako prevod kot glosar. Pri tem uporabljajo program s pomnilnikom prevodov Translator's Workbench (TWB) in program s terminološko bazo MultiTerm (MT), kamor se prevodi in izrazi tudi shranjujejo. Pri prevajanju novega dokumenta (dokumenta 2) prevajalec uporabi podatke o prejšnjem prevodu, ki so shranjeni v obeh programih. Tako prihrani čas in zagotavlja dosledno rabo izrazov.


4  VIZIJE NADALJNJEGA RAZVOJA

Za razvoj in izdelavo splošno uporabnih programov ter sistemov s področja jezikovnih tehnologij je predpogoj dobro oblikovana infrastruktura jezikovnih podatkov, tj. zadostno število ustrezno urejenih jezikovnih virov. Tako potrebujemo urejene in popolne zbirke izrazov, besedil, izgovorjav, aplikacije kot so različni slovarji, leksikoni, tezavri, črkovalniki itn.

4.1       TERMINOLOŠKA PROBLEMATIKA STROKOVNEGA JEZIKA

Hiter razvoj tehnologij povzroča naglo nastajanje in spreminjanje izrazja. Posledica tega je, da terminologi in terminografi ne uspejo dovolj hitro spremljati jezikovnega razvoja, zato so terminološki slovarji za številna področja nepopolni in zastareli.

 

Spričo razvoja informacijskih in komunikacijskih tehnologij se strokovna in znanstvena področja med seboj vse bolj povezujejo in postajajo vse bolj interdisciplinarna. Posledica je, da je v terminologiji vse teže ustreči zahtevam po enoznačnosti. V novejših strokah, v katerih se terminologija pravzaprav šele oblikuje (npr. sodobna informacijska sredstva, jezikovne tehnologije, prosti čas, šport itn.), je ena glavnih značilnosti obstoj sopomenskih parov - dvojnic, dublet ali celo triplet. Te se v jeziku pojavijo, ker se ob vdoru tujih poimenovanj jezik ne uspe takoj odzvati, zato se po eni strani prične angleški izraz ustaljevati, počasi pa se pričnejo pojavljati tudi že slovenske ustreznice, ki jih je včasih lahko tudi več, če prvi predlog slovenskega izraza ni optimalen. Primer poteka slovenjenja leksema za pregledovalnik vsebine na svetovnem spletu (Oter 2001) je Browser – brkljalnik – spletalnik – brskljalnik – brskalnik. Dvojnice se pojavljajo tudi pri izrazih, ki sicer izvorno izhajajo iz besedišča lastnega jezikovnega sistema, a so z razširitvijo referenčnega sveta v terminologiji pridobili drugotni pomen (npr. uporabni program/uporabniški program; upravljalec datotek/upravljalnik datotek).

 

Alain Rey (1995a: 159 in 1995b: 176-179) pravi, da organizacije v terminologijo jezika lahko posegajo zakrito ali izraženo in da je standardizacija lahko včasih neposreden rezultat jezikovnega načrtovanja. Praviloma poteka v dveh stopnjah: z izbiro ali ustvarjenjem norme ter njenim širjenjem in izrivanjem prejšnjih rab jezika. Začne se pri terminologiji in z nadzorom rabe v državni upravi, predpisi oblik vladnih objav, označevanjem izdelkov, oglaševalskim jezikom in nenazadnje z zakoni, ki predpisujejo rabo v večjezikovnih razmerah in še posebej pri prevajanju.

 

Pri terminografiji in prevajanju v Sloveniji se zaradi nejasne razdelitve pristojnosti pojavljajo težave s standardizacijo. Za določanje in standardizacijo slovenskih izrazov in pojmov s posameznih strokovnih področij so na Uradu za standardizacijo in meroslovje odgovorni stalni in začasni tehnični odbori, tehnični pododbori in delovne skupine v okviru sedmih programskih področij standardizacije. Po drugi strani največ terminografskega dela in usklajevanja opravlja Terminološka komisija SAZU, ki pa za standardizacijo izrazja ni pristojna.

 

Najbolje je, če za strokovni jezik poskrbi stroka sama, saj brez lepega jezika in ustreznega izrazja izobraževanje in sporazumevanje ni možno. To lahko stori s povezovanjem posameznikov in skupin ter dogovarjanjem glede uporabe izrazov, oz. z izvajanjem terminoloških in terminografskih postopkov (Vintar 2000): proučevanje pojmov in razmerij med njimi, opisovanje in poimenovanje izrazov, primerjanje pojmovnih sistemov in izrazja različnih jezikov za potrebe večjezične terminologije in prevajanja, sodelovanje pri ustvarjanju novega izrazja, zbiranje terminološkega gradiva, opisovanje in predpisovanje terminologije, ki je trenutno v rabi na določenem področju, svetovanje prednostnih izrazov in predstavljanje zbranega in obdelanega izrazja v terminoloških zbirkah.

 

Problematična je tudi raba strokovnega izrazja v večjezičnem okolju oz. prevajalske strategije ob srečevanju z novimi pojmi. Ti praviloma nastanejo znotraj določenega področja in določene kulture, zato se pri prevajanju pojavijo tudi težave z njihovim prenašanjem v ciljno kulturo. S slovenjenjem izrazov se ukvarja tudi Inštitut za slovenski jezik Frana Ramovša, in sicer v okviru t. i. terminoloških komisij, Društvo znanstvenih in tehniških prevajalcev Slovenije, društva posameznih strok, skupina za slovenjenje Linuxa ter nenazadnje posamezni strokovnjaki, terminologi in prevajalci.

Do poimenovanj novih izrazov pride z različnimi besedotvornimi postopki. Eden bolj zanimivih je terminologizacija (beseda iz splošnega jezika dobi v okviru stroke poseben pomen, npr. korenina v zobozdravstvu). Poznamo pa tudi znotrajjezikovno (npr. ko se znani izraz zaradi sorodnosti po načelu metafore/metonimije v pomenskem polju prenese na novo področje, npr. vesoljska ladja, deskanje, podatkovna avtocesta) in medjezikovno prevzemanje izrazov iz jezikov dežel, ki prednjačijo v tehnološkem razvoju, zaradi česar se nove tehnologije skupaj z izrazjem širijo prek njihovih meja (citat, kalk, svobodno prevzemanje). Tvorjenje novih izrazov je največkrat uspešno le v skupini strokovnjakov, ki dobro poznajo tehnologijo, slovenski jezik in jezik (največkrat angleški), v katerem srečamo novo besedno zvezo (Gorjanc 1996).

 

Na razkroj polnofunkcijskosti slovenskega jezika poleg angleškega jezika (zaradi ekonomske moči in razvoja angleško-govorečih območij ima angleščina zdaleč najbogatejši besedni zaklad) vpliva tudi razvoj slovenske znanosti. Med slovenskimi strokovnjaki se izgublja zavest za mišljenjski svet v maternem jeziku. Berejo tuje strokovne knjige in revije, se izobražujejo na seminarjih v tujini in tako v praktično strokovnih ali poljudnoznanstvenih besedilih uporabljajo prevzete strokovne izraze namesto domačih. Kljub načelni prosti izbiri med mednarodnim in domačim izrazjem je potrebno čim več uporabljati slovenske ustreznice oz. vsaj posloveniti pojme, če ti v slovenščini še ne obstajajo. Pri tem se je priporočljivo bolj nasloniti na prenos pomena besede kot pa na dobesedni prevod.

 

Strokovno besedišče se nenehno prenavlja in izboljšuje. Novi pogledi marsikdaj postavijo v kot izraze, ki ne ustrezajo več. Pogosto pa se zgodi, da se je do tega trenutka izraz (bodisi slovenskega bodisi tujega izvora) že uspešno včlenil v jezikovni sistem. V takem primeru je nasilno poseganje v jezik in njegovo rabo nesmiselno, saj ne temelji na dejanskem stanju potreb in spontani družbeni stvarnosti.

4.2       ŠIRJENJE IN ZAGOTAVLJANJE SLOVENSKIH JEZIKOVNIH VIROV

Osnovno infrastrukturo (z izjemo govornih tehnologij) predstavljajo besedilni korpusi. Vendar pa iz samih besedil v elektronski obliki ne moremo dobiti veliko podatkov, dokler ta niso enotno urejena in zadosti obdelana. Pri tem lahko uporabimo orodja za analizo in druge postopke: za pretvarjanje besedil v enoten format zapisa, oblikoslovno označevanje, izdelavo iskalnega programa, izdelavo vmesnika za dostop do zbirke ter za dodatne obdelave. Ko so besedila označena in ko enkrat v podatkovno bazo vnesemo zadostno količino podatkov, lahko iz nje z ustreznimi orodji enostavno in hitro izločimo podatke, ki jih v danem trenutku potrebujemo za določen program, npr. črkovalnik, delilnik, sintetizator govora ali prevajalni sistem.

 

Malo je ostalo avtorjev, ki še ne uporabljajo računalniškega urejevalnika besedil, saj je papirna oblika v primerjavi z elektronsko neprimerno manj uporabna. Hiter in enostaven prenos ter preprosto spreminjanje in oblikovanje elektronskega besedila je v današnji družbi neprecenljive vrednosti. Jezikovni viri v slovenskem jeziku in elektronski obliki torej obstajajo (razen morda besedila iz preteklosti). Vendar pa strokovnjakom, ki vir potrebujejo za raziskave jezika in razvoj jezikovnih tehnologij, račune navadno prekrižajo komercialni dejavniki in avtorske pravice. Čeprav so računalniški programi po slovenskem Zakonu o avtorskih in sorodnih pravicah avtorska dela, se obseg prenosa pravic presoja glede na določbe pogodbe za vsak posel posebej. Vprašanje, ki se tu pojavi, pa je, v kolikšni meri je tudi jezikovni vir, ki ga uporablja nek program, lastnina in čigava (Kumiljan 2002).

 

Z vladnim financiranjem in sodelovanjem založb, računalniških hiš in akademskih institucij bi bilo nujno najprej omogočiti širše dostopne vire, saj šele ti lahko dajo eno od prepotrebnih osnov za nadaljnji razvoj raziskovanja in uporabe naše materinščine.

4.2.1     DOSTOPNOST INFORMACIJ PRAVNEGA ZNAČAJA

Danes so v Sloveniji prav vse relevantne pravne informacije že v elektronski obliki. V taki obliki so že prvi osnutki predpisov in kot taki se tudi izmenjujejo med subjekti normativnih postopkov, žal sicer še ne v povsem usklajenih formatih. Vendar pa objavljanje tako nastalih pravnih informacij v elektronski obliki glede na količino zbranih podatkov še nekoliko zaostaja in tako ostajajo informacije neizkoriščene. Glede na raziskave Slovenija po uporabi interneta zaostaja za evropskimi državami in to je gotovo tudi posledica revnejših elektronskih vsebin v slovenskem jeziku (Kaj pa kakovost vsebin na svetovnem spletu? 2002).

 

Namestnik varuha človekovih pravic je leta 1998 v Poročilu varuha človekovih pravic (Rovšek 1998) opozoril, da je dostopnost informacij javnega značaja v Ustavi RS opredeljena kot človekova pravica in temeljna svoboščina. Pravico do prostega iskanja, sprejemanja in širjenja vsakovrstnih informacij in idej v ustni, pisni, tiskani ali drugi obliki zagotavlja tudi 19. člen Pakta OZN o državljanskih in političnih pravicah, večina držav Evropske unije (po podatkih iz leta 1996 devet od petnajstih članic EU) pa ima poseben zakon o uresničevanju pravice do obveščenosti.

 

Vendar pa v Sloveniji dostopnost informacij javnega značaja ni celovito urejena z zakonom. Uradni list RS je ob uvedbi elektronskega poslovanja za določen čas poskusno zagotavljal brezplačen vpogled v elektronsko izdajo na svoji domači strani. Ta možnost je bila kmalu opuščena in sedaj ga zagotavlja le naročnikom. Dostop do zakonov omogočajo na svojih internetnih straneh Državni zbor41 in nekatera ministrstva, vendar pa so dokumenti vseh državnih ustanov dostopni le prek komercialnega ponudnika pravnih informacij. V tem pogledu se Slovenija razlikuje od večine razvitih držav v svetu in tudi od Evropske unije, ki določen čas (45 dni po sprejetju) zagotavlja brezplačen dostop do vseh novih predpisov. Zato je namestnik varuha človekovih pravic med drugim predlagal, da naj »državni organi, zlasti tisti, ki imajo več stikov s posamezniki, oblikujejo svoje domače strani, v katerih predstavljajo najpomembnejše informacije o svojem delu, predpise v polnem besedilu, obrazce in navodila za uveljavljanje posameznih pravic«, saj so »javnost dela državnih organov, njihova odprtost in preglednost (transparentnost), v povezavi z možnostjo dostopa do podatkov in informacij javnega značaja pomembni elementi sodobne demokratične in pravne države.« Priporoča vedno bolj obsežno nadgrajevanje klasičnih načinov obveščanja javnosti, kot so različne novinarske konference, tiskana gradiva s predstavitvijo institucij, njihovih dejavnosti in ciljev, pravila in postopki ravnanja s strankami z novimi možnostmi, ki jih ponujajo informacijska omrežja, medmrežja in svetovni splet. Predlaga še, »da se določi način in nosilec za postopno zagotovitev brezplačnega dostopa do polnih besedil veljavnih predpisov Republike Slovenije prek interneta« in da »Vladna služba za zakonodajo in Uradni list RS na svoji domači strani na spletu ali na drug ustrezen način, ki omogoča brezplačen dostop, zagotovita vpogled v register veljavnih predpisov.« Tudi Projekt IDC6 (IDCInfOs 1998) naj bi to zagotavljal s tekočimi, dokumentacijsko in tehnološko dovršenimi dokumentnimi viri v zvezi z vključevanjem v EU, vendar zgolj pooblaščenim zainteresiranim osebam.

 

Anton Tomažič (VkSloEU 1998: 1-4) iz podjetja IUS SOFTWARE, d.o.o., meni, da je vzporedno s približevanjem EU za Slovenijo zelo pomembno tudi vključevanje v evropsko pravno informatiko. V svojem prispevku za najšibkejšo komponento današnje slovenske pravne informatike označi medsebojno povezovanje pravnih informacij.

 

Zaenkrat največja baza prosto dostopnih pravnih virov na internetu, ki pa ne vsebuje vseh celovitih dokumentov, je Register predpisov Slovenije, ki vključuje tudi povezovanje informacij znotraj zakonodajnega postopka Državnega zbora. Podjetje IUS SOFTWARE pa nudi komercialno zbirko z največjo zalogo pravnih in poslovnih informacij na enem mestu. Tu (http://www.ius-software.si) so na voljo podatki o vseh veljavnih predpisih, čistopisi vseh veljavnih zakonov in podzakonskih predpisov, ter pravna praksa Vrhovnega sodišča RS s pravno podlago, povezavami na zakone in njihove člene, pravna mnenja, odločitve Ustavnega sodišča, članki pravne narave, seznami Ur. l. itd. Sistem IUS-INFO se lahko uporablja na dva načina: prek spletnega brskalnika na internetu ali s pomočjo programa IUS-INFO za Windows, ki omogoča zahtevnejšo uporabo sistema – enostavno in sestavljeno hitro iskanje po polnem besedilu (indeksirane besede), po več različnih zbirkah sočasno, po posameznih delih besedil, v celotnem dokumentu ali samo po določenih poljih in atributih (datum objave, veljavnosti itd.)

 

Današnje sodobne informacijske storitve niso cenejše kot tiste, ki uporabljajo klasične (predvsem papirnate) medije. Če kdo informacijski projekt v celoti financira, je v zadnjem času res možno dobiti vse več informacij brezplačno, posebno na internetu. Drugače pa je to le prijetna okoliščina za končnega uporabnika, medtem ko ni cena dejanske informacijske storitve nič manjša kot za vse druge storitve na trgu. Največkrat polno ceno plačajo oglaševalci, včasih pa je prosta dostopnost le začasno sredstvo za osvojitev trga. Poleg tega elektronska oblika ni le stranski produkt pri izdelavi tiskane izdaje, ki se lahko z minimalnimi sredstvi nastavi na internet in brezplačno omogoči vsem uporabnikom. Informacijski ponudniki niso sami vir informacij, temveč prodajajo dodano vrednost, oz. obstoječe informacije zberejo, vnesejo, uredijo, skrajšajo, opremijo, ažurirajo, poenostavijo, približajo, skratka omogočijo uporabniku, da lažje in hitreje pride do njih. Za dodajanje novih funkcionalnosti (iskanje po polnem besedilu, možnost uporabe v drugih aplikacijah, možnost medsebojnih povezav itd.) pa mora ponudnik vložiti izdatna sredstva v nabavo strojne, programske in komunikacijske opreme, človeške vire itd. Včasih je zato bolje (in predvsem ceneje), da informacijske storitve uporabnik kupi pri subjektih, ki se s tem profesionalno ukvarjajo. Lastnik virov oz. informacijski ponudnik svojih storitev največkrat ne more brezplačno nuditi tudi zato, ker bi s tem izgubil ogromno naročnikov na tiskano izdajo in ker bi povečana raba elektronskih virov med drugim povzročila preobremenjenost strežnika (Tomažič 1998: 1-4).

 

Zakon o avtorskih in sorodnih pravicah v 9. členu določa, da uradna besedila z zakonodajnega, upravnega in sodnega področja avtorskopravno niso varovana. To daje možnost za čim širši prost dostop do teh besedil. Država pa mora v okviru svojih pristojnosti preprečiti vse poskuse, da ta besedila zaradi komercialnih ali podobnih razlogov ne bi bila splošno dostopna. Za vzdrževanje zbirke besedil in njihovih funkcionalnosti pa bi morala vzpostaviti ustrezne institucije.

 

Kot argument dostopnosti informacij javnega značaja Rovšek (Poročilo varuha človekovih pravic 1998) navaja dejstvo, da se z ustreznim obveščanjem, odprtostjo in možnostjo nadzora krepi zaupanje državljanov v delo državnih organov in javne uprave v širšem pomenu. Ustrezno obveščanje, javnost dela državnih organov in omogočanje dostopa do informacij javnega značaja pa niso pomembni le za posameznika kot pogoj za njegovo sodelovanje pri upravljanju javnih zadev, ampak tudi za organizirane skupine posameznikov, nevladne organizacije ter druga društva in gospodarske družbe. K temu pa bi z vidika jezikovnih tehnologij dodala še tretje uporabnike – prevajalce, terminologe in druge strokovnjake in organizacije, ki se ukvarjajo z jezikovnimi viri.

4.2.2     IZMENJLJIVOST JEZIKOVNIH PODATKOV

Ena najšibkejših točk zbirk je izmenjljivost. Okrnjeno širjenje in izmenjava virov je posledica tudi nerazvitosti računalniške ekspertize uporabnikov, prepočasnega uvajanja primernih visokošolskih študijev in splošne nerazširjenosti področja jezikovnih tehnologij.

 

Za čim širšo uporabo virov morajo biti izpolnjeni vsaj sledeči dejavniki:

 

        Financiranje in velik vložek dela pri zbiranju, označevanju, urejanju in vzdrževanju zbirke.

 

        Pravno vprašanje lastništva zbirke. Za lastnike lahko veljajo na eni strani avtorji virov (avtorji, založbe, prevajalci), na drugi pa uredniki zbirk oz. lastniki programske opreme.

 

        Standardiziran računalniški zapis jezikovnih podatkov poveča uporabnost jezikovnih podatkov, saj poleg izmenljivosti spodbudi tudi njihovo večnamenskost ter podaljša njihovo trajnost. Do prvih pobud za standardizacijo je privedel premik pri zbiranju in obravnavi jezikovnih podatkov, ki se je zgodil predvsem na področju računalniškega jezikoslovja oz. jezikovnih tehnologij in v podjetjih z velikimi količinami besedil.

Naloga standardizacije je predpisovanje javno dostopnih in trajnih načinov zapisa. Zapisi morajo biti podrobno definirani in shranjeni v enotnem formatu, če se hočemo izogniti težavam, ki se lahko pojavijo že pri zapisih črk.

Tomaž Erjavec v članku Standardizacija zapisa jezikovnih podatkov (1998: 119-123) predstavi dve delni rešitvi problematike, z industrijskimi in mednarodnimi standardi.

 

Industrijski standardi so načini zapisa, ki so sicer v lasti nekega podjetja, a se uporabljajo tudi s programi drugih proizvajalcev, vsaj tako, da omogočajo uvoz in izvoz podatkov v tem formatu. Ti podatki so vezani na orodje, s katerim so nastali, obenem pa hitro zastarajo.

 

Mednarodni standardi pa so javni, večinoma prosto dostopni. Spreminja se jih po samo točno določenem postopku. Vendar pa je potrebna izbira in implementacija standarda za naše potrebe navadno zapletena in draga. Poleg tega je zaradi hitro razvijajoče tehnologije težko vedeti, kateri se bodo obdržali. Pri teh standardih je treba upoštevati tudi mednarodna priporočila, ki jih je treba aplicirati in prilagoditi za slovenski jezik in za konkretne vire.

Ti standardi so:

 

 SGML (Standard Generalized Markup Language) podaja metajezik, ki služi za opis (pretežno) besedilnih dokumentov. Kot standard je bil sprejet že leta 1986 in ima bogato zgodovino uporabe. Določa jezik za predstavitev dokumentov, nad katerimi bodo delovali programi za obdelavo besedil. Eden od osnovnih ciljev SGML je, da so v njem zapisani podatki prenosljivi z ene strojne in programske opreme na drugo brez izgube informacij. Vedno več podjetij, ki imajo opravka z velikimi količinami besedil, prehaja na zapis SGML in vedno več podjetij se ukvarja izključno z izdelovanjem programske opreme ali s pomočjo končnim uporabnikom, da preidejo na ta standard. SGML služi kot osnova množici izvedenih standardov in mednarodnih priporočil.

 

 Medtem ko je HTML (Hypertext Markup Language) kot trenutni standard zapisa spletnih strani samo določen tip dokumentov SGML, je XML (eXtensible Markup Language), sicer še vedno poenostavljen SGML, metajezik za ustvarjanje informacijsko bogatih dokumentov in način za izmenjavo sporočil. Ta jezik je izmenljiv, odporen na tehnološke spremembe in omogoča uporabo dokumentov v različne namene. Zaradi zapletenosti standarda SGML in zaradi vse večjega pomena mrežne izmenjave podatkov je XML postal osnova za množico izvedenih standardov in pobud za zapis različnih zvrsti jezikovnih, pa tudi drugih strukturiranih podatkov.

 

 TEI (Text Encoding Initiative) so priporočila, ki jih upošteva večina projektov, ki zbira jezikovne vire. To so priporočila za pripravo in izmenjavo besedil za raziskovalne in založniške namene. Določajo konkretne oznake SGML in strukturo teh oznak. Priporočila TEI so zaenkrat najbolj natančno izdelani tip dokumentov SGML, ki pokriva raznovrstna gradiva (leposlovje, slovarji, zbirke besedil idr.) ter različne načine dodatnega označevanja teh gradiv (jezikovno, uredniško itn.). Na TEI se dandanes že samoumevno sklicujejo projekti, ki ustvarjajo jezikovne vire, predvsem korpuse. S TEI se povezuje tudi večina standardov, izvedenih iz SGML. Tudi TEI je svoja priporočila v zadnjem času preoblikovala v skladu z jezikom XML.

 

 MARTIF (Machine Readable Terminology Interchange Format) je zvrst dokumentov SGML, ki naj bi standardizirala računalniški zapis terminoloških baz. Primer takšne baze je Eurodicautom. Pretvorba večjega števila terminoloških baz v ta format omogoča iskanje večjega števila uporabnikov in ponovno uporabo vira za druge programe jezikovnih tehnologij.

 

 TMX (Translation Memory eXchange) je zvrst dokumentov SGML/XML, ki naj bi standardizirala računalniški zapis pomnilnikov prevodov. Za zapis pomnilnikov prevodov trenutno prevladujejo industrijski standardi (izdelki Trados in še širše, Word ter Microsoft), postopek standardizacije pa je po začetnem obotavljanju v zadnjih dveh letih zajel skoraj vse ponudnike prevajalskih orodij. Pretvorba pomnilnikov prevodov v ta format omogoča izrabo in izmenjavo večjezičnega vira besedil za izdelavo boljših in bolj ažurnih slovarjev z luščenjem izrazov ter za strojno prevajanje.

                                                              

Ena od bolj jezikovno odvisnih pobud standardizacije so poročila evropske skupine EAGLES, ki skušajo ponuditi skladen zapis jezikovnih virov, ob tem pa ohraniti prilagodljivost, potrebno za opis različnih jezikov. Njihova priporočila upošteva (slovenski) leksikon projekta MULTEXT-East.

Največjo pobudo pri prevzemanju standardov morajo dati tisti, ki jim je v interesu, da se omogoči izmenjava in dolgoročno arhiviranje jezikovnih podatkov. Ker njihovo združevanje in izmenjava omogočata razvoj jezikovnih tehnologij, te pa spodbujajo uporabo državnih jezikov, zastopa to stališče Evropska unija, morala pa bi jo tudi slovenska vlada.

4.3       (POL)SAMODEJNO LUŠČENJE TERMINOLOGIJE

Korpus nam omogoča, da terminologijo zberemo in opazujemo v besedilih, se pravi v naravnem okolju, postopek iskanja izrazov in njihovih prevodnih ustreznic pa je mogoče v precejšnji meri tudi avtomatizirati. Samodejno luščenje terminologije (ang. automatic terminology extraction) iz zbirk dokumentov ali korpusov je ena od ključnih jezikovnih tehnologij, ki se uporablja na mnogih področjih, med drugim za ugotavljanje prevodne ustreznosti, izdelavo področnega terminološkega glosarja in kot podlaga za terminografsko delo, predstavlja pa tudi neizogiben korak pri bodočih iskalnikih podatkov.

 

Pri razvoju te tehnologije se srečamo s številnimi ovirami. Ena od njih je zagotovo (ne)obstoj in (ne)razpoložljivost temeljnih jezikovnih virov in orodij, kot so korpusi, leksikoni, tezavri na eni in osnovni jezikovnotehnološki postopki, kot so tokenizatorji, oblikoskladenjski označevalniki in razčlenjevalniki, na drugi strani.

 

Za luščenje izrazov iz korpusa lahko uporabimo eno od metod, ki temeljijo na statističnih, jezikoslovnih ali kombiniranih pristopih.

 

Statistične metode so še posebej zanimive za manjše jezike, ki z razvojem lastnih jezikovnih tehnologij ne dohajajo velikih (Vintar 1999 in 2002). Te metode izhajajo namreč iz pojmovanja jezika kot niza znakov in besed, v katerem lahko na matematični način odkrivamo vzorce in pravila, ne da bi za to poznali sam jezik in njegova oblikoskladenjska pravila. Temeljijo torej na pogostosti in sopojavljanju in ne zahtevajo označevanja v obliki oblikoskladenjske predobdelave besedil, tako da jih je mogoče uporabljati na kakršnem koli korpusu. Slabost statističnih metod je, da so omejene na iskanje tistih kolokacij, ki se v besedilu ponavljajo, kar pomeni, da precejšen delež izrazov ostane neodkritih, sploh pri majhnih korpusih in oblikoslovno bogati slovenščini. Druga pomanjkljivost pa je, da je potrebno veliko sprotnega poseganja strokovnjakov, da rezultati postanejo uporabni. Ker pa je za slovenščino oblikoskladenjsko označenih besedilnih zbirk še vedno malo, bodo te metode zanimive tudi v prihodnje.

 

Pri jezikovno odvisnih metodah pri iskanju terminologije izhajamo iz temeljne predpostavke, da so večbesedni izrazi tvorjeni po tipičnih skladenjskih vzorcih. Iz njih lahko iz korpusa bistveno laže črpamo možne izraze z analizo jezika, ki temelji na uporabi takšnih ali drugačnih slovničnih pravil, navadno posebej prirejenih za računalniško obdelavo. V praksi korpusnega jezikoslovja to pomeni oblikoskladenjsko označevanje besedila, ki obsega več stopenj, med njimi tudi tokenizacijo (označevanje besed, ločil, številk in okrajšav) in lematizacijo (označevanje osnovnih oblik besed). Na splošno so način označevanja, njegove ravni in globina odvisni od namenov rabe korpusa in zanje pravzaprav ni omejitev.

 

Z metodo skladenjskih vzorcev lahko iščemo tudi kolokacije, ki se pojavijo le enkrat. Prav tako je to metodo izredno enostavno prilagoditi specifičnim potrebam raziskovalne teme, na primer raziskati rabo predložnih glagolov v slovenskih in angleških besedilih. Ima pa še to prednost, da jezikoslovno motivirani pristopi na splošno omogočajo boljše reševanje gnezdenja in variabilnosti. Ovira je le, da se metode označevanja slovenščine šele razvijajo in zaenkrat niso prosto dostopne.

 

Kljub temu, da izdelave pravih terminoloških baz ne bo nikdar mogoče popolnoma avtomatizirati, saj so pri tem številne usklajevalne faze in redakcija s strani področnih strokovnjakov ključnega pomena, pa bi s samodejnim luščenjem terminologije iz korpusov dobili veliko koristnih pomagal za prevajanje in terminološko delo (npr. dvojezični glosar za lažje iskanje prevodnih ustreznic) ter za ponovno uporabo za druge jezikoslovne namene (če seveda zaradi vmesnega poseganja in popravljanja rezultatov to ne bi bilo preveč zamudno).

 

Nadaljnje izboljševanje skladenjskih vzorcev, odkrivanje semantičnih lastnosti izrazov in povezav med njimi bo v prihodnosti pripomoglo k razvoju naprednejših terminoloških tehnologij.

4.4       TERMINOLOGIJA IN POIZVEDOVANJE PO INFORMACIJAH

Terminologijo poleg terminologov in prevajalcev, strokovnjakov in tehničnih piscev uporabljajo tudi bibliotekarji in dokumentalisti, in sicer za označevanje dokumentov (ang. indexing), kar jim omogoča shranjevanje in ponovni dostop do besedil. Pomembno področje uporabnosti naprednih terminoloških tehnologij je zato poizvedovanje po informacijah, tj. priklic dokumentov iz velikih podatkovnih zbirk s pomočjo ključnih besed oz. terminov.

 

V okoljih, kjer so te zbirke še obvladljive velikosti (npr. knjižnice, interne baze podatkov, zbirke zakonov itd.), poteka označevanje dokumentov ročno. Drugod, predvsem v dnevno naraščujoči globalno prepredeni bazi podatkov – spletu, pa so se razvile avtomatske metode. Področje, ki se ukvarja z avtomatskim označevanjem dokumentov in metodami njihovega priklica, se imenuje poizvedovanje po informacijah (ang. information retrieval) (Poizvedovanje po referencah in poizvedovanje po dokumentih 1997/1998, Indeksiranje in tezavri 1997/1998).

 

Poizvedovanje po informacijah se je zelo spremenilo v letih razcveta spleta in prihoda sodobnih in poceni grafičnih vmesnikov ter ogromnih shranjevalnih mehanizmov. Splet je v svojem času obstoja postal učinkovit medij za shranjevanje in posredovanje informacij. Uporabniki lahko poljubno informacijo shranijo v različnih spletnih skladiščih, kjer postane dostopna drugim. Z neustreznim pristopom in brez primernega upravljanja pa se tako skladišče (pre)hitro spremeni v odlagališče, brskanje pa postane utrudljivo in precej neučinkovito. Mednarodne organizacije in institucije si prizadevajo krotiti tehnološki razvoj s standardizacijskimi okviri. Konzorcij svetovnega spleta W3C42 je botroval nastanku prvih tehnologij (HTML, HTTP, URI), na katerih temelji današnje spletno okolje. S tehnologijami, ki bodo postavile novo, učinkovitejšo in bolj prilagodljivo spletno zasnovo, pripravlja Konzorcij podlago za novo generacijo interneta. Novi splet bo sicer kompleksen, toda uporabniku bo nudil več, sicer ne količinsko, ampak kakovostno, saj brskanje po spletu ne bo več potekalo po skladiščih dokumentov, ampak po dokumentih samih (Jerman Blažič 2002).

4.4.1     SEMANTIČNI SPLET

Poslanstvo nove generacije interneta utelešajo trije cilji: univerzalen dostop, medsebojno zaupanje in semantični splet, s katerim se v viziji prihodnosti povezuje sodobna terminologija.

 

Iskalniki so danes sicer sposobni prečesati in označiti veliko število strani, vendar jim vedno ne uspe izluščiti vsebine, ki jo uporabnik zares išče. Spletne strani so namreč z vidika uporabnika iskalnikov razvrščene glede na vsebino, ki jo predstavljajo, ki pa ni nujno tista, ki se jo išče. To skušajo popraviti nekateri iskalni algoritmi, ki pri iskanju upoštevajo pogostost pojavljanja iskalnih nizov. Zaradi omejitev jezika HTML (ki še vedno ostaja namenjen vizualni interpretaciji spletne vsebine) je Konzorcij predstavil XML, metajezik za ustvarjanje informacijsko bogatih dokumentov in način za izmenjavo sporočil, ki nič več ne opisuje zgolj predstavitev posamezne strani ali datoteke, ampak določa, kaj pravzaprav ti podatki so. XML dobesedno loči vsebino od programske logike in kode uporabnikovega vmesnika in s tem osvobodi aplikacijo omejitve na samo en računalniški jezik in platformo. Komunicirajoče stranke v spletu si bodo tako v prihodnosti izmenjevale podatke na osnovi zapisov XML, skupaj s pravili, ki določajo, kako naj bodo ti podatki predstavljeni (Kotnik 2002).

Semantični splet je sklop informacij, povezanih globalno in na tak način, da jih računalniki lahko obdelujejo. Je abstraktna predstavitev podatkov, ki temelji na standardih RDF in drugih standardih, ki se bodo uporabljali z XML-jem. Poizvedovanje po informacijah bo potekalo po vsebini, in sicer z njenim opisom s pojmovnimi oznakami in urejenostjo v zbirki podatkov oz. tezavru. Internet naj bi bil po tej ideji organiziran podobno kot globalni pojmovni metatezaver, iskanje pa naj bi namesto po besednih nizih potekalo po odnosih med pojmi oz. po pomenu.

Podoben način iskanja uporabljajo tudi že današnji spletni iskalniki. Uporabnikom iskalnikov je ponavadi težko oblikovati poizvedbo (ang. query) tako, da bi bilo omogočeno najboljše poizvedovanje po informacijah. Z oblikovanjem hierarhije iskalnik organizira pojme od najbolj splošnih do najbolj specifičnih, pri čemer lahko uporabi statistične (pogostost besed) in jezikovne metode. Uporabniku najprej ponudi področja, v katera sodi pojem (npr. rak kot bolezen, žival ali astrološko znamenje) in tako pomaga pri nadaljnjem bolj specifičnem izbiranju. Primer takega iskanju sta Google43 in Yahoo!44.


5  ZAKLJUČEK

Jezikovne tehnologije so področje računalniškega jezikoslovja, ki se ukvarja z jezikom kot merljivo zbirko udejanjenih primerov rabe z drugačnimi raziskovalnimi metodami, kot jih uporablja klasično jezikoslovje.

 

Poleg dejstva, da nobena slovenska univerza ne nudi študijskih programov računalniškega jezikoslovja in da obstoječa orodja za nekoliko naprednejše raziskave ali bolj specifične potrebe več ne zadoščajo, ostaja potreba po ekipi strokovnjakov, ki bi dopolnjevala delo peščice, ki je uspela zbrati nekatere jezikovne vire, razviti orodja za njihovo osnovno obdelavo in po najboljših močeh razširiti informacije o jezikovnih tehnologijah pri nas in prek meja, z mednarodnim sodelovanjem pri projektih Evropske unije in drugih svetovnih organizacij.

 

Kot vzor učinkovitega dopolnjevanja človeškega dela in samodejnih postopkov nam služijo korpusi, ki postajajo vedno bolj nepogrešljiv vir podatkov za jezikoslovje. Poleg iskanja konkordanc (prikaz besed skupaj s sobesedilom) je mogoča tudi statistična obdelava korpusa, izdelava frekvenčnih seznamov (seznam besed po pogostosti pojavitve), iskanje kolokacij (besed, ki se pogosto pojavljajo v bližini iskanega gesla), označevanje, iskanje po vzporednih besedilih, samodejno iskanje prevodnih ustreznic ipd. S kreativnim združevanjem različnih metod s podatki, ki jih nudi korpus, je mogoče obogatiti terminološko delo, tako da iz njega izluščimo terminološke izraze in jih uporabimo za izboljšanje že obstoječih in izdelavo novih slovarjev ter vzpostavitev terminoloških baz in tezavrov.

 

Za izdelavo kakovostnega korpusa je potrebno zbrati čim večjo količino besedil v elektronski obliki, jim poenotiti zapis in jih bibliografsko, strukturno in jezikovno označiti, za kar je potrebno razviti verigo jezikovno odvisnih postopkov. Ti pa bi bili zelo uporabni tudi pri strojnih prevajalnikih, za izboljšanje delovanja pomnilnikov prevodov in za integracijo obeh prevajalskih orodij, kar bi zelo koristilo prevajalcem Sektorja za prevajanje SVEZ. Z računalniško podporo Prevajalske službe Evropske komisije se Sektorjeva programa s pomnilnikom prevodov in terminološko bazo sicer težko primerjata, vseeno pa lahko prav ta primerjava pomaga SP pri odločitvi, v kakšno prevajalsko in terminološko orodje bo naslednjič investiral in v katero smer bo šel razvoj jezikovnih tehnologij.

 

Pri tem bi morali biti pozorni na orodje kot je TMan, ki samodejno prevede besedilo do te mere, da vanj vstavi ciljne izraze tam, kjer so se prej nahajali izhodiščni (TWSdT 2002).

 

Razmisliti bi morali tudi o strojnem prevajalniku kot je EC SYSTRAN, saj nekaj držav kandidatk za vstop v EU (Madžarska in Poljska v okviru projekta MATCHPAD) že sedaj razvija jezikovno odvisne postopke, potrebne za samodejno prevajanje. Poleg tega bi takšen prevajalnik lahko integrirali v obstoječi pomnilnik prevodov (TWSdT 2002).

 

Če bi šli še dlje in bi imeli dovolj finančnih sredstev, bi lahko svojim prevajalcem v precejšnji meri olajšali delo z lastnim delovnim okoljem, v katero bi bila integrirana vsa v tej nalogi omenjena orodja (tako orodja za spremljanje toka dokumenta kot tudi prevajalska in terminološka orodja), kot jih združuje sistem Euramis Prevajalske službe Evropske komisije.

 

Lahko bi si omislili tudi orodje, ki omogoča (pol)samodejno luščenje terminologije iz pomnilnika prevodov. Tradosov ExtraTerm iX z ročnim označevanjem lušči eno- in večjezične eno- ali večbesedne izraze, ponaša pa se še z dvojezičnim iskanjem konkordanc in filtriranjem, usklajenostjo z MultiTermom, njegovim posodabljanjem in primerjavo starih vnosov z novimi ter izdelavo slovarja iz enega ali več vzporednih besedil. Pri vsem tem pa obljublja še minimalno ročno delo s prijaznim urejevalnikom rezultatov.

 

Korak naprej bi bila tudi izdelava tezavra, pri čemer bi se lahko zgledovali po še eni državi kandidatki – Češki. Večjezičen tezaver Evropske komisije Eurovoc, ki je bil prvotno namenjen označevanju dokumentov v bazah EPOQUE in Celex, Knjižnice Evropskega parlamenta in drugih knjižnic EU, je bil končan leta 1998 (istega leta sta pri prevodu v slovenščino sodelovali tudi terminologinja in lektorica SP). Naloge Evrovoca so bile ustvariti označevalni jezik, popolnoma skladen z označevalnimi jeziki Evropskega parlamenta, izboljšati poizvedovanje po informacijah v knjižnicah in informacijskih organizacijah ter podpirati usklajevanje pravne in strokovne terminologije s terminološkimi standardi EU. Čehi so ga res uporabili tudi v knjižničnem sistemu TINLIB in v svojem parlamentu. Eurovoc je danes dosegljiv na spletu v večjezični obliki45. Po njem se lahko iščejo dokumenti teh dveh baz, s tem pa se njegova raba širi tudi v češki parlament. Seveda pa raziskave na tem tezavru potekajo še naprej (EvrApIn 2000).

 

Sektor je s prispevanjem svojih prevodov (ELAN, Evrokorpus) in terminologije (Evroterm) skušal nakazati smernico, ki bi jo morala upoštevati tudi država in ustanoviti ustrezno institucijo za razvoj računalniškega jezikoslovja ali pa financirati sodelovanje s podjetniki, kar predlaga tudi Evropska komisija (V raziskavah je prihodnost 2002).

 

Z upoštevanjem želja uporabnikov, nasvetov strokovnjakov, z uvajanjem novih znanstvenikov in raziskovalcev, usklajenimi normativnimi pravili ter pripravljenostjo za finančno podporo delu bi razvoj jezikovnih tehnologij pri nas vendarle lahko stekel tako, da se majhnost našega jezika ne bi več odražala tudi v tehnološkem zaostanku.


6  SEZNAM UPORABLJENIH VIROV

An Introduction to Computer Aided Translation (CAT) (ItoCAT) (2002) URL: http://languagepartners.com/reference-center/whitepapers/catinto.htm [17. 8. 2002]

 

Baker, Mona (1995) Corpora in Translation Studies: An Overview and Some Suggestions for Future Research. Target. 7: 2. Amsterdam: John Benjamins Publishing Co. 223-243.

 

Belc, Jasna (2001) Strojno podprto prevajanje. Interno gradivo SVEZ.

 

Erjavec, Tomaž (1997) Računalniške zbirke besedil. V: Jezik in slovstvo. 42: 2/3. 81-96. URL: http://nl.ijs.si/et/Bib/SlKorpus/slKorpus-la2/node2.html

 

Erjavec, Tomaž (1998) Standardizacija zapisa jezikovnih podatkov. V: Erjavec, Tomaž, in Jerneja Gros (ur.) Zbornik konference Jezikovne tehnologije za slovenski jezik. Ljubljana: Institut Jožef Stefan. 119-123. URL: http://nl.ijs.si/isjt98/zbornik/sdjt98-Erjavec.pdf

 

Gorjanc, Vojko (1996) Terminologija novejših naravoslovno-tehničnih strok (ob primeru računalniške in jedrske fizike). V: Vidovič-Muha, Ada (ur.) Jezik in čas. Razprave Filozofske fakultete. Ljubljana: Znanstveni inštitut FF. 251-260.

 

Hirci, Nataša (1998) Korpusi v prevodoslovju. V: Erjavec, Tomaž, in Jerneja Gros (ur.) Zbornik konference Jezikovne tehnologije za slovenski jezik. Ljubljana: Institut Jožef Stefan. 113-118. URL: http://nl.ijs.si/isjt98/zbornik/sdjt98-Hirci.pdf

 

Hutchins, W. John in Harold L. Somers (1992) An Introduction to Machine Translation. San Diego: Academic Press Inc.

 

Hutchins, W. John (1999) The development and use of machine translation systems and computer-based translation tools. International Symposium on Machine Translation and Computer Language Information Processing. Peking. URL: http://ourworld.compuserve.com/homepages/WJHutchins/Beijing.htm [8. 10. 2002]

 

IDC (1998) IDC – Priprava Informacijsko dokumentacijskega centra kot informacijske osnove za proces približevanja Slovenije Evropski uniji. (IDCInfOs) Interno gradivo SVEZ.

 

Ilič, Helena, Erika Golob in Ana Čurič (1999) Predstavitev in ocena programa za strojno prevajanje Langenscheidts T1 Professional. Seminarska naloga. Ljubljana: Oddelek za prevajalstvo, Filozofska fakulteta. http://www2.arnes.si/~svinta/ilic.htm [5. 10. 2002]

 

Indeksiranje in tezavri (1997/1998) Predavanja pri predmetu Informatika 1. Ljubljana: Filozofska fakulteta, Oddelek za bibliotekarstvo. URL: http://www.mf.uni-lj.si/~jure/pred_bib/i1/p3/p3.html [5. 10. 2002]

 

Jerman Blažič, Aleksej (2002) Splet naslednje generacije. PC Magazine. 1: 5. 94-98.

 

Kačič, Zdravko, in sod. (2000) K samodejnemu pridobivanju jezikovnih virov s pomočjo interneta. V: Erjavec, Tomaž, in Jerneja Gros (ur.) Zbornik konference Jezikovne tehnologije za slovenski jezik. Ljubljana: Institut Jožef Stefan. 35-38.

 

Kaj pa kakovost vsebin na svetovnem spletu? (2002) Dnevne novice. URL: http://www.evropska-unija.si/novica.php?id=300 [9. 10. 2002]

 

Košir, Aleš, Primož Peterlin in Tomaž Erjavec (1998) GNUsl: Prosto programje in slovenščina. V: Erjavec, Tomaž, in Jerneja Gros (ur.) Zbornik konference Jezikovne tehnologije za slovenski jezik. Ljubljana: Institut Jožef Stefan. 35-41. URL: http://nl.ijs.si/isjt98/zbornik/sdjt98-Kosir.pdf [10. 10. 2002]

 

Kotnik, Tomaž (2002) Razgaljeni XML. PC Magazine. 1: 5. 84-93.

 

Krstič, Adriana (1998) Problematika prevajanja zakonodaje Evropske unije. V: Erjavec, Tomaž, in Jerneja Gros (ur.) Zbornik konference Jezikovne tehnologije za slovenski jezik. Ljubljana: Institut Jožef Stefan. 92-95. URL: http://nl.ijs.si/isjt98/zbornik/sdjt98-Krstic.pdf

 

Krstič, Adriana in Jasna Belc (2000) Prevajanje pravnih aktov Evropske unije. Interno gradivo SVEZ.

 

Kumiljan, Peter (2002) Programsko orodje in zakonodaja. PC Magazine. 1: 4. 106-109.

 

Lhostká, Anna (2000) The EUROVOC Thesaurus and its Application in the Information System of the Parliament of the Czech Republic (EvrApIn). Parliamentary Library, Czech Parliament. URL: http://www.psp.cz/kps/knih/ECPRD/schwarz.htm [9. 10. 2002]

 

Macphail, Alastair (1999) IATE - Inter-Agency Terminology Exchange. URL: http://www.unilat.org/dtil/etis/actasTDCnet/macphail.htm [29. 9. 2002]

 

Melby, Alan K. (1998) Eight Types of Translation Technology. Predavanje pri Ameriški zvezi prevajalcev. 1-2. URL: http://www.ttt.org/technology/8types.pdf [16. 8. 2002]

 

Oter, Mija (2001) Slovensko računalniško izrazje. Diplomska naloga. Ljubljana: Oddelek za slovenščino, Filozofska fakuleta.

 

Peterlin, Primož, in sod. (2000) Uporaba pomnilnika prevodov pri prevajanju uporabniških vmesnikov v prostih programih. V: Erjavec, Tomaž, in Jerneja Gros (ur.) Zbornik konference Jezikovne tehnologije za slovenski jezik. Ljubljana: Institut Jožef Stefan. 57-63.

 

Pogodba o izvajanju storitev pravne redakcije prevodov aktov Evropskih skupnosti (PogPrRed) (2001). Interno gradivo SVZ.

 

Poizvedovanje po referencah in poizvedovanje po dokumentih (1997/1998) Predavanja pri predmetu Informatika 1: Zbirke dokumentov, avtomatsko indeksiranje 1. Ljubljana: Filozofska fakulteta, Oddelek za bibliotekarstvo. URL: http://www.mf.uni-lj.si/~jure/pred_bib/i2/p1/p1.html [5. 10. 2002]

 

Poslovnik Komisije za pravno redakcijo prevodov pravnih aktov Evropskih skupnosti (PosPrRed) (2002). Interno gradivo SVZ.

 

Pravilnik o notranji organizaciji in sistematizaciji delovnih mest v Službi Vlade Republike Slovenije za evropske zadeve (PraOrSi) (1998) Interno gradivo SVEZ.

 

Rey, Alain (1995a) Description and Control of Terminologies. V: Essays on terminology. Amsterdam: John Benjamins Publishing Company. 158-165.

 

Rey, Alain (1995b) Linguistic and Terminological Standardisation from the Perspective of their Legal Status. V: Essays on terminology. Amsterdam: John Benjamins Publishing Company. 173-179.

 

Rovšek, Jernej (1998) Dostopnost informacij javnega značaja. Letno poročilo varuha človekovih pravi. Poglavje 1.3. Ljubljana: Varuh človekovih pravic. URL: http://www.varuh-rs.si/index.htm [21. 9. 2002]

 

The new generation in translation technology. Translation Guide. (2001) Dublin: Trados.

 

Tomažič, Anton (1998) Vključevanje in povezovanje Slovenije v evropsko pravno informatiko (VkSloEU) . Ljubljana: IUS SOFTWARE, d.o.o. URL: http://ius-info.ius-software.si/euroius/vkljuc99.htm [21. 9. 2002]

 

Tools and Workflow at the Translation Service of the European Commission (TWSdT) (2002) Bruselj: Prevajalska služba Evropske komisije. URL: http://europa.eu.int/comm/dgs/translation/bookshelf/2002_tools_and_workflow_en.pdf [25. 9. 2002]

 

Translating for a multilingual community (2002) Bruselj: Enota RL3 Prevajalske službe Evropske komisije. URL: http://europa.eu.int/comm/dgs/translation/bookshelf/booklet_2002_en.pdf [25. 9. 2002]

 

Vintar, Špela (1998) Programi s pomnilnikom prevodov s stališča morebitnega uporabnika. V: Erjavec, Tomaž, in Jerneja Gros (ur.) Zbornik konference Jezikovne tehnologije za slovenski jezik. Ljubljana: Institut Jožef Stefan. 87-91. URL: http://nl.ijs.si/isjt98/zbornik/sdjt98-Vintar.pdf

 

Vintar, Špela (1999) Računalniško podprto iskanje terminologije v slovensko-angleškem vzporednem korpusu. V: Uporabno jezikoslovje. Ljubljana: Društvo za uporabno jezikoslovje. 7-8. URL: http://www2.arnes.si/~svinta/uj3.rtf

 

Vintar, Špela (2000) Uvod v terminologijo. Študijska gradiva. Ljubljana: Filozofska fakulteta, Oddelek za prevajalstvo. URL: http://www2.arnes.si/~svinta/skripta.htm [15. 8. 2002]

 

Vintar, Špela (2002) Avtomatsko luščenje izrazja iz slovensko-angleških vzporednih besedil. V: Erjavec, Tomaž, in Jerneja Gros (ur.) Zbornik konference Jezikovne tehnologije za slovenski jezik. Ljubljana: Institut Jožef Stefan.

 

V raziskavah je prihodnost (2002) Dnevne novice. URL: http://www.evropska-unija.si/novica.php?id=255 [9. 10. 2002]

 

Webb, Lynn E. (2000) Advantages and Disadvantages of Translation Memory: a Cost/benefit Analysis. Magistrsko delo. Monterey: Translation of German Graduate Division, Monterey Institute of International Studies. URL: http://www.webbsnet.com/translation/thesis.html [5. 10. 2002]

 

Zužič-Žerjal, Breda (1999) Delovni proces prevajanja v Službi Vlade RS za evropske zadeve. Interno gradivo SVEZ.

 

Zužič-Žerjal, Breda (2002) Navodila za prevajanje in lektoriranje prevodov

pravnih aktov Evropskih skupnosti. Interno gradivo SVEZ. URL: http://www.sigov.si/svez [1. 9. 2002]

 

Željko, Miran in Adriana Krstič (2002) Web-based Trados databases – an alternative approach. Ljubljana: CVI.


ZAHVALA

 

Iskreno bi se rada zahvalila vsem, ki so mi pomagali pri izdelavi diplomske naloge in me pri tem spodbujali:

 

 mentorju izr. prof. Rastislavu Šuštaršiču,

 somentorici asist. Špeli Vintar,

 terminologinji Sektorja za prevajanje SVEZ Adriani Krstič,

 strokovnjakom na področju jezikovnih tehnologij Tomažu Erjavcu, Radivoju Fajtu, Primožu Jakopinu, Zdravku Kačiču, Primožu Peterlinu, Miru Romihu in Miranu Željku,

 mami Janini in babici Mariji in

 Romanu.

 

 

 


IZJAVA

 

 

Izjavljam, da sem diplomsko delo izdelala samostojno pod vodstvom mentorja izr. prof. Rastislava Šuštaršiča in somentorice asist. Špele Vintar. Izkazano pomoč drugih sodelavcev sem v celoti navedla v zahvali.

 

 

 

 

Meselina Ponikvar

 



[1] URL: http://www.clsp.jhu.edu/ws99/projects/mt/

[2] URL: http://www.trados.com

[3] URL: http://www.star-transit.com

[4] URL: http://www.linguanet.de/_en/Services/TechnicalDocumentation/TechnicalDocumentation_ TranslationManager.htm

[5] URL: http://www.xplanation.com/

[6] URL: http://www.fsf.org

7 URL: http://nl.ijs.si/GNUsl/

8 URL: http://www.lugos.si/~minmax/

9 URL: http://www.systransoft.com

10 URL: http://www.globalink.org

11 URL: http://www.logos.it/lang/transl_en.html

12 URL: http://www.langenscheidt.de

13 URL: http://www.atril.com

14 URL: http://www.liv.ac.uk/~ms2928

15 URL: http://www.ruf.rice.edu/~barlow/mono.html

16 URL: http://www.ruf.rice.edu/~barlow/parac.html

17 URL: http://www.tei-c.org/Applications/index-mu04.html

18 URL: http://www.hcu.ox.ac.uk/BNC/

19 URL: http://titania.cobuild.collins.co.uk/boe_info.html

20 URL: http://spraakbanken.gu.se/lb/pedant/parabank/parabank.html

21 URL: http://www.brighton.ac.uk/edusport/languages/html/intersect.html

21 URL: http://www.webcorp.org.uk

22 URL: http://nl.ijs.si/et/talks/korpus/vayna-hdr.html

23 URL: http://www.ijs.si/lit/leposl.html-l2

24 URL: http://nl.ijs.si/ME/CD/mte-home.html

25 URL: http://nl.ijs.si/elan/#corpus

26 URL: http://bos.zrc-sazu.si/beseda.html

27 URL: http://bos.zrc-sazu.si/a_beseda.html

28 URL: http://www.fida.net

29 URL: http://www.sigov.si/svez/

30 URL: http://zakonodaja.gov.si

31 URL: http://europa.eu.int/celex/

32 URL: http://europa.eu.int/eurodicautom/login.jsp

33 URL: http://europa.eu.int/eur-lex/

34 URL: http://www.ius-software.si

35 URL: http://www.gov.si/slovar.html

36 URL: http://www.sigov.si/svez

37 URL: http://www.sigov.si/svez

38 URL: http://www.sigov.si/evrokorpus

39 URL: http://www.sigov.si/evroterm

40 URL: http://champollion.net

41 URL: http://www.dz-rs.si/si/aktualno/zakonodaja.html

42 URL: http://www.w3c.org

43 URL: http://www.google.com

44 URL: http://www.yahoo.com

45 URL: http://www.psp.cz/cgi-bin/eng/docs/, http://www.psp.cz/cgi-bin/eng/kps/knih/katalog.htm