|
Slowa tygodnia
Rozpoczynamy
regularna prezentacje slow, ktore w ostatnim tygodniu pojawialy sie
na stronach „Rzeczpospolitej” najczesciej. Takie wyrazy:
nazwiska, nazwy miejsc, firm, organizacji, a takze rzeczowniki
pospolite, czasowniki i przymiotniki mowia o tym, kto byl bohaterem
ostatniego tygodnia, czym zajmowali sie politycy i inni ludzie, o
ktorych pisala prasa.
Jak wybieramy?
Slowa
wybiera zespol Korpusu Jezyka Polskiego w Redakcji Slownikow Jezyka
Polskiego PWN. Scislej mowiac wybor pozostawiamy komputerowi, jednak
w tym celu trzeba go wyposazyc w odpowiedni program. Program ten
przygotowuje liste frekwencyjna wszystkich slow uzytych w artykulach
z dzialu Kraj i Swiat gazety w ostatnim tygodniu. Do dyspozycji mamy
tez material porownawczy - kilkunastokrotnie wieksza liste slow z kilku ostatnich miesiecy. Wyrazy na obu listach sa odmienione po polsku, tzn.
czestosc form gazeta i gazety obliczona jest lacznie.
Aby wybrac slowa kluczowe, wystarczy tylko porownac czestosci
wzgledne danego leksemu (wszystkich form gramatycznych jednego
wyrazu) na obu listach. Wyraz, ktory w ostatnim tygodniu pojawil sie
w gazecie 100 razy, a w calym kwartale 300 razy, jest kluczowy,
poniewaz czterokrotnie czestszy niz mozna sie bylo spodziewac na podstawie
listy kwartalnej. Gdyby jego czestosc wzgledna miala byc taka sama, to w tekstach ostatniego tygodnia pojawilby sie 12 razy rzadziej niz w calym kwartale, czyli 25 razy.
Taka
procedura wyklucza z listy slow tygodnia te, ktore pojawiaja sie
najczesciej w kazdym polskim tekscie. Lista frekwencyjna dowolnego
tekstu zacznie sie od przyimkow w i z, potem nastapi
byc, i, sie, to, nie i inne wyrazy
(kolejnosc moze sie nieznacznie zmieniac).
Poniewaz przyimek w w kazdym tekscie jest najczestszy
(przecietnie 3,5% wszystkich wyrazow), to nie zmieni swojej pozycji z
tygodnia na tydzien. Lista frekwencyjna wszystkich slow
„Rzeczpospolitej” z 80 wydan z okresu poltora roku zamieszona jest na
plycie CD z Korpusem Jezyka Polskiego PWN. Na tej samej plycie
znajduje sie lista frekwencyjna Korpusu, czyli zbioru tekstow z
kilkuset ksiazek, gazet i przepisanych rozmow, z ktorego korzysta
wydawnictwo przy opisywaniu znaczenia w slownikach. Caly korpus PWN
liczy okolo 100 milionow slow i jest zrownowazony stylistycznie,
regionalnie, chronologicznie oraz ze wzgledu na rodzaj zrodla, zwiera
takze teksty ulotek i stron internetowych. Czym rozni sie lista
korpusu odzwierciedlajacego wszystkie uzycia jezyka od listy korpusu
tekstow prasowych, a takze szerzej - co wynika z czestosci slow –
mozna sie dowiedziec z tekstu Slowa najczestsze.
Problemy gramatyczne i statystyczne.
Program
przygotowujacy listy odmienia polskie wyrazy, ale nie jest
przygotowany do odmiany nowych nazwisk i wyrazow. Na szczescie mozna
go tej odmiany nauczyc na biezaco, dopisujac wzory dla nowych slow.
Znacznie
wiekszym problemem od samej odmiany jest w polszczyznie homonimia
form gramatycznych, tzn. fakt, ze ten sam ciag liter moze miec rozne
znaczenie gramatyczne (np. biernik rzeczownikow meskorzeczowych i
nijakich zawsze rowny jest mianownikowi) lub leksykalne (np. mysli
to 3 os. lp. cz. ter. czasownika myslec albo dopelniacz,
celownik czy miejscownik lp. rzeczownika mysl). Program
liczacy slowa nie moze decydowac o interpretacji form homonimicznych
w kazdym zdaniu, liczy wiec wszystkie jednostki mysli
, a
nastepnie rozdziela je wedlug proporcji zadanej na wstepie,
sprawdzonej poprzez reczne oznakowanie wzorcowego tekstu. W przypadku
slowa mysli jest to 67% form od mysl i 33% od myslec.
Frekwencje wzorcowe form homonimicznych podaje takze Slownik
frekwencyjny wspolczesnej polszczyzny, oparty na tekstach sprzed
30 lat, mozna mu wiec zaufac w wypadku mysli, ale nie slow,
ktore pojawily sie lub zyskaly na popularnosci po 1989 roku.
Kiedy
budowalismy po raz pierwszy liste frekwencyjna slow "Rzeczpospolitej",
zaskoczyla nas bardzo wysoka frekwencja leksemu proca. Czyzby powrot starej broni podworkowej? Nie, po prostu w gazetach stosuje sie zwykle skrot proc. zamiast znaku
%. Oczywiscie program juz sie nauczyl, ze forma proc. w 100%
nalezy do wyrazu procent.
Homonimia
form odmiany tego samego leksemu , np. dopelniacz, celownik i
miejscownik od mysl, nie przeszkadza na koncowej liscie
frekwencyjnej, poniewaz wszystkie formy leksemu i tak sa sumowane.
Marek Lazinski
Korpus Jezyka Polskiego PWN
|