Slowa tygodnia

Rozpoczynamy regularna prezentacje slow, ktore w ostatnim tygodniu pojawialy sie na stronach „Rzeczpospolitej” najczesciej. Takie wyrazy: nazwiska, nazwy miejsc, firm, organizacji, a takze rzeczowniki pospolite, czasowniki i przymiotniki mowia o tym, kto byl bohaterem ostatniego tygodnia, czym zajmowali sie politycy i inni ludzie, o ktorych pisala prasa.

Jak wybieramy?

Slowa wybiera zespol Korpusu Jezyka Polskiego w Redakcji Slownikow Jezyka Polskiego PWN. Scislej mowiac wybor pozostawiamy komputerowi, jednak w tym celu trzeba go wyposazyc w odpowiedni program. Program ten przygotowuje liste frekwencyjna wszystkich slow uzytych w artykulach z dzialu Kraj i Swiat gazety w ostatnim tygodniu. Do dyspozycji mamy tez material porownawczy - kilkunastokrotnie wieksza liste slow z kilku ostatnich miesiecy. Wyrazy na obu listach sa odmienione po polsku, tzn. czestosc form gazeta i gazety obliczona jest lacznie. Aby wybrac slowa kluczowe, wystarczy tylko porownac czestosci wzgledne danego leksemu (wszystkich form gramatycznych jednego wyrazu) na obu listach. Wyraz, ktory w ostatnim tygodniu pojawil sie w gazecie 100 razy, a w calym kwartale 300 razy, jest kluczowy, poniewaz czterokrotnie czestszy niz mozna sie bylo spodziewac na podstawie listy kwartalnej. Gdyby jego czestosc wzgledna miala byc taka sama, to w tekstach ostatniego tygodnia pojawilby sie 12 razy rzadziej niz w calym kwartale, czyli 25 razy.

Taka procedura wyklucza z listy slow tygodnia te, ktore pojawiaja sie najczesciej w kazdym polskim tekscie. Lista frekwencyjna dowolnego tekstu zacznie sie od przyimkow w i z, potem nastapi byc, i, sie, to, nie i inne wyrazy (kolejnosc moze sie nieznacznie zmieniac). Poniewaz przyimek w w kazdym tekscie jest najczestszy (przecietnie 3,5% wszystkich wyrazow), to nie zmieni swojej pozycji z tygodnia na tydzien. Lista frekwencyjna wszystkich slow „Rzeczpospolitej” z 80 wydan z okresu poltora roku zamieszona jest na plycie CD z Korpusem Jezyka Polskiego PWN. Na tej samej plycie znajduje sie lista frekwencyjna Korpusu, czyli zbioru tekstow z kilkuset ksiazek, gazet i przepisanych rozmow, z ktorego korzysta wydawnictwo przy opisywaniu znaczenia w slownikach. Caly korpus PWN liczy okolo 100 milionow slow i jest zrownowazony stylistycznie, regionalnie, chronologicznie oraz ze wzgledu na rodzaj zrodla, zwiera takze teksty ulotek i stron internetowych. Czym rozni sie lista korpusu odzwierciedlajacego wszystkie uzycia jezyka od listy korpusu tekstow prasowych, a takze szerzej - co wynika z czestosci slow – mozna sie dowiedziec z tekstu Slowa najczestsze.

Problemy gramatyczne i statystyczne.

Program przygotowujacy listy odmienia polskie wyrazy, ale nie jest przygotowany do odmiany nowych nazwisk i wyrazow. Na szczescie mozna go tej odmiany nauczyc na biezaco, dopisujac wzory dla nowych slow.

Znacznie wiekszym problemem od samej odmiany jest w polszczyznie homonimia form gramatycznych, tzn. fakt, ze ten sam ciag liter moze miec rozne znaczenie gramatyczne (np. biernik rzeczownikow meskorzeczowych i nijakich zawsze rowny jest mianownikowi) lub leksykalne (np. mysli to 3 os. lp. cz. ter. czasownika myslec albo dopelniacz, celownik czy miejscownik lp. rzeczownika mysl). Program liczacy slowa nie moze decydowac o interpretacji form homonimicznych w kazdym zdaniu, liczy wiec wszystkie jednostki mysli , a nastepnie rozdziela je wedlug proporcji zadanej na wstepie, sprawdzonej poprzez reczne oznakowanie wzorcowego tekstu. W przypadku slowa mysli jest to 67% form od mysl i 33% od myslec. Frekwencje wzorcowe form homonimicznych podaje takze Slownik frekwencyjny wspolczesnej polszczyzny, oparty na tekstach sprzed 30 lat, mozna mu wiec zaufac w wypadku mysli, ale nie slow, ktore pojawily sie lub zyskaly na popularnosci po 1989 roku.

Kiedy budowalismy po raz pierwszy liste frekwencyjna slow "Rzeczpospolitej", zaskoczyla nas bardzo wysoka frekwencja leksemu proca. Czyzby powrot starej broni podworkowej? Nie, po prostu w gazetach stosuje sie zwykle skrot proc. zamiast znaku %. Oczywiscie program juz sie nauczyl, ze forma proc. w 100% nalezy do wyrazu procent.

Homonimia form odmiany tego samego leksemu , np. dopelniacz, celownik i miejscownik od mysl, nie przeszkadza na koncowej liscie frekwencyjnej, poniewaz wszystkie formy leksemu i tak sa sumowane.

Marek Lazinski

Korpus Jezyka Polskiego PWN

| ISO-Latin2 |   
| Rzeczpospolita | Archiwum | Serwis Ekonomiczny | Serwis Prawny | Cennik | Regulamin | Serwis WAP | Prenumerata
| Reklama | English/Deutsch | O nas | Praca i staze | Zglaszanie uwag | Kontakt |
© Copyright by Presspublica Sp. z o.o.