Słowa tygodnia

Rozpoczynamy regularną prezentację słów, które w ostatnim tygodniu pojawiały się na stronach „Rzeczpospolitej” najczęściej. Takie wyrazy: nazwiska, nazwy miejsc, firm, organizacji, a także rzeczowniki pospolite, czasowniki i przymiotniki mówią o tym, kto był bohaterem ostatniego tygodnia, czym zajmowali się politycy i inni ludzie, o których pisała prasa.

Jak wybieramy?

Słowa wybiera zespół Korpusu Języka Polskiego w Redakcji Słowników Języka Polskiego PWN. Ściślej mówiąc wybór pozostawiamy komputerowi, jednak w tym celu trzeba go wyposażyć w odpowiedni program. Program ten przygotowuje listę frekwencyjną wszystkich słów użytych w artykułach z działu Kraj i Świat gazety w ostatnim tygodniu. Do dyspozycji mamy też materiał porównawczy - kilkunastokrotnie większą listę słów z kilku ostatnich miesięcy. Wyrazy na obu listach są odmienione po polsku, tzn. częstość form gazeta i gazety obliczona jest łącznie. Aby wybrać słowa kluczowe, wystarczy tylko porównać częstości względne danego leksemu (wszystkich form gramatycznych jednego wyrazu) na obu listach. Wyraz, który w ostatnim tygodniu pojawił się w gazecie 100 razy, a w całym kwartale 300 razy, jest kluczowy, ponieważ czterokrotnie częstszy niż można się było spodziewać na podstawie listy kwartalnej. Gdyby jego częstość względna miała być taka sama, to w tekstach ostatniego tygodnia pojawiłby się 12 razy rzadziej niż w całym kwartale, czyli 25 razy.

Taka procedura wyklucza z listy słów tygodnia te, które pojawiają się najczęściej w każdym polskim tekście. Lista frekwencyjna dowolnego tekstu zacznie się od przyimków w i z, potem nastąpi być, i, się, to, nie i inne wyrazy (kolejność może się nieznacznie zmieniać). Ponieważ przyimek w w każdym tekście jest najczęstszy (przeciętnie 3,5% wszystkich wyrazów), to nie zmieni swojej pozycji z tygodnia na tydzień. Lista frekwencyjna wszystkich słów „Rzeczpospolitej” z 80 wydań z okresu półtora roku zamieszona jest na płycie CD z Korpusem Języka Polskiego PWN. Na tej samej płycie znajduje się lista frekwencyjna Korpusu, czyli zbioru tekstów z kilkuset książek, gazet i przepisanych rozmów, z którego korzysta wydawnictwo przy opisywaniu znaczenia w słownikach. Cały korpus PWN liczy około 100 milionów słów i jest zrównoważony stylistycznie, regionalnie, chronologicznie oraz ze względu na rodzaj źródła, zwiera także teksty ulotek i stron internetowych. Czym różni się lista korpusu odzwierciedlającego wszystkie użycia języka od listy korpusu tekstów prasowych, a także szerzej - co wynika z częstości słów – można się dowiedzieć z tekstu Słowa najczęstsze.

Problemy gramatyczne i statystyczne.

Program przygotowujący listy odmienia polskie wyrazy, ale nie jest przygotowany do odmiany nowych nazwisk i wyrazów. Na szczęście można go tej odmiany nauczyć na bieżąco, dopisując wzory dla nowych słów.

Znacznie większym problemem od samej odmiany jest w polszczyźnie homonimia form gramatycznych, tzn. fakt, że ten sam ciąg liter może mieć różne znaczenie gramatyczne (np. biernik rzeczowników męskorzeczowych i nijakich zawsze równy jest mianownikowi) lub leksykalne (np. myśli to 3 os. lp. cz. ter. czasownika myśleć albo dopełniacz, celownik czy miejscownik lp. rzeczownika myśl). Program liczący słowa nie może decydować o interpretacji form homonimicznych w każdym zdaniu, liczy więc wszystkie jednostki myśli , a następnie rozdziela je według proporcji zadanej na wstępie, sprawdzonej poprzez ręczne oznakowanie wzorcowego tekstu. W przypadku słowa myśli jest to 67% form od myśl i 33% od myśleć. Frekwencje wzorcowe form homonimicznych podaje także Słownik frekwencyjny współczesnej polszczyzny, oparty na tekstach sprzed 30 lat, można mu więc zaufać w wypadku myśli, ale nie słów, które pojawiły się lub zyskały na popularności po 1989 roku.

Kiedy budowaliśmy po raz pierwszy listę frekwencyjną słów "Rzeczpospolitej", zaskoczyła nas bardzo wysoka frekwencja leksemu proca. Czyżby powrót starej broni podwórkowej? Nie, po prostu w gazetach stosuje się zwykle skrót proc. zamiast znaku %. Oczywiście program już się nauczył, że forma proc. w 100% należy do wyrazu procent.

Homonimia form odmiany tego samego leksemu , np. dopełniacz, celownik i miejscownik od myśl, nie przeszkadza na końcowej liście frekwencyjnej, ponieważ wszystkie formy leksemu i tak są sumowane.

Marek Łaziński

Korpus Języka Polskiego PWN

| Bez polskich znaków |
| Rzeczpospolita | Archiwum | Serwis Ekonomiczny | Serwis Prawny | Cennik | Regulamin | Serwis WAP | Prenumerata
| Reklama | English/Deutsch | O nas | Praca i staże | Zgłaszanie uwag | Kontakt |
© Copyright by Presspublica Sp. z o.o.