|
Słowa tygodnia
Rozpoczynamy
regularną prezentację słów, które w ostatnim tygodniu pojawiały się
na stronach „Rzeczpospolitej” najczęściej. Takie wyrazy:
nazwiska, nazwy miejsc, firm, organizacji, a także rzeczowniki
pospolite, czasowniki i przymiotniki mówią o tym, kto był bohaterem
ostatniego tygodnia, czym zajmowali się politycy i inni ludzie, o
których pisała prasa.
Jak wybieramy?
Słowa
wybiera zespół Korpusu Języka Polskiego w Redakcji Słowników Języka
Polskiego PWN. Ściślej mówiąc wybór pozostawiamy komputerowi, jednak
w tym celu trzeba go wyposażyć w odpowiedni program. Program ten
przygotowuje listę frekwencyjną wszystkich słów użytych w artykułach
z działu Kraj i Świat gazety w ostatnim tygodniu. Do dyspozycji mamy
też materiał porównawczy - kilkunastokrotnie większą listę słów z kilku ostatnich miesięcy. Wyrazy na obu listach są odmienione po polsku, tzn.
częstość form gazeta i gazety obliczona jest łącznie.
Aby wybrać słowa kluczowe, wystarczy tylko porównać częstości
względne danego leksemu (wszystkich form gramatycznych jednego
wyrazu) na obu listach. Wyraz, który w ostatnim tygodniu pojawił się
w gazecie 100 razy, a w całym kwartale 300 razy, jest kluczowy,
ponieważ czterokrotnie częstszy niż można się było spodziewać na podstawie
listy kwartalnej. Gdyby jego częstość względna miała być taka sama, to w tekstach ostatniego tygodnia pojawiłby się 12 razy rzadziej niż w całym kwartale, czyli 25 razy.
Taka
procedura wyklucza z listy słów tygodnia te, które pojawiają się
najczęściej w każdym polskim tekście. Lista frekwencyjna dowolnego
tekstu zacznie się od przyimków w i z, potem nastąpi
być, i, się, to, nie i inne wyrazy
(kolejność może się nieznacznie zmieniać).
Ponieważ przyimek w w każdym tekście jest najczęstszy
(przeciętnie 3,5% wszystkich wyrazów), to nie zmieni swojej pozycji z
tygodnia na tydzień. Lista frekwencyjna wszystkich słów
„Rzeczpospolitej” z 80 wydań z okresu półtora roku zamieszona jest na
płycie CD z Korpusem Języka Polskiego PWN. Na tej samej płycie
znajduje się lista frekwencyjna Korpusu, czyli zbioru tekstów z
kilkuset książek, gazet i przepisanych rozmów, z którego korzysta
wydawnictwo przy opisywaniu znaczenia w słownikach. Cały korpus PWN
liczy około 100 milionów słów i jest zrównoważony stylistycznie,
regionalnie, chronologicznie oraz ze względu na rodzaj źródła, zwiera
także teksty ulotek i stron internetowych. Czym różni się lista
korpusu odzwierciedlającego wszystkie użycia języka od listy korpusu
tekstów prasowych, a także szerzej - co wynika z częstości słów –
można się dowiedzieć z tekstu Słowa najczęstsze.
Problemy gramatyczne i statystyczne.
Program
przygotowujący listy odmienia polskie wyrazy, ale nie jest
przygotowany do odmiany nowych nazwisk i wyrazów. Na szczęście można
go tej odmiany nauczyć na bieżąco, dopisując wzory dla nowych słów.
Znacznie
większym problemem od samej odmiany jest w polszczyźnie homonimia
form gramatycznych, tzn. fakt, że ten sam ciąg liter może mieć różne
znaczenie gramatyczne (np. biernik rzeczowników męskorzeczowych i
nijakich zawsze równy jest mianownikowi) lub leksykalne (np. myśli
to 3 os. lp. cz. ter. czasownika myśleć albo dopełniacz,
celownik czy miejscownik lp. rzeczownika myśl). Program
liczący słowa nie może decydować o interpretacji form homonimicznych
w każdym zdaniu, liczy więc wszystkie jednostki myśli
, a
następnie rozdziela je według proporcji zadanej na wstępie,
sprawdzonej poprzez ręczne oznakowanie wzorcowego tekstu. W przypadku
słowa myśli jest to 67% form od myśl i 33% od myśleć.
Frekwencje wzorcowe form homonimicznych podaje także Słownik
frekwencyjny współczesnej polszczyzny, oparty na tekstach sprzed
30 lat, można mu więc zaufać w wypadku myśli, ale nie słów,
które pojawiły się lub zyskały na popularności po 1989 roku.
Kiedy
budowaliśmy po raz pierwszy listę frekwencyjną słów "Rzeczpospolitej",
zaskoczyła nas bardzo wysoka frekwencja leksemu proca. Czyżby powrót starej broni podwórkowej? Nie, po prostu w gazetach stosuje się zwykle skrót proc. zamiast znaku
%. Oczywiście program już się nauczył, że forma proc. w 100%
należy do wyrazu procent.
Homonimia
form odmiany tego samego leksemu , np. dopełniacz, celownik i
miejscownik od myśl, nie przeszkadza na końcowej liście
frekwencyjnej, ponieważ wszystkie formy leksemu i tak są sumowane.
Marek Łaziński
Korpus Języka Polskiego PWN
|