|
Słowa najczęstsze
O czym najczęściej pisze „Rzeczpospolita”?
Słowniki i korpusy
Rewolucja
informatyczna ubiegłego wieku zmieniła nie tylko nauki ścisłe, lecz
także humanistykę, a w niej może w największym stopniu metody językoznawstwa i
leksykografii. W im większym stopniu słownik korzysta z autentycznych
przykładów tekstowych, tym bardziej jest wiarygodny. Program
komputerowy buduje listę frekwencyjną z kilkudziesięciu
milionów słów w kilkadziesiąt sekund, a cytaty na pojedyncze słowa wyszukuje w
kilka sekund, można zatem pozwolić sobie na oparcie opisu na dużym
zbiorze tekstów, który nazywamy korpusem. Korpus słownikowy musi być
odpowiednio zrównoważony ze względu na źródło: teksty pisane i
mówione, prasa, książki i druki ulotne, literatura piękna i fachowa,
a także na temat i czas powstania tekstu.
Lista
cytatów zawierających dane słowo w różnorodnym zbiorze tekstów może
nam powiedzieć o nim więcej niż definicja znaczenia w słowniku. Jeśli
np. obejrzymy połączenia przymiotnika ewidentny, przekonamy
się, że oprócz synonimicznej definicji słownikowej ‘oczywisty’
oraz wskazówek stylistycznych „książkowe, nadużywane”
można dodać do tej charakterystyki łączliwość z nazwami zjawisk
raczej negatywnych niż pozytywnych. Wpisanie takiej informacji
bezpośrednio do definicji znaczenia jest ryzykowne, ponieważ
połączenie ‘ewidentna zaleta’ nie jest błędne, tylko
nietypowe. Pokazać to mogą w słowniku odpowiednio dobrane cytaty.
Taki
zbiór połączeń danego słowa czy jego lokalizacji w zbiorze tekstów
nazywamy konkordancją. Analiza konkordancji służyła już
średniowiecznym biblistom do opisu znaczeń poszczególnych
rozrzuconych po Biblii słów.
Niektóre
wnioski z przeglądania korpusu mogą jednak, a może powinny
zainteresować nie tylko językoznawców. Poniżej przedstawię kilka
obserwacji z listy frekwencyjnej Korpusu Języka Polskiego PWN i
korpusu tekstów prasowych „Rzeczpospolitej” z ostatnich
dwóch lat. Obie listy sporządzono na podstawie korpusu, który służył
do opisu znaczeń w słownikach PWN, w tym także w najnowszym
Uniwersalnym słowniku języka polskiego.
Korpus
Języka Polskiego PWN liczy około 100 mln słów, z tego 70 proc. to
korpus zrównoważony. Zawiera on teksty od 1918 roku, z tego dwie
trzecie z lat dziewięćdziesiątych. 65 proc. tych tekstów to książki
beletrystyczne, naukowe i poradnikowe, 25 proc. gazety i czasopisma,
a 10 proc. nagrywane rozmowy prywatne, audycje radiowe i telewizyjne
oraz druki ulotne i teksty ze stron internetowych. W próbce korpusu,
dołączonej do najnowszego słownika, jest nieco mniejszy udział
książek, a więcej druków ulotnych. Cała próbka liczy ponad 3700000
słów, niewiele mniejsza jest próbka korpusu „Rzeczpospolitej” złożona z
wydań sobotnich gazety (bez dodatku „Plus Minus”) z drugiej
połowy roku 2000 i całego roku 2001: ponad 3500000 słów.
W
tej próbce słowo ewidentny zostało użyte 31 razy w tekstach
publicystycznych „Rzeczpospolitej” (ewidentny błąd,
brak, ewidentne naruszenie, łamanie prawa) i
tylko 14 razy w zrównoważonym stylistycznie Korpusie Języka
Polskiego.
Słowa najczęstsze
Na
najwyższych pozycjach list frekwencyjnych znajdują się oczywiście
wyrazy o funkcji czysto gramatycznej, nieznaczącej - przyimki i
spójniki: w korpusie PWN: w, i, być, się,
z, na, nie, on, do, ten. W
korpusie „Rzeczpospolitej”, podobnie, tyle że w tekstach
publicystycznych nieco wyższa jest częstość spójnika że, a
niższa zaimka ten. Podobnie wygląda początek listy
frekwencyjnej dowolnego polskiego tekstu, a także dobrze znanego
polonistom Słownika frekwencyjnego polszczyzny współczesnej,
wydanego w roku 1990, ale opartego na tekstach z lat
sześćdziesiątych.
Najczęstsze
rzeczowniki w korpusie PWN to rok (pozycja 21 na liście), czas
(41), człowiek (42), praca (44) i pan (53)
(ostatni wyraz pełni w rozmowach funkcję czysto gramatyczną,
zaimkową).
Na
liście słów „Rzeczopospolitej” rok zajmuje 15.
pozycję, na 22. miejscu jest procent (pisane proc.), na
38. Polska, na 42. sprawa, na 45. milion, na 49.
tysiąc, na 50 cena, a na dalszych pozycjach w pierwszej
setce także: spółka, akcja, firma, osoba,
bank, rynek, prawo, praca, ustawa,
minister, państwo, rząd i podatek. Te
wyniki nie są zaskakujące dla czytelników „Rzeczpospolitej”, podobnie
jak fakt, że podstawowych pojęć politycznych i ekonomicznych brak w
pierwszej setce słów korpusu zrównoważonego PWN.
Nazwiska
i tytuły osób publicznych występowały w „Rzeczpospolitej” od lipca 2000
do grudnia 2001 w następującej kolejności frekwencyjnej: Ojciec
Świety/ Jan Paweł II/ Papież, Aleksander Kwaśniewski, Jerzy Buzek,
Andrzej Lepper, Marian Krzaklewski.
Kawa czy herbata?
Jeśli
policzymy w korpusie PWN częstość rzeczowników pospolitych spoza
pierwszej setki, okaże się m.in., że:
Najważniejszym,
tzn. najczęściej wspominanym dniem tygodnia jest niedziela, a
dalej: sobota, piątek, poniedziałek, środa,
czwartek, wtorek. Jesień i zima są
częściej wspominane niż wiosna i lato.
Narody
i kraje, o których najczęściej mówimy, to Niemcy, Rosja
i Rosjanie, Ameryka i Amerykanie oraz Francja
i Francuzi.
Psy
występują w tekstach dwukrotnie częściej niż koty.
Kawa
jest wymieniana dwukrotnie częściej niż herbata. Częściej
mówimy o sałacie niż o schabowym, ale na czele wciąż są
ziemniaki (nieco rzadziej zwane kartoflami). Piwo
i wino wspominamy częściej (ex aequo) niż wódkę.
Najpopularniejszym
samochodem jest fiat, ale zaraz za nim jedzie mercedes
(jako kulturowy symbol bogactwa).
Najważniejsze
kolory to ex aequo biały, czarny i czerwony, a
dalej zielony, żółty i niebieski.
Powyższe
dane mówią coś o popularności pojęć jako elementów naszej zbiorowej
wyobraźni, a nie o liczebności desygnatów. Np. herbaty pije się w
Polsce wciąż więcej niż kawy, ale tylko kawa jest u nas symbolem
rytuału kulturowego, spotkania i rozmowy. Kulinarnie Polska wciąż
należy do kultury herbaty i szklanki, a nie kawy i filiżanki, o czym
świadczą nie tylko listy frekwencyjne, ale np. fakt, że szklanka jest
dla nas miarą w przepisach kulinarnych (niemieckie i angielskie
przepisy odmierzają składniki w filiżankach).
W
tym kontekście cieszy pierwszeństwo sałaty przed schabowym.
Pamiętajmy jednak, że część tekstów korpusu pochodzi z czasów, w
których kawa w filiżance była równie rzadka
jak mercedes na ulicy.
W
korpusie „Rzeczpospolitej” i w Słowniku frekwencyjnym
proporcje podanych słów są podobne, tyle że w tekstach z lat
sześćdziesiątych najczęstszym przymiotnikiem określającym narody i
państwa jest (poza polskim) radziecki, wódka
jest częstsza od wina, a piwo najrzadsze (sałata i
schabowy nie zmieściły się w ogóle w Słowniku
frekwencyjnym).
Czy kobiety kochają częściej niż mężczyźni?
Słowo
kobieta jest w korpusie współczesnym dwukrotnie częstsze niż
mężczyzna, co nie znaczy, że o kobietach mówi się i pisze
częściej. Jeśli wierzyć korpusowi, to proporcja podmiotów osobowych
rodzaju męskiego i żeńskiego w przeciętnym polskim tekście
literackim, prasowym, naukowym czy mówionym potocznym wynosi 3 do 1.
Tyle razy częstsze są formy męskie od żeńskich czasowników w 3 os. l.p. czasu przeszłego. Uwzględniono czasowniki oznaczające czynności
wykonywane wyłącznie przez ludzi, i to przez wszystkich jednakowo
często, np. powiedzieć, myśleć, zauważyć.
Proporcja powiedział do powiedziała i myślał do
myślała wynosi w Korpusie Języka Polskiego 3:1, a zauważył
do zauważyła – 4:1. Proporcje te nie zmieniają się
istotnie po odrzuceniu zdań z nieosobowym lub nieokreślonym płciowo
odniesieniem czasownika, np. ktoś powiedział. W korpusie
„Rzeczpospolitej” proporcja powiedział do powiedziała
wynosi aż 7:1, a odpowiednie proporcje bardziej oficjalnych synonimów
oświadczył do oświadczyła 9:1.
Są
także w korpusie czasowniki częstsze w rodzaju żeńskim niż męskim:
te, które oznaczają czynności zdeterminowane biologiczne, np. rodzić,
czy stereotypowo, kulturowo, np. płakać. Co
dziwne, czasowniki kochać i zakochać się mają częstości
w obu rodzajach mniej więcej równe, co wobec przeciętnej 3:1 dla
czynności wykonywanej w rzeczywistości pozajęzykowej tak samo często
przez mężczyzn i kobiety, budzi wątpliwość, czy kobiety w życiu nie
kochają częściej niż mężczyźni. A przecież na zdrowy rozum, ten stan
uczuciowy powinien być mniej więcej symetryczny (przynajmniej
statystycznie)...
Żarty
na bok, to tylko stereotypowy obraz płci w naszej kulturze, która
zajmuje się częściej uczuciami kobiet niż mężczyzn. I wciąż więcej
jest męskich niż żeńskich bohaterów wiadomości prasowych, postaci
historycznych czy literackich.
Interpretacje
socjologiczne albo polityczne tych danych nie są moim zadaniem, dla
językoznawcy ważny jest fakt, że takie proporcje form męskich do
żeńskich są statystycznym wyjaśnieniem niewątpliwej nierówności w
językowym przedstawieniu dwóch rodzajów w odniesieniu do osób na
korzyść rodzaju męskiego. Można przypuszczać, że przed wiekami, kiedy
kształtował się system gramatyczny polszczyzny i innych języków,
proporcje użycia rzeczowników osobowych były jeszcze bardziej
niekorzystne dla rodzaju żeńskiego. Np. w Biblii Tysiąclecia
rzeczowniki mężczyzna i mąż są w sumie dwukrotnie
częstsze od słów kobieta i niewiasta, a czasowniki
powiedział czy rzekł są ponad kilkunastokrotnie
częstsze od powiedziała i rzekła (dane z Konkordancji
biblijnej oraz z Biblii internetowej).
Statystyka
dostarcza nam częściowo wyjaśnienia obecnego stanu, abstrahuje
natomiast od tego, czy należy ten stan zmieniać. Frapujące pytanie,
czy już niedługo będziemy mówić pani docent, czy docentka,
pozostaje wciąż otwarte. Dziś w słownikach nie ma docentki, bo
nie ma tego słowa we współczesnych tekstach (choć zdarza się w
tekstach przedwojennych).
Marek Łaziński
Autor jest polonistą językoznawcą. Opiekuje sie Korpusem Języka Polskiego PWN.>
|