|
Slowa najczestsze
O czym najczesciej pisze „Rzeczpospolita”?
Slowniki i korpusy
Rewolucja
informatyczna ubieglego wieku zmienila nie tylko nauki scisle, lecz
takze humanistyke, a w niej moze w najwiekszym stopniu metody jezykoznawstwa i
leksykografii. W im wiekszym stopniu slownik korzysta z autentycznych
przykladow tekstowych, tym bardziej jest wiarygodny. Program
komputerowy buduje liste frekwencyjna z kilkudziesieciu
milionow slow w kilkadziesiat sekund, a cytaty na pojedyncze slowa wyszukuje w
kilka sekund, mozna zatem pozwolic sobie na oparcie opisu na duzym
zbiorze tekstow, ktory nazywamy korpusem. Korpus slownikowy musi byc
odpowiednio zrownowazony ze wzgledu na zrodlo: teksty pisane i
mowione, prasa, ksiazki i druki ulotne, literatura piekna i fachowa,
a takze na temat i czas powstania tekstu.
Lista
cytatow zawierajacych dane slowo w roznorodnym zbiorze tekstow moze
nam powiedziec o nim wiecej niz definicja znaczenia w slowniku. Jesli
np. obejrzymy polaczenia przymiotnika ewidentny, przekonamy
sie, ze oprocz synonimicznej definicji slownikowej ‘oczywisty’
oraz wskazowek stylistycznych „ksiazkowe, naduzywane”
mozna dodac do tej charakterystyki laczliwosc z nazwami zjawisk
raczej negatywnych niz pozytywnych. Wpisanie takiej informacji
bezposrednio do definicji znaczenia jest ryzykowne, poniewaz
polaczenie ‘ewidentna zaleta’ nie jest bledne, tylko
nietypowe. Pokazac to moga w slowniku odpowiednio dobrane cytaty.
Taki
zbior polaczen danego slowa czy jego lokalizacji w zbiorze tekstow
nazywamy konkordancja. Analiza konkordancji sluzyla juz
sredniowiecznym biblistom do opisu znaczen poszczegolnych
rozrzuconych po Biblii slow.
Niektore
wnioski z przegladania korpusu moga jednak, a moze powinny
zainteresowac nie tylko jezykoznawcow. Ponizej przedstawie kilka
obserwacji z listy frekwencyjnej Korpusu Jezyka Polskiego PWN i
korpusu tekstow prasowych „Rzeczpospolitej” z ostatnich
dwoch lat. Obie listy sporzadzono na podstawie korpusu, ktory sluzyl
do opisu znaczen w slownikach PWN, w tym takze w najnowszym
Uniwersalnym slowniku jezyka polskiego.
Korpus
Jezyka Polskiego PWN liczy okolo 100 mln slow, z tego 70 proc. to
korpus zrownowazony. Zawiera on teksty od 1918 roku, z tego dwie
trzecie z lat dziewiecdziesiatych. 65 proc. tych tekstow to ksiazki
beletrystyczne, naukowe i poradnikowe, 25 proc. gazety i czasopisma,
a 10 proc. nagrywane rozmowy prywatne, audycje radiowe i telewizyjne
oraz druki ulotne i teksty ze stron internetowych. W probce korpusu,
dolaczonej do najnowszego slownika, jest nieco mniejszy udzial
ksiazek, a wiecej drukow ulotnych. Cala probka liczy ponad 3700000
slow, niewiele mniejsza jest probka korpusu „Rzeczpospolitej” zlozona z
wydan sobotnich gazety (bez dodatku „Plus Minus”) z drugiej
polowy roku 2000 i calego roku 2001: ponad 3500000 slow.
W
tej probce slowo ewidentny zostalo uzyte 31 razy w tekstach
publicystycznych „Rzeczpospolitej” (ewidentny blad,
brak, ewidentne naruszenie, lamanie prawa) i
tylko 14 razy w zrownowazonym stylistycznie Korpusie Jezyka
Polskiego.
Slowa najczestsze
Na
najwyzszych pozycjach list frekwencyjnych znajduja sie oczywiscie
wyrazy o funkcji czysto gramatycznej, nieznaczacej - przyimki i
spojniki: w korpusie PWN: w, i, byc, sie,
z, na, nie, on, do, ten. W
korpusie „Rzeczpospolitej”, podobnie, tyle ze w tekstach
publicystycznych nieco wyzsza jest czestosc spojnika ze, a
nizsza zaimka ten. Podobnie wyglada poczatek listy
frekwencyjnej dowolnego polskiego tekstu, a takze dobrze znanego
polonistom Slownika frekwencyjnego polszczyzny wspolczesnej,
wydanego w roku 1990, ale opartego na tekstach z lat
szescdziesiatych.
Najczestsze
rzeczowniki w korpusie PWN to rok (pozycja 21 na liscie), czas
(41), czlowiek (42), praca (44) i pan (53)
(ostatni wyraz pelni w rozmowach funkcje czysto gramatyczna,
zaimkowa).
Na
liscie slow „Rzeczopospolitej” rok zajmuje 15.
pozycje, na 22. miejscu jest procent (pisane proc.), na
38. Polska, na 42. sprawa, na 45. milion, na 49.
tysiac, na 50 cena, a na dalszych pozycjach w pierwszej
setce takze: spolka, akcja, firma, osoba,
bank, rynek, prawo, praca, ustawa,
minister, panstwo, rzad i podatek. Te
wyniki nie sa zaskakujace dla czytelnikow „Rzeczpospolitej”, podobnie
jak fakt, ze podstawowych pojec politycznych i ekonomicznych brak w
pierwszej setce slow korpusu zrownowazonego PWN.
Nazwiska
i tytuly osob publicznych wystepowaly w „Rzeczpospolitej” od lipca 2000
do grudnia 2001 w nastepujacej kolejnosci frekwencyjnej: Ojciec
Swiety/ Jan Pawel II/ Papiez, Aleksander Kwasniewski, Jerzy Buzek,
Andrzej Lepper, Marian Krzaklewski.
Kawa czy herbata?
Jesli
policzymy w korpusie PWN czestosc rzeczownikow pospolitych spoza
pierwszej setki, okaze sie m.in., ze:
Najwazniejszym,
tzn. najczesciej wspominanym dniem tygodnia jest niedziela, a
dalej: sobota, piatek, poniedzialek, sroda,
czwartek, wtorek. Jesien i zima sa
czesciej wspominane niz wiosna i lato.
Narody
i kraje, o ktorych najczesciej mowimy, to Niemcy, Rosja
i Rosjanie, Ameryka i Amerykanie oraz Francja
i Francuzi.
Psy
wystepuja w tekstach dwukrotnie czesciej niz koty.
Kawa
jest wymieniana dwukrotnie czesciej niz herbata. Czesciej
mowimy o salacie niz o schabowym, ale na czele wciaz sa
ziemniaki (nieco rzadziej zwane kartoflami). Piwo
i wino wspominamy czesciej (ex aequo) niz wodke.
Najpopularniejszym
samochodem jest fiat, ale zaraz za nim jedzie mercedes
(jako kulturowy symbol bogactwa).
Najwazniejsze
kolory to ex aequo bialy, czarny i czerwony, a
dalej zielony, zolty i niebieski.
Powyzsze
dane mowia cos o popularnosci pojec jako elementow naszej zbiorowej
wyobrazni, a nie o liczebnosci desygnatow. Np. herbaty pije sie w
Polsce wciaz wiecej niz kawy, ale tylko kawa jest u nas symbolem
rytualu kulturowego, spotkania i rozmowy. Kulinarnie Polska wciaz
nalezy do kultury herbaty i szklanki, a nie kawy i filizanki, o czym
swiadcza nie tylko listy frekwencyjne, ale np. fakt, ze szklanka jest
dla nas miara w przepisach kulinarnych (niemieckie i angielskie
przepisy odmierzaja skladniki w filizankach).
W
tym kontekscie cieszy pierwszenstwo salaty przed schabowym.
Pamietajmy jednak, ze czesc tekstow korpusu pochodzi z czasow, w
ktorych kawa w filizance byla rownie rzadka
jak mercedes na ulicy.
W
korpusie „Rzeczpospolitej” i w Slowniku frekwencyjnym
proporcje podanych slow sa podobne, tyle ze w tekstach z lat
szescdziesiatych najczestszym przymiotnikiem okreslajacym narody i
panstwa jest (poza polskim) radziecki, wodka
jest czestsza od wina, a piwo najrzadsze (salata i
schabowy nie zmiescily sie w ogole w Slowniku
frekwencyjnym).
Czy kobiety kochaja czesciej niz mezczyzni?
Slowo
kobieta jest w korpusie wspolczesnym dwukrotnie czestsze niz
mezczyzna, co nie znaczy, ze o kobietach mowi sie i pisze
czesciej. Jesli wierzyc korpusowi, to proporcja podmiotow osobowych
rodzaju meskiego i zenskiego w przecietnym polskim tekscie
literackim, prasowym, naukowym czy mowionym potocznym wynosi 3 do 1.
Tyle razy czestsze sa formy meskie od zenskich czasownikow w 3 os. l.p. czasu przeszlego. Uwzgledniono czasowniki oznaczajace czynnosci
wykonywane wylacznie przez ludzi, i to przez wszystkich jednakowo
czesto, np. powiedziec, myslec, zauwazyc.
Proporcja powiedzial do powiedziala i myslal do
myslala wynosi w Korpusie Jezyka Polskiego 3:1, a zauwazyl
do zauwazyla – 4:1. Proporcje te nie zmieniaja sie
istotnie po odrzuceniu zdan z nieosobowym lub nieokreslonym plciowo
odniesieniem czasownika, np. ktos powiedzial. W korpusie
„Rzeczpospolitej” proporcja powiedzial do powiedziala
wynosi az 7:1, a odpowiednie proporcje bardziej oficjalnych synonimow
oswiadczyl do oswiadczyla 9:1.
Sa
takze w korpusie czasowniki czestsze w rodzaju zenskim niz meskim:
te, ktore oznaczaja czynnosci zdeterminowane biologiczne, np. rodzic,
czy stereotypowo, kulturowo, np. plakac. Co
dziwne, czasowniki kochac i zakochac sie maja czestosci
w obu rodzajach mniej wiecej rowne, co wobec przecietnej 3:1 dla
czynnosci wykonywanej w rzeczywistosci pozajezykowej tak samo czesto
przez mezczyzn i kobiety, budzi watpliwosc, czy kobiety w zyciu nie
kochaja czesciej niz mezczyzni. A przeciez na zdrowy rozum, ten stan
uczuciowy powinien byc mniej wiecej symetryczny (przynajmniej
statystycznie)...
Zarty
na bok, to tylko stereotypowy obraz plci w naszej kulturze, ktora
zajmuje sie czesciej uczuciami kobiet niz mezczyzn. I wciaz wiecej
jest meskich niz zenskich bohaterow wiadomosci prasowych, postaci
historycznych czy literackich.
Interpretacje
socjologiczne albo polityczne tych danych nie sa moim zadaniem, dla
jezykoznawcy wazny jest fakt, ze takie proporcje form meskich do
zenskich sa statystycznym wyjasnieniem niewatpliwej nierownosci w
jezykowym przedstawieniu dwoch rodzajow w odniesieniu do osob na
korzysc rodzaju meskiego. Mozna przypuszczac, ze przed wiekami, kiedy
ksztaltowal sie system gramatyczny polszczyzny i innych jezykow,
proporcje uzycia rzeczownikow osobowych byly jeszcze bardziej
niekorzystne dla rodzaju zenskiego. Np. w Biblii Tysiaclecia
rzeczowniki mezczyzna i maz sa w sumie dwukrotnie
czestsze od slow kobieta i niewiasta, a czasowniki
powiedzial czy rzekl sa ponad kilkunastokrotnie
czestsze od powiedziala i rzekla (dane z Konkordancji
biblijnej oraz z Biblii internetowej).
Statystyka
dostarcza nam czesciowo wyjasnienia obecnego stanu, abstrahuje
natomiast od tego, czy nalezy ten stan zmieniac. Frapujace pytanie,
czy juz niedlugo bedziemy mowic pani docent, czy docentka,
pozostaje wciaz otwarte. Dzis w slownikach nie ma docentki, bo
nie ma tego slowa we wspolczesnych tekstach (choc zdarza sie w
tekstach przedwojennych).
Marek Lazinski
Autor jest polonista jezykoznawca. Opiekuje sie Korpusem Jezyka Polskiego PWN.>
|