Slowa najczestsze

O czym najczesciej pisze „Rzeczpospolita”?

Slowniki i korpusy

Rewolucja informatyczna ubieglego wieku zmienila nie tylko nauki scisle, lecz takze humanistyke, a w niej moze w najwiekszym stopniu metody jezykoznawstwa i leksykografii. W im wiekszym stopniu slownik korzysta z autentycznych przykladow tekstowych, tym bardziej jest wiarygodny. Program komputerowy buduje liste frekwencyjna z kilkudziesieciu milionow slow w kilkadziesiat sekund, a cytaty na pojedyncze slowa wyszukuje w kilka sekund, mozna zatem pozwolic sobie na oparcie opisu na duzym zbiorze tekstow, ktory nazywamy korpusem. Korpus slownikowy musi byc odpowiednio zrownowazony ze wzgledu na zrodlo: teksty pisane i mowione, prasa, ksiazki i druki ulotne, literatura piekna i fachowa, a takze na temat i czas powstania tekstu.

Lista cytatow zawierajacych dane slowo w roznorodnym zbiorze tekstow moze nam powiedziec o nim wiecej niz definicja znaczenia w slowniku. Jesli np. obejrzymy polaczenia przymiotnika ewidentny, przekonamy sie, ze oprocz synonimicznej definicji slownikowej ‘oczywisty’ oraz wskazowek stylistycznych „ksiazkowe, naduzywane” mozna dodac do tej charakterystyki laczliwosc z nazwami zjawisk raczej negatywnych niz pozytywnych. Wpisanie takiej informacji bezposrednio do definicji znaczenia jest ryzykowne, poniewaz polaczenie ‘ewidentna zaleta’ nie jest bledne, tylko nietypowe. Pokazac to moga w slowniku odpowiednio dobrane cytaty.

Taki zbior polaczen danego slowa czy jego lokalizacji w zbiorze tekstow nazywamy konkordancja. Analiza konkordancji sluzyla juz sredniowiecznym biblistom do opisu znaczen poszczegolnych rozrzuconych po Biblii slow.

Niektore wnioski z przegladania korpusu moga jednak, a moze powinny zainteresowac nie tylko jezykoznawcow. Ponizej przedstawie kilka obserwacji z listy frekwencyjnej Korpusu Jezyka Polskiego PWN i korpusu tekstow prasowych „Rzeczpospolitej” z ostatnich dwoch lat. Obie listy sporzadzono na podstawie korpusu, ktory sluzyl do opisu znaczen w slownikach PWN, w tym takze w najnowszym Uniwersalnym slowniku jezyka polskiego.

Korpus Jezyka Polskiego PWN liczy okolo 100 mln slow, z tego 70 proc. to korpus zrownowazony. Zawiera on teksty od 1918 roku, z tego dwie trzecie z lat dziewiecdziesiatych. 65 proc. tych tekstow to ksiazki beletrystyczne, naukowe i poradnikowe, 25 proc. gazety i czasopisma, a 10 proc. nagrywane rozmowy prywatne, audycje radiowe i telewizyjne oraz druki ulotne i teksty ze stron internetowych. W probce korpusu, dolaczonej do najnowszego slownika, jest nieco mniejszy udzial ksiazek, a wiecej drukow ulotnych. Cala probka liczy ponad 3700000 slow, niewiele mniejsza jest probka korpusu „Rzeczpospolitej” zlozona z wydan sobotnich gazety (bez dodatku „Plus Minus”) z drugiej polowy roku 2000 i calego roku 2001: ponad 3500000 slow.

W tej probce slowo ewidentny zostalo uzyte 31 razy w tekstach publicystycznych „Rzeczpospolitej” (ewidentny blad, brak, ewidentne naruszenie, lamanie prawa) i tylko 14 razy w zrownowazonym stylistycznie Korpusie Jezyka Polskiego.

Slowa najczestsze

Na najwyzszych pozycjach list frekwencyjnych znajduja sie oczywiscie wyrazy o funkcji czysto gramatycznej, nieznaczacej - przyimki i spojniki: w korpusie PWN: w, i, byc, sie, z, na, nie, on, do, ten. W korpusie „Rzeczpospolitej”, podobnie, tyle ze w tekstach publicystycznych nieco wyzsza jest czestosc spojnika ze, a nizsza zaimka ten. Podobnie wyglada poczatek listy frekwencyjnej dowolnego polskiego tekstu, a takze dobrze znanego polonistom Slownika frekwencyjnego polszczyzny wspolczesnej, wydanego w roku 1990, ale opartego na tekstach z lat szescdziesiatych.

Najczestsze rzeczowniki w korpusie PWN to rok (pozycja 21 na liscie), czas (41), czlowiek (42), praca (44) i pan (53) (ostatni wyraz pelni w rozmowach funkcje czysto gramatyczna, zaimkowa).

Na liscie slow „Rzeczopospolitej” rok zajmuje 15. pozycje, na 22. miejscu jest procent (pisane proc.), na 38. Polska, na 42. sprawa, na 45. milion, na 49. tysiac, na 50 cena, a na dalszych pozycjach w pierwszej setce takze: spolka, akcja, firma, osoba, bank, rynek, prawo, praca, ustawa, minister, panstwo, rzad i podatek. Te wyniki nie sa zaskakujace dla czytelnikow „Rzeczpospolitej”, podobnie jak fakt, ze podstawowych pojec politycznych i ekonomicznych brak w pierwszej setce slow korpusu zrownowazonego PWN.

Nazwiska i tytuly osob publicznych wystepowaly w „Rzeczpospolitej” od lipca 2000 do grudnia 2001 w nastepujacej kolejnosci frekwencyjnej: Ojciec Swiety/ Jan Pawel II/ Papiez, Aleksander Kwasniewski, Jerzy Buzek, Andrzej Lepper, Marian Krzaklewski.

Kawa czy herbata?

Jesli policzymy w korpusie PWN czestosc rzeczownikow pospolitych spoza pierwszej setki, okaze sie m.in., ze:

Najwazniejszym, tzn. najczesciej wspominanym dniem tygodnia jest niedziela, a dalej: sobota, piatek, poniedzialek, sroda, czwartek, wtorek. Jesien i zima sa czesciej wspominane niz wiosna i lato.

Narody i kraje, o ktorych najczesciej mowimy, to Niemcy, Rosja i Rosjanie, Ameryka i Amerykanie oraz Francja i Francuzi.

Psy wystepuja w tekstach dwukrotnie czesciej niz koty.

Kawa jest wymieniana dwukrotnie czesciej niz herbata. Czesciej mowimy o salacie niz o schabowym, ale na czele wciaz sa ziemniaki (nieco rzadziej zwane kartoflami). Piwo i wino wspominamy czesciej (ex aequo) niz wodke.

Najpopularniejszym samochodem jest fiat, ale zaraz za nim jedzie mercedes (jako kulturowy symbol bogactwa).

Najwazniejsze kolory to ex aequo bialy, czarny i czerwony, a dalej zielony, zolty i niebieski.

Powyzsze dane mowia cos o popularnosci pojec jako elementow naszej zbiorowej wyobrazni, a nie o liczebnosci desygnatow. Np. herbaty pije sie w Polsce wciaz wiecej niz kawy, ale tylko kawa jest u nas symbolem rytualu kulturowego, spotkania i rozmowy. Kulinarnie Polska wciaz nalezy do kultury herbaty i szklanki, a nie kawy i filizanki, o czym swiadcza nie tylko listy frekwencyjne, ale np. fakt, ze szklanka jest dla nas miara w przepisach kulinarnych (niemieckie i angielskie przepisy odmierzaja skladniki w filizankach).

W tym kontekscie cieszy pierwszenstwo salaty przed schabowym. Pamietajmy jednak, ze czesc tekstow korpusu pochodzi z czasow, w ktorych kawa w filizance byla rownie rzadka jak mercedes na ulicy.

W korpusie „Rzeczpospolitej” i w Slowniku frekwencyjnym proporcje podanych slow sa podobne, tyle ze w tekstach z lat szescdziesiatych najczestszym przymiotnikiem okreslajacym narody i panstwa jest (poza polskim) radziecki, wodka jest czestsza od wina, a piwo najrzadsze (salata i schabowy nie zmiescily sie w ogole w Slowniku frekwencyjnym).

Czy kobiety kochaja czesciej niz mezczyzni?

Slowo kobieta jest w korpusie wspolczesnym dwukrotnie czestsze niz mezczyzna, co nie znaczy, ze o kobietach mowi sie i pisze czesciej. Jesli wierzyc korpusowi, to proporcja podmiotow osobowych rodzaju meskiego i zenskiego w przecietnym polskim tekscie literackim, prasowym, naukowym czy mowionym potocznym wynosi 3 do 1. Tyle razy czestsze sa formy meskie od zenskich czasownikow w 3 os. l.p. czasu przeszlego. Uwzgledniono czasowniki oznaczajace czynnosci wykonywane wylacznie przez ludzi, i to przez wszystkich jednakowo czesto, np. powiedziec, myslec, zauwazyc. Proporcja powiedzial do powiedziala i myslal do myslala wynosi w Korpusie Jezyka Polskiego 3:1, a zauwazyl do zauwazyla – 4:1. Proporcje te nie zmieniaja sie istotnie po odrzuceniu zdan z nieosobowym lub nieokreslonym plciowo odniesieniem czasownika, np. ktos powiedzial. W korpusie „Rzeczpospolitej” proporcja powiedzial do powiedziala wynosi az 7:1, a odpowiednie proporcje bardziej oficjalnych synonimow oswiadczyl do oswiadczyla 9:1.

Sa takze w korpusie czasowniki czestsze w rodzaju zenskim niz meskim: te, ktore oznaczaja czynnosci zdeterminowane biologiczne, np. rodzic, czy stereotypowo, kulturowo, np. plakac. Co dziwne, czasowniki kochac i zakochac sie maja czestosci w obu rodzajach mniej wiecej rowne, co wobec przecietnej 3:1 dla czynnosci wykonywanej w rzeczywistosci pozajezykowej tak samo czesto przez mezczyzn i kobiety, budzi watpliwosc, czy kobiety w zyciu nie kochaja czesciej niz mezczyzni. A przeciez na zdrowy rozum, ten stan uczuciowy powinien byc mniej wiecej symetryczny (przynajmniej statystycznie)...

Zarty na bok, to tylko stereotypowy obraz plci w naszej kulturze, ktora zajmuje sie czesciej uczuciami kobiet niz mezczyzn. I wciaz wiecej jest meskich niz zenskich bohaterow wiadomosci prasowych, postaci historycznych czy literackich.

Interpretacje socjologiczne albo polityczne tych danych nie sa moim zadaniem, dla jezykoznawcy wazny jest fakt, ze takie proporcje form meskich do zenskich sa statystycznym wyjasnieniem niewatpliwej nierownosci w jezykowym przedstawieniu dwoch rodzajow w odniesieniu do osob na korzysc rodzaju meskiego. Mozna przypuszczac, ze przed wiekami, kiedy ksztaltowal sie system gramatyczny polszczyzny i innych jezykow, proporcje uzycia rzeczownikow osobowych byly jeszcze bardziej niekorzystne dla rodzaju zenskiego. Np. w Biblii Tysiaclecia rzeczowniki mezczyzna i maz sa w sumie dwukrotnie czestsze od slow kobieta i niewiasta, a czasowniki powiedzial czy rzekl sa ponad kilkunastokrotnie czestsze od powiedziala i rzekla (dane z Konkordancji biblijnej oraz z Biblii internetowej).

Statystyka dostarcza nam czesciowo wyjasnienia obecnego stanu, abstrahuje natomiast od tego, czy nalezy ten stan zmieniac. Frapujace pytanie, czy juz niedlugo bedziemy mowic pani docent, czy docentka, pozostaje wciaz otwarte. Dzis w slownikach nie ma docentki, bo nie ma tego slowa we wspolczesnych tekstach (choc zdarza sie w tekstach przedwojennych).

Marek Lazinski

Autor jest polonista jezykoznawca. Opiekuje sie Korpusem Jezyka Polskiego PWN.

| ISO-Latin2 |   
| Rzeczpospolita | Archiwum | Serwis Ekonomiczny | Serwis Prawny | Cennik | Regulamin | Serwis WAP | Prenumerata
| Reklama | English/Deutsch | O nas | Praca i staze | Zglaszanie uwag | Kontakt |
© Copyright by Presspublica Sp. z o.o.