Słowa najczęstsze

O czym najczęściej pisze „Rzeczpospolita”?

Słowniki i korpusy

Rewolucja informatyczna ubiegłego wieku zmieniła nie tylko nauki ścisłe, lecz także humanistykę, a w niej może w największym stopniu metody językoznawstwa i leksykografii. W im większym stopniu słownik korzysta z autentycznych przykładów tekstowych, tym bardziej jest wiarygodny. Program komputerowy buduje listę frekwencyjną z kilkudziesięciu milionów słów w kilkadziesiąt sekund, a cytaty na pojedyncze słowa wyszukuje w kilka sekund, można zatem pozwolić sobie na oparcie opisu na dużym zbiorze tekstów, który nazywamy korpusem. Korpus słownikowy musi być odpowiednio zrównoważony ze względu na źródło: teksty pisane i mówione, prasa, książki i druki ulotne, literatura piękna i fachowa, a także na temat i czas powstania tekstu.

Lista cytatów zawierających dane słowo w różnorodnym zbiorze tekstów może nam powiedzieć o nim więcej niż definicja znaczenia w słowniku. Jeśli np. obejrzymy połączenia przymiotnika ewidentny, przekonamy się, że oprócz synonimicznej definicji słownikowej ‘oczywisty’ oraz wskazówek stylistycznych „książkowe, nadużywane” można dodać do tej charakterystyki łączliwość z nazwami zjawisk raczej negatywnych niż pozytywnych. Wpisanie takiej informacji bezpośrednio do definicji znaczenia jest ryzykowne, ponieważ połączenie ‘ewidentna zaleta’ nie jest błędne, tylko nietypowe. Pokazać to mogą w słowniku odpowiednio dobrane cytaty.

Taki zbiór połączeń danego słowa czy jego lokalizacji w zbiorze tekstów nazywamy konkordancją. Analiza konkordancji służyła już średniowiecznym biblistom do opisu znaczeń poszczególnych rozrzuconych po Biblii słów.

Niektóre wnioski z przeglądania korpusu mogą jednak, a może powinny zainteresować nie tylko językoznawców. Poniżej przedstawię kilka obserwacji z listy frekwencyjnej Korpusu Języka Polskiego PWN i korpusu tekstów prasowych „Rzeczpospolitej” z ostatnich dwóch lat. Obie listy sporządzono na podstawie korpusu, który służył do opisu znaczeń w słownikach PWN, w tym także w najnowszym Uniwersalnym słowniku języka polskiego.

Korpus Języka Polskiego PWN liczy około 100 mln słów, z tego 70 proc. to korpus zrównoważony. Zawiera on teksty od 1918 roku, z tego dwie trzecie z lat dziewięćdziesiątych. 65 proc. tych tekstów to książki beletrystyczne, naukowe i poradnikowe, 25 proc. gazety i czasopisma, a 10 proc. nagrywane rozmowy prywatne, audycje radiowe i telewizyjne oraz druki ulotne i teksty ze stron internetowych. W próbce korpusu, dołączonej do najnowszego słownika, jest nieco mniejszy udział książek, a więcej druków ulotnych. Cała próbka liczy ponad 3700000 słów, niewiele mniejsza jest próbka korpusu „Rzeczpospolitej” złożona z wydań sobotnich gazety (bez dodatku „Plus Minus”) z drugiej połowy roku 2000 i całego roku 2001: ponad 3500000 słów.

W tej próbce słowo ewidentny zostało użyte 31 razy w tekstach publicystycznych „Rzeczpospolitej” (ewidentny błąd, brak, ewidentne naruszenie, łamanie prawa) i tylko 14 razy w zrównoważonym stylistycznie Korpusie Języka Polskiego.

Słowa najczęstsze

Na najwyższych pozycjach list frekwencyjnych znajdują się oczywiście wyrazy o funkcji czysto gramatycznej, nieznaczącej - przyimki i spójniki: w korpusie PWN: w, i, być, się, z, na, nie, on, do, ten. W korpusie „Rzeczpospolitej”, podobnie, tyle że w tekstach publicystycznych nieco wyższa jest częstość spójnika że, a niższa zaimka ten. Podobnie wygląda początek listy frekwencyjnej dowolnego polskiego tekstu, a także dobrze znanego polonistom Słownika frekwencyjnego polszczyzny współczesnej, wydanego w roku 1990, ale opartego na tekstach z lat sześćdziesiątych.

Najczęstsze rzeczowniki w korpusie PWN to rok (pozycja 21 na liście), czas (41), człowiek (42), praca (44) i pan (53) (ostatni wyraz pełni w rozmowach funkcję czysto gramatyczną, zaimkową).

Na liście słów „Rzeczopospolitej” rok zajmuje 15. pozycję, na 22. miejscu jest procent (pisane proc.), na 38. Polska, na 42. sprawa, na 45. milion, na 49. tysiąc, na 50 cena, a na dalszych pozycjach w pierwszej setce także: spółka, akcja, firma, osoba, bank, rynek, prawo, praca, ustawa, minister, państwo, rząd i podatek. Te wyniki nie są zaskakujące dla czytelników „Rzeczpospolitej”, podobnie jak fakt, że podstawowych pojęć politycznych i ekonomicznych brak w pierwszej setce słów korpusu zrównoważonego PWN.

Nazwiska i tytuły osób publicznych występowały w „Rzeczpospolitej” od lipca 2000 do grudnia 2001 w następującej kolejności frekwencyjnej: Ojciec Świety/ Jan Paweł II/ Papież, Aleksander Kwaśniewski, Jerzy Buzek, Andrzej Lepper, Marian Krzaklewski.

Kawa czy herbata?

Jeśli policzymy w korpusie PWN częstość rzeczowników pospolitych spoza pierwszej setki, okaże się m.in., że:

Najważniejszym, tzn. najczęściej wspominanym dniem tygodnia jest niedziela, a dalej: sobota, piątek, poniedziałek, środa, czwartek, wtorek. Jesień i zima są częściej wspominane niż wiosna i lato.

Narody i kraje, o których najczęściej mówimy, to Niemcy, Rosja i Rosjanie, Ameryka i Amerykanie oraz Francja i Francuzi.

Psy występują w tekstach dwukrotnie częściej niż koty.

Kawa jest wymieniana dwukrotnie częściej niż herbata. Częściej mówimy o sałacie niż o schabowym, ale na czele wciąż są ziemniaki (nieco rzadziej zwane kartoflami). Piwo i wino wspominamy częściej (ex aequo) niż wódkę.

Najpopularniejszym samochodem jest fiat, ale zaraz za nim jedzie mercedes (jako kulturowy symbol bogactwa).

Najważniejsze kolory to ex aequo biały, czarny i czerwony, a dalej zielony, żółty i niebieski.

Powyższe dane mówią coś o popularności pojęć jako elementów naszej zbiorowej wyobraźni, a nie o liczebności desygnatów. Np. herbaty pije się w Polsce wciąż więcej niż kawy, ale tylko kawa jest u nas symbolem rytuału kulturowego, spotkania i rozmowy. Kulinarnie Polska wciąż należy do kultury herbaty i szklanki, a nie kawy i filiżanki, o czym świadczą nie tylko listy frekwencyjne, ale np. fakt, że szklanka jest dla nas miarą w przepisach kulinarnych (niemieckie i angielskie przepisy odmierzają składniki w filiżankach).

W tym kontekście cieszy pierwszeństwo sałaty przed schabowym. Pamiętajmy jednak, że część tekstów korpusu pochodzi z czasów, w których kawa w filiżance była równie rzadka jak mercedes na ulicy.

W korpusie „Rzeczpospolitej” i w Słowniku frekwencyjnym proporcje podanych słów są podobne, tyle że w tekstach z lat sześćdziesiątych najczęstszym przymiotnikiem określającym narody i państwa jest (poza polskim) radziecki, wódka jest częstsza od wina, a piwo najrzadsze (sałata i schabowy nie zmieściły się w ogóle w Słowniku frekwencyjnym).

Czy kobiety kochają częściej niż mężczyźni?

Słowo kobieta jest w korpusie współczesnym dwukrotnie częstsze niż mężczyzna, co nie znaczy, że o kobietach mówi się i pisze częściej. Jeśli wierzyć korpusowi, to proporcja podmiotów osobowych rodzaju męskiego i żeńskiego w przeciętnym polskim tekście literackim, prasowym, naukowym czy mówionym potocznym wynosi 3 do 1. Tyle razy częstsze są formy męskie od żeńskich czasowników w 3 os. l.p. czasu przeszłego. Uwzględniono czasowniki oznaczające czynności wykonywane wyłącznie przez ludzi, i to przez wszystkich jednakowo często, np. powiedzieć, myśleć, zauważyć. Proporcja powiedział do powiedziała i myślał do myślała wynosi w Korpusie Języka Polskiego 3:1, a zauważył do zauważyła – 4:1. Proporcje te nie zmieniają się istotnie po odrzuceniu zdań z nieosobowym lub nieokreślonym płciowo odniesieniem czasownika, np. ktoś powiedział. W korpusie „Rzeczpospolitej” proporcja powiedział do powiedziała wynosi aż 7:1, a odpowiednie proporcje bardziej oficjalnych synonimów oświadczył do oświadczyła 9:1.

Są także w korpusie czasowniki częstsze w rodzaju żeńskim niż męskim: te, które oznaczają czynności zdeterminowane biologiczne, np. rodzić, czy stereotypowo, kulturowo, np. płakać. Co dziwne, czasowniki kochać i zakochać się mają częstości w obu rodzajach mniej więcej równe, co wobec przeciętnej 3:1 dla czynności wykonywanej w rzeczywistości pozajęzykowej tak samo często przez mężczyzn i kobiety, budzi wątpliwość, czy kobiety w życiu nie kochają częściej niż mężczyźni. A przecież na zdrowy rozum, ten stan uczuciowy powinien być mniej więcej symetryczny (przynajmniej statystycznie)...

Żarty na bok, to tylko stereotypowy obraz płci w naszej kulturze, która zajmuje się częściej uczuciami kobiet niż mężczyzn. I wciąż więcej jest męskich niż żeńskich bohaterów wiadomości prasowych, postaci historycznych czy literackich.

Interpretacje socjologiczne albo polityczne tych danych nie są moim zadaniem, dla językoznawcy ważny jest fakt, że takie proporcje form męskich do żeńskich są statystycznym wyjaśnieniem niewątpliwej nierówności w językowym przedstawieniu dwóch rodzajów w odniesieniu do osób na korzyść rodzaju męskiego. Można przypuszczać, że przed wiekami, kiedy kształtował się system gramatyczny polszczyzny i innych języków, proporcje użycia rzeczowników osobowych były jeszcze bardziej niekorzystne dla rodzaju żeńskiego. Np. w Biblii Tysiąclecia rzeczowniki mężczyzna i mąż są w sumie dwukrotnie częstsze od słów kobieta i niewiasta, a czasowniki powiedział czy rzekł są ponad kilkunastokrotnie częstsze od powiedziała i rzekła (dane z Konkordancji biblijnej oraz z Biblii internetowej).

Statystyka dostarcza nam częściowo wyjaśnienia obecnego stanu, abstrahuje natomiast od tego, czy należy ten stan zmieniać. Frapujące pytanie, czy już niedługo będziemy mówić pani docent, czy docentka, pozostaje wciąż otwarte. Dziś w słownikach nie ma docentki, bo nie ma tego słowa we współczesnych tekstach (choć zdarza się w tekstach przedwojennych).

Marek Łaziński

Autor jest polonistą językoznawcą. Opiekuje sie Korpusem Języka Polskiego PWN.

| Bez polskich znaków |
| Rzeczpospolita | Archiwum | Serwis Ekonomiczny | Serwis Prawny | Cennik | Regulamin | Serwis WAP | Prenumerata
| Reklama | English/Deutsch | O nas | Praca i staże | Zgłaszanie uwag | Kontakt |
© Copyright by Presspublica Sp. z o.o.