Przejdź do głównej treści

Widok zawartości stron Widok zawartości stron

Nawigacja okruszkowa Nawigacja okruszkowa

Widok zawartości stron Widok zawartości stron

Widok zawartości stron Widok zawartości stron

Co to jest stylometria?

Co to jest stylometria?

Niegdyś odnalezienie anonimowego autora tekstu było niemożliwe. Aktualnie stylometria jest narzędziem, które pozwala na identyfikowanie twórców na podstawie policzalnych cech językowych tekstu – na przykład częstotliwości występowania słów. Badania takie są też prowadzone na Uniwersytecie Jagiellońskim. O swoiste wkroczenie matematyki do poetyki zapytaliśmy dr. Michała Choińskiego i dr. Jana Rybickiego z Instytutu Filologii Angielskiej UJ.

Metody stylometryczne, których podwaliny przed ponad stu laty zostały sformułowane przez Wincentego Lutosławskiego, słynnego badacza dzieł Platona, są dziś głównym narzędziem badań anglistów z UJ – dr. Choińskiego i dr. Rybickiego, którzy wykorzystywali je w ramach zakończonego właśnie grantu „Język osiemnastowiecznych amerykańskich kazań kolonialnych. Analiza retoryczna i stylometryczna”*. 

Warto mieć na uwadze, że stylometria, jako jedno z wysoce miarodajnych narzędzi do analitycznych badań językowych, jest wciąż przedmiotem ciągłego doskonalenia i rozwija się na całym świecie. Uniwersytet Jagielloński jest znaczącym ośrodkiem takich badań jako członek DARIAH-PL (Digital Research Infrastructure for the Arts and Humanities), największego obecnie konsorcjum humanistycznego w Polsce. 

W poszukiwaniu zaginionego autora

Stylometria to metoda badawcza, pozwalająca ustalić autora lub chronologię tekstu w oparciu o wnikliwą analizę przy wykorzystaniu nowatorskich metod komputerowych. Zakłada ona, że sposób pisania każdego człowieka jest do pewnego stopnia indywidualny, i że dzieła pisane w podobnym okresie są do siebie bardziej podobne niż te, które dzieli większy odstęp czasu. Obliczając częstości występowania słów – czasem tych bardzo mało „znaczących”, mierząc powtarzalność i frekwencję pewnych językowych struktur możemy więc – przy pomocy metod stylometrycznych – stwierdzić, kto i kiedy napisał badany tekst.

Pytań odnoszących się do tej metody jest bardzo wiele. Zainteresowanie, jakie wzbudzają jej wyniki, a właściwie nie tyle same wyniki, co imponujące i niezmiernie wysokie prawdopodobieństwo ich prawidłowości, jest coraz większe. Przyjrzyjmy się więc bliżej jej meritum.

„Z pozoru wydawałoby się, że jest to bardzo proste. Gdy policzymy frekwencję najczęściej występujących słów w danym zbiorze tekstów i porównamy te szeregi między sobą, okaże się, że będą one najbardziej podobne między tekstami napisanymi przez tego samego autora” mówi dr Rybicki. Biorąc pod uwagę, że każda dłuższa wypowiedź językowa składa się w niemal połowie ze stu najczęstszych słów, porównanie proporcji tychże właśnie wyrazów może wskazać na tak silne różnice osobnicze, że identyfikacja autorska nie sprawi nam żadnego problemu. Ta pierwsza setka to zazwyczaj trywialne i pozornie nudne słowa, np. w języku angielskim „and”, „but” czy „the”, a w języku polskim „się”, „nie” czy „tu”. Jak się jednak okazuje, są to fundamentalne elementy stylu językowego każdego człowieka. Dzieje się tak mimo tego że stylometria bazuje na modelu języka jako „worka słów” (ang. „bag of words”), z którego wyrzucony jest kontekst, składnia, związki gramatyczne i znaki przestankowe. Zostaje tylko słowo, którego frekwencję występowania trzeba po prostu policzyć, a następnie wyznaczyć proporcje względem innych, obdartych ze wszelkiego językowego namaszczenia wyrazów.

Dlaczego właśnie takie niepozorne słowa determinują unikatowy styl pisania każdego człowieka? „Tego wciąż nie wiadomo. Często pracujemy tylko na frekwencjach pojedynczych słów, bo to właśnie one lepiej, niż długości zdań czy stosowana interpunkcja, pozwalają na klasyfikację tekstów ze względu na autorstwo, czas powstania, rodzaj literacki czy płeć autora. Oczywiście jest to trochę mało intuicyjne – tak rozwalać tekst metaforycznym młotkiem na drobny, słowny mak. W dodatku nie do końca wiemy, jak to działa, ale na podstawie wielu eksperymentów wiemy, że działa bardzo dobrze” wyjaśnia dr Choiński, który obecnie używa metod stylometrycznych do badań nad osiemnastowieczną literaturą amerykańską.

Niewątpliwy potencjał zastosowania metod stylometrycznych, odzwierciedlony szybkim i intensywnym rozwojem badań i narzędzi w tej dziedzinie, jest bez wątpienia czymś, co w przyszłości może znacznie poszerzyć zasób naszej wiedzy oraz percepcję poznawczą.

Obecne badania prowadzone przez zespół badaczy na UJ w ramach grantu OPUS pozwalają na ustalenie autorstwa tych tekstów, których atrybucja czy też chronologiczne ułożenie względem siebie są niejasne. „Byłoby bardzo ciekawym zobaczyć, w jaki sposób frekwencje słów zmieniały się na przestrzeni wieków, jednak im bardziej się cofamy, tym jest nam trudniej” komentuje dr Choiński. Właśnie z tego względu badacze z Instytutu Filologii Angielskiej UJ poprosili o pomoc naukowców z Yale University, którzy byli w stanie przekazać im odpowiednio przygotowany olbrzymi korpus, składający się z kilku tysięcy obrobionych XVIII-wiecznych tekstów. „Digital humanities to przede wszystkim współpraca i kooperatywność” dodaje.

Ekshumacja bez oględzin zwłok

Dzisiejsza analiza stylometryczna pozwala na weryfikowanie informacji z całego wachlarza domysłów. W związku tym, że w pewnym sensie dotyka ona bardzo pierwotnych kwestii, opierających się na indywidualnym formułowaniu myśli przez każdego z nas, jej wyniki mogą znacznie wykraczać poza klasyczną interpretację językową. „Istnieją badania prowadzone przez zespół złożony z psychiatrów i literaturoznawców, którzy analizując przypadki z przeszłości, próbowali przewidzieć po językowej konstrukcji powieści, czy dany autor popełni samobójstwo” wyjaśnia dr Rybicki.

Tego typu badania, wchodzące już w zakres socjolingwistyki, przy pomocy narzędzi stylometrycznych pozwalają na identyfikację takich chorób jak schizofrenia czy zespół dwubiegunowy. Ciekawym przypadkiem jest również postać pisarki Agathy Christie. Naukowcy zbudowali model zmian w języku innej pisarki, o której wiadomo było, że zmarła z powodu choroby Alzheimera. „Zauważyli przede wszystkim spadek różnorodności słownictwa oraz zwrot w używaniu większej liczby słów o bardzo ogólnym znaczeniu, a następnie zastosowali ten model w interpretacji stylometrycznej dzieł Christie co potwierdziło, de facto bez wyjmowania jej ciała z grobu, że rzeczywiście Alzheimer był powodem śmierci pisarki” objaśnia dr Rybicki.

Ciekawym aspektem potencjału stylometrii jest również to, że można badać w ten sposób znacznie więcej tekstów, niż jest to możliwe w drodze tradycyjnej analizy literackiej. Pytanie, jakie można stawiać wielu tysiącom powieści, są oczywiście inne, ale mogą dawać równie ciekawe odpowiedzi. „Oczywiście żaden ze znanych mi stylometrów nie uważa, że czytanie książek odejdzie kiedyś do lamusa, a książki poznawać będziemy tylko za pomocą badań komputerowych” uspokaja dr Rybicki.

*(NCN OPUS 2014/13/B/HS2/00905)

Agnieszka Defus

---------------------------------------------------

Ciekawe? Przeczytaj także: 

Polecamy również
Alicja po drugiej stronie lustra

Alicja po drugiej stronie lustra

Dwujęzyczność – problem czy błogosławieństwo? [LangUsta cz. 2]

Dwujęzyczność – problem czy błogosławieństwo? [LangUsta cz. 2]

O tym, jak mózg krojąc słowa, przyswaja nowy język [LangUsta cz. I]

O tym, jak mózg krojąc słowa, przyswaja nowy język [LangUsta cz. I]

Nauka języka morskich ssaków, czyli co delfin miał na myśli?

Nauka języka morskich ssaków, czyli co delfin miał na myśli?