О І Ванівська - Корпусні та лексикографічні технології опису мовної системи термінознавство - страница 1

Страницы:
1  2  3  4  5  6  7  8  9  10  11  12  13  14  15  16  17  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89  90  91  92  93  94  95  96 

НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ "ОСТРОЗЬКА АКАДЕМІЯ"

 

 

 

НАУКОВІ ЗАПИСКИ

 

 

 

 

 

 

 

 

 

Серія "Філологічна"

 

 

 

 

 

 

Випуск 27

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Острог — 2012УДК: 81. 161. 2+

81. 111 ББК: 81. 2 Укр. +

81. 2 Англ.

Н 34

 

Рекомендовано до друку вченою радою Національного університету "Острозька академія" (протокол № 8 від 29 березня 2012 року).

 

Збірник затверджено постановою президії ВАК України від 22 квітня 2011 року № 1-05/4

 

Редакційна колегія:

Архангельська А. М., доктор філологічних наук, професор; Білоус П. В., доктор філологічних наук, професор; Вокальчук Г. М., доктор філологічних наук, доцент; Пасічник І. Д., доктор психологічних наук, професор; Поліщук Я. О., доктор філологічних наук, професор; Тищенко О. В., доктор філологічних наук, професор;

Хом'як І. М., доктор педагогічних наук, професор, академік АН ВШ України; Яворська Г. М., доктор філологічних наук, професор.

 

 

 

Укладачі:

Ковальчук І. В., кандидат психологічних наук, доцент. Коцюк Л. М., кандидат філологічних наук, доцент. Новоселецька С. В., кандидат психологічних наук, доцент.

 

 

 

 

Наукові записки. Серія "Філологічна". - Острог: Видавництво Національного уні­верситету "Острозька академія". - Вип. 27. - 2012. - 368 с.

 

 

 

У збірнику містяться статті, присвячені проблемам сучасного мовознавства та порівняльного літе­ратурознавства, а також методиці навчання іноземних мов. Збірник рекомендовано науковцям, викла­дачам, студентам-філологам і всім, хто цікавиться філологічною наукою.

 

 

 

Адреса редколегії: 35800, Україна, Рівненська обл., м. Острог, вул. Семінарська, 2, Національний університет "Острозька академія", факультет романо-германських мов

 

 

 

 

© Видавництво Національного університету "Острозька академія", 2012КОРПУСНІ ТА ЛЕКСИКОГРАФІЧНІ ТЕХНОЛОГІЇ ОПИСУ МОВНОЇ

СИСТЕМИ. ТЕРМІНОЗНАВСТВО

 

 

УДК 811. 111:81-13

Ванівська О. І.,

Львівська комерційна академія

ОСНОВНІ ПІДХОДИ ДО АНАЛІЗУ МОВНИХ ДАНИХ У КОРПУСНІЙ ЛІНГВІСТИЦІ

У статті розглянуто різновиди основних підходів до аналізу мовних даних у корпусній лінгвістиці. Зібрано ґрунтовний матеріал щодо наукових розвідок в цьому напрямку. Зосереджено увагу на Британському національ­ному корпусі (BNC). Представлено деякі приклади з BNC. Подано рекомендації щодо здійснення успішного та ефективного корпусного аналізу.

Ключові слова: Британський національний корпус, конкорданси, корпусна лінгвістика, корпуси мовних даних, мовні (лексичні) одиниці.

The article deals with a range of main approaches to the language data analysis in Corpus Linguistics. Solid material is collected concerning the study of this subject by various scholars and experts. The attention is turned on British National Corpus (BNC). There are some examples presented from BNC. Recommendations for the successful and effective corpus analysis are given.

Key words: British National Corpus (BNC), concordance lines, Corpus Linguistics, linguistic corpora, language (lexical) units.

В статье рассмотрены разновидности основных подходов к анализу языковых данных в корпусной лингвис­тике. Собрано основательный материал научных исследований этого направления. Сосредоточено внимание на Британском национальном корпусе. Представлены некоторые примеры с BNC. Поданы рекомендации по проведе­нию успешного и эффективного корпусного анализа.

Ключевые слова: Британский национальный корпус (BNC), конкордансы, корпусная лингвистика, языковые (лингвистические) единицы.

Сьогодні корпусна лінгвістика та корпуси мовних даних посідають неабияке місце у навчанні та вивченні мов, відкривають нові перспективи для проведення нових лінгвістичних досліджень, допомагають з'ясувати, які змі­ни відбуваються в мові під впливом різноманітних зовнішніх факторів. О. Демська-Кульчицька пише, що "нові напрями розвитку мовознавчої науки характеризуються високим рівнем технологічності, що забезпечує лінгвіс­тиці особливе місце в сучасному інформаційному світі" [3]. Широкі можливості комп'ютерів і комп'ютерних мереж сприяють і зумовлюють необхідність якісно нових засобів опрацювання інформації, які будуть перспек­тивно розвиватися, особливо у напрямі інтелектуалізації [20]. Як зазначила О. І. Смашнюк, "дослідивши великий обсяг інформації, що міститься в корпусі, можна отримати повне уявлення щодо досліджуваного явища і певної мови в цілому. Велика кількість створених корпусів дає змогу отримати дані аналізу писемного чи спонтанного мовлення, мовлення певної вікової, гендерної, соціальної чи етнічної групи, інформацію про особливості певного діалекту" [17, с. 63].

В. Плугнян називає появу корпусів справжньою корпусною революцією і зазначає, що саме завдяки корпусам мовних даних тепер можна подивитися на мову в реальному використанні [14]. Використання автоматизованих корпусів суттєво змінює уявлення про мовні норми та культуру, представляє надійні критерії для визначення прийнятності та оцінювання тих чи інших явищ вживаності. Укладені будь-які сучасні словники, граматики і до­відники, що не ґрунтуються на надійному корпусі, є лише саморобними витворами [33].

A.Б. Кутузов пише, що вивчення корпусів уможливлює отримання точних даних про лексичний склад мов, а також про відносну частотність використання деяких лексичних засобів (слів) [9]. Наприклад, Т. В. Монахова та О. Максимів акцентують увагу на важливості використання даних корпусної лінгвістики для укладання словни­ків чи статистичної обробки лексичних даних. Предметом дослідження можуть бути не лише лексичні значення, а й морфологічні, синтаксичні та фонетичні особливості мови кожного автора [12; 11].

B. В. Риков слушно зазначає, "корпусна лінгвістика дала змогу уточнити результати та висновки, проведені раніше, а також провести нові лінгвістичні дослідження, більш системні й ширші за обсягом емпіричного матері­алу. У центрі уваги корпусної лінгвістики є мовна особистість, тобто її мовленнєва діяльність, масова комуніка­ція, проблема її опису. Дуже важливою властивістю корпусу текстів є його репрезентативність, що визначається фонетичними, морфологічними, синтаксичними, стильовими параметрами" [16].

О. О. Шипнівська пише про те, що "розвиток інформаційного суспільства та суспільства знань спричинив бурхливий прогрес у галузі комп'ютерних технологій опрацювання природної мови, який поставив нові завдання перед лінгвістикою щодо вивчення різних властивостей мовної системи. Завдання, які стоять у цій царині перед усіма ділянками мовознавства, тепер потребують вивчення різнопланових мовних явищ, структур, одиниць, від­ношень тощо не на окремих, хоча й показових, прикладах, а в їх повному, репрезентативному обсязі. Зрозуміло, що така постановка завдань вимагає застосування спеціального комп'ютерного інструментарію дослідження, зокрема залучення методів корпусної лінгвістики" [19]. Таким чином, чимало науковців вбачають важливим використання лінгвістичних корпусів у методиці та процесі викладання, розробці різноманітних студентських завдань і окремих проектів [1; 13]. Комп'ютерна лексикологія, корпусна лінгвістика та комп'ютерна лінгвісти-

© Ванівська О. І., 2012ка допомагають побачити й краще зрозуміти значення, переклад і вживання слів у динаміці [18], простежити за квантитативним навантаженням мовних одиниць [10]. У коло корпусної лінгвістики потрапляє все більше мов. Сьогодні розробляється також українсько-польський паралельний корпус [8]. Корпусна лінгвістика стає все більш поширеною у всьому світі.

Одним із основних підходів до аналізу мовних даних у корпусній лінгвістиці є конкорданси. Загалом конкор­данс - це спеціалізована лінгвістична прикладна програма, за допомогою якої здійснюється автоматична вибірка заданих мовних одиниць з електронних текстів, проводиться дослідження корпусу за обраним словом, слово­сполученням чи фразою [7]. Є. А. Карпіловська описує існування фундаментальних конкордансів, які станов­лять скарбницю знань про вживання в текстах тієї чи іншої мовної одиниці, і дослідницьких, що підпорядковані розв'язанню конкретного завдання) [6, с. 83]. Залежно від технічних можливостей конкорданс може надавати інформацію про частотність вживання і сполучення тієї або іншої мовної одиниці, а також дає змогу звертатися до конкретного тексту, в якому був знайдений приклад, і демонструє слова, словосполучення чи фрази в центрі комп'ютерного екрану, разом зі словами, що стоять перед і після них, ліворуч і праворуч [7]. Вибране слово, що видається в центрі екрану, відоме як "вузлове". Лінії конкордансу видають інформацію хаотично, але її можна сортувати, щоб вона надходила за алфавітним порядком, чи групами, які вибрані та організовані для ілюстрації певної особливої поведінки заданого слова чи фрази [30, p. 39].

Така методика і система пошуку даних, з одного боку, суттєво спрощує пошук матеріалу, з іншого боку, ви­магає глибокого знання й творчого використання різних підходів, методик лінгвістичних досліджень. Корпусна лінгвістика поступово створює свою метамову, з'являються певні суто "корпусні" принципи досліджень, на­приклад, класифікація фактів і мовних явищ як "центральних - типових - прототипових", що дає змогу поба­чити різницю в значенні, досліджувати деталі. Така класифікація базується на розбіжностях між системними та функціональними/ комунікативними особливостями мовних одиниць, що були виявлені завдяки дослідженням у корпусній лінгвістиці [30]. Тож із створенням корпусів мовних даних "зросла можливість отримання відомостей щодо функціонування та вживання мови" [2, с. 46].

Термін "типовий" (typical) використовується в корпусній лінгвістиці щодо найбільш характерних випадків як дистрибуції мовних одиниць, так і значень мовних одиниць. Прототиповими вважають такі мовні засоби, частотність яких за інтуїцією носіїв чи користувачів мови мала б бути високою, але, як показують дослідження з корпусної лінгвістики, вони не є настільки частотними як передбачалось. Поняття прототиповості було введене науковцями Дерек Дейві та Девід Крістал. Термін "прототиповий" (prototypical) відображає розбіжності між ти­повими випадками вживань мовної одиниці і типовими значеннями та даними про частотність. Розбіжності між типовим й прототиповим виявляються на основі різних жанрів, регістрів, соціолінгвістичного варіювання мови. Термін "центральний" (central) більше застосовується до категорій, ніж до окремих слів, дає змогу уточнити іє­рархію мовних одиниць, що використовуються для вираження граматичного значення, з урахуванням типовості й частотності [25]. Наприклад, теперішній тривалий час в англійській мові може вказувати на теперішній час ("But the big guy is working hard to change people's perceptions. She's cooking supper at the moment"), майбутній час ("Tomorrow we are holding a party in our bungalow, which has room for about 60 people, and I imagine about that number may come. She's taking an exam tomorrow") або взагалі не вказувати на жоден з часів ("Rock star Elton John is starting his own Aids charity. She's always making mistakes") [30, p. 43]. Таким чином, саме перший з поданих прикладів є центральним/граматичним значенням Present Continuous, - вираження дії, що відбувається в тепе­рішньому часі, в момент мовлення.

Для того, щоб проілюструвати типовість, необхідно розглянути використання певного слова чи словосполу­чення і визначити, в якому значенні воно вживається найчастіше - це значення буде типовим для досліджуваного слова чи словосполучення. Наприклад, якщо розглянути 100 перших прикладів використання словосполучення "is having" (із 485 можливих прикладів) в BNC, то типовим значенням цього словосполучення є значення "to possess, own, or able to use or give" "мати" у 75 прикладах, а в решті 25 прикладах - це словосполучення викорис­товується у модальному значенні. Наприклад: We are going over to Trame to see what effect this is having. ' DENIS Winston Healey is having a certain amount of characteristically mischievous fun with journalists at the moment, on the question of whether he will or will not stand at the next election. Behind me Nathan is having problems, his wooden runners sticking in the snow and causing him to go slowly. The last thing he wants to be bothered with is having to deal with complaints from dissatisfied guests (модальне значення). ' Less delicious is having to hit the thing apart again (модальне значення).

У носіїв мови може бути певна інтуїція щодо типовості, але вона не завжди співпадає із даними частотності вживання тих чи інших слів, чи словосполучень. Майкл Барлов і Томас Шортал проводили деякі спостереження і використовували термін "прототиповий", щоб вказати на використання, яке зазвичай мало б бути типовим, але не завжди чи не обов'язково найбільш часто вживаним. Вони стверджують, що в підручниках для вивчення англійської мови зібраний матеріал сучасного використання, що є саме прототиповим, а не типовим у значенні "найбільш часто вживаних" [21]. Прикладом може бути прикметник each, який є саме прототиповим некатего-рійним засобом вираження значення часової форми Present Simple: But with each week that passes, Mrs Harris says her concern increases for Alex's safety and er for the welfare of her two young children. І, згідно із дослідженням в BNC, із 100 довільно вибраних прикладів використання слова each, 36 відображають це значення часової форми теперішнього часу.

За допомогою корпусів мовних даних можна також вирішувати проблеми з використанням і тлумаченням слів, які є однакові або дуже схожі за значенням, але все ж у вжитку їх не можна замінити одне на інше. Тому та­кий аналіз мовних даних і спостереження за типовим використанням слів, які є "майже синонімами", може багато чого прояснити в цій ситуації [30, p. 45].Важливо згадати також і те, що слово є тісно пов'язане з контекстом, тобто з ситуацією, в якій воно вжива­ється. Значення слів розрізняють за паттернами (шаблонами) і фразами, в яких вони типово з'являються. Спів­відношення значень і паттернів можна розглядати за допомогою слів, які є багатозначними. З іншого боку, слова зі схожими значеннями вживаються в однакових паттернах. Щоб проаналізувати все вище викладене, необхідно розподілити лінії конкордансу на блоки, кожен з яких би містив приклади вираження одного значення, і тоді чіт­ко було б видно, що кожне значення явно асоціюється з конкретними паттернами [30, p. 46].

Одним з різновидів підходу до аналізу мовних даних у корпусній лінгвістиці є поняття фрейму, - схеми, яка, зазвичай, складається з трьох слів, перше і останнє з яких залишаються незмінними, а слова, що стоять посеред­ині, - змінюються і, таким чином, несуть смислове навантаження. Залежно від виду слотів та їхніх взаємозв'язків С. А. Жаботинська розрізняє п'ять типів фреймових структур [4, с. 16; 5]. Список таких фреймів, що складаються з трьох слів, був запропонований Антуанеттою Ренуф і Джоном Сінклером, які використовували малий корпус (10 млн слів письмової англійської мови і 1 млн слів розмовної англійської мови) [37, p. 128]:

a ... of - a lot of, a matter of, a number of, a sort of, a couple of, etc. ;

an ... of - an example of, an element of, an act of, an average of, etc. ;

too .  to - too late to, too much to, too easy too, too late to, too young to, too close to, etc. ;

for ... of - for most of, for all of, for fear of, for both of, etc. ;

many ... of - many years of, many kinds of, many parts of, many millions of, many thousands of, etc. ;

had ... of - had enough of, had plenty of, had thought of, had heard of, had one of, had died of, etc. ;

be .  to - be able to, be allowed to, be expected to, be said to, etc.

Ці дослідження демонструють, що наповнення фрейму не просто випадкові, а належать до окремих груп, які є носіями певного значення. Наприклад, слова, що найчастіше використовуються з many . of, класифіковано за такими характеристиками :

-   слова, що виражають числа, - thousands, millions, hundreds

-   слова, що вказують на тип чи аспект, - kinds, ways, aspects, varieties

-   слова, що вказують на тривалість в часі, - years, hours

-   слова, що називають групи людей або речей, - members, examples.

Загалом виявлення таких структур особливо корисне для написання комп'ютерних програм, за допомогою яких запрограмовані фрейми будуть видаватися автоматично, без необхідності попередніх знань і уявлень про те, якими вони мають бути. Вони показують частину того, що типове для корпусу, і є фонетичними, морфоло­гічними, синтаксичними, стильовими і більш вживаними, ніж сталі вирази. Фрейми і паттерни можуть стати під­ґрунтям для узагальнення багатьох тверджень, зроблених лінгвістами дотепер, і підштовхнути їх до нових ідей про сполучення кожного окремого слова в мові та мовленні.

Окрім загального аналізу даних щодо використання слів, їх значень, які асоціюються з певними шаблонами (паттернами), за допомогою конкордансів можна спостерігати за їх функціями та статусом, сполученням з інши­ми словами, а також за тим, що ці сполучення означають [30, p. 51]. Деніел Кіз вважає, що у людей граматика тіс­но асоціюється із паттернами (структурою, схемою): закінчення слів, функції слів та їх порядок. Він стверджує, що "паттерни є рушійною силою, яка допомагає нам досліджувати конституанти мови: впізнавання різновиду і значень паттернів дорівнює процесу розуміння людиною граматичної структури мови" [31].

Слід зазначити, що для роботи з корпусами великих розмірів, де кількість даних для обробки є доволі об'ємною, Джон Сінклер запропонував досліджувати щоразу по 30 випадково вибраних ліній конкордансу до тих пір, поки подальша вибірка не перестане видавати чогось нового. Такий аналіз мовних даних є "гіпотетичним тестуванням", в якому мала вибірка ліній стає основою для створення низки гіпотез про паттерни (patterns). Але такий спосіб дослідження застосовується лише для дуже часто вживаного слова [38, p. 157].

Не менш важливим є також те, що з обраних словосполучень можна отримати контури семантичного поля певного досліджуваного слова. Наприклад, Девід Орпін запропонував свій список словосполучень зі словами bribe і bribery, які разом взяті можна згрупувати за такими семантичними полями [36]:

-   слова, що пов'язані з негативними діями (вчинками), - fraud, scandal, corruption, alleged, etc. ;

-   слова, що пов'язані з грошима, - dollar, money, tax, etc. ;

Страницы:
1  2  3  4  5  6  7  8  9  10  11  12  13  14  15  16  17  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89  90  91  92  93  94  95  96 


Похожие статьи

О І Ванівська - Корпусні та лексикографічні технології опису мовної системи термінознавство