Во всем мире растет интерес ученых-филологов к устной речи. Ее изучение во многом меняет существующие представления о языке, которые были сформированы при изучении письменной речи.
Как готовится российская база для научных прорывов, рассказала директор Институт филологии, иностранных языков и медиакоммуникации Иркутского государственного университета Марина Ташлыкова.
Проект иркутских филологов называется "Устный корпус как инструмент для лингвистических и междисциплинарных исследований". Корпус - это электронное собрание текстов звучащей речи.
Ну, значит, это самое
Марина Борисовна, а почему в устной речи слова-паразиты вдруг стали совсем не паразитами? Нас же с детства от них отучали.
Марина Ташлыкова: Традиционные грамматики и учебники написаны на материале письменного языка, причем рафинированного. Но когда мы обращаемся к устной речи, выясняется, что наше представление о языке очень одностороннее.
В ней даже границы предложений определяются иначе. А так называемые слова-паразиты (частицы "вот", "ну" и прочие), действительно, оказываются вовсе не паразитами. Они сигнализируют о затруднениях говорящего, о его попытках "настроиться" на слушающего. То есть передают информацию о процессах, происходящих в сознании того, кто говорит.
Мы, кстати, до сих пор недостаточно знаем о роли, которую играет интонационное членение, о строении диалога и полилога (разговора многих участников). О том, как несмотря на многочисленные взаимные перебивы, сбои, наложения реплик и другие шумы, люди все же понимают друг друга.
А зачем вам понадобилась оцифровка устной речи?
Марина Ташлыкова: В 70-е годы прошлого столетия, когда устную речь только начинали изучать, ученые ее записывали и расшифровывали, полагаясь только на свой слух.
Сейчас с помощью новых технологий и программ акустического анализа мы можем буквально разложить речь на "атомы" и сделать это доступным глазу. Мы видим все перебивы, движение тона, в миллисекундах можем измерить паузы и попытаться оценить их значимость.
Изучите вы устную речь. Конечная цель-то какая?
Марина Ташлыкова: Описание ключевых особенностей устной речи - это вклад в решение фундаментальной для современной лингвистики задачи, которую сформулировал директор Института языкознания РАН Андрей Кибрик.
Речь идет о разработке "новой естественной грамматики русского языка, в которой будет подвергнута ревизии грамматическая традиция, основанная на письменном употреблении вербальных средств".
Есть и еще одна интереснейшая задача! Тот материал, который мы изучаем, позволяет лингвистам оценить потенциал выживаемости диалектов как разновидностей национального языка. Они существуют только в устной форме и только на определенной территории.
"Чайкю с молочкём" выпьем?
Как же формируется ваше электронное собрание текстов звучащей речи?
Марина Ташлыкова: Материалом для него послужат две группы текстов. Первая - это аудиозаписи глубинных интервью, которые мы проводили с 2011 года. Это более 100 часов. Каждое интервью длится около часа, информанты отвечают на вопросы о своем прошлом, истории своей семьи, города и страны.
Вторая группа устных текстов собиралась с 2012 года в Баргузинском районе Бурятии в рамках изучения современного состояния сибирских говоров. Это около 92 часов. Нам было интересно посмотреть, в какой степени тот вариант национального языка, на котором здесь говорили, может выдержать натиск цивилизации.
Натиск интернета, наверное, все-таки не выдержал?
Марина Ташлыкова: Ошибаетесь! И люди с высшим образованием, и школьники в повседневной речи постоянно воспроизводят диалектную фонетику и особенности морфологии. Они до сих пор используют особые звуки, отличающиеся от общепринятых.
Например, на месте С" и Ш в словах типа "сено", "сидеть", "машина" употребляют звук, похожий на очень мягкий Ш" (так называемое шепелявенье). Или произносят после мягкого Ч мягкие Г, К ("Чайкю с молочкём выпьем?"). Не различают творительный и дательный падеж ("Как замахал рукам-ногам!") и тому подобное.
Поразительно, что такие особенности сохраняются в речи людей, регулярно пользующихся интернетом, мобильной связью и цифровым телевидением.
"Угу", "ага" и прочие странные звуки
Насколько современные технологии готовы к созданию "устного корпуса"?
Марина Ташлыкова: Чтобы изучать весь материал, о котором я вам говорила, его надо, во-первых, представить в письменном виде и, во-вторых, подготовить таким образом, чтобы компьютеру было "удобно" с ним работать.
Как, например, отмечать разнообразные "угу", "ага" и прочие странные звуки, для которых не хватает букв русского алфавита. И которые издает слушающий, сигнализируя говорящему о том, что он следит за мыслью, "не выпадает" из коммуникативного взаимодействия?
Необходима особая транскрипция - система записи устной речи, максимально точно передающая те ее особенности, которые интересуют лингвиста. Разумеется, такие системы существуют. Но новые материалы ставят перед исследователями новые вопросы. И на первом этапе мы сосредоточены на том, чтобы разработать полную, непротиворечивую и максимально удобную систему записи текстов, которые есть в нашем распоряжении.
Она даст возможность перейти к следующему шагу работы - разметке (аннотированию). Разметка - это приписывание текстам и их компонентам специальных меток, среди которых различают внешние и лингвистические. Первые - это, например, сведения о говорящем (возраст, пол, годы жизни и т.д.). Вторые - данные о грамматических, лексических и прочих языковых элементах текста.
Далее мы вместе с IT-специалистами должны подумать и решить, как совместить лингвистическую разметку с собственно машинной логикой. Другими словами, как будут обозначаться обрывы слов, паузы различного типа, как отражаться синтаксические особенности устной речи, неязыковые элементы - кашель, смех, паузы.
Кто ваши IT-партнеры? И какой их интерес в проекте?
Марина Ташлыкова: Все задачи мы решаем вместе со специалистами в сфере компьютерных технологий из Института солнечно-земной физики Сибирского отделения РАН. Для программистов корпус - это своеобразный "полигон" для проверки различных программных разработок в области обработки языковых данных как особой разновидности big data.
Источник: rg.ru
Фото: яндекс.картинки
Нет комментариев