metodika_rki

Categories:

Сети смысла: где находятся границы языка и почему неправ Хомский

Преподаватель русского языка в Университете Лотарингии Николай Чепурных и докторантка Национального центра научных исследований (CNRS) Франции Полина Михель рассказывают о составлении словарей, трудностях машинного перевода и теории «Смысл ⇔ Текст».

— Расскажите о себе и о научной работе во Франции.

Николай Чепурных: Мы окончили Европейскую магистратуру по лексикографии (EMLex) в Университете Лотарингии, и теперь я преподаю здесь русский. Моя позиция называется «лектор». Обычно это приглашенные на кафедру носители языка, часто, как и я, вчерашние выпускники вуза.

Мои студенты изучают в университете два или три иностранных языка. Скажем, английский — первым, русский — вторым, итальянский — третьим.

Мы с Полиной учились два года при Лаборатории автоматической обработки французского языка (ATILF), но в итоге занимаемся разными языками на современном этапе их развития (условно — с полета Гагарина в космос). Наш руководитель — Ален Польгер, ученик Игоря Александровича Мельчука, автора теории «Смысл ⇔ Текст», почетного профессора Монреальского университета. Ален занимается разработкой лексических сетей для разных языков, и мы входим в группу «Сети русского языка». Руководитель, Светлана Крылосова, и большая часть нашей команды базируются в парижском университете INALCO.

— Что такое лексические сети?

Н. Ч.: Одни словари помогают понимать [слова, их значения и т. д. — Ред.], а другие — изъясняться на иностранном. Нас интересуют прежде всего последние, в частности предназначенные для тех, кто изучает язык. Таких трудов не очень много, нередко это просто коммерческий продукт с минимумом полезной информации для активации речи. Сделать хороший словарь — долго и дорого. Наверное, подобные проекты должны финансировать правительства, заинтересованные в продвижении собственного языка и культуры.

Для тех, кто хочет не только понимать иностранную письменную или устную речь, но и говорить, в словаре должны быть сведения, позволяющие человеку превратить свою мысль в текст.

Допустим, в статье для глагола «покупать», кроме дефиниции, необходимо дать еще и информацию о его связи с другими лексическими единицами языка, значимыми для понимания и, главное, активного использования слова в речи: кто покупает, у кого, что, за сколько, где. То есть должна прослеживаться связь с существительными «покупатель» и «покупка», а также «продавец», «товар», «деньги» и т. д. Так и выстраивается наша сеть.

— То есть облако ассоциаций вокруг каждого понятия?

— Н. Ч.: Можно и так сказать, ассоциативные связи вокруг определенного слова. Подобная репрезентация лексики — это попытка показать, как слова связаны между собой в нашей голове. Обычные словари часто дают скудные и далеко не полные сведения о сочетаемости лексических единиц. Потому у изучающих языки велико искушение просто переводить слово за словом и надеяться, что в итоге получится та же мысль. Но так это не работает, всё устроено гораздо сложнее. Есть явление лексической сочетаемости — коллокации, которые перевести дословно с одного языка на другой не выходит.

Полина Михель: Например, «сильный дождь» дословно будет по-французски forte pluie и по-немецки starker Regen, но по-английски мы, скорее, скажем heavy rain, что, в свою очередь, при буквальном переложении на русский превратится в «тяжелый дождь».

Идея усиления выражается в разных языках неодинаково, и тут не всегда работает дословный перевод.

«Сильная боль», «сильный соперник», «сильная книга» — для каждого из этих выражений найдется свое прилагательное-усилитель в разных языках. Это и есть проблема сочетаемости.

— Как это можно формализовать?

П. М.: В своей магистерской диссертации я работала в том числе и над словарной статьей для прилагательного «сильный». В первую очередь мы разбирались с полисемией, то есть многозначностью, пользовались данными «Национального корпуса русского языка» и выясняли, какие существительные сочетаются с этим прилагательным. Например, сначала в словарной статье идут прямые значения, связанные с физической силой людей и животных, их частей тела («сильные руки, плечи»), затем — метафорические: «сильные моторы», «сильная личность», «сильный соперник», «сильный фильм». Обычно к каждому из них можно подобрать свой синоним. Именно из-за таких семантических нюансов в других языках сочетаемость может варьироваться от существительного к существительному. Например, в русском бо́льшая часть слов, называющих атмосферные явления, эмоции, физические ощущения и пр., сочетается с прилагательным «сильный» в разных его значениях. Такие выводы, к которым мы приходим на основе корпусного анализа, позволяют сделать лексикографическое описание единообразным. Каждое слово в нашей сети соответственно связано с прилагательным, обозначающим усиление.

Н. Ч.: Формализация связей возможна благодаря системе лексических функций, разработанной Игорем Мельчуком и группой московских лингвистов в середине прошлого века.

Они проанализировали ряд языков и поняли, что существует универсальный набор связей между словами, всего около 65.

Каждая из них получила название: например, усиление — это функция Magn. Оно встречается в уже приведенных примерах, а также в следующих выражениях, где мы можем заменить обстоятельство словами «очень» или «сильно»: «страшно устал», «устал как собака», «голодный как волк».

Мельчук и его коллеги пришли к идее лексических функций в рамках работы по созданию машинного перевода в СССР (хотя в США, естественно, тоже существовали подобные проекты — их результаты планировалось использовать в военных целях). Это ключевое открытие в учении Мельчука (а может быть, и главное в лингвистике XX века). Оно послужило основой для создания лексических сетей франко-канадским лингвистом Аленом Польгером. Сейчас в этом направлении работает ряд ученых в Канаде, Европе, в частности в нашей лаборатории ATILF.

— Какие еще есть лексические функции?

П. М.: Самые простые и всем понятные — это синонимы и антонимы. Лексические функции описывают оба вида связей в языке — как парадигматические (например, производные: «реакция», «реагировать», «реактор» и др.), так и синтагматические (сочетаемость слов на уровне фразы: «мощная/сильная/бурная реакция»).

Лексические сети можно сравнить с социальными.

Все пользователи соцсетей теоретически связаны друг с другом, и ни один не находится в изоляции (как и не существует слова, которое не было бы связано с каким-то другим словом). Во «ВКонтакте» пытались в какой-то момент внедрить практику разделения друзей на подгруппы (в нашей аналогии — кластеры слов): «родственники», «коллеги», «лучшие друзья», «друзья по университету» и пр. Эти множества постоянно пересекаются, можно находить знакомых через знакомых твоих знакомых, алгоритмы также сами «предлагали» пользователям друг друга.

Наши лексические сети строятся по похожим принципам: у каких-то слов много связей, например у того же прилагательного «сильный» или у глагола «делать», у каких-то — меньше, и все они доступны изучающему язык. Это можно визуализировать в виде графов, где слова связаны друг с другом и образуют определенные кластеры. Кстати, в теории графов подобная структура называется «Мир тесен».

— Как это помогает при изучении языка?

Н. Ч.: С такой сетью можно сделать очень многое — например, с помощью алгоритмов автоматически компилировать разного типа словари, отбирая ту или иную информацию в зависимости от целевой группы (изучающие язык, переводчики и др.).

П. М.: Но все-таки наша главная задача — максимально точно и полно описать языки. Дальше результаты такой работы могут использоваться на практике в разных областях: машинный и обычный перевод, преподавание и изучение языков — и даже языковые игры, такие как шутки, каламбуры, стихи, на которые эти правила тоже распространяются.

Н. Ч.: Кроме того, мы верим, что именно таким образом лексика «хранится» у нас в голове — как сеть из слов, объединенных друг с другом разными типами связи. И доставая из головы одно из них, мы «тянем» вслед за ним ряды тех, в контексте которых оно существует.

Люди владеют языком, когда владеют не словами по отдельности, но разнообразными связями между ними.

Само понятие «слово» не вполне научно. Мы используем термин «лексема», которым называем слово, взятое в одном его конкретном значении. И при дефинировании всякий раз уточняем, в каком именно значении оно употреблено в парафразе.

П. М.: Когда я начинала изучать иностранные языки, то постоянно искала в примерах (порой весьма многочисленных) и текстах, как нужное мне слово связано с другими, как оно употребляется в речи.

Мы же в нашей сети отображаем всё необходимое для изучающего язык, чтобы пользователь мог перейти от смысла, который он хочет выразить, к высказыванию.

Игорь Александрович [Мельчук] вообще считает, что лингвист должен составлять словарные статьи, в этом состоит его работа. Ведь создать хорошую статью — значит максимально точно и полно описать слово и его место в лексической системе языка.

Занимаясь лексикографической практикой, исследователь рано или поздно встает перед необходимостью решать теоретические вопросы. Например, недавно мы разрабатывали статьи для парных глаголов несовершенного вида «лететь» — «летать», «плыть» — «плавать», «тащить» — «таскать» и других подобных (всего в русском 18 таких пар). Как их описывать: как словоформы одного глагола (по типу «делать» — «сделать») — или же как самостоятельные единицы, производящее и производное? И именно лексикографическая практика помогла нам решить теоретический вопрос русской грамматики (об этом скоро можно будет прочитать в нашей статье).

— Не уходит ли такое описание лексики в дурную бесконечность?

Н. Ч.: Не в бо́льшей степени, чем конечен или бесконечен сам язык. Для создания сети нужны рамки, четко обозначенные цели, организованная команда подготовленных лингвистов, обсуждения, рабочие сессии, обмен идеями. Тогда мы получим инструмент для решения конкретных задач в обозримом будущем. Это уже можно увидеть на примере французской сети: государство выделило грант, позволивший собрать команду из восьми специалистов, которые разработали сеть за четыре года.

Существуют и другие лексические базы. Пожалуй, самая известная — WordNet Принстонского университета. Она многое дала программистам, но имела ряд недостатков, поскольку ее создатели сфокусировались в основном на иерархических отношениях синсетов (синонимических рядов). Это признаю́т и сами разработчики: например, между «мячом», «ракеткой» и «сеткой» нет таких связей, которые указывали бы, в свою очередь, на их связь с «теннисом».

Польгер учел опыт в том числе и WordNet’а. На основе теории «Смысл ⇔ Текст» он создал лексические сети, где нет такого сильного акцента на синонимии/антонимии и иерархических отношениях. Последние отражены здесь при помощи семантических этикеток, объединяющих разные части речи. Это гигантский граф с более чем 60 видами связей. Такое полное и точное описание лексики языка — процесс очень трудоемкий, но осуществимый.

Действительно, адепты теории Мельчука сталкиваются с рядом практических трудностей: далеко не все лексикографы готовы тратить столько времени на описание одной единицы, сколько она того требует, особенно если речь идет о многозначных словах и тех, что имеют «много друзей» — связей с другими лексемами языка. Также для работы в сети лингвист должен разбираться и в синтаксисе, и в семантике, и в морфологии, но чаще исследователи специализируются на чем-то одном и не очень интересуются другими аспектами.

Кроме того, необходимо придерживаться целого ряда лексикографических принципов. Один из них — единообразие, которого не встретишь в большинстве существующих изданий. Например, почему в словаре Д. Н. Ушакова есть такие названия статей, как АНГЛИЧАНЕ (мн. ч.) и ЕВРЕИ (мн. ч.), но — АМЕРИКАНЕЦ (ед. ч.)? Почему в «Новом толково-словообразовательном словаре» Т. Ф. Ефремовой мы находим статьи НОСКИ, но — ПЕРЧАТКА?

— Каковы перспективы разработки лексических сетей в русском языке? И сохраняется ли интерес к нему в мире?

Н. Ч.: Вряд ли кто-то во Франции будет финансировать только русский проект — надо добавлять французский и английский языки. В моем случае это органичное дополнение: преподавание русского франкоговорящим, французский тут к месту.

Интерес к русскому языку держится по-прежнему на произведениях Достоевского, Толстого, Чехова и некоторых авторов XX века.

Возможно, отчасти — на воспоминаниях о политической мощи СССР. Также среди учеников есть потомки тех, кто эмигрировал из России в разные периоды. У меня в этом году было почти 100 студентов среди начинающих, которые решили выбрать русский язык третьим иностранным. Второй иностранный он у 40 человек на первом курсе, у 32 — на втором, у 15 — на третьем и еще приблизительно у 15 — в магистратуре. Я тут первый год и пока не знаю динамики этих чисел, но интерес к русскому языку есть.

Источник: https://knife.media/nets-of-meaning/?fbclid=IwAR1nuOBuetAJwLFvVtXfWfZwFRh30lKWczPcvkQTPvzUQvjePQAdkiSq8nI

#уцря #методикарки #обучениерки #курсыркимгу

Error

default userpic
When you submit the form an invisible reCAPTCHA check will be performed.
You must follow the Privacy Policy and Google Terms of use.