Метки текста:

Информационные технологии История Полевые работы Рябининские чтения

Варфоломеев А.Г. (г.Петрозаводск), Москин Н.Д. (г.Петрозаводск)
О применении компьютерных технологий в исследовании фольклорных песен VkontakteFacebook

Развитие компьютерных технологий дает исследователям в гуманитарных областях знаний возможность введения в научный оборот больших комплексов архивных источников. Одним из таких комплексов является коллекция текстов бесёдных песен Заонежья второй половины XIX века, собранная Р.Б.Калашниковой из разнообразных архивных фондов и публикаций [1] . Важными задачами, возникающими при рассмотрении этой коллекции, оказываются задачи классификации песен и поиска стандартных тем (формул, мотивов). Но для решения этих задач необходимо научиться представлять текст песни в виде какой–либо формальной структуры. На кафедре информатики и математического обеспечения Петрозаводского государственного университета ведется работа по созданию информационной системы, представляющей коллекцию бесёдных песен вместе с гибкими средствами их формализации и анализа [2] .

Для формализации текстов в гуманитарных науках традиционно применяется контент–анализ, который сводится к подсчету частот встречаемости в тексте определенных словосочетаний (индикаторов). Другой метод, часто применяемый в подобных ситуациях – это представление объекта исследования в виде типологической формулы, похожей на формулу библиотечной классификации Универсальной десятичной классификации (УДК). Однако такие методы, заменяющие текст песни набором из нескольких чисел или символов, то есть вектором, вряд ли достаточны для отражения содержания песни. На наш взгляд, адекватной моделью для представления фольклорной песни является граф, который представляет из себя совокупность некоторых объектов и связей между этими объектами. Такая структура хорошо изучена с точки зрения математики, и часто служит удобным средством представления информации для дальнейшего анализа.

Под объектами текста можно понимать разные сущности – все слова текста, или его предложения, или существительные и местоимения текста, или же те персонажи и предметы, о которых идет речь (объекты предметной области текста). Объекты могут быть разделены на классы. Например, персонажи, предметы и явления внутреннего мира крестьянина можно разделить на людей, животных, предметы обихода, предметы труда, строения, явления живой и неживой природы, выдуманные или существующие в реальности понятия, и т.д.

Связи соединяют между собой пары объектов. В тексте песни они, как правило подкреплены глаголами или отглагольными формами и выражают конкретное действие (девушка ждет парня, парень целует девушку). Однако можно выделить и другие связи, котрые не отражены в тексте песни, но незримо присутствуют в нем. Это отношения равенства (парень–молодец–сокол) или принадлежности (девушка–коса, дерево–ветка). Таким образом, связи тоже могут быть отнесены к нескольким типам. Кроме того, связи могут быть направленными, а также соединять вместе не два, а большее число объектов (например, принадлежность объектов одному множеству порождает связь между ними).

Для того, чтобы на конкретном примере проиллюстрировать представление песни в виде графа, рассмотрим хороводную песню начала XIX в. [3] [текст с сайта музея-заповедника "Кижи": http://kizhi.karelia.ru]

Широкая борода!Не ходи мимо сада.Не ходи, не гуляй,Мил дорожки не тори,Худой славы не спусти.Худа славушка пройдет,Никто замуж не возьмет:Ни приказный , ни купец,Ни удалый молодец.Отцу, матери бесчестье,Роду–племени укор,С плеч головушка долой!

Мне нельзя идти домой;Скажу так, скажу сяк,Скажу изнова опять.Я во садику была, во зеленом гуляла;Сладки яблочки щипала, наливчатыя.Я наливчатыя, самы рассыпчатыя,Я на блюдечко клала, на серебряный поднос;В высок терем подошлаИ милому поднесла.

Милый яблоков не принял;Ничего не говорит:Не отказывает, не приказывает.Только и знает , мой миленькой,Что сердит на меня.Рассержусь же я, младёшенька,Я сама ль на него,Ещё ль покрепче ль того.

В этой песне выделяются три центральных объекта: девушка, парень и «широкая борода», остальные объекты вспомогательные. Сюжет можно разделить на 3 части — в тексте они отделены пунктиром. Таким образом, песню можно представить в виде графа с тремя вершинами и тремя связями между ними (рис.1). Остальные рисунки расшифровывают эти три связи, представляя их в виде таких же графов:

Рис.1.Рис.1.Рис.2.Рис.2.Рис.3.Рис.3.Рис.4.Рис.4.

Созданные таким образом графы можно сравнивать между собой с помощью разных алгоритмов. Все подобные алгоритмы основаны на идее выражения разницы между двумя графами в виде числа. Научившись таким образом вычислять «расстояние» между песнями, можно пойти дальше и объединить песни, близкие друг к другу в смысле этого расстояния, в группы, которые называются кластерами и служат объективной основой для классификации объектов.

С помощью представления песни в виде графа можно также решать задачу обнаружения в тексте стандартных мотивов. Мотив, или «формула» — сложное, трудно формализуемое понятие, описывающее устойчивый по семантике и эпитетам фрагмент или образ, повторяющийся в нескольких песнях и имеющий скрытый символический смысл. Например, Г.И.Мальцев рассматривает такие «формульные элементы», как «пойду с горя…», «крут бережок», которые могут соединяться в более крупные формулы [4] . Известен также указатель мотивов песен зимних хороводов Заонежья, опубликованный Р.Б.Калашниковой [5] .[текст с сайта музея-заповедника "Кижи": http://kizhi.karelia.ru]

Прежде всего надо сказать, что компьютер сам по себе обнаружить определенные мотивы в текстах песни не может. Но зато облегчить задачу филолога–специалиста – это ему по силам. Рассмотрим фрагмент песни, записанной В. Дашковым в 1842 г.:

…….Начал парень красну девку целовать, миловать;Целовавши, миловавши , — приговариватьНад моей русой косой,Над девичьей красотой:Уж ты косынька, коса!Не ты ль меня, косынька, повысушила,Коса с ног сронила.…….

Перед нами стоит задача: обнаружить подобный мотив во множестве других песен. Самый простой способ – это поиск по ключевым словам: коса, повысушила, парень. Однако это лежащее на поверхности решение, скорее всего, выдаст не более одного–двух похожих вариантов. Дело в том, что «повысушить» парня может все что угодно помимо косы: песенка, танец, наконец, сама девушка. Текст песни вариативен, любая замена слова ставит под сомнение предложенную методику.

Попробуем применить для исследования нашу модель.Из этого небольшого отрывка мы выделяем три объекта: парень, девка и коса. Связи между ними распределятся следующим образом:

  1. парень целует, милует девушку
  2. коса повысушила парня
  3. коса принадлежит девушке
Рис.5.Рис.5.

В результате получилась структура, напоминающая треугольник (в математике она называется «полный ориентированный граф с тремя вершинами»). Заметим, что связи принадлежат к разным типам: первые две – это действия, подкрепленные соответствующими глаголами, а последняя отражает принадлежность одного объекта другому.

Теперь наша задача сводится к поиску подобного подграфа в исходном множестве графов.

Перечислим теперь варианты алгоритмов поиска одинаковых или похожих мотивов во всем множестве песен:

Рис.6.Рис.6.Рис.7.Рис.7.

Рассмотрим теперь возможности прототипа информационной системы, реализованного к настоящему времени в среде визуального программирования Delphi. Рабочее пространство программы поделено на две части (рис.8). Слева выводятся текст песни и её характеристики, которые могут быть загружены из базы данных Access или из текстового файла. Правое окно служит для визуализации графа, соответствующего песне. По желанию пользователя его можно увеличить, уменьшить или повернуть, чтобы получше рассмотреть связи.

Рис.8.Рис.8.

Наверное, самое трудное для пользователя, начинающего работать с этой системой – освоить процесс создания таких графов. Для этого в системе предусмотрен морфологический словарь (рис.9), в котором хранятся наиболее употребительные слова и их формы. Поэтому первый этап создания графа – выделение объектов песни – в значительной степени выполняется автоматически. Пользователю остается только внести небольшие коррективы в список объектов. На втором этапе требуется установить связи между объектами. Этот этап требует внимательного изучения текста песни, её семантики. Пользователь может обратиться за помощью к экспертной системе, которая с помощью уточняющих вопросов оценивает вероятность существования той или иной связи между объектами. Если же что-либо определено неверно, можно в любой момент откорректировать составленный граф.[текст с сайта музея-заповедника "Кижи": http://kizhi.karelia.ru]

Рис.9.Рис.9.

Кроме средств создания и редактирования графов, в системе реализованы два метода:

  1. Агрегация, или «упрощение» исходного графа. В результате некоторые части графа (подграфы) заменяются на объекты, которые можно интерпретировать как сюжеты или мотивы, на которые делится песня.
  2. Кластеризация, или разбиение всех песен на группы песен с похожими графами. Степень схожести графов определяется с помощью подсчета числа объектов, имеющих то или иное число связей, а также относящихся к тому или иному классу.

// Рябининские чтения – 2003
Редколлегия: Т.Г.Иванова (отв. ред.) и др.
Музей-заповедник «Кижи». Петрозаводск. 2003.

Текст может отличаться от опубликованного в печатном издании, что обусловлено особенностями подготовки текстов для интернет-сайта.

Музеи России - Museums in RussiaМузей-заповедник «Кижи» на сайте Культура.рф