Корпус гипертекстов на русском языке

Что такое «Гиперкорпус»?

Это корпус гипертекстовых фрагментов, которые включают в себя исходный текст (текст-носитель ссылки), целевой текст (текст, к которому осуществляется переход при активации ссылки) и ссылку, обеспечивающую связность текстовых фрагментов. Данные трехчастные фрагменты размечены по степени семантической близости в парах ссылка/целевой текст; предложение- контекст ссылки/целевой текст; исходный текст/целевой текст.

В рамках нашего подхода электронный гипертекст рассматривается как текстовое образование нового типа, которая, с одной стороны, отвечает всем критериям текстуальности (целостность, связность, намеренность, приемлемость, информативность, ситуативность, интертекстуальность), с другой, характеризуется сложной структурой и нелинейными связями между фрагментами.

Поисковая система и разметка корпуса

В настоящий момент поиск осуществляется по следующим параметрам:

частеречная характеристика номинации ссылки;
количество компонентов в номинации ссылки;
поиск по конкретной лексеме

Произведена полная морфологическая разметка номинаций ссылок (инструмент: Pymorphy2). Семантическая разметка направлена на формализацию семантики гипертекстового перехода: для определения количественных показателей семантической близости был разработан лингвистический процессор, который выделяет ключевые слова в исходном и целевом текстах и строит для них векторные модели. При выявлении ключевых слов используется мера TF- IDF, которая считается по формуле

где tf — частота слова в данном документе, N — общее число документов в корпусе, dfx — количество документов, содержащих слово. Эта мера позволяет выявить слова, уникальные для конкретного текста относительно общего массива текстов. Векторное представление ключевых слов строится с использованием модели ruscorpora_upos_skipgram_300_5_2018, обученной на «Национальном корпусе русского языка».

Состав и объём корпуса

В состав основных источников на данный момент входят тексты публицистического стиля. Источником послужили новостные ресурсы: «Коммерсант», «Известия», «РБК», «Новая газета», «ТАСС», «Дождь», «Новая газета», «Ведомости», «Интерфакс».

База данных включает в себя 31 тыс. текстов с общим словоупотреблением 12 млн. слов. Представленные тексты входят в состав 51 тыс. гипертекстовых фрагментов.

Авторы проекта:

Шульгинов Валерий Александрович (к.ф.н., доцент кафедры русского языка как иностранного ДВФУ)
shulginov.val@yandex.ru

Шульгинов Вадим Александрович
vadim.shulginov@yandex.ru

Данные

Исходный код на GitHub

Тексты статей (.zip, 40мб)

Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта № 18-312-00010