Это корпус гипертекстовых фрагментов, которые включают в себя исходный текст (
В рамках нашего подхода электронный гипертекст рассматривается как текстовое образование нового типа, которая, с одной стороны, отвечает всем критериям текстуальности (целостность, связность, намеренность, приемлемость, информативность, ситуативность, интертекстуальность), с другой, характеризуется сложной структурой и нелинейными связями между фрагментами.
В настоящий момент поиск осуществляется по следующим параметрам:
Произведена полная морфологическая разметка номинаций ссылок (инструмент: Pymorphy2). Семантическая разметка направлена на формализацию семантики гипертекстового перехода: для определения количественных показателей семантической близости был разработан лингвистический процессор, который выделяет ключевые слова в исходном и целевом текстах и строит для них векторные модели. При выявлении ключевых слов используется мера TF- IDF, которая считается по формуле
где tf — частота слова в данном документе, N — общее число документов в корпусе, dfx — количество документов, содержащих слово. Эта мера позволяет выявить слова, уникальные для конкретного текста относительно общего массива текстов. Векторное представление ключевых слов строится с использованием модели ruscorpora_upos_skipgram_300_5_2018, обученной на «Национальном корпусе русского языка».
В состав основных источников на данный момент входят тексты публицистического стиля. Источником послужили новостные ресурсы: «Коммерсант», «Известия», «РБК», «Новая газета», «ТАСС», «Дождь», «Новая газета», «Ведомости», «Интерфакс».
База данных включает в себя 31 тыс. текстов с общим словоупотреблением 12 млн. слов. Представленные тексты входят в состав 51 тыс. гипертекстовых фрагментов.
Шульгинов Валерий Александрович (к.ф.н., доцент кафедры русского языка как иностранного ДВФУ)
shulginov.val@yandex.ru
Шульгинов Вадим Александрович
vadim.shulginov@yandex.ru
Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта №
© 2019-2020 Валерий Шульгинов
Создание сайта: RoboRumba