Слова в ссылках между документами

часть

Во второй части мы поговорим о практической реализации решения данной задачи с использованием подхода Reactive Streams. В нашей компании CleverDATA есть команда аналитиков данных, которые при помощи широкого набора инструментов (таких, как scikit-learn, facebook fastText, xgboost, tensorFlow и т.д) занимаются тренировкой моделей машинного обучения.

Параметры Исходный текст Целевой текст
URL habr.com/ru/post/413137 habr.com/company/lanit/blog/413141
Заголовок
TOP 5 TF-IDF
Близость текст ссылки

текст ссылки - заголовок: 0.38714
текст ссылки - топ 5 слов TF-IDF, среднее: 0.37645
текст ссылки - топ 5 слов TF-IDF, макс: 0.39497

Близость предложение ссылки

предложение ссылки - заголовок 0.86333

Близость текст-текст

None

© 2019-2020 Валерий Шульгинов

Создание сайта: RoboRumba