Взвешенный индекс цитирования (вИЦ)

Согласно теории поиска[1], пользователи информационно-поисковых систем определяют ценность документа путем так называемых информационных ключей, таких как: заголовок статьи, автор, название сборника, индекс цитируемости, дата публикации работы, и далее переходят к более значимым документам. Чем больше ключей они учтут при поиске, тем лучше они могут вычислить ценность того или иного документа. Информационные ключи, основанные на лексическом сходстве документов запросам, весьма ограничены. В качестве параметра значимости статьи обычно рассматривается её индекс цитируемости. Однако, он также имеет ряд ограничений. Этот фактор не отражает структуру ссылок в каждой дисциплине (тематике), а также слабозначимые работы и труды с большой значимостью могут иметь одинаковый индекс цитируемости.

Опираясь на изложенную модель, люди, занимающиеся ранжированием результатов поиска в электронных библиотеках, предложили[2] не только подсчитывать количество цитат, но также ввести понятие веса ссылки, обосновывая это тем, что качество статьи определяется не только количеством, но и качеством ссылающихся источников. То есть, значимость источника ссылки является таким же важным информационным ключем для пользователей, определяющих ценность документа.

Раннее, для определения значимости документа использовали импакт-фактор. Однако этот фактор имеет некоторые недостатки. Главные из них в том, что импакт-фактор является не нормализованной величиной, а также рассматривает ссылки за короткий период времени (2-3 года) и не учитывает цитирования с конференций, которые часто играют важную роль в исследованиях, благодаря их популярности.

Поэтому и был введен термин фактор популярности (англ. Popularity Factor), который для определенного сборника вычислялся по следующей формуле:

Взвешенный фактор популярности сборника - нынешний вИЦ для интернет документов

где, PF(v,t) — фактор популярности сборника публикаций в рассматриваемый год t;
P — множество сборников, которые ссылаются на сборник v в этом году;
nv — количество статей, опубликованных в сборнике v в этом году;
N — общее число статей, опубликованных в этом году (при этом, nv/N — вероятность того, что пользователь читает сборник v);
w(i) — частота цитируемости сборником i сборника v;
N(i) — общее число ссылок в i-ом сборнике.

При этом PF(v,t) является нормализованной величиной, где сумма квадратов PF для всех сборников равна единице.

Все вышесказанное касалось электорнных библиотек, однако, описанная модель также применяется поисковыми системами для интернет-документов, используя популярность как один из факторов для ранжирования документов. В разных поисковиках этот фактор называется по разному: PageRank в Google, вИЦ в Яндексе, ИЦ в Апорте (из-за разных названий и возникала путаница среди вебмастеров).

Как описывал в статье о работе ПС Яндекс Илья Сегалович,

Введение ссылочного поиска и статической ссылочной популярности (мы называем этот фактор ВИЦ — взвешенный индекс цитирования — аналог известного PageRank) помогает поисковым системам справляться с примитивным текстовым спамом, который полностью разрушает традицонные статистические алгоритмы информационного поиска, полученные в свое время для контролируемых коллекций.

А Александр Садовский по этому поводу дал следующий комментарий:

Аналогичную возможность для русскоязычного интернета предоставляет Yandex.Bar. Яндекс.Бар показывает “взвешенный индекс цитирования” гораздо точнее, чем это делает Google — данные отображаются с точностью до сотых. В то же время, показываемое число касается только главной страницы сайта, и не зависит от веса его конкретной страницы, которая в данный момент загружена в окне браузера.
Еще один источник информации про вес PageRank для русскоязычных сайтов — каталог поисковой системы Апорт. Если сайт присутствует в каталоге, то рядом с его описанием указывается ИЦ главной страницы сайта.

Отсюда можно сделать вывод, что вИЦ в яндексе это тот же PageRank в Google с точностью до деталей реализации. Также обратите внимание, что формула (1) совпадает с формулой вычисления PageRank, где w(i)=1 (количество учитываемых одинаковых ссылок) и не учитывается переход пользователя не по ссылке (параметр 1-d отсутствует).

Уравнение PR - Формула расчета PageRank

Взвешенный индекс цитирования, как и другие ссылочные факторы ранжирования, расчитывается из ссылочного графа. Узнать вИЦ для своих страниц вы можете приблизительно, проверив их PageRank любым чекером, однако, следует учесть, что в индексе Яндекса присутствуют только русскоязычные документы, а из зарубежных лишь некоторые популярные, таким образом, урезая ссылочный граф по сравнению с Google.

Читать комменты и комментировать

Добавить комментарий / отзыв



Защитный код
Обновить

Взвешенный индекс цитирования (вИЦ) | | 2010-11-22 01:01:11 | | Справочник по web | | Согласно теории поиска[1], пользователи информационно-поисковых систем определяют ценность документа путем так называемых информационных ключей, таких как: заголовок статьи, автор, название сборника, | РэдЛайн, создание сайта, заказать сайт, разработка сайтов, реклама в Интернете, продвижение, маркетинговые исследования, дизайн студия, веб дизайн, раскрутка сайта, создать сайт компании, сделать сайт, создание сайтов, изготовление сайта, обслуживание сайтов, изготовление сайтов, заказать интернет сайт, создать сайт, изготовить сайт, разработка сайта, web студия, создание веб сайта, поддержка сайта, сайт на заказ, сопровождение сайта, дизайн сайта, сайт под ключ, заказ сайта, реклама сайта, хостинг, регистрация доменов, хабаровск, краснодар, москва, комсомольск |
 
Поделиться с друзьями: