РЭДЛАЙН
Лучшие решения для Вас и Вашего бизнеса!
На нашем сайте вы можете получить информацию о веб-разработке, обслуживании и продвижении сайта. Интернет-маркетинге. SEO (поисковой оптимизации). Контекстной и медийной рекламе в Интернете. SMM. Регистрации доменов и хостинговых услугах. И современном дизайне сайтов. Вообщем того что касается веб-разработки, а также много другой полезной информации из мира интернета, бизнеса и интернет-технологий...
Создаем доступные и современные сайты, которые работают! Обслуживаем и эффективно продвигаем интернет-проекты с 2006 года!
Главная Справочник по web Автоматический геотаргетинг российских web-сайтов


Автоматический геотаргетинг российских web-сайтов

Аннотация

В данной статье рассматривается быстрый, простой и точный метод связывания большого числа веб-ресурсов, хранящихся в базе данных поисковой машины, с их географическими положениями. Описанный метод использует информацию об IP адресе, доменных именах и контентозависимые данные: коды почтовых индексов и телефонных номеров. Новшество подхода заключается в построении базы данных, хранящей географическое положение и IP адрес с использованием метода IP блоков. Также сделан упор на анализе доменных имен. Метод использует внутреннюю структуру поисковой машины и позволяет эффективно связывать большое количество данных поисковой машины с их географией. Эксперименты проведены над индексом поисковой системы Яндекс; результаты говорят об эффективности подхода.

Введение

Аспекты географического положения веб-ресурсов и их владельцев становятся все более значимыми в последнее время для большинства Интернет-пользователей. Тенденции отмечены академическим исследованием в этой сфере, а также появлением локальных сервисов онлайн-поиска.

Поисковая система Яндекс индексирует ресурсы в доменах пост-советских стран, а также любые русскоязычные документы. На текущее время, Яндекс проиндексировал более 600 млн. страниц на более 2.5 млн. сайтах; порядка 95% этих сайтов расположены в России. Несмотря на то, что наибольшая активность поиска проявляется в больших городах, таких как Москва или Санкт-Петербург, Интернет в России и других пост-советстких странах развивается, в основном, за счет удаленных областей. Этот факт делает геотаргетинг важным моментом в поиске Яндекса.

Проблема частично решается Яндекс.Каталогом с ручной модерацией. На данный момент каталог состоит из примерно 87 тыс. записей с ручным присваиванием региона; около 48 тыс. из них принадлежат российским городам. Географический атрибут состоит из различных семантических положений:

  1. местоположение провайдера (физическая принадлежность владельца ресурса);
  2. география контента (географическое положение, о котором говориться в контенте);
  3. положение сервера (область, где размещен web-ресурс).

Ручное присваивание значений региона может наследоваться от поддоменов или отдельных страниц сайта. Однако, редакторы не учитывают наследование географии определенного ряда доменов (таких как бесплатные хостинги или публичные домены). Приблизительно 140 тыс. сайтов дополнительно получают атрибут русского города через наследование от специального каталога (EMC, extended manual classification). Однако, на данный момент, региональное покрытие базы данных Яндекса незначительно, что заставляет изучать автоматические методы для множественного присваивания региона уже проиндексированным веб-ресурсам. Мы используем EMC для проверки правильности полученных данных с помощью методов, описанных ниже.

Необходим практический подход: методы должны быть эффективными и качественными, а также должны использовать уже существующие данные. В статье предоставлен отчет о результатах автоматического геотаргетинга российских сайтов на уровне городов.

Данные и методы

В найденной литературе описаны различные методы, использующие данные об IP адресе, доменных именах, а также контент самого сайта (указание местностей, например, городов, телефонных номеров и почтовых индексов) для геотаргетинга. Главная идея нашего подхода в том, чтобы эффективно совместить несколько источников информации о местоположении.

Для определения города, мы разработали два типа методов, работающих с: 1) контентом сайта и 2) данными о домене. Методы совмещены в определенной последовательности (как показано на рисунке 1). Количество сайтов, значения точности (P, precision) и полноты (R, recall), вычисляющиеся с помощью EMC, высчитываются на каждом шаге. Пунктирными стрелками отображено, что результаты классификации объеденены с входными данными для последовательной обработки. Таким образом, результаты классификации накапливаются по мере следования стрелок на рисунке.

1. Классификатор, основанный на контенте (CBC, content-based classifier). Этот метод использует не сами документы, а их представление в индексе. Так как алгоритм не извлекает адреса непосредственно со страниц сайтов, это сильно увеличивает его эффективность. Мы собрали список шестизначных почтовых кодов (ZIP code) для 12 тыс. местностей в России, а также список телефонных кодов для 2 тыс. регионов вместе с их названиями. Были разработаны два шаблона запросов. Цель первого — в поиске веб-страниц с почтовыми индексами и соответствующими названиями местностей. Второй акцентировался на извлечении страниц с кодами телефонов, названиями региона и элементов адреса, например, указатели улицы или телефона и соответствия этих указателей друг другу.

2. Классификатор метки домена (DLC, domain label classifier). Этот метод основан на анализе домена. Во-первых, мы считаем, что доменное имя, эквивалентное названию города в транслитерации, это хороший индикатор аффилирования сайта с городом. Анализ входных данных позволил нам отделить “хорошие” варианты транслитерации: если доменные имена большинства известных сайтов соответсвуют городу, мы полагаем, что все сайты с подобным доменом будут соответствовать этому городу (например, сайты города Тверь: tver.eparhia.ru, tver.marketcenter.ru, www.tver.ru). Во-вторых, мы ищем специфические названия городов в доменных именах, то есть, если большинство известных сайтов с определенной меткой соответствуют одному и тому же городу, тогда метка является “хорошей”. Подобные метки обычно являются псевдонимами или аббревиатурами городов (например, nsk — Новосибирск, dolgopa — Долгопрудный).

3. Классификатор иерархии доменного имени (DNHC, domain name hierarchy classifier). Идея состоит в том, чтобы найти “хорошие” городские домены, поддомены которых, вероятнее всего, будут соответствовать названию города, например, spb.ru и omskcity.com (Санкт-Петербург и Омск соответственно). Заметьте, что DNHC используется дважды на диаграмме (рисунок 1).

4. IP адрес (Loc-by-IP). Мы используем свою базу данных IPREG, ассоциирующую IP адреса с соответствующими регионами. IPREG была собрана из Интернет-записей для других целей. В IPREG сохраняются лишь “хорошие” блоки IP адресов и проверяются на диаграмме.

5. Классификатор IP блоков (IP-blocks). Городские сайты зачастую хостятся у локальных провайдеров, которые могут и не располагаться в IPREG или подобной базе данных. Однако, ресурсы определенного региона часто можно определить из блока в пространстве IP адресов. Метод основан на определении этих “хороших“ непрерывных IP-блоков, другими словами, в этих блоках размещена основная часть некоторых сайтов, регион которых известен.

Диаграмма региональной классификации сайтов

Рисунок 1 — Диаграмма классификации сайтов

Из рисунка 1 видно, что первое использование DNHC увеличивает важность как показателя точности, так и полноты, в соответствии с EMC. Последующие шаги не ведут к интенсивному увеличению качества результатов, однако, число классифицируемых сайтов выросло существенно (благодаря менее популярным сайтам, не представленных в EMC).

В результате, используя диаграмму, мы можем присвоить примерно 1.3 млн. российских сайтов (из примерно 2 млн. в базе Яндекса) соответствующие российские города.

Оценка результатов

Качество алгоритма, работающего с хорошими и высоко цитируемыми сайтами, может быть проверено благодаря сравнению результатов с данными EMC. Для тестирования производительности алгоритма в горячих условиях, был сгенерирован тестовый набор. Мы собрали список из случайно выбранных 1.2 тыс. веб-сайтов, не более одного на каджый домен второго уровня. Всем сайтам в списке автоматически была присвоена метка города или же тег “без региона” (region zero, то есть город не может вычислиться в результате работы алгоритма). Список был предоставлен редакторам Яндекс.Каталога для ручного таггирования в обычных условиях. Данные, полученные в результате ручного отбора, позволяют поделить тестовый набор на три категории: 1) географически локальные сайты, 2) хорошие, не мусорные сайты (то есть, не дорвеи, пустые сайты или киберсквотеры), и 3) полный набор сайтов.

Результаты работы алгоритма для всех из этих категорий приведены в таблице 1. Первая колонка соответствует подмножеству локальных сайтов (1). Ресурсы с меткой “без региона” в этом множестве отсутствовали — уменьшилась полнота (recall) алгоритма и не было потерь в точности. Во второй и третьей колонке, автоматически присвоенный тег “без региона” интерпретировали как “без географии”. Классификатор не разрабатывался для различия между локальными, глобальными и “мусорными” сайтами, возможно, он означает, что техника определения города прошла безуспешно. В результате, факторы точности и полноты для этих случаев практически одинаковы.

Локальные сайты Все (кроме ГС) Полный набор (+ ГС)
Кол-во сайтов 723 1048 1200
Точность 0.917 0.722 0.688
Полнота 0.751 0.696 0.667
F1 0.826 0.709 0.677

Таблица 1. Результаты вычислений.

Заключение

Статья описывает множество методов, направленных на решение проблемы геотаргетинга. Методы используют различные источники информации, такие как IP адрес и домен, а также контентозависимые данные: прямой поиск почтовых индексов и телефонных номеров на страницах сайта. Методы используют инфраструктуру поисковой системы и позволяют эффективно назначать регионы большому количеству поисковых данных.

Новый подход разрабатывался для связывания IP адресов с их географией и контентом сайта. Методология показала лучшую точность по сравнению с традиционными методами, основанными на анализе записей регистрара. С другой стороны, также сделан вклад в методы, основанные на анализе доменных имен сайтов.

Оценка производительности и качества доказала годность подхода для реальных ситуаций. Однако, результаты показали, что главная проблема — это различить локальные сайты от национальных или глобальных ресурсов. В ближайшем будущем мы планируем разработать классификатор распределения сайтов по регионам без геоконтекста.

Автоматический геотаргетинг российских web-сайтов | | 2010-11-19 04:59:29 | | Справочник по web | | Аннотация В данной статье рассматривается быстрый, простой и точный метод связывания большого числа веб-ресурсов, хранящихся в базе данных поисковой машины, с их географическими положениями. | РэдЛайн, создание сайта, заказать сайт, разработка сайтов, реклама в Интернете, продвижение, маркетинговые исследования, дизайн студия, веб дизайн, раскрутка сайта, создать сайт компании, сделать сайт, создание сайтов, изготовление сайта, обслуживание сайтов, изготовление сайтов, заказать интернет сайт, создать сайт, изготовить сайт, разработка сайта, web студия, создание веб сайта, поддержка сайта, сайт на заказ, сопровождение сайта, дизайн сайта, сайт под ключ, заказ сайта, реклама сайта, хостинг, регистрация доменов, хабаровск, краснодар, москва, комсомольск |
 
Дайджест новых статей по интернет-маркетингу на ваш email
Подписаться

Продающие сайты "под ключ"!

Наши сайты зарабытывают вам деньги. Landing-page. Эффективные продающие сайты точно в срок и под ключ! Всего от 14700 рублей
Подробнее...

Интернет-магазины и каталоги "под ключ"!

Эффективные и удобные инструменты торговли (электронной торговли) "под ключ". Продают, даже когда вы спите! Всего от 33800 рублей
Подробнее...

Комплексный интернет-маркетинг и продвижение сайтов

Максимальную эффективность дает не какой-то конкретный метод, а их комбинация. Комбинация таких методов и называется комплексным интернет-маркетингом. Всего от 8000 рублей в месяц
Подробнее...

Реклама в Yandex и Google

Контекстная реклама нацелена лишь на тех пользователей, которые непосредственно заинтересованы в рекламе Ваших услуг или товаров. Всего от 8000 рублей в месяц
Подробнее...

Social media marketing (SMM) — продвижение в социальных медиа

Реклама в Однокласcниках и на Mail.ru Создание, ведение и раскрутка групп и реклама ВКонтакте и Facebook. Всего от 8000 рублей в месяц
Подробнее...

Приглашаем к сотрудничеству рекламные агентства и веб-студии!

Внимание Акция! Приглашаем к сотрудничеству рекламные агентства и различные веб-студии России! Индивидуальные и взаимовыгодные условия сотрудничества.
Подробнее...

Ускоренная разработка любого сайта от 5 дней!

Внимание Акция! Ускоренная разработка любого сайта! Ваш сайт будет готов за 5-10 дней. Вы можете заказать разработку любого сайта "под ключ" за 5-10 рабочих дней, с доплатой всего 30% от его стоимости!
Подробнее...

Ждем новых друзей!

Внимание Акция! Ждем новых друзей! Скидка 10% на услуги по созданию и(или) обслуживанию вашего сайта при переходе к нам от другого разработчика.
Подробнее...

Приведи друга и получи скидку!

Внимание Акция! Приведи друга и получи скидку! Скидка 10% на услуги по созданию и(или) обслуживанию вашего сайта, если клиент заказавший наши услуги, пришел по Вашей рекомендации.
Подробнее...

1 2 3 4 5 6 7 8 9

Новые статьи и публикации


Услуги интернет компании Редлайн

Не делай другим то, что ты хотел бы, чтобы они делали для тебя. У вас могут быть разные вкусы

Шоу Джордж Бернард - (1856-1950) - английский писатель. В своем творчестве ниспровергал догматизм и предвзятость, традиционность представлений

Мы создаем сайты, которые работают! Профессионально обслуживаем и продвигаем их , а также по всей России и ближнему зарубежью с 2006 года!

Качественное и объемное представление своего бизнеса в Сети требуется любой растущей коммерческой структуре, стремящейся увеличить продажи, именно по этой причине среди наших клиентов как крупные так и небольшие компании во многих городах России и ближнего зарубежья.
Как мы работаем

Заявка
Позвоните или оставьте заявку на сайте.


Консультация
Обсуждаем что именно Вам нужно и помогаем определить как это лучше сделать!


Договор
Заключаем договор на оказание услуг, в котором прописаны условия и обязанности обеих сторон.


Выполнение работ
Непосредственно оказание требующихся услуг и работ по вашему заданию.


Поддержка
Сдача выполненых работ, последующие корректировки и поддержка при необходимости.

Остались еще вопросы? Просто позвоните и задайте их специалистам
с 2:30 до 11:30 по Мск, звонок бесплатный
Или напишите нам в WhatsApp
с 9:30 до 18:30 по Хабаровску
Или напишите нам в WhatsApp
Веб-студия и агентство комплексного интернет-маркетинга «РЭДЛАЙН» © 2006 - 2024

Профессиональная Веб-разработка. Создание сайтов и магазинов "под ключ" , а также по всей России и зарубежью. Продвижение и реклама. Веб-дизайн. Приложения. Сопровождение. Модернизация. Интеграции. Консалтинг. Продвижение и реклама. Комплексный Интернет-маркетинг.

Оставьте заявку / Задайте вопрос

Нажимая на кнопку ОТПРАВИТЬ, я даю согласие на обработку персональных данных
×

Заказать услугу

Нажимая на кнопку ОТПРАВИТЬ, я даю согласие на обработку персональных данных
×

Обратный звонок

Нажимая на кнопку ОТПРАВИТЬ, я даю согласие на обработку персональных данных
×

Подписка на дайджест новостей

Нажимая на кнопку ОТПРАВИТЬ, я даю согласие на обработку персональных данных
×

Заказать услуги со скидкой \ Бесплатная консультация







КАКИЕ УСЛУГИ ВАС ИНТЕРЕСУЮТ?

КАКИЕ ДОПОЛНИТЕЛЬНЫЕ УСЛУГИ ПОТРЕБУЮТСЯ?

Нажимая на кнопку ОТПРАВИТЬ, я даю согласие на обработку персональных данных
×

Высококачественные сайты по доступным ценамМы создаем практически любые сайты от продающих страниц до сложных, высоконагруженных и нестандартных веб приложений! Наши сайты это надежные маркетинговые инструменты для успеха Вашего бизнеса и увеличения вашей прибыли! Мы делаем красивые и максимально эффектные сайты по доступным ценам уже много лет!

Что нужно сделать, чтобы заказать создание сайта у нас?

Ну для начала вам нужно представлять (хотя бы в общих чертах), что вы хотите получить от сайта и возможно каким вы хотите его видеть. А дальше все просто. Позвоните нам или оставьте заявку нашим менеджерам, чтобы они связались с Вами, проконсультировали и помогли определиться с подходящим именно Вам сайтом по цене, сроку, дизайну или функционалу. Если вы все ещё не уверены, какой сайт вам нужен, просто обратитесь к нам! Мы вместе проанализируем вашу ситуацию и определим максимально эффективный для вас вариант.

Быстрый заказ \ Консультация

Для всех тарифных планов на создание и размещение сайтов включено:

Комплексная раскрутка сайтов и продвижение сайта Комплексный подход это не просто продвижение сайта, это целый комплекс мероприятий, который определяется целями и задачами поставленными перед сайтом и организацией, которая за этим стоит. Время однобоких методов в продвижении сайтов уже прошло, конкуренция слишком высока, чтобы была возможность расслабиться и получать \ удерживать клиентов из Интернета, просто сделав сайт и не занимаясь им...

Комплексная раскрутка работает в рамках стратегии развития вашего бизнеса в сети и направлена

Быстрый заказ \ Консультация

ЭФФЕКТИВНОЕ СОПРОВОЖДЕНИЕ (ПОДДЕРЖКА, ОБСЛУЖИВАНИЕ) САЙТОВ

Полный комплекс услуг по сопровождению сайтаМы оказываем полный комплекс услуг по сопровождению сайта: информационному и техническому обслуживанию и развитию Интернет сайтов.

Передав свой сайт для поддержки в руки наших специалистов, Вы избавитесь от проблем, связанных с обновлением информации и контролем за работой ресурса.

Наша компания осуществляет техническую и информационную поддержку уже имеющихся сайтов. В понятие «поддержка сайтов» также входят услуги администрирования сайтов, обновления сайтов и их модернизация.

Быстрый заказ \ Консультация

Редизайн сайта и Адаптивный веб дизайн

Современный, технологичный, кроссбраузерный ... Профессиональный дизайн сайтов и веб-приложений

Редизайн сайта — создание нового дизайна сайта с целью улучшения внешнего вида, функциональности и удобства использования. Редизайн сайта – это способ преобразовать проект к извлечению из него максимальной отдачи и средств. В современном мире задачами редизайна является поднятие существующего сайта на новый уровень для внедрения новых технологий, при этом сохраняя многолетний сформировавшийся опыт и успешные решения компаний.

Адаптивный дизайн сайтов и веб-приложений

Все больше людей пользуются мобильными устройствами (телефонами, планшетами и прочими) для посещения Интернета, это не для кого уже не новость. Количество таких людей в процентном отношении будет только больше с каждым годом, потому что это удобно и по многим другим причинам.

На сегодняшний день адаптивный дизайн является стандартным подходом при разработке новых сайтов (или веб-приложений) и в идеале ваш сайт должен смотреться и функционировать так, как вы задумывали, на всём разнообразии устройств.

Быстрый заказ \ Консультация

Контекстная реклама в Яндекс и GoogleКонтекстная реклама - это эффективный инструмент в интернет маркетинге, целью которого является увеличение продаж. Главный плюс контекстной рекламы заключается в том, что она работает избирательно.

Реклама в поисковых системах Яндекс и Google. Профессиональная настройка рекламы и отслеживание эффективности!

Рекламные объявления показываются именно тем пользователям, которые ищут информацию о Ваших товарах или услугах, поэтому такая реклама не является навязчивой и раздражающей в отличие от других видов рекламы, с которыми мы сталкиваемся на телевидении или радио. Контекстная реклама нацелена лишь на тех пользователей, которые непосредственно заинтересованы в рекламе Ваших услуг или товаров.

Быстрый заказ \ Консультация

Скидка

1500 руб.
Заинтересовались услугами создания, обслуживания или продвижения вашей компании в Интернете?!
Получите 1500 руб.
за он-лайн заявку
Предложение ограничено.

После получения заявки с Вами свяжутся наши специалисты и уточнят все детали по интересующей вас услуге.
«Нажимая на кнопку "Получить скидку", я даю согласие на обработку персональных данных»
×
Получите 1500 рублей!
×
×