О словоформах Яндекса
Еще больше отличаются от нашего интуитивного представления результаты машинного разбора. В этой статье я покажу, что представление Яндекса о словоформах отличается от человеческого и то, что это влияет на выдачу.
Машинные словоформы
В русском языке несколько сотен тысяч слов, каждое из которых имеет по несколько десятков словоформ, причем каждая из них имеет полдюжины свойств (род, число, падеж, форма и т.д). Например, любое прилагательное может находиться в семи падежах, в краткой форме, в трех родах, двух числах, в сравнительной и превосходной степени, быть одушевленным или нет. В итоге, прилагательное может иметь аж 8 x 4 x 2 x 2 + 1 = 129 cловоформ, причем, больше половины из них будут иметь разные окончания.
В некоторых бумажных морфологических словарях, чтобы сэкономить место группируют слова по окончаниям в так называемые морфологические группы. Например, слова "великий" и "могучий" имеют в одинаковых словоформах одинаковые окончания. Эти группы нумеруют и для слова указывается только его начало общее для всех словоформ и его морфологическая группа: "Могучий. могуч*, группа 21".
В большинстве электронных баз поступают также. На вариант с сохранением всех словоформ отдельно нужно около 500 МБ памяти, на второй (с группами) - около 10ти. В принципе, 500 МБ для сервера не так уж много, однако морфология Яндекса писалась где-то лет десять назад. А в это время для нескольких сотен серверов покупка такого объема памяти могла обойтись в копеечку.
С тех пор правила русского языка не изменялись, а следовательно, не было особой нужды полностью переписывать морфологию. Ведь системное изменение в морфологии привело бы к необходимости целого каскада изменений в других частях кода.
Словоформы и синонимы
Хотя зачем гадать? Словоформы одного слова выделяются в результатах поиска жирным. Однако вместе с ними выделяются еще и синонимы. Поэтому мы не можем сказать определил ли поисковик слова в снипете и запросе как словоформы или попросту счел их синонимами. В Яндексе оператор плюс отключает подсветку синонимов, оставляя только подстветку словоформ. Убедиться в этом можно набрав запросы "гостиницы Одессы" (слово "отель" будет подсвечено) и "+гостиницы Одессы" (слово "отель" не будет подсвечено).


Так или иначе, я проверил Яндекс на все известные мне "артефакты" базы АОТ.ru, с которой я работал, и все из них Яндекс содержал. Правда, Яндекс использует базу "синонимов", в том числе и для того чтобы исправить разницу в человеческом и машинном восприятии словоформ. Например, при запросе "делать дымовую шашку" подсвечивается и слово "сделать", однако стоит добавить плюс перед словом "делать", и подсветка "сделать" исчезает, а "делать" остается.
Словоформы Google
Английская морфология не так могуча и велика: у слов всего несколько словоформ. Поэтому оптимизация памяти не оправдывает группировку слов. И, вполне возможно, что для общности кода с английской версией русская морфология Google написана без использования морфологических групп и поэтому была лишена "артефактов" Яндекса.
Google в отличие от Яндекса по запросу "сделанный" не ищет слово "сделать". Например, наберите "как правильно сделанный клизму" в Google и Яндекс. Другой пример: отключить подсветку слова "сделать" по запросу "делать" в Google у меня никак не получилось, хотя почти всегда Google подсвечивает только словоформы. Следовательно, для Google "делать" и "сделать" - это словоформы, а не что-то вроде синонимов как у Яндекса.
Как бы парадоксально это бы ни звучало, русская морфология Google реализована правильнее чем у Яндекса. И вся ирония в том, что это следствие английского происхождения Google. Морфология Google именно "правильнее", но не факт, что "лучше". У кого выдача релевантнее - спорный вопрос. Ровно как и то, что должно выдаваться по запросу "как правильно сделанный клизму".
Разница в ранжировании
Подсветка и неподсветка с помощью плюса словоформ говорит лишь о разнице в восприятии их Яндексом: часть словоформ определяется морфологией сразу, часть из связей по типу синонимов. Вполне вероятно, что Яндекс учитывает морфологические и синонимиальные словоформы одинаково и разницы в ранжировании может не существовать.
Сейчас нет метода общепринятой оценки разницы выдачи и программных средств для его расчета, а вручную оценить выдачу по нескольким сотням запросов — проблематично. Этим способом доказать, что существует разница в ранжировании разных типов словоформ, нет. Можно найти этому только косвенные подтверждения.
Число найденных страниц, если запрашивать машинные словоформы, отличается не больше чем на 1%, а если запрашивать словоформы-синонимы, обычно, разница в 10-30%.
- "сделать яндекс стартовой страницей" - 5 млн.
- "сделал яндекс стартовой страницей" - 5 млн.
- "делать яндекс стартовой страницей" - 7 млн.
- "делал яндекс стартовой страницей" - 7 млн.
Также сравнить изменения в выдаче в Яндексе и Google. Разницы в выдаче по запросам "как правильно сделать клизму" и "как правильно делать клизму" в Google почти нет, а в Яндексе только 2 страницы остались в первой десятке и то значительно поменяли свои позиции.
Существуют некоторые слова, которые подсвечиваются странным образом. Например, для слова купить словоформы его несовершенного вида (покупать) подсвечиваются и при наличии плюса. Другими словами, Яндекс ввел для этого слова исключение в поиске, хотя для WordStat это два разных слова. Если же выдача по синонимам и словоформам была бы аналогичной, не было никакого смысла делать исключение для этого слова.Слово "купить" довольно часто встречается в запросах (40 млн. показов в месяц по Вордстат), и дополнительные действия для улучшения его ранжирования вполне вероятны. Однако непонятно каким образом улучшается выдача от введения прямой связи слов "купить" и "покупать", допустим, разработчикам или асессорам виднее. Нам нужно найти еще одно исключение, в котором улучшение выдачи очевидно.
И это исключение "варить" и "варка". По Вордстату у "варить" миллион показов, а у "варки" не более 100 тысяч. Однако, если к статье не приложит руку сеошник, то она будут называться "варка кофе", а не "как варить кофе?". Здесь польза для ранжирования очевидна.
Исключения подтверждают правила и с большой степенью уверенности можно сказать, что морфологические словоформы ранжируются выше, чем словоформы-синонимы.
ВЧ запросы
Подсветка синонимов отключается не только при использовании плюса. Если мы наберем "гостиницы Москвы", то подсветки отелей не будет, а если "гостиницы Москвы центр" или "гостиницы Одессы" - то она включится. Следовательно, существует определенный порог, после которого синонимы в выдачу не включаются, чтобы ее не ухудшить. Этот порог, скорее всего, зависит от числа страниц в индексе либо релевантности первых страниц выдачи, а не от частотности запроса.
Правила
Глаголы совершенного и несовершенного вида не словоформы- Актуально только для Яндекса.
- Сделать≠делать
- Исключения: купить и покупать, выщипывать и выщипать, отправлять и отправить
- Актуально только для Яндекса.
- Сделать=сделаю=сделал=сделавший=сделанный=...
- Поскольку причастия склоняются по роду, числу и падежу, а также залогу, то у глаголов получается больше 100 словоформ по Яндексу. А например, у слова купить (из-за исключений) - их еще больше. Причастия можно успешно использовать, чтобы улучшить ранжирования глаголов. Например, "купленный", "купившие" - словоформы слова купить.

Разные части речи не могут быть слоформами друг-друга
- Актуально для Яндекса и Google
- Покупать≠покупка≠покупатель
- Красавец≠красивый
- Сильный удар≠сильно ударить
- Исключения для Яндекса: варить и варка, а также причастия, деепричастия и глаголы
- Актуально для Яндекса и Google
- Красавец≠красавица
- Повар≠повариха
- Актуально только для Яндекса
- Красивый=Красивейший=Красивейшая=Красивейшую=...
- Хороший=лучший
- Надежный=Надежнейший=...
- Однако, прекрасный≠красивый (это просто синонимы)
- Актуально для Яндекса и Google
- Красивый=красивее
- Надежный=надежнее
- Исключение для Google: хороший≠лучше. Эту словоформу Google относит к превосходной степени (лучший).
У Google группировка слов происходит чисто по интуитивному сходству слов, а не по формальным правилам русского языка. Это хорошо видно по «хороший» и «лучше», для всех остальных прилагательных сравнительная степень отнесена к обычной, а не превосходной форме.
Как было уже сказано, почти наверняка релевантность словоформ-синонимов ниже, чем морфологических словоформ. Поэтому, оптимизируя посадочную страницу, старайтесь использовать словоформы именно в машинном представлении, а не в человеческом. Особенно это актуально, когда вы вставляете популярное уточнение в шаблон сайта, ведь таким образом вы изменяете несколько сотен или даже тысяч страниц.
P.S.
Указывая на сходство структуры морфологической базы Яндекса и словаря Зализняка, я никоим образом не намекал на плагиат. По принципу Анны Карениной способы правильной реализации чего-либо похожи. Более того, принцип структурирования чего-либо не может быть объектом авторского права.


Дайджест новых статей по интернет-маркетингу на ваш email
Новые статьи и публикации
- 2023-09-22 » Используем ChatGPT для сбора семантики: возможности и провалы
- 2023-09-22 » 10 SEO-приемов: база для SEO-специалистов
- 2023-09-22 » Как запустить контекстную рекламу по конкурентам в Яндекс Директ и не получить повестку в суд
- 2023-09-22 » Как составить контент-план с помощью нейросети
- 2023-09-01 » Организация продаж на Авито и ЮЛА
- 2023-08-30 » Услуги дизайнера на заказ
- 2023-08-29 » Интеграция с 1С
- 2023-08-29 » Доработка интернет-магазина
- 2023-08-10 » Как продвигать сайты-аффилиаты в поиске
- 2023-08-10 » SEO-продвижение сайтов медицинской тематики: лучшие стратегии и практики
- 2023-05-19 » Как повысить конверсию в интернет-магазине: 17 способов
- 2023-05-19 » Тренды в веб-дизайне в 2023 году
- 2023-05-19 » Как подключиться к серверу по VNC
- 2023-02-27 » Грамотная структура страницы сайта — основные элементы и советы
- 2023-02-07 » Маркетинговые исследования
- 2023-02-01 » Вывод сайта из-под фильтров
- 2023-02-01 » Проработка воронки продаж в Интернете
- 2023-01-26 » Установка и настройка Call tracking и Email tracking
- 2022-11-09 » 12 работающих формул продающих текстов
- 2022-11-09 » Дизайн сайта как SEO фактор ранжирования в 2022. Неочевидные нюансы в дизайне
- 2022-09-06 » Яндекс выложил в опенсорс фреймворк для ускорения разработки мобильных приложений
- 2022-08-18 » Как я могу перенаправить и переписать свои URL-адреса с помощью файла .htaccess?
- 2022-08-01 » Яндекс выложил в опенсорс исходный код и документацию фреймворка userver
- 2022-07-29 » Как выявить медленные SQL запросы?
- 2022-07-29 » Читали мое письмо или нет? Как проверить с помощью php — Записки программиста
- 2022-07-26 » Я потратил 30 дней на анализ лучших кнопок призыва к действию, которые смог найти в Интернете
- 2022-06-29 » ТОП-15 актуальных трендов интернет-маркетинга для России: эксперт рассказал о тенденциях рынка в 2022 году
- 2022-06-21 » Почему «99 франков» — это не лучшая ценовая стратегия, и как теперь «рисовать» привлекательные цены
- 2022-06-16 » Пушкинская карта и Культура.РФ на Вашем сайте. Подключим к действующему сайту и(или) сделаем новый!
- 2022-05-18 » Анализ рынка интернет-маркетинга в РФ от Яндекс Дзен
Сейчас только тот является менеджером, кто заставляет знания работать. |
Мы создаем сайты, которые работают! Профессионально обслуживаем и продвигаем их , а также по всей России и ближнему зарубежью с 2006 года!
Как мы работаем
Заявка
Позвоните или оставьте заявку на сайте.
Консультация
Обсуждаем что именно Вам нужно и помогаем определить как это лучше сделать!
Договор
Заключаем договор на оказание услуг, в котором прописаны условия и обязанности обеих сторон.
Выполнение работ
Непосредственно оказание требующихся услуг и работ по вашему заданию.
Поддержка
Сдача выполненых работ, последующие корректировки и поддержка при необходимости.