Пишем собственное поисковое ядро. Часть 1.

Сразу хочется сказать о том, что великие гуру программирования могут сразу же сказать, что в этом уроке все неправильно и так делать нельзя. Что необходимо проверять на инъекции все введенные данные и т.д. Давайте избежим всех этих фраз, мы делаем систему поиска, безопасностью заниматься придется вам уже отдельно, да и уроков на эту тему была масса, так что не будем заострять на этом внимание.

Приступим.

1. Структура.

Для начала хочу показать в какой таблице у меня хранятся материалы:

Как видите у меня достаточно много полей, большинство я не стал показывать они предназначены чисто для технических моментов. Нас интересуют по сути первые 4 поля: id, title, keywords, text. Если вы как то по другому храните свои материалы, и у вас например есть еще поле description то необходимо учесть этот момент и соответственно внести необходимые корректировки.

Далее нас интересует какие файлы у нас будут в системе:

Тут тоже ничего сложного, самое поисковое ядро search_core.php и шаблон search_result.tpl. В чем суть? В том, что все отправляемые пользователем данные будут обрабатываться в поисковом ядре и формировать вывод из файла шаблона в нужное нам место на сайте.

Сам же файл search_core.php будет построен у нас на функциях, работе с массивами и регулярных функциях.

2. Особенности русского языка.

Ни для кого не секрет, что русский язык наверное самый сложный из всех существующих в мире, т.к. столько словоформ сколько у нас в языке нет ни в одном языке мира. Почему? Да потому что у нас в языке существуют такие вещи как приставки, окончания, суффиксы и т.д. Что невероятно сильно усложняет для иностранцев, и для нас - программистов в частности, процесс изучения и обучения великого и могучего. Нам придется научить нашу систему хотя бы понимать разные падежи слов.

Определимся с тем какие у нас есть окончания у слов и напишем первую функцию в наше ядро, которая будет отрезать у слов запроса окончания для повышения уровня релевантности:

function dropBackWords($word) { //тут мы обрабатываем одно слово
	$reg = "/(ый|ой|ая|ое|ые|ому|а|о|у|е|ого|ему|и|ство|ых|ох|ия|ий|ь|я|он|ют|ат)$/i"; //данная регулярная функциях будет искать совпадения окончаний
	$word = preg_replace($reg,'',$word); //убиваем окончания
	return $word;
}

Как видите в общем пока ничего сложного. Т.е. если пользователь введет например слово: "Песни", то система откинет букву "и" и оставит нам только "Песн", а это согласитесь позволит найти уже такие слова, как песня, песню, песнями и т.д. Т.е. семантика поиска у нас увеличилась.

Обратите внимание на то, что я указал не все существующие окончания их может быть больше, тут вам придется поучить систему. Возможно даже придется несколько переделать регулярную функцию и написать дополнительные правила.

Такие же функции можно написать на приставки и суффиксы, но не увлекайтесь пока, а то можно наши слова превратить в непонятные огрызки и тогда система будет находить все, хоть сколько нибудь похожее на наш запрос, а нам все же нужны более точные совпадения.

Другой необходимостью является то, что в русском языке, ну собственно как и в любом другом, есть масса стоп-слов, которые нам не нужны в поиске и которые встречаются сплошь и рядом в любом тексте. Поэтому нам надо написать еще функцию, которая убивает все стоп-слова.

function stopWords($query) { //тут мы обрабатываем весь поисковый запрос
	$reg = "/\s(под|много|что|когда|где|или|которые|поэтому|все|будем|как)\s/gim"; //данная регулярка отрежет все стоп-слова отбитые пробелами
	$query = preg_replace($reg,'',$query); //убиваем стоп-слова
	return $query;
}

Отлично еще одна функция ядра готова, где я опять же взял немного слов для примера. Она позволит нам создать более осмысленный поисковый запрос.

Как видите такими несложными функциями можно обучать систему работе со словами русского языка. Поверьте мне на слово, все это работает достаточно быстро и говорить о том, что такое большое количество регулярных функций вредно с современным интернетом уже не приходится. В конце концов мы же не Яндекс пишем и обрабатывать у нас будет не так много информации.

Как вариант для обеих функций можно формировать массив таких значений и брать уже из него для сравнения, но не будем тут усложнять себе жизнь.

3. Обработка поискового запроса

Теперь нам надо наконец получить все поисковые слова из общего поискового запроса, который задал пользователь:

function explodeQuery($query) { 	//функция вызова поисковой строки
	$query = stopWords($query); 	//используем написанную нами ранее функцию для удаления стоп-слов
	$words = explode(" ",$query); 	//разбиваем поисковый запрос на слова через пробел и заносим все слова в массив
	$i = 0; 						//устанавливаем начало массива в 0, помним что нумерация в массивах начинается с 0
	$keywords = ""; 				//создаем пустой массив
	foreach ($words as $word) { 	//в цикле для массива words создаем элемент word
		$word = trim($word);		
		if (strlen($word)<6) {		//если слово короче 6 символов то убиваем его
			unset($word);
		}
		else {						//иначе выполняем следующее
			if (strlen($word)>8) {
				$keywords[$i]=dropBackWords($word);	//наша функция чистки окончаний для слов длинее 8 символов и занесение их в созданный нами массив
				$i++;								//наращиваем значение i для того чтобы перейти к следующему элементу
			}
			else {
                $keywords[$i]=$word; 				//если короче 8 символов то просто добавляем в массив
                $i++;
            }
		}
	}
	return $keywords; //возвращаем полученный массив
}

Думаю стоит объяснить почему мы слова короче 6 символов убиваем. Это правило распространяется на кодировку UTF-8, особенность которой в том, что каждый русский символ идет за два. Попробуйте ради интереса вывести на экран длину 1 русского символа и вы будете удивлены тем, что она равна 2. Таким образом если мы пишем короче 6 символов, то для русского это значит короче 3 символов. Вот такой нюанс, который следует помнить. Сейчас наверное каждый сразу вспомнил недавнее возмущение нашего правительства на тему, почему SMS-сообщения в русской раскладке в два раза короче, чем английские.

Таким образом если вывести наш массив то мы получим примерно следующее:

//поисковая фраза: как написать поисковый модуль своими силами
array (
	[0]=>написат,
	[1]=>поисков,
	[2]=>модул,
	[3]=>своим,
	[4]=>силам
)

Уже хорошо и практически то, что нам нужно. С этим мы уже можем спокойно работать и получить больше материалов из базы, чем если бы мы искали по целой фразе.

Напишем еще одну небольшую функцию чисто визуализационную и на этом закончим первую часть урока.

function colorSearchWord($word, $string, $color) {
	$replacement = "<span style='color:".$color."; border-bottom:1px dashed ".$color.";'>".$word."</span>";
	$result = str_replace($word, $replacement, $string);
	return $result;
}

С помощью этой функции мы будем просто выделять найденные нами слова, чтобы пользователь видел по каким словам был найден материал.

На этом бы хотелось остановится и дать вам возможность самим придумать какие-нибудь дополнительные функции для поискового ядра. А в следующем уроке мы уже посмотрим как среди вороха материалов найти те, что попали в поиск и как их вывести с помощью шаблона.

Источник: http://feedproxy.google.com/~r/ruseller/CdHX/~3/QqOi_PVjKpU/lessons.php

Комментарии

Добавить комментарий / отзыв

Статьи по теме

Яндекс переходит на новую версию Wordstat

Часть старой функциональности уже недоступна. Обновленный Яндекс Вордстат полностью перейдет на основной домен wordstat.ru 20 марта. С...

2024-04-08

Яндекс интегрировал в свой облачный сервис эмпатичную нейросеть

Она умеет распознавать эмоции человека по голосу. Алгоритм-эмпат определяет характер речи пользователя: говорит он с явным негатив...

2024-04-08

Новая версия нейросети Claude превзошла по мощности аналоги Google и OpenAI

Скорость обработки сложных научных статей составляет менее трех секунд. Новое поколение моделей ИИ от компании Antropic под названием Cl...

2024-04-08

Как пользоваться GPT 4 и Claude бесплатно и без VPN

Как бесплатно пользоваться GPT 4, его плагинами, а также новой нейросетью Claude 3? Это можно делать в рамках одного сайта, который называет�...

2024-04-08

Как использовать анимацию с помощью JavaScript-библиотеки GSAP

Узнайте, как использовать мощную JavaScript-библиотеку GSAP для создания захватывающих анимаций на веб-страницах, освоив основы и примеры. GSAP...

2024-03-13

Использование GSAP 3 для веб-анимации

Использование GSAP 3 для веб-анимации От автора: Greensock Animation Platform (GSAP) — это простая в использовании библиотека JavaScript для веб-анимации....

2024-03-13

Мерч и IT: на что обратить внимание в 2024 году

Оглавление Смена поколений Живой контакт Трансляция ценностей Офлайн-мероприятия Пользоввательский контент Биг б�...

2024-02-17

Копируем с RSync: основные примеры синхронизации файлов

RSync это быстрый и чрезвычайно универсальный инструмент для синхронизации (копирования) файлов. Его самое основное преимущество это пер...

2024-02-16

Лучшие noCode AI платформы для создания диалоговых ботов

Про GPT знают уже все, да? Но даже про его возможности не все осведомлены. Например, знаете ли вы, что GPT можно обучать непосредственно н�...

2024-02-15

Факторы ранжирования Google 2024 — исследование Semrush

Рассказываем самое важное об исследовании более 60 предполагаемых факторов ранжирования. Компания Semrush провела исследование...

2024-02-14

Перенос сайта на другой хостинг

Как перенести сайт на хостинг самостоятельно, что подготовить до и проверить после смены хостинг-провайдера. Содержание Бэ...

2024-02-12

В России сформирован реестр хостинг-провайдеров

Роскомнадзор сформировал реестр провайдеров хостинга. С 1 февраля компаниям, не включенным в этот реестр, запрещено оказывать услуги х�...

2024-02-05

Использование SSH для подключения к удаленному серверу Ubuntu

Что такое SSH? SSH – один из важнейших инструментов системного администрирования. SSH, или Secure Shell (безопасная оболочка) – это протокол, кот...

2024-02-04

Подключаемся к серверу за NAT при помощи туннеля SSH. Простая и понятная инструкция

Однажды, в студеную зимнюю пору, возникла у меня потребность в открытии некоторых ресурсов внутреннего сервера частной сети внешним по...

2024-02-03

Настройка CI/CD для Gitlab-репозитория: схемы и гайд по шагам

Рассказываем, как работать с CI/CD. Сравнение инструментов и подробный гайд по сборке и развертыванию через Docker на удаленный сервер с пом�...

2024-02-02

| Сразу хочется сказать о том, что великие гуру программирования могут сразу же сказать, что в этом уроке все неправильно и так делать нельзя. Что необходимо проверять на инъекции все введенные данные | РэдЛайн, создание сайта, заказать сайт, разработка сайтов, реклама в Интернете, продвижение, маркетинговые исследования, дизайн студия, веб дизайн, раскрутка сайта, создать сайт компании, сделать сайт, создание сайтов, изготовление сайта, обслуживание сайтов, изготовление сайтов, заказать интернет сайт, создать сайт, изготовить сайт, разработка сайта, web студия, создание веб сайта, поддержка сайта, сайт на заказ, сопровождение сайта, дизайн сайта, сайт под ключ, заказ сайта, реклама сайта, хостинг, регистрация доменов, хабаровск, краснодар, москва, комсомольск |

Дайджест новых статей по интернет-маркетингу на ваш email

Продающие сайты "под ключ"!

Наши сайты зарабытывают вам деньги. Landing-page. Эффективные продающие сайты точно в срок и под ключ! Всего от 14700 рублей
Подробнее...

Интернет-магазины и каталоги "под ключ"!

Эффективные и удобные инструменты торговли (электронной торговли) "под ключ". Продают, даже когда вы спите! Всего от 33800 рублей
Подробнее...

Комплексный интернет-маркетинг и продвижение сайтов

Максимальную эффективность дает не какой-то конкретный метод, а их комбинация. Комбинация таких методов и называется комплексным интернет-маркетингом. Всего от 8000 рублей в месяц
Подробнее...

Скидка 50% на разработку логотипа

Профессиональный логотип поможет вашему бизнесу привлечь новых покупателей и усилить их приверженность к торговой марке, а также повысить доверие, так как он работает на вас 24 часа в сутки. В заключение к этому можно сказать, что лoготип занимает центральное место в индивидуальности компании.
Подробнее...

Реклама в Yandex и Google

Контекстная реклама нацелена лишь на тех пользователей, которые непосредственно заинтересованы в рекламе Ваших услуг или товаров. Всего от 8000 рублей в месяц
Подробнее...

Social media marketing (SMM) — продвижение в социальных медиа

Реклама в Однокласcниках и на Mail.ru Создание, ведение и раскрутка групп и реклама ВКонтакте и Facebook. Всего от 8000 рублей в месяц
Подробнее...

Приглашаем к сотрудничеству рекламные агентства и веб-студии!

Внимание Акция! Приглашаем к сотрудничеству рекламные агентства и различные веб-студии России! Индивидуальные и взаимовыгодные условия сотрудничества.
Подробнее...

Ускоренная разработка любого сайта от 5 дней!

Внимание Акция! Ускоренная разработка любого сайта! Ваш сайт будет готов за 5-10 дней. Вы можете заказать разработку любого сайта "под ключ" за 5-10 рабочих дней, с доплатой всего 30% от его стоимости!
Подробнее...

Ждем новых друзей!

Внимание Акция! Ждем новых друзей! Скидка 10% на услуги по созданию и(или) обслуживанию вашего сайта при переходе к нам от другого разработчика.
Подробнее...

Приведи друга и получи скидку!

Внимание Акция! Приведи друга и получи скидку! Скидка 10% на услуги по созданию и(или) обслуживанию вашего сайта, если клиент заказавший наши услуги, пришел по Вашей рекомендации.
Подробнее...

1 2 3 4 5 6 7 8 9

Смотреть все акции и спец. предложения Оставить заявку на заказ!

Новые статьи и публикации

2024-04-08 » Яндекс переходит на новую версию Wordstat
2024-04-08 » Яндекс интегрировал в свой облачный сервис эмпатичную нейросеть
2024-04-08 » Новая версия нейросети Claude превзошла по мощности аналоги Google и OpenAI
2024-04-08 » Как пользоваться GPT 4 и Claude бесплатно и без VPN
2024-03-13 » Стратегии SEO на 2024 год
2024-03-13 » Как использовать анимацию с помощью JavaScript-библиотеки GSAP
2024-03-13 » Использование GSAP 3 для веб-анимации
2024-03-13 » Cогласование топографической съёмки с эксплуатирующими организациями
2024-02-19 » Теряются лиды? Как настроить сквозную аналитику
2024-02-17 » Мерч и IT: на что обратить внимание в 2024 году
2024-02-16 » Копируем с RSync: основные примеры синхронизации файлов
2024-02-15 » Лучшие noCode AI платформы для создания диалоговых ботов
2024-02-14 » Факторы ранжирования Google 2024 — исследование Semrush
2024-02-12 » Перенос сайта на другой хостинг
2024-02-05 » В России сформирован реестр хостинг-провайдеров
2024-02-04 » Использование SSH для подключения к удаленному серверу Ubuntu
2024-02-03 » Подключаемся к серверу за NAT при помощи туннеля SSH. Простая и понятная инструкция
2024-02-02 » Настройка CI/CD для Gitlab-репозитория: схемы и гайд по шагам
2024-02-01 » GitLab CI Pipeline. Запуск сценария через SSH на удаленном сервере
2024-01-29 » Introduction to GitLab’s CI/CD for Continuous Deployments
2024-01-26 » Настройка GitLab CI/CD
2024-01-25 » Установка shell gitlab runner
2024-01-25 » Установка и регистрация gitlab-runner в docker контейнере
2024-01-25 » Переменные Gitlab-Ci
2024-01-25 » Настройка CI/CD в GitLab для синхронизации проекта с веб-серверами
2024-01-25 » Копирование файлов scp
2024-01-21 » Бездепозитные бонусы от казино: обзор условий и правил использования
2024-01-18 » Современная обработка ошибок в PHP
2024-01-18 » Пример шаблона проектирования MVC в PHP
2024-01-18 » Мифический человеко-DevOps

Темы

«Если компания не представлена в интернете, ее попросту нет»
Билл Гейтс - "Microsoft"

Мы создаем сайты, которые работают! Профессионально обслуживаем и продвигаем их , а также по всей России и ближнему зарубежью с 2006 года!

Качественное и объемное представление своего бизнеса в Сети требуется любой растущей коммерческой структуре, стремящейся увеличить продажи, именно по этой причине среди наших клиентов как крупные так и небольшие компании во многих городах России и ближнего зарубежья.

Как мы работаем

Заявка
Позвоните или оставьте заявку на сайте.

Консультация
Обсуждаем что именно Вам нужно и помогаем определить как это лучше сделать!

Договор
Заключаем договор на оказание услуг, в котором прописаны условия и обязанности обеих сторон.

Выполнение работ
Непосредственно оказание требующихся услуг и работ по вашему заданию.

Поддержка
Сдача выполненых работ, последующие корректировки и поддержка при необходимости.

Остались еще вопросы? Просто позвоните и задайте их специалистам

8 (800) 550-9899

с 2:30 до 11:30 по Мск, звонок бесплатный
Или напишите нам в WhatsApp

8 (924) 311-3435

с 9:30 до 18:30 по Хабаровску
Или напишите нам в WhatsApp

Создание сайта	Копирайтинг
Поисковое продвижение	Контекстная реклама
Реклама в соц. сетях	Сопровождение сайта
Не знаю, посоветуйте

Смена дизайна сайта	Установка модулей
Чистка кода от вирусов	Внутренняя оптимизация
Перенос сайта	Установка аналитики
Нет в списке

Пишем собственное поисковое ядро. Часть 1.

1. Структура.

2. Особенности русского языка.

3. Обработка поискового запроса

Статьи по теме

Дайджест новых статей по интернет-маркетингу на ваш email

Продающие сайты "под ключ"!

Интернет-магазины и каталоги "под ключ"!

Комплексный интернет-маркетинг и продвижение сайтов

Скидка 50% на разработку логотипа

Реклама в Yandex и Google

Social media marketing (SMM) — продвижение в социальных медиа

Приглашаем к сотрудничеству рекламные агентства и веб-студии!

Ускоренная разработка любого сайта от 5 дней!

Ждем новых друзей!

Приведи друга и получи скидку!

Новые статьи и публикации

Темы

Мы создаем сайты, которые работают! Профессионально обслуживаем и продвигаем их , а также по всей России и ближнему зарубежью с 2006 года!

Как мы работаем

Заказать услуги со скидкой \ Бесплатная консультация

КАКИЕ УСЛУГИ ВАС ИНТЕРЕСУЮТ?

КАКИЕ ДОПОЛНИТЕЛЬНЫЕ УСЛУГИ ПОТРЕБУЮТСЯ?

Что нужно сделать, чтобы заказать создание сайта у нас?

Для всех тарифных планов на создание и размещение сайтов включено:

Комплексная раскрутка работает в рамках стратегии развития вашего бизнеса в сети и направлена

ЭФФЕКТИВНОЕ СОПРОВОЖДЕНИЕ (ПОДДЕРЖКА, ОБСЛУЖИВАНИЕ) САЙТОВ

Современный, технологичный, кроссбраузерный ... Профессиональный дизайн сайтов и веб-приложений

Адаптивный дизайн сайтов и веб-приложений

Реклама в поисковых системах Яндекс и Google. Профессиональная настройка рекламы и отслеживание эффективности!