Rek_port! Ищем ВСЁ!
           
  описания сайтов        названия сайтов        URL-адреса

Сбор информации

      В связи с постоянным увеличением количества сайтов в интернете процесс сбора информации с каждого из них стал более сложен. В этих условиях достаточно трудно создать поисковую машину, которая качественно выполняет поиск сайтов и сохранение их данных. Для решения этой проблемы была создана поисковая система портала Rek_port. Она позволяет быстро собирать информацию и заносить ее в Чистую Базу Данных.
      Итак, на что же поисковая система Rek_port обращает внимание при сборе информации?
  • на заголовок (<title>). Именно он, скорее всего, будет отображен в виде ссылки при выдаче результатов запроса пользователя.
  • на содержание тега <meta description="Описание сайта">. Многие системы отказались от этого тега для сбора информации, т.к. создатели сайтов стали использовать его для обмана поисковых систем. Мы смогли обойти этот вид спама путем ручного просмотра полученной информации и особой методики его сортировки.
  • на содержание тега <meta keywords="Ключевые слова">. Если 60% слов, вписанных в этот тег не встречаются нигде в тексте страницы, сайт считается спамерским и не принимается в Базу Данных. Количество слов не играет никакого значения, т.к. они нужны лишь для удостоверения, что создатели сайта не пытаются обманывать поисковую систему. Отсуствие данного тега в HTML-коде сайта не приветствуется, но и не означает пропуск сайта: он будет рассмотрен, но его "категория" будет немного ниже.
          В основном все данные, за некоторым исключением, берутся из тега <meta description=...> главной страницы (Index.*). Его и увидят пользователи, найдя сайт по определенному запросу. Поэтому старайтесь, чтобы его содержимое четко отражало содержимое Вашего сайта.
          На нашу поисковую систему больше не оказывает влияние ни один тег. Мы не отдаем предпочтения тегам <b>, <strong> и им подобным, потому что они чаще всего и используются для обмана роботов-поисковиков.
          Кроме того, поисковая система Rek_port не считывает содержимое файла robots.txt, ведь параметр Disallow (запрет на индексацию) в нашем случае бесполезен, т.к. читается только главная страница (если уж запрещена главная страница, то зачем вообще сайт?!), и параметр Robots у 90% сайтов записан как "*" (для всех роботов), зачем тогда нам содержимое данного файла?

    Фильтрация полученных данных

          В поисковой системе Rek_port действует четырехкратная система фильтрации. Это позволяет нам с уверенностью говорить, что в Базу Данных не попадут аморальные или некорректные сайты. Мы используем фильтры (в порядке использования):
    1. Совпадение содержания тегов <meta description=...>, <meta keywords=..> и <title> с контентом самого сайта. Если совпадение менее 40%, сайт отфильтровывается.
    2. Фильтр "Антимат" (проверка нецензурной лексики в содержании тегов <meta description=...> и <title>)
    3. Отсеивание сайтов с тематиками: порнография, эротика, "халява", быстрый заработок, противозаконная деятельность
    4. Ручной отбор. Естественно, ни один автоматический механизм не сравнится с ручным по четкости и правильности, поэтому необходимость такого отбора объяснять не нужно.


          Все данные собираются в особую базу данных, которую мы назвали Чистой Базой Данных.

          Ежемесячно проводятся перепроверки информации, находящейся в Чистой Базе Данных, по пунктам:
  • Существование сайтов (ведь многие из них могли закрыться!)
  • Правильность данных (проверка соответсвия и обновление данных в описаниях и названиях сайтов)

          Мы стараемся как можно чаще заполнять Базу Данных. Однако ручная фильтрация значительно замедляет этот процесс. В среднем мы пополняем Базу Данных на 2000-3000 сайтов в месяц.

          Надеемся, что Вы по достоинству оцените механизм нашей поисковой системы и (совсем не исключено!) сыграете роль в её развитии!


  • О поисковой системе       Как работает Rek_port       Поисковая система