Список тем

Поиск в Интернет. Поисковые машины.

  1. Понятие "поисковая система"
  2. История развития.
  3. Обзор и сравнение англоязычных, русскоязычных и международных поисковых систем.
  4. Специальзированные поисковые системы.
  5. Запрос в поисковых системах. Оптимизация поисковых запросов.
  6. Алгоритмы поиска.
  7. Литература.
  1. Понятие "поисковая система".
    Поисковая система — веб-сайт, предоставляющий возможность поиска информации в Интернете. Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на ftp-серверах, товары в интернет-магазинах, а также информацию в группах новостей Usenet. В последнее время появился новый тип поисковых движков, основанных на технологии RSS.
    Комплекс программ, обеспечивающий функциональность поисковой системы, называют поисковый движок или поисковая машина. Основными критериями качества работы поисковой машины являются релевантность (степень соответствия запроса и найденного), полнота базы, учёт морфологии языка. Индексация информации осуществляется специальными поисковыми роботами. Основные проблемы в работе поисковых систем описаны в статье Глубокая паутина.

  2. История развития.
    Первой поисковой системой для Всемирной паутины был «Wandex», уже не существующий индекс, который создавал «World Wide Web Wanderer» — бот, разработанный Мэтью Грэйем (англ. Matthew Gray) из Массачусетского технологического института в 1993. Также в 1993 году появилась поисковая система «Aliweb», работающая до сих пор. Первой полнотекстовой (т. н. «crawler-based» — то есть индексирующей ресурсы при помощи робота) поисковой системой стала «WebCrawler», запущенная в 1994. В отличие от своих предшественников, она позволяла пользователям искать по любым ключевым словам на любой веб-странице, с тех пор это стало стандартом во всех основных поисковых системах. Кроме того, это был первый поисковик, о котором было известно в широких кругах. В 1994 был запущен «Lycos», разработанный в университете Карнеги Мелона.
    В 1996 году русскоязычным пользователям интернета стало доступно морфологическое расширение к поисковой машине Altavista и оригинальные российские поисковые машины Rambler и Aport. 23 сентября 1997 года была открыта поисковая машина Яндекс.
    В апреле 1997 был запущен Ask Jeeves как поисковик, позволяющий формулировать запросы на естественном языке. Ask Jeeves использовал людей в качестве редакторов. Ask использовал технологию DirectHit для ранжирования результатов по популярности, но эта технология оказалась неустойчива к спаму. В 2000 году вышел поисковик Teoma, который использовал систему кластеров по теме, спецификации, популярности. В 2001 Ask купил Teoma для того чтобы заменить им технологию DirectHit.
    AllTheWeb - это поисковая платформа, запущенная в мае 1999 для того, чтобы продемонстрировать возможности быстрых поисковых технологий. У них был глянцевый интерфейс и множество возможностей для продвинутого поиска, но 23 февраля 2003 года AllTheWeb был куплен Overture за 70 миллионов. После того как Yahoo! Выкупила Overture, они позаимствовали некоторые из технологий AllTheWeb и сейчас иногда используют AllTheWeb как тестовую площадку.
    Помимо поисковых машин для Всемирной паутины существовали и поисковики для других протоколов, такие как Archie для поиска по анонимным FTP-серверам и «Veronica» для поиска в Gopher.

    Хронология
    Год Система Событие
    1993 Aliweb Запуск
    1994 WebCrawler Запуск
    1994 Lycos Запуск
    1995 AltaVista Запуск (Создана DEC)
    1995 Excite Запуск
    1996 Inktomi Основана
    1996 Ask Jeeves Основана
    1996 Rambler Запуск
    1996 Aport Запуск
    1997 Northern Light Запуск
    1997 Яндекс Запуск
    1998 Google Запуск
    1999 AlltheWeb Запуск
    2000 Teoma Основана
    2004 Yahoo! Search Окончательный запуск (первые собственные результаты)
    2004 MSN Search Бета запуск
    2005 MSN Search Окончательный запуск
    2006 Webalta Начало публичного тестирования
    Примечание: годом запуска считается год, когда появилась возможность получать результаты поиска через Всемирную паутину.

  3. Обзор и сравнение англоязычных, русскоязычных и международных поисковых систем.

  4. Специализированные поисковые системы.

  5. Запрос в поисковых системах. Оптимизация поисковых запросов.
    Запрос — это формулирование своей информационной необходимости пользователем некоторой поисковой системы. Для составления запроса используется язык поисковых запросов.
    Все запросы к поисковым системам условно (из-за некоторых случаев неоднозначности) можно разделить на три типа.
    1. Информационные запросы. Пользователь ищет определенную информацию, не заботясь о том, на каком именно веб-сайте он ее обнаружит.
    2. Навигационные запросы. Пользователь ищет сайт, где, по его предположению, содержится интересующая его информация.
    3. Транзакционные запросы. В формулировке запроса пользователь выражает свою готовность совершить какое-либо действие.
    Поисковая оптимизация (англ. search engine optimization, SEO) — оптимизация HTML-кода, текста, структуры и внешних факторов сайта с целью поднятия его в выдаче поисковой системы.
    Поисковая система учитывает следующие параметры сайта при вычислении его релевантности (степени соответствия введённому запросу):

    Соответственно, работа по оптимизации включает в себя работу с внутренними факторами — приведение текста и разметки страниц в соответствие с выбранными запросами, улучшение качества и количества текста на сайте, оптимизация структуры, навигации и внутренних ссылок сайта, а также внешними факторами — обмен ссылками, регистрация в каталогах и прочие мероприятия для повышения и стимулирования ссылаемости на ресурс. Лицо, проводящее работу по оптимизации, называется оптимизатор.
    Методы оптимизации можно разделить на три класса:
    1. «Белая» оптимизация.
      Белым называется оптимизаторская работа над ресурсом без применения официально запрещённых поисковиками методов раскрутки ресурса.
    2. «Серая» оптимизация.
      Под серым SEO понимается, что вебмастер, который занимается продвижением ресурса так или иначе затрагивает методы, запрещенные поисковыми системами — например, использует линкаторы (автоматизировання система обмена ссылками), покупает ссылки с других ресурсов и т. п.
    3. «Чёрная» оптимизация.
      Чёрная оптимизация обычно представляется как использование дорвеев — страниц и ресурсов, созданных (зачастую автоматически) специально для роботов поисковых систем. В теории человек не должен читать текст, который размещен на дорвее, так как он представляет собой бессмысленный набор из ключевых слов и популярных запросов. Методы раскрутки дорвеев — это нарушения всех правил поисковых систем, это беспорядочный спам по любым чужим ресурсам (гостевым книгам, форумам, каталогам, блогам, вики-сайтам, и т. п.), где может остаться ссылка на дорвей.

  6. Алгоритмы поиска.

    Поисковые системы состоят из пяти отдельных программных компонент:

    1. spider (паук): браузероподобная программа, которая скачивает веб-страницы.
    2. crawler : «путешествующий» паук, который автоматически идет по всем ссылкам, найденным на странице.
    3. indexer (индексатор): «слепая» программа, которая анализирует веб-страницы, скаченные пауками.
    4. the database (база данных): хранилище скаченных и обработанных страниц.
    5. search engine results engine (система выдачи результатов): извлекает результаты поиска из базы данных.
    Spider: Паук – это программа, которая скачивает веб-страницы. Он работает точно как ваш браузер, когды вы соединяетесь с веб-сайтом и загружаете страницу. Паук не имеет никаких визуальных компонент. То же действие (скачивание) вы можете наблюдать, когда просматриваете некоторую страницу и когда выбираете «просмотр HTML-кода» в своем браузере.
    Crawler: Как и паук скачивает страницы, он может «раздеть» страницу и найти все ссылки. Это его задача – определять, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов.
    Indexer: Индексатор разбирает страницу на различные ее части и анализирует их. Элементы типа заголовков страниц, заголовков, ссылок, текста, структурных элементов, элементов BOLD, ITALIC и других стилевых частей страницы вычленяются и анализируются.
    Database: База данных – это хранилище всех данных, которые поисковая система скачивает и анализирует. Это часто требует огромных ресурсов.
    Search Engine Results Engine: О, самое сердце зверя. Именно система выдачи результатов решает, какие страницы удовлетворяют запросу пользователя. Это та часть поисковой системы, с который вы имеете дело, осуществляя поиск.
    Когда пользователь вводит ключевое слово и делает поиск, поисковая система отбирает результаты на основании постоянно меняющихся критериев. Алгоритмом называется метод, по которому она принимает решение. Профессиональные оптимизаторы (SEO) иногда употребляют термин «algos» - это и есть то, о чем мы говорим.
    Не смотря на то, что поисковые системы сильно изменились, большинство до сих пор отбирают результаты поиска на основании примерно следующих критериев:
    Для выстраивания рейтинга сайтов на основании ключевого запроса алгоритм поисковой системы учитывает:
    1. Количество ключевых слов на сайте.
    2. Количество ключевых слов на странице.
    3. Соотношение общего числа слов на сайте к количеству ключевых слов на сайте.
    4. Соотношение общего числа слов на странице к количеству ключевых слов на странице.
    5. Индекс цитирования.
    6. Популярность тематики.
    7. Число запросов по конкретному ключевому слову за определённый период времени.
    8. Общее количество веб-страниц сайта.
    9. Применение стиля к веб-страницам.
    10. Объём текста сайта.
    11. Объём сайта.
    12. Объём каждой веб-страницы.
    13. Объём текста каждой веб-страницы.
    14. Возраст сайта.
    15. Название URL сайта (имя домена)
    16. Периодичность обновления информации на сайте.
    17. Последнее обновление страниц сайта.
    18. Число картинок (рисунков) на сайте.
    19. Количество мультимедийных файлов.
    20. Наличие замещающих надписей на рисунках (картинках).
    21. Длину (в количестве символов) замещающих надписей рисунков (картинок).
    22. Использование фреймов.
    23. Язык сайта (русский или иностранный).
    24. Размер шрифта, которым оформлены ключевые слова.
    25. Жирность шрифта ключевых слов.
    26. Написаны в разрядку или нет ключевые слова.
    27. Написаны или нет заглавными буквами ключевые слова.
    28. Как далеко от начала веб-страницы располагаются ключевые слова.
    29. Стиль заголовков и наименований ключевых слов.
    30. Наличие и анализ мета-тэгов.
    31. Наличие и содержание описания и свойств страницы.
    32. Наличие файла "робот".
    33. Географическое месторасположение сайта.
    34. Комментарии внутри программного кода сайта.
    35. К какому типу страниц относится каждая страница сайта: html или asp.
    36. Наличие в составе сайта flash модулей.
    37. Наличие в составе сайта веб-страниц с незначительными отличиями друг от друга.
    38. Соответствие ключевых слов сайта тому разделу каталога поисковой машины, в котором зарегистрирован сайт.
    39. Наличие "шумовых слов" ("стоп слов").
    40. Общее количество гиперссылок сайта.
    41. Количество внутренних гиперссылок сайта.
    42. Количество внешних гиперссылок сайта.
    43. Взаимное расположение внутренних гиперссылок.
    44. Глубина сайта.
    45. Ряд других специальных технических параметров.
    Примечание
    Многие поисковые машины алгоритма, как такового, вообще не имеют. Их работа сводится к очистке текста сайта от программного кода и выстраиванию слов, встречающихся на сайте по их частоте.
    Чем сложнее алгоритм работы поисковой машины, тем, с одной стороны, больше вероятность получения наиболее точных и полных результатов, но, с другой стороны, больше вероятность ошибок в работке самого алгоритма.
    Усложняя алгоритм работы поисковой машины можно как достичь более полных и точных результатов, так и, наоборот, получить менее точные и полные результаты.
    Любой инженер знает, что чем сложнее какая-либо машина, тем, с одной стороны, она может выполнять больше функций, но, с другой стороны, больше вероятность выхода её из строя.

    Алгоритм поиска поисковой системы.

  7. Литература.
    1. Search engine // The free encyclopedia Wikipedia - http://ru.wikipedia.org/wiki/Search_Engine
    2. Aaron Wall. History of Search Engines: From 1945 to Google 2006 - http://www.optimization.ru/subscribe/163.html
    3. Как работают поисковые системы

      Сайт управляется системой uCoz

      Список тем