Почитай download. yandex. ru/company/iworld-3.pdf
Поисковые системы состоят из пяти отдельных программных компонент:
1. spider (паук) : браузероподобная программа, которая скачивает веб-страницы.
2. crawler : «путешествующий» паук, который автоматически идет по всем ссылкам, найденным на странице.
3. indexer (индексатор) : «слепая» программа, которая анализирует веб-страницы, скаченные пауками.
4. the database (база данных) : хранилище скаченных и обработанных страниц.
5. search engine results engine (система выдачи результатов) : извлекает результаты поиска из базы данных.
Spider: Паук – это программа, которая скачивает веб-страницы. Он работает точно как ваш браузер, когды вы соединяетесь с веб-сайтом и загружаете страницу. Паук не имеет никаких визуальных компонент. То же действие (скачивание) вы можете наблюдать, когда просматриваете некоторую страницу и когда выбираете «просмотр HTML-кода» в своем браузере.
Crawler: Как и паук скачивает страницы, он может «раздеть» страницу и найти все ссылки. Это его задача – определять, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов.
Indexer: Индексатор разбирает страницу на различные ее части и анализирует их. Элементы типа заголовков страниц, заголовков, ссылок, текста, структурных элементов, элементов BOLD, ITALIC и других стилевых частей страницы вычленяются и анализируются.
Database: База данных – это хранилище всех данных, которые поисковая система скачивает и анализирует. Это часто требует огромных ресурсов.
Search Engine Results Engine: О, самое сердце зверя. Именно система выдачи результатов решает, какие страницы удовлетворяют запросу пользователя. Это та часть поисковой системы, с который вы имеете дело, осуществляя поиск.
Когда пользователь вводит ключевое слово и делает поиск, поисковая система отбирает результаты на основании постоянно меняющихся критериев. Алгоритмом называется метод, по которому она принимает решение. Профессиональные оптимизаторы (SEO) иногда употребляют термин «algos» - это и есть то, о чем мы говорим.
Не смотря на то, что поисковые системы сильно изменились, большинство до сих пор отбирают результаты поиска на основании примерно следующих критериев:
• Title (заголовок) : Присутствует ли ключевое слово в заголовке?
• Domain/URL (Домен/адрес) : Присутствует ли ключевое слово в имени домена или в адресе страницы?
• Style (стиль) : Жирный (STRONG или B), Курсив (EM или I), Заголовки HEAD: если место на странице, где ключевое слово использовано в жирных, курсивных или Hx (H1, H2,…) текстовых заголовках?
• Density (плотность) : Как часто ключевое слово употреблено на странице? Количество ключевых слов относительно текста страницы называется плотностью ключевого слова.
• MetaInformation (мета данные) : Хотя многие отрицают, некорые поисковые системы до сих пор читают мета ключевые слова (meta keywords) и мета описания (meta description).
• Outbound Links (ссылки наружу) : На кого есть ссылки на странице и встречается ли ключевое слово в тесте ссылки?
• Inbound Links (внешние ссылки) : Кто еще в Интернет имеет ссылку на данный сайт? Каков текст ссылки? Это называется «внестраничный» критерий, потому что автор страницы не всегда может им управлять.
• Insite Links (ссылки внутри страницы) : На какие еще страницы данного сайта содержит ссылки эта страница?
Как видите, поисковой системе необходимо делать множество уточняющих запросов, используя скаченную страницу целиком.
Это сокращенное описания функционирования поисковой системы.
Другие языки программирования и технологии
как гугл "ищет" понятно что по похожим словам, а среди чего или из чего. в например австралию он тоже заглядывает ?
он ищет только по тем сайтам которые внесены в его список, т. е. там какая то типо регистрация сайта в поисковике, если вы создадите свой сайт и не дробавите его в поисковик то поисковик попросту его находитить не будет даже по имени сайта
и такое бывает
Страна роли не играет - везде заглядывает
Похожие вопросы
- Препад проверяет курсовые программой плагиат ...(прога ищет в и-е похож. текст и выдает сколько% скоп.)как обмануть???
- для чего Разъем VGA и Разъем HDMI (в гугле есть канешно хотелось бы более понятно и коротко)
- Сайты Гугл
- искала в инете но ничего похожего не нашла..какой ответ верный?Инкапсуляция-это
- Текстуры понятно, сетки понятно а что такое материалы?
- Гугл проиндексировал очень мало страниц. Почему?
- Господа программисты! Как часто вы используете гугл на работе для, собственно, выполнения самой работы?
- СЕО у меня сайт "Лев Родионов". Когда ввожу в гугл выводятся страницы соц сетей с этим именем и фамилией. Как обойти их?
- в 1с есть файловая информационная база, необходимо сделать батник, который делает выгрузку базы *.dt в гугле нашел след
- Функция родительский контроль в гугл. Хэш-функция?