|
Итак. В ответ на запрос пользователя бот выдает результат поиска.
Ищет он в собственном индексе. В индексе у него лежат сайты в
том виде, в каком бот их понимает. У каждого бота это понимание
свое, но общие черты прослеживаются. Индекс образуется двумя путями.
Первый - web-маз сам просит бот проиндексить его сайтец. Так поступают
чаще всего с популярными и уважаемыми ботами. Для Рунета это:
Яндекс, Рамблер и Апорт. Причем именно в такой последовательности.
Хотя Рамблер с Яндексом соперничают в этом плане. На остальные
боты можно
не тратить время. Это мое мнение. Второй путь - боты сами в
«свободное от работы время» ползают по Инету и вынюхивают изменения.
С новыми сайтами они поступают по разному. Чаще всего они принюхиваются
к ним какое-то время, а потом, если, по мнению бота, со страницей
все в порядке (посетители иногда появляются, спама нет и др.)
- они его индексят. То есть заносят информацию о нем в свой индекс
(базу данных). Самый тормозной в плане принюхивания - это Рамблер.
Он принюхивается по несколько месяцев. Самый непридирчивый -
Яндекс. Можно создать левый сайт и посмотреть, как скоро он
самопроизвольно появится в том или ином поисковике. В Яндексе…
ну, через месяц-два. Кроме этого, боты следят за состоянием своего
индекса. То есть за его соответствием реальному положению дел
в Инете. Сайт может измениться, исчезнуть и т.д. Поэтому боты
его обычно реиндексируют. Правда, можно запретить это мета-тегами
и цивилизованные боты не будут этого делать. Самый скоростной
по реиндексированию - Яндекс. Скорость реиндекса - несколько дней,
а то и чаще, если ресурс
популярный. Самый тормозной - Апорт. Скорость реиндекса страниц
с посещаемостью 50-100 хостов в сутки - до полугода! У меня был
сайт, который переехал. Так Апорт по запросу старый адрес еще
несколько месяцев выдавал, хотя по этому адресу уже несколько
месяцев ничего не было! И соответственно, посещаемость - 0. А
Апорту все равно! Дальше. Результат поиска по запросу пользователя
чаще всего выдается по релевантности. Чем выше релевантность,
тем выше позиция страницы в результате работы поисковика. Страница
с наиболее
высокой (по мнению бота) релевантностью отображается первой.
Релевантность - это степень соответствия содержимого индекса бота
запросу пользователя. Например, пользователь вводит «анекдоты».
Бот выдает страницы проиндексированных сайтов, где встречается
это слово. Причем не просто встречается, а встречается в тех местах,
которые бот индексит. Но об этом позже. Яндекс, например, чаще
всего выдает только одну страницу с сайта и ссылки на то, что
есть еще страницы с того же сервера. Замечали, наверное. Другие
боты могут по
несколько страниц с одного сервака на один запрос выдавать. Это
не очень образованные боты, но их тоже юзают. Продолжим с примером
про «анекдоты». Бот выдает результат поиска по релевантности.
То есть, если на странице имеется 100 слов и 4 из них - «анекдоты»
(в именительном падеже, множественном числе), то релевантность
страницы по запросу «анекдоты» 0.04. Четыре процента. Соответственно,
если слов будет 10, и 4 из них - «анекдоты», то релевантность
будет 40 %. То есть в 10 раз выше. Это грубоватый пример, так
как слова в
заголовке (то что между
) и в тексте страницы имеют для бота разный вес, равно как слова
в падеже и числе, указанном в запросе и имеющемся на странице.
Но для понимания понятия «релевантность» вполне сойдет. Поясню
про падежи и числа. Если запрос «анекдоТЫ», а на странице встречаются
только слова «анектоТ, анекдоТОВ» и т.д. то релевантность страницы
по этому запросу будет ниже, чем тех страниц, на которых прямо
написано слово «анекдоТЫ». Но в любом случае страница все равно
найдется по запросу «анекдоТЫ» (но в с конце списка
ответа поисковика). Из сказанного следует, что страница должна
содержать поменьше слов, и слова должны быть, в основном, ключевые.
Куда же девать инфу, которая в 10-20 слов никак не поместится?
Ответ - страницы с инфой и страницы для ботов - это «две большие
разницы». Страницы с инфой- это те страницы, на которые попадаешь
по ссылке со стартовой страницы. А стартовая страница (другие
названия - индексная, заходная, doorway и др.) - это страница
которая как раз и содержит 10-20 слов (включая заголовок и мета-теги).
То есть эта
страница, созданная специально для бота. И больше ни для кого.
Обычно, на стартовой странице размещают лого, иногда еще несколько
слов -чтобы пользователь понял, куда попал, и кнопочку «Вход».
Иногда вместо кнопочки «вход» - ссылки на разные разделы сайта.
То есть несколько входов. Если без текста на индексной странице,
ну, никак не обойтись, можно запихнуть его в картинки. Так Мелкософт
(www.microsoft.com) поступает, например. Правда, им-то чего о
релевантности заботиться? Важно, чтобы бот по запросу нашел хоть
какую-то страницу на сайте. Важно также, чтобы навигация на
ВСЕХ страницах позволяла попасть в КРАТЧАЙШИЙ срок в любое место
сайта. По крайней мере, ссылка на главную страницу, по моему мнению,
должна стоять на каждой странице. Если бот начнет индексить, он
надет одну страницу и дальше пойдет по ссылкам на ней. Нужно облегчить
ему эту задачу. Причем, чем больше ссылок на ту или иную страницу
(с разных страниц, ясен тетя), тем выше ее «ценность» с точки
зрения бота. Итак. Стартовая страница делается для бота. На ней
нет инфы, только
ссылка (ссылки) и куча хитростей (см. ниже) для заманивая ботов.
Страницы с инфой должны содержать ссылки друг на друга, нормальный
информативный заголовок и приемлемые мета-теги. Все. Их цель -
дать инфу и не препятствовать боту запихнуть их в свой индекс.
Они не должны первыми появляться по запросу пользователя. Так
как в данном случае это как раз те два зайца, за которыми никак
не угнаться, да и не надо. Дальше. Понятное дело, что есть не
одно, а несколько ключевых слов, по которым web-маз хочет, чтобы
искался сайт. Чтобы этого
добиться, по хорошему, нужно делать столько стартовых страниц,
сколько желаемых web-мазом ключевых слов. Внешне эти страницы
ничем не должны отличаться. Ну, может, title`ом. Отличаться должна
служебная инфа, о которой речь пойдет ниже. Например, у меня есть
сайт для фирмешки, продающей стартеры для иномарок. Я сделала
с десяток-два индексных страниц для наиболее популярных моделей
иномарок. Внешне страницы отличаются только тем, что на одной
в заголовке написано «Стартеры для Мерседеса», а на другой - «Стартеры
для Вольво».
Все. Конечно, отличаются мета-теги, alt`ы (подписи к картинкам)
и т.д. Об этом ниже. Каждую индексную страницу я индексила в ботах
отдельно. Итак. Что же индексит бот? У каждого бота свой характер,
но в целом примерно так. Во-первых title. Это самая важная часть.
Слова в title`е имеют самый большой вес. Большой вес имеют слова
в alt`ах (подписях к картинкам), слова между
и т.д. в порядке убывания значимости, слова между . Кроме
того, слова, расположенные ближе (выше) к title`у, имеют больший
вес, чем слова расположенные ниже. То есть, чем выше слово, тем
выше его вес при определении релевантности. Полнотекстовые боты
(то есть практически все современные) индексят еще и сам текст.
В основном, на предмет наличия в тексте слов, указанных в заголовке
и метах. Но если текста нет или очень мало - соответственно. Итого,
как заставить бот выдавать твою страницу первой по запросу, например,
«варез»?
Пишем:
Лучший варез
Софт Варез Нелегальный софт
То есть пишем второй title.
После второго title`a нужно поставить знак неразрывного пробела - или . Так как Яндекс, например, выдаст оба заголовка как один и без пробела последнее слово первого заголовка сольется с первым словом второго заголовка.
Разумеется, ключевые слова (2-6) можно выдумать и другие.
На той же странице пишем дальше:
В keywords`ах должно быть не более 10-ти слов, необходимо использовать варианты
(не более трех) наиболее частых падежей и чисел: (например: программы,
программ, программа), чередуя их с другими словами (например:
программы, софт, программ, варез, программа). В description -
несколько слов (5-8 слов, не более 170 символов), емко характеризующих
сайт. В Апорте и Рамблере это описание появится рядом с результатом
поиска по запросу. В настоящее время при индексировании содержимое
description на релевантность не влияет. По крайней мере, в рассмативаемых
поисковиках. Главное: МЕНЬШЕ СЛОВ! Преимущественно ключевые. Name
и http-equiv должны полностью совпадать. Одни боты понимают name,
другие - http-equiv. Дальше на той же странице:
# Роботам - индексировать страницу и идти дальше по ссылкам на ней.
# Аналогично сработает:
Дальше:
#Если бот видит, что ресурс - это документ,
# он приступает (должен) к его индексации.
# Если тип документа - динамический - бот запомнит что сюда
# нужно периодически возвращаться.
# Это пожелание боту, как часто реиндексировать документ. # Пожелание - не
более. Бот может послушаться, а может и нет. # Если, например,
он разок вернется через 10 дней и увидит, # что страница и впрямь
изменилась, может и еще разок вернется # через 10
дней. А если написать revisit-after 1 day и не менять # страницу
вообще - бот может обидеться и посчитать это попыткой # его спама.
Он занесет такую страницу в черный индекс # (точнее, сначала -
в "серый"). Это плохо. Дальше для Рамблера (только):
То есть в тегах комментария в заголовке первого уровня пишем ключевые
слова. Яндекс то, что в тегах комментария не индексит, а Рамблер
ест как
миленький. Потом, все картинки, что ни есть, должны содержать
alt`ы с ключевыми словами. Можно даже в неприметном месте страницы
однопиксельных прозрачных гифов запихать (не очень много - 3-4)
и alt`ы к ним нужные прикрутить. Это считается спамом поисковика
(как и два title`а, впрочем), но по опыту - они (боты) этого в
упор не видят. Вообщем, «легальные» способы кончились дальше идут
«нелегальные». Можно сделать для IE:
Программы, варез, софт, программа
Для NN:
Программы, варез, софт, программа
Это не очень удобно. Нужно ставить скриптину, определяющую тип браузера. Но боты глотают эту наживку и в «черный» список не запихивают.
Проще:
Варез программа
Но это боты грозятся определять. Ничего не знаю по этому поводу. Может, и определяют
- они сейчас умные пошли. Еще можно вот что сделать. Где-нибудь
неприметненько запихиваем прозрачные gif-чики и делаем из них
ссылки. Бот и alt`ы проиндексит и по ссылкам пойдет, особенно,
если сами ссылки по дизайну на страницу никак не поместить. Примерно
так:
и т.д. Ну, и нужен специально обученный человек, который будет
следить за эволюцией ботов, изменениями позиции страницы в поисковиках
и предпринимать сответствующие действия. Не
каждый день, но раз в недельку-две тестирование в поисковиках
своим страницам нужно устраивать. И вот еще что! Если релевантность
_слишком_ высока, Яндекс обижается и не выдает страницу по запросу.
За остальными не замечала. Другие страницы того же сайта с меньшей
релевантностью может выдавать («серый» список). Так что, если
на странице только слова «варез варез варез» - это не выход. Релевантность
должна быть не более 30 %. И одинаковые слова подряд лучше не
повторять. А Батва меня навел на мысль, что можно делать
по 2 страницы на одно ключевое слово. На одной странице релевантность
по ключевому слову 10 % (для подозрительного Яндекса), на другой
- порядка 30 % (для остальных). И вот когда все это извращение
готово - 10-15 стартовых качественно написанных страниц - идешь
на http://www.design.ru/free/addurl/ и каждую страницу индексишь
одной пимпой в нескольких наиболее популярных поисковиках. При
этом видишь ответы серверов, и, если не прошло - идешь индексить
вручную. Об остальных поисковиках спокойно забываешь, толку от
них… Работы больше. Описание к каждой странице - разное, ясен
тетя. Емкое, краткое состоящее из ключевых слов. Можно, и вручную
добавлять сайт в каждый поисковик, но это геморройно и не сильно
выгодней. Впрочем, это мое мнение. И последнее. В корень (только
в корень) помещаешь файт robots.txt (именно так и никак иначе)
со следующим содержимым: User-agent: * # Первая строка. # Комментарии,
понятное дело, убрать # Строка говорит, что любой бот может индексить
ресурс # Между первой и последующими - # не должно
быть переводов строк Disallow: /cgi-bin/ #Не индексировать то,
что в каталоге cgi-bin Disallow: /images/ #Не индексировать то,
что в каталоге images Disallow: /scripts/ #Не индексировать то,
что в каталоге scripts # И далее по смыслу. В конце каждого имени
каталога - слеш. # Нече там ботам ползать. Нагрузку на сервак
повышать. :) Вот, собственно. Хотя, можно еще много фантазировать
на тему.
Salomon |
|