Итак. В ответ на запрос пользователя бот выдает результат поиска.
Ищет он в собственном индексе. В индексе у него лежат сайты в том
виде, в каком бот их понимает. У каждого бота это понимание свое, но
общие черты прослеживаются.
Индекс образуется двумя путями.
Первый - web-маз сам просит бот проиндексить его сайтец. Так
поступают чаще всего с популярными и уважаемыми ботами. Для Рунета
это: Яндекс, Рамблер и Апорт. Причем именно в такой
последовательности. Хотя Рамблер с Яндексом соперничают в этом
плане. На остальные боты можно не тратить время. Это мое мнение.
Второй путь - боты
сами в «свободное от работы время» ползают по Инету и вынюхивают
изменения. С новыми сайтами они поступают по разному. Чаще всего они
принюхиваются к ним какое-то время, а потом, если, по мнению бота,
со страницей все в порядке (посетители иногда появляются, спама нет
и др.) - они его индексят. То есть заносят информацию о нем в свой
индекс (базу данных).
Самый тормозной в плане принюхивания - это
Рамблер. Он принюхивается по несколько месяцев. Самый непридирчивый
- Яндекс. Можно создать левый сайт и посмотреть, как скоро он
самопроизвольно появится в том или ином поисковике. В Яндексе… ну,
через месяц-два.
Кроме этого, боты следят за состоянием своего индекса. То есть за
его соответствием реальному положению дел в Инете. Сайт может
измениться, исчезнуть и т.д. Поэтому боты его обычно реиндексируют.
Правда, можно запретить это мета-тегами и цивилизованные боты не
будут этого делать.
Самый скоростной по реиндексированию -
Яндекс. Скорость реиндекса - несколько дней, а то и чаще, если
ресурс популярный. Самый тормозной - Апорт. Скорость реиндекса
страниц с посещаемостью 50-100 хостов в сутки - до полугода!
У
меня был сайт, который переехал. Так Апорт по запросу старый адрес
еще несколько месяцев выдавал, хотя по этому адресу уже несколько
месяцев ничего не было! И соответственно, посещаемость - 0. А Апорту
все равно!
Дальше.
Результат поиска по запросу пользователя чаще всего
выдается по релевантности. Чем выше релевантность, тем выше позиция
страницы в результате работы поисковика. Страница с наиболее высокой
(по мнению бота) релевантностью отображается первой.
Релевантность - это степень соответствия содержимого индекса
бота запросу пользователя.
Например, пользователь вводит
«анекдоты». Бот выдает страницы проиндексированных сайтов, где
встречается это слово. Причем не просто встречается, а встречается в
тех местах, которые бот индексит.
Но об этом позже.
Яндекс,
например, чаще всего выдает только одну страницу с сайта и ссылки на
то, что есть еще страницы с того же сервера. Замечали, наверное.
Другие боты могут по несколько страниц с одного сервака на один
запрос выдавать. Это не очень образованные боты, но их тоже юзают.
Продолжим с примером про «анекдоты». Бот выдает результат поиска
по релевантности. То есть, если на странице имеется 100 слов и 4 из
них - «анекдоты» (в именительном падеже, множественном числе), то
релевантность страницы по запросу «анекдоты» 0.04. Четыре процента.
Соответственно, если слов будет 10, и 4 из них - «анекдоты», то
релевантность будет 40 %. То есть в 10 раз выше.
Это грубоватый
пример, так как слова в заголовке (то что между
<title></title>) и в тексте страницы имеют для бота
разный вес, равно как слова в падеже и числе, указанном в запросе и
имеющемся на странице. Но для понимания понятия «релевантность»
вполне сойдет.
Поясню про падежи и числа.
Если запрос «анекдоТЫ», а на
странице встречаются только слова «анектоТ, анекдоТОВ» и т.д. то
релевантность страницы по этому запросу будет ниже, чем тех страниц,
на которых прямо написано слово «анекдоТЫ». Но в любом случае
страница все равно найдется по запросу «анекдоТЫ» (но в с конце
списка ответа поисковика).
Из сказанного следует, что страница должна содержать поменьше
слов, и слова должны быть, в основном, ключевые.
Куда же девать инфу, которая в 10-20 слов никак не поместится?
Ответ - страницы с инфой и страницы для ботов - это «две большие
разницы».
Страницы с инфой- это те страницы, на которые попадаешь по ссылке
со стартовой страницы. А стартовая страница (другие названия
- индексная, заходная, doorway и др.) - это страница которая как раз
и содержит 10-20 слов (включая заголовок и мета-теги). То есть эта
страница, созданная специально для бота. И больше ни для кого.
Обычно, на стартовой странице размещают лого, иногда еще
несколько слов - чтобы пользователь понял, куда попал, и кнопочку
«Вход». Иногда вместо кнопочки «вход» - ссылки на разные разделы
сайта. То есть несколько входов.
Если без текста на индексной
странице, ну, никак не обойтись, можно запихнуть его в картинки. Так
Мелкософт (http://www.microsoft.com/) поступает, например.
Правда, им-то чего о релевантности заботиться?
Важно, чтобы бот по запросу нашел хоть какую-то страницу на
сайте. Важно также, чтобы навигация на ВСЕХ страницах позволяла
попасть в КРАТЧАЙШИЙ срок в любое место сайта.
По крайней мере,
ссылка на главную страницу, по моему мнению, должна стоять на каждой
странице.
Если бот начнет индексить, он надет одну страницу и
дальше пойдет по ссылкам на ней. Нужно облегчить ему эту задачу.
Причем, чем больше ссылок на ту или иную страницу (с разных
страниц, ясен тетя), тем выше ее «ценность» с точки зрения
бота.
Итак.
Стартовая страница делается для бота. На ней нет
инфы, только ссылка (ссылки) и куча хитростей (см. ниже) для
заманивая ботов.
Страницы с инфой должны содержать ссылки друг
на друга, нормальный информативный заголовок и приемлемые
мета-теги. Все. Их цель - дать инфу и не препятствовать боту
запихнуть их в свой индекс. Они не должны первыми появляться по
запросу пользователя. Так как в данном случае это как раз те два
зайца, за которыми никак не угнаться, да и не надо.
Дальше.
Понятное дело, что есть не одно, а несколько ключевых
слов, по которым web-маз хочет, чтобы искался сайт. Чтобы этого
добиться, по хорошему, нужно делать столько стартовых страниц,
сколько желаемых web-мазом ключевых слов. Внешне эти страницы ничем
не должны отличаться. Ну, может, title`ом. Отличаться должна
служебная инфа, о которой речь пойдет ниже.
Например, у меня есть сайт для фирмешки, продающей стартеры для
иномарок. Я сделала с десяток-два индексных страниц для наиболее
популярных моделей иномарок. Внешне страницы отличаются только тем,
что на одной в заголовке написано «Стартеры для Мерседеса», а на
другой - «Стартеры для Вольво». Все. Конечно, отличаются мета-теги,
alt`ы (подписи к картинкам) и т.д. Об этом ниже. Каждую индексную
страницу я индексила в ботах отдельно.
Итак.
Что же индексит бот?
У каждого бота свой
характер, но в целом примерно так.
Во-первых title. Это самая
важная часть. Слова в title`е имеют самый большой вес. Большой вес
имеют слова в alt`ах (подписях к картинкам), слова между <h1>
</h1>, <h2> </h2> и т.д. в порядке убывания
значимости, слова между <b> </b>.
Кроме того, слова,
расположенные ближе (выше) к title`у, имеют больший вес, чем слова
расположенные ниже. То есть, чем выше слово, тем выше его вес при
определении релевантности.
Полнотекстовые боты (то есть
практически все современные) индексят еще и сам текст. В основном,
на предмет наличия в тексте слов, указанных в заголовке и метах. Но
если текста нет или очень мало - соответственно.
Итого, как заставить бот выдавать твою страницу первой по
запросу, например, «варез»?
Пишем:
<html> <title>Лучший
варез</title> <title> Софт Варез
Нелегальный софт</title> |
То есть пишем второй title.
После второго title`a нужно
поставить знак неразрывного пробела -   или . Так
как Яндекс, например, выдаст оба заголовка как один и без пробела
последнее слово первого заголовка сольется с первым словом второго
заголовка.
Разумеется, ключевые слова (2-6) можно выдумать и
другие.
На той же странице пишем дальше:
<meta
name="keywords" content="Варез, софт, нелегальный
софт"> <meta http-equiv="keywords" content="Варез,
софт, нелегальный софт"> <meta name="description"
content="Лучшие программы"> <meta
http-equiv="description" content="Лучшие программы">
|
В keywords`ах должно быть не более 10-ти слов, необходимо
использовать варианты (не более трех) наиболее частых падежей и
чисел: (например: программы, программ, программа), чередуя их с
другими словами (например: программы, софт, программ, варез,
программа).
В description - несколько слов (5-8 слов, не более 170 символов),
емко характеризующих сайт. В Апорте и Рамблере это описание появится
рядом с результатом поиска по запросу. В настоящее время при
индексировании содержимое description на релевантность не влияет. По
крайней мере, в рассмативаемых поисковиках.
Главное: МЕНЬШЕ СЛОВ! Преимущественно ключевые.
Name и http-equiv должны полностью совпадать. Одни боты понимают
name, другие - http-equiv.
Дальше на той же странице:
<meta
name="robots" content="index,follow"> # Роботам -
индексировать страницу и идти дальше по ссылкам на ней. #
Аналогично сработает: <meta name="robots" content="all">
|
Дальше:
<meta name="resourse-type"
content="document"> #Если бот видит, что ресурс - это
документ, # он приступает (должен) к его
индексации. <meta
name="document-state" content="dynamic"> # Если тип
документа - динамический - бот запомнит что сюда # нужно
периодически
возвращаться. <meta
name="revisit-after" content="10 days"> # Это пожелание
боту, как часто реиндексировать документ. # Пожелание - не
более. Бот может послушаться, а может и нет. # Если,
например, он разок вернется через 10 дней и увидит, # что
страница и впрямь изменилась, может и еще разок вернется #
через 10 дней. А если написать revisit-after 1 day и не менять
# страницу вообще - бот может обидеться и посчитать это
попыткой # его спама. Он занесет такую страницу в черный
индекс # (точнее, сначала - в "серый"). Это плохо.
|
Дальше для Рамблера (только):
<!--<h1>Варез,
софт, нелегальный софт</h1>//-->
|
То есть в тегах комментария в заголовке первого уровня пишем
ключевые слова. Яндекс то, что в тегах комментария не индексит, а
Рамблер ест как миленький.
Потом, все картинки, что ни есть, должны содержать alt`ы с
ключевыми словами.
Можно даже в неприметном месте страницы однопиксельных прозрачных
гифов запихать (не очень много - 3-4) и alt`ы к ним нужные
прикрутить. Это считается спамом поисковика (как и два title`а,
впрочем), но по опыту - они (боты) этого в упор не видят.
Вообщем, «легальные» способы кончились дальше идут «нелегальные».
Можно сделать для IE:
<div
style="visibility: hidden"> <h1>Программы, варез,
софт, программа</h1> </div>
|
Для NN:
<layer
visibility="hide"> <h1>Программы, варез, софт,
программа</h1> </layer> |
Это не очень удобно. Нужно ставить скриптину, определяющую тип
браузера. Но боты глотают эту наживку и в «черный» список не
запихивают.
Проще:
<font
color="#цвет фона"><h1>Варез
программа</h1></font> |
Но это боты грозятся определять. Ничего не знаю по этому поводу.
Может, и определяют - они сейчас умные пошли.
Еще можно вот что сделать. Где-нибудь неприметненько запихиваем
прозрачные gif-чики и делаем из них ссылки. Бот и alt`ы проиндексит
и по ссылкам пойдет, особенно, если сами ссылки по дизайну на
страницу никак не поместить.
Примерно так:
<a
href="первая ссылка"><img src="images/gif_1.gif"
width="1" height="1" border="0" alt="Варез, софт, нелегальный
софт"></a> <a href="вторая ссылка"><img
src="images/gif_1.gif" width="1" height="1" border="0"
alt="Софт, варез"></a> <a href="третья
ссылка"><img src="images/gif_1.gif" width="1" height="1"
border="0" alt="варез, софт"></a> и т.д.
|
Ну, и нужен специально обученный человек, который будет следить
за эволюцией ботов, изменениями позиции страницы в поисковиках и
предпринимать сответствующие действия. Не каждый день, но раз в
недельку-две тестирование в поисковиках своим страницам нужно
устраивать.
И вот еще что! Если релевантность _слишком_ высока, Яндекс
обижается и не выдает страницу по запросу. За остальными не
замечала. Другие страницы того же сайта с меньшей релевантностью
может выдавать («серый» список). Так что, если на странице только
слова «варез варез варез» - это не выход. Релевантность должна быть
не более 30 %. И одинаковые слова подряд лучше не повторять.
А Батва меня навел на мысль, что можно делать по 2 страницы на
одно ключевое слово. На одной странице релевантность по ключевому
слову 10 % (для подозрительного Яндекса), на другой - порядка 30 %
(для остальных).
И вот когда все это извращение готово - 10-15 стартовых
качественно написанных страниц - идешь на http://www.design.ru/free/addurl/ и каждую
страницу индексишь одной пимпой в нескольких наиболее популярных
поисковиках. При этом видишь ответы серверов, и, если не прошло -
идешь индексить вручную.
Об остальных поисковиках спокойно
забываешь, толку от них… Работы больше.
Описание к каждой
странице - разное, ясен тетя. Емкое, краткое состоящее из
ключевых слов.
Можно, и вручную добавлять сайт в каждый поисковик, но это
геморройно и не сильно выгодней. Впрочем, это мое мнение.
И последнее.
В корень (только в корень) помещаешь файт
robots.txt (именно так и никак иначе) со следующим содержимым:
User-agent:
* # Первая строка. # Комментарии, понятное
дело, убрать # Строка говорит, что любой бот может
индексить ресурс # Между первой и последующими -
# не должно быть переводов строк Disallow:
/cgi-bin/ #Не индексировать то, что в каталоге
cgi-bin Disallow: /images/ #Не индексировать то, что
в каталоге images Disallow: /scripts/ #Не
индексировать то, что в каталоге scripts
# И далее по смыслу. В конце каждого имени каталога - слеш.
# Нече там ботам ползать. Нагрузку на сервак повышать. :)
|
Вот, собственно. Хотя, можно еще много фантазировать на тему.