Всем привет, сегодня предлагаю Вам обзорную статью про Тематический индекс цитирования, далее как тИЦ, но начну с понятия Индекса цитирования.
Show time:
Индекс цитирования (или ИЦ) — принятая в научном мире мера «значимости» трудов какого-либо ученого. Величина индекса определяется количеством ссылок на этот труд (или фамилию) в других источниках. Однако для действительно точного определения значимости научных трудов важно не только количество ссылок на них, но и качество этих ссылок. Так, на работу может ссылаться авторитетное академическое издание, популярная брошюра или развлекательный журнал. Значимость у таких ссылок разная.
Tематический индекс цитирования (тИЦ) определяет «авторитетность» интернет-ресурсов с учетом качественной характеристики ссылок на них с других сайтов. Эту качественную характеристику называют «весом» ссылки. Рассчитывается она по специально разработанному алгоритму. Большую роль играет тематическая близость ресурса и ссылающихся на него сайтов. Само по себе количество ссылок на ресурс также влияет на значение его тИЦ, но тИЦ определяется не количеством ссылок, а суммой их весов.
тИЦ как средство определения авторитетности ресурсов призван обеспечить релевантность расположения ресурсов в рубриках каталога Яндекса. тИЦ не является чисто количественной характеристикой, поэтому мы показываем некоторые округленные значения, которые помогают ориентироваться в «значимости» («авторитетности») ресурсов в каждой области (теме).
По каким данным измеряется тИЦ
При измерении тИЦ берутся ссылки только с тех ресурсов, которые Яндекс проиндексировал и по которым он ищет, то есть только «русский» интернет. Это означает, что ссылки на русские ресурсы, например, из каталога Yahoo!, не учитываются Яндексом при измерении тИЦ.
Какие ссылки не учитываются в индексе
При подсчете тИЦ сайта не учитываются ссылки с веб-бордов, форумов, сетевых конференций, немодерируемых каталогов и прочих ресурсов, в которые кто угодно может добавлять ссылки без контроля со стороны владельца ресурса. Также при подсчете CY не учитываются ссылки с сайтов, расположенных на бесплатных хостингах, в случае если они не описаны в Яндекс.Каталоге. Иными словами, все такие ссылки имеют для нас нулевой вес.
воскресенье, марта 30, 2008
суббота, марта 22, 2008
Как работает Google PageRank?
Привет!
Я уже вспоминал немного о PageRank, и поэтому предлагаю ознакомиться с понятием PageRank более детально.)
Google PageRank (от Larry Page Rank) (иногда просто PR) — алгоритм расчёта авторитетности страницы, используемый поисковой системой Google.
PageRank — это числовая величина, характеризующая «важность» страницы в Google. Чем больше ссылок на страницу, тем она становится «важнее». Кроме того, «вес» страницы А определяется весом ссылки, передаваемой страницей B.
Таким образом, PageRank — это метод вычисления веса страницы путем подсчета важности ссылок на нее. PageRank является одним из вспомогательных факторов при ранжировании сайтов в результатах поиска. Google PageRank, это один из важнейших для веб-разработчиков параметров.
Как работает PageRank?
1. PageRank один из многочисленных методов используемых Google для определения релевантности и важности страницы.
2. Google интерпретирует ссылку со страницы A на страницу B как голос A в пользу B, конечно учитывается не только количество голосов, но и качество голосующих страниц.
3. PageRank основан на количестве входящих ссылок, но не только на нем, релевантность и качество тоже важны.
4. PR(A) = (1-d) + d(PR(t1)/C(t1) + … + PR(tn)/C(tn)).
5. Не все ссылки одинаково влияют на PageRank.
6. Если на странице с PR8 есть только одна ссылка, то сайт, на который она ссылается, получит весь PR который она может передать, если же ссылок 100 то каждая ссылка будет передавать только часть этого PR.
7. Плохие входящие ссылки не влияют на PR.
8. В PR учитывается время существования сайта, релевантность входящих ссылок и время их существования.
9. При расчете PR контент не учитывается.
10. PR рассчитывается не для сайта в целом, а для каждой страницы в отдельности.
11. Важна каждая входящая ссылка, за исключением ссылок с забаненых сайтов.
12. PR это не только целые значения от 0 до 10, это вещественное число.
13. Достичь каждого следующего уровня PR все сложнее, предположительно используется логарифмическая шкала.
14. PR пересчитывается постоянно, но данные для тулбара обновляются раз в несколько месяцев.
15. Google старается найти страницы солидные и релевантные одновременно.
Факторы, влияющие на PageRank
1. Частые обновления сайта не увеличивают PR автоматически.
2. Высокий PR не гарантирует высокие позиции в результатах поиска.
3. Каталоги DMOZ и Yahoo! не увеличивают PR автоматически.
4. .edu и .gov сайты не увеличивают PR автоматически.
5. Внутренние страницы не обязательно имеют меньший PR чем главная.
6. Ссылки с сайта Wikipedia не увеличивают PR автоматически.
7. Ссылки с атрибутом nofollow не влияют на PR.,
8. Эффективные внутренние ссылки влияют на PR.
9. Ссылки с тематических сайтов влияют сильнее.
10. Текст, используемый в ссылке, часто может быть важнее, чем PR ссылающейся страницы.
11. Исходящие и входящие ссылки на качественные тематические сайты положительно влияют на PR.
12. Несколько одинаковых ссылок с одной страницы считаются за одну.
13. Сайт может быть забанен за ссылки на забаненные сайты.
Google использует множество факторов для ранжирования страниц, PageRank один из лучших. PR отражает два важных момента, как много страниц ссылаются на данную и какого уровня страницы на нее ссылаются. Пять шесть ссылок с таких сайтов как www.cnn.com или www.nytimes.com, могут быть более полезны, чем гораздо большее количество ссылок с менее солидных сайтов. [Google Librarian Central]
PR может отражать только приблизительное качество страницы, но никак не связан с ее тематической релевантностью, которую можно определить только учитывая контекст ссылок, и такие факторы как плотность ключевых слов, заголовок страницы и т.п. [PageRank: An Essay]
Как Google рассчитывает PageRank?

Инструменты и сервисы Google
Я уже вспоминал немного о PageRank, и поэтому предлагаю ознакомиться с понятием PageRank более детально.)
Google PageRank (от Larry Page Rank) (иногда просто PR) — алгоритм расчёта авторитетности страницы, используемый поисковой системой Google.
PageRank — это числовая величина, характеризующая «важность» страницы в Google. Чем больше ссылок на страницу, тем она становится «важнее». Кроме того, «вес» страницы А определяется весом ссылки, передаваемой страницей B.
Таким образом, PageRank — это метод вычисления веса страницы путем подсчета важности ссылок на нее. PageRank является одним из вспомогательных факторов при ранжировании сайтов в результатах поиска. Google PageRank, это один из важнейших для веб-разработчиков параметров.
Как работает PageRank?
1. PageRank один из многочисленных методов используемых Google для определения релевантности и важности страницы.
2. Google интерпретирует ссылку со страницы A на страницу B как голос A в пользу B, конечно учитывается не только количество голосов, но и качество голосующих страниц.
3. PageRank основан на количестве входящих ссылок, но не только на нем, релевантность и качество тоже важны.
4. PR(A) = (1-d) + d(PR(t1)/C(t1) + … + PR(tn)/C(tn)).
5. Не все ссылки одинаково влияют на PageRank.
6. Если на странице с PR8 есть только одна ссылка, то сайт, на который она ссылается, получит весь PR который она может передать, если же ссылок 100 то каждая ссылка будет передавать только часть этого PR.
7. Плохие входящие ссылки не влияют на PR.
8. В PR учитывается время существования сайта, релевантность входящих ссылок и время их существования.
9. При расчете PR контент не учитывается.
10. PR рассчитывается не для сайта в целом, а для каждой страницы в отдельности.
11. Важна каждая входящая ссылка, за исключением ссылок с забаненых сайтов.
12. PR это не только целые значения от 0 до 10, это вещественное число.
13. Достичь каждого следующего уровня PR все сложнее, предположительно используется логарифмическая шкала.
14. PR пересчитывается постоянно, но данные для тулбара обновляются раз в несколько месяцев.
15. Google старается найти страницы солидные и релевантные одновременно.
Факторы, влияющие на PageRank
1. Частые обновления сайта не увеличивают PR автоматически.
2. Высокий PR не гарантирует высокие позиции в результатах поиска.
3. Каталоги DMOZ и Yahoo! не увеличивают PR автоматически.
4. .edu и .gov сайты не увеличивают PR автоматически.
5. Внутренние страницы не обязательно имеют меньший PR чем главная.
6. Ссылки с сайта Wikipedia не увеличивают PR автоматически.
7. Ссылки с атрибутом nofollow не влияют на PR.,
8. Эффективные внутренние ссылки влияют на PR.
9. Ссылки с тематических сайтов влияют сильнее.
10. Текст, используемый в ссылке, часто может быть важнее, чем PR ссылающейся страницы.
11. Исходящие и входящие ссылки на качественные тематические сайты положительно влияют на PR.
12. Несколько одинаковых ссылок с одной страницы считаются за одну.
13. Сайт может быть забанен за ссылки на забаненные сайты.
Google использует множество факторов для ранжирования страниц, PageRank один из лучших. PR отражает два важных момента, как много страниц ссылаются на данную и какого уровня страницы на нее ссылаются. Пять шесть ссылок с таких сайтов как www.cnn.com или www.nytimes.com, могут быть более полезны, чем гораздо большее количество ссылок с менее солидных сайтов. [Google Librarian Central]
PR может отражать только приблизительное качество страницы, но никак не связан с ее тематической релевантностью, которую можно определить только учитывая контекст ссылок, и такие факторы как плотность ключевых слов, заголовок страницы и т.п. [PageRank: An Essay]
Как Google рассчитывает PageRank?
- Никто точно не знает, как Google рассчитывает PR.
- PR(A) = (1-d) + d(PR(t1)/C(t1) + … + PR(tn)/C(tn)). Так выглядит примерная формула расчета PR, где t1-tn страницы, ссылающиеся на A, С(tn) количество исходящих ссылок на соответствующий странице, d коэффициент обычно равный 0.85.
- Можно предположить, что PR вычисляется по формуле PR = 0.15 + 0.85 * (часть PR каждой ссылающейся страницы передаваемая нашей). Количество PR, которое страница может использовать, чтобы голосовать за другие, чуть меньше чем ее собственный PR, а точнее 0.85 * PR, это количество и делиться между страницами, на которые она ссылается.
- Алгоритм вычисления PR, основан на распределении собственного PR страницы, между страницами на которые она ссылается. К примеру, если на странице с PR8 есть только одна ссылка, то страница, на которую она ссылается, получит весь доступный PR, но если на этой странице 100 ссылок, то каждая из них получит только сотую часть доступного PR. [The Importance of PageRank]
- Вследствие, такого алгоритма вычисления PR, ссылка со страницы с PR4 и 5 внешними ссылками, эффективнее ссылки со страницы с PR8 и 100 внешних ссылок. PR ссылающихся страниц важен, но не менее важно и количество исходящих ссылок, которое они содержат, чем больше исходящих ссылок тем меньше PR перейдет каждой.
- PR использует входящие ссылки как индикатор важности страницы. Google интерпретирует ссылку со страницы A на страницу B как голос страницы A в пользу страницы B. Учитывается не только количество голосов, но и качество голосующих страниц. Чем выше PR страницы, тем большее значение имеет ее голос.
- Не все ссылки одинаково полезны. Чем выше PR ссылающейся страницы, тем больший PR она передает, но нужно учитывать и то, что этот PR делиться в равной степени между всеми страницами на которые она ссылается. Поэтому ссылка со страницы с PR4 и единственной исходящей ссылкой, может дать больше чем ссылка со страницы с PR5 и 100 исходящих ссылок. Типичный пример всем известные миллионодоларовые главные страницы, такая страница с PR7 и сотнями исходящих ссылок, несмотря на свою важность, передает другим страницам незначительный PR.
- Каждый следующий уровень PR достигается значительно сложнее предыдущего. При вычислении PR используется логарифмическая шкала, это значит, что для перехода с PR0 к PR1 требуется один шаг, несколько труднее набрать PR3, еще труднее PR4, и значительно труднее PR5.

- PR вычисляется не для сайта в целом, а для каждой отдельной страницы и рекурсивно связан с PR страниц которые на нее ссылаются.
- Google комбинирует PR со сложными техниками текстового поиска, анализируются многие аспекты содержимого страницы и ссылающихся на нее страниц, чтобы найти страницы лучше других, соответствующие запросу пользователя.
- ПР пересчитывается постоянно, обновляется раз в несколько месяцев лишь индикатор на тулбаре.
- PR это не только целые значения от 0 до 10, PR вещественное число. Правильно думать о PR как о вещественном числе, потому что при внутренних вычислениях мы используем множество градаций, а не только значения от 0 до 10 отображаемые в тулбаре.
- Робот не анализирует сайты мгновенно. Часто необходимо два полных апдейта чтобы все входящие ссылки были обнаружены, засчитаны и отображены как входящие ссылки.
- Важна каждая входящая ссылка, за исключение ссылок с забаненных сайтов. PR это своеобразная система голосования, каждая ссылка на страницу это голос в ее пользу. Страницы с высоким PR считаются более важными, и их голоса в некоторых случаях имеют большее значение, но в основном, чем больше входящих ссылок, тем лучше.
- Добавление новых страниц может уменьшить PR. Этот эффект заключается в том, что суммарный PR сайта возрастает, но одна или нескольких старых страниц теряют часть PR, за счет чего новые его получают, чем больше добавлено страниц тем больше PR теряют существующие. На крупных сайтах этот эффект незаметен, но на малых его иногда можно наблюдать.
- Уменьшение PR. PR страницы может уменьшиться из-за исчезновения некоторых важных ссылок, которые передавали ей PR, или падения PR ссылающихся на нее страниц.
- Заголовки ( h1, … , h6) и теги strong важны, но не влияют на PR. Используйте мета-теги, заголовки и теги b, strong, но так чтобы контент оставался читабельным и полезным. Обращайте внимание на текст окружающий ключевые слова, поисковики все лучше работают с семантикой, поэтому контекст ключевых слов очень важен.
- Большое значение имеет эффективность внутренней структуры сайта. Страницы на сайте должны быть связаны как можно более простым способом, в идеале не должно быть страниц в более чем трех кликах от главной.
- Ссылки с и на тематические сайты с высоким PR очень важны. Чем ближе тематика страниц, тем больше PR передает ссылка. Ссылки на уважаемые сайты с близкой тематикой показывают поисковым машинам, что сайт полезен для посетителей, это не всегда верно для сайтов, которые существуют уже несколько лет и имеют высокий рейтинг в Google. Ссылаясь только на качественные сайты, можно получить некоторое преимущество перед конкурентами.
- Важен текст ссылки. Чем более специфичен текст ссылки тем лучше Google может связать ее с запросами пользователей.
- Ссылочные фермы (линкопомойки) пенализируются. Google заинтересован в страницах содержащий менее 100 исходящих ссылок, страницы с большим количеством ссылок считаются ссылочными фермами и пенализируются.
- Очень важны входящие ссылки с популярных сайтов. Если на страницу ссылаются страницы с высоким PR она получает часть их репутации.
- Сайт может быть забанен, если ссылается на забаненные сайты. Будьте очень осторожны с исходящими ссылками, не ссылайтесь на подозрительные сайты (линкопомойки, забаненные сайты и т.д.), Google может пенализировать ваш сайт за такие ссылки, всегда проверяйте PR сайтов на которые ссылаетесь.
- Мошенничество наказывается пенализацией PR и может привести к бану. Скрытый текст, редиректы, клоакинг, автоматизированный обмен ссылками и другие действия, противоречащие Google’s quality guidelines, могут привести к бану сайта в Google.
- Google учитывает время существования сайта, релевантность входящих ссылок, и время их существования, если входящая ссылка не релевантна она не будет давать много PR.
- Миф: чем выше PR тем выше позиция в результатах поиска. Конечно, страницы с высоким PR в результатах поиска расположены выше, чем конкуренты с меньшим PR, но нельзя забывать, что Google учитывает контекст входящих ссылок, и только те ссылки, которые связаны со словами в запросе позволяют занять высокое место в результатах поиска по этому запросу.
- Ссылки с популярных сайтов схожей тематики влияют на PR гораздо сильнее, чем ссылки с других сайтов. Конечно, ссылки с сайтов другой тематики тоже влияют на PR, но не так сильно.
- У различных страниц сайта может быть разный PR. Поисковые машины индексируют страницы, а не сайты, поэтому у каждой страницы есть свой PR.
- Текст ссылки, часто более важен, чем PR ссылающейся страницы.
- Если нужно найти важные и релевантные страницы, с которых стоит получить ссылки, забудьте о PR, используйте ранжирование в результатах поиска. Введите в поиск слова, по которым хотите продвигаться, в ответ получите страницы, которые Google считает наиболее важными и лучше всего отвечающими такому запросу.
- Частые обновления содержания не увеличивают PR автоматически. Зато робот будет чаще посещать ваш сайт, к тому же больше вероятность, что на вас будут ссылаться.
- Контент не учитывается при расчете PR, но учитывается при поиске.
- Высокий PR не гарантирует, высоких позиций в результатах поиска, для любых запросов, иначе сайты с PR10, такие как Adobe, всегда занимали бы первые позиции в выдаче, а этого не происходит.
- Ссылки с сайта Wikipedia не увеличивают PR автоматически. Wikipedia использует nofollow, чтобы показать поисковикам, что эти ссылки не нужно учитывать.
- Размещение в DMOZ и Yahoo! не дают сайту никаких бонусов PR. Google использует DMOZ.org, для работы своего каталога, и в связи с этим фактом возникли предположения, что размещение сайта в DMOZ дает некоторый прирост PR, на самом деле этот прирост точно такой же как и от любой другой входящей ссылки. Но не стоит забывать, что данные DMOZ используют сотни сайтов.
- Внутренние страницы не обязательно имеют PR ниже, чем главная, в зависимости от популярности сайта внутренние страницы могут иметь и более высокий PR.
- Мета-теги не увеличивают PR. Google иногда использует мета-тег description, при индексации сайта, он может быть полезен если страница состоит преимущественно из графики, но конечно не влияет на PR.
- .edu и .gov сайты не имеют преимуществ в PR. Нет никаких доказательств того, что ссылки с ODP, .edu или .gov дают какие-то особые преимущества, просто эти сайты обычно имеют высокий PR, потому что многие на них ссылаются.
- Ссылки с атрибутом nofollow не влияют на PR. Google использует значение nofollow чтобы создатели сайтов могли использовать ссылки которые не должны учитываться при расчете PR, эти ссылки не являются «голосом» в пользу страницы на которую они ссылаются.
- Несколько одинаковых ссылок с одной страницы считаются за одну. Достаточно разумно, что страница может голосовать за другую только один раз.
Ссылки страницы на саму себя не увеличивают PR. Понятно, что страница не должна голосовать за себя, и такие ссылки нельзя учитывать.
Плохие входящие ссылки не влияют на PR. Не важно, откуда на страницу размещаются входящие ссылки, сайты не пенализируются за то, что на них ссылаются забаненные сайты или линкопомойки.
Висячие ссылки не влияют на PR. Висячие ссылки — это ссылки на страницы, не имеющие исходящих ссылок, их достаточно много и они разрушают модель, поэтому исключены из расчета PR.
- PageRank Search - Упорядочивает результаты поиска по PR.
- Google PageRank Inspector - Скрипт, выводящий PR всех страниц сайта. Новые страницы, на которые ссылаются страницы с высоким PR, могут быть проиндексированы быстрее и иметь лучшие позиции в результатах поиска.
- Google’s PageRank - Calculator - Позволяет рассчитывать распределение PR между страницами.
- Webmastereyes, Visual PageRank View - Отображают страницу указывая PR каждой ссылки, отмечают nofollow и внешние ссылки.
- Smart PageRank - Проверяет PR во многих датацентрах, есть возможность уведомления об изменении PR по email.
- Google PageRank Notifier - Уведомления об изменении PR на email, использует Google Toolbar «API», PR проверяется каждый час.
- Google PageRank™ Checker (необходима регистрация) - Мониторинг PR сайтов с помощью RSS и уведомления об его изменении на email.
- Dig PageRank - Проверяет PR на более чем 100 датацентрах.
- Live PageRank Check - Текущее значение PageRank можно использовать как индикатор значения которое будет отображено когда Google экспортирует значения в Google Toolbar. Live PageRank показывает текущее значение PR в индексах Google, это значение постоянно обновляется и только раз в три месяца экспортируется для отображения в Google Toolbar.
- Page Rank Widget для Mac OS - Небольшой виджет отображающий PR.
- Google PageRank Prediction - Инструмент анализирует популярность сайта и пытается предсказать будущее значение PR. More Page Rank Tools.
- PageRank Checker - Отображает PR ссылающихся на сайт страниц.
- PageRank Overlay (PR Mapper) - Посещайте сайт конкурентов и смотрите PR каждой ссылки одновременно. Доступен и в виде расширения Firefox.
- PageRank Decoder (Demo) - Этот маленький инструмент не сильно отличается от других, отображающих PR, тем не менее, позволяет собирать сайты в визуальную сеть и соединять их с помощью стрелок, перемещать как карточки, соединять или удалять в корзину.
- Page Rank Export List History - Даты экспорта PR в Google Toolbar.
- Google Ranking Factors - Факторы ранжирования страниц в Google.
Инструменты и сервисы Google
- Google Quality Guidelines - Это руководство упоминает множество форм обмана или мошенничества, приводящих к пенализации или бану сайта, конечно даже если вы будете использовать другие недобросовестные методы, негативная реакция Google гарантирована.
- Форма запроса на повторное включение сайта в базу Google. Запрос на повторное включение в базу Google сайта однажды нарушившего правила Google.
- Google Tools - Исчерпывающий обзор инструментов Google на Dmoz.org.
воскресенье, марта 16, 2008
Что нужно знать о поисковых системах
В начальный период развития Интернет, число его пользователей было невелико, а объем доступной информации относительно небольшим. В большинстве случаев доступ к Интернет имели сотрудники различных университетов и лабораторий, а в целом Сеть использовалась в научных целях. В это время задача поиска информации в сети Интернет была далеко не столько актуальной, как в наше время.
В настоящее время существует 3 основных международных поисковых системы – Google, Yahoo и MSN Search, имеющих собственные базы и алгоритмы поиска. Большинство остальных поисковых систем (их можно насчитать очень много) использует в том или ином виде результаты 3 перечисленных. Например, поиск AOL (search.aol.com) и Mail.ru используют базу Google, а AltaVista, Lycos и AllTheWeb – базу Yahoo.
В России основной поисковой системой является Яндекс, за ним идут Rambler, Aport, Mail.ru.
В Украине основной поисковой системой является Мета, A.UA, Bigmir.net.
Общие принципы работы поисковых систем
Поисковая система состоит из следующих основных компонентов:
Spider (паук) - браузероподобная программа, которая скачивает веб-страницы.
Crawler (краулер, «путешествующий» паук) – программа, которая автоматически проходит по всем ссылкам, найденным на странице.
Indexer (индексатор) - программа, которая анализирует веб-страницы, скаченные пауками.
Database (база данных) – хранилище скачанных и обработанных страниц.
Search engine results engine (система выдачи результатов) – извлекает результаты поиска из базы данных.
Web server (веб-сервер) – веб-сервер, который осуществляет взаимодействие между пользователем и остальными компонентами поисковой системы.
Детальная реализация поисковых механизмов может отличаться друг от друга (например, связка Spider+Crawler+Indexer может быть выполнена в виде единой программы, которая скачивает известные веб-страницы, анализирует их и ищет по ссылкам новые ресурсы), однако всем поисковым системам присущи описанные общие черты.
Spider. Паук - это программа, которая скачивает веб-страницы тем же способом, что и браузер пользователя. Отличие состоит в том, что браузер отображает информацию, содержащуюся на странице (текстовую, графическую и т.д.), паук же не имеет никаких визуальных компонент и работает напрямую с html-текстом страницы (вы можете сделать «просмотр html-кода» в вашем браузере, чтобы увидеть «сырой» html-текст).
Crawler. Выделяет все ссылки, присутствующие на странице. Его задача - определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Краулер, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе.
Indexer. Индексатор разбирает страницу на составные части и анализирует их. Выделяются и анализируются различные элементы страницы, такие как текст, заголовки, структурные и стилевые особенности, специальные служебные html-теги и т.д.
Database. База данных - это хранилище всех данных, которые поисковая система скачивает и анализирует. Иногда базу данных называют индексом поисковой системы.
Search Engine Results Engine. Система выдачи результатов занимается ранжированием страниц. Она решает, какие страницы удовлетворяют запросу пользователя, и в каком порядке они должны быть отсортированы. Это происходит согласно алгоритмам ранжирования поисковой системы. Эта информация является наиболее ценной и интересной для нас – именно с этим компонентом поисковой системы взаимодействует оптимизатор, пытаясь улучшить позиции сайта в выдаче, поэтому в дальнейшем мы подробно рассмотрим все факторы, влияющие на ранжирование результатов.
Web server. Как правило, на сервере присутствует html-страница с полем ввода, в котором пользователь может задать интересующий его поисковый термин. Веб-сервер также отвечает за выдачу результатов пользователю в виде html-страницы.
Пока, всё и До встречи!!!
В настоящее время существует 3 основных международных поисковых системы – Google, Yahoo и MSN Search, имеющих собственные базы и алгоритмы поиска. Большинство остальных поисковых систем (их можно насчитать очень много) использует в том или ином виде результаты 3 перечисленных. Например, поиск AOL (search.aol.com) и Mail.ru используют базу Google, а AltaVista, Lycos и AllTheWeb – базу Yahoo.
В России основной поисковой системой является Яндекс, за ним идут Rambler, Aport, Mail.ru.
В Украине основной поисковой системой является Мета, A.UA, Bigmir.net.
Общие принципы работы поисковых систем
Поисковая система состоит из следующих основных компонентов:
Spider (паук) - браузероподобная программа, которая скачивает веб-страницы.
Crawler (краулер, «путешествующий» паук) – программа, которая автоматически проходит по всем ссылкам, найденным на странице.
Indexer (индексатор) - программа, которая анализирует веб-страницы, скаченные пауками.
Database (база данных) – хранилище скачанных и обработанных страниц.
Search engine results engine (система выдачи результатов) – извлекает результаты поиска из базы данных.
Web server (веб-сервер) – веб-сервер, который осуществляет взаимодействие между пользователем и остальными компонентами поисковой системы.
Детальная реализация поисковых механизмов может отличаться друг от друга (например, связка Spider+Crawler+Indexer может быть выполнена в виде единой программы, которая скачивает известные веб-страницы, анализирует их и ищет по ссылкам новые ресурсы), однако всем поисковым системам присущи описанные общие черты.
Spider. Паук - это программа, которая скачивает веб-страницы тем же способом, что и браузер пользователя. Отличие состоит в том, что браузер отображает информацию, содержащуюся на странице (текстовую, графическую и т.д.), паук же не имеет никаких визуальных компонент и работает напрямую с html-текстом страницы (вы можете сделать «просмотр html-кода» в вашем браузере, чтобы увидеть «сырой» html-текст).
Crawler. Выделяет все ссылки, присутствующие на странице. Его задача - определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Краулер, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе.
Indexer. Индексатор разбирает страницу на составные части и анализирует их. Выделяются и анализируются различные элементы страницы, такие как текст, заголовки, структурные и стилевые особенности, специальные служебные html-теги и т.д.
Database. База данных - это хранилище всех данных, которые поисковая система скачивает и анализирует. Иногда базу данных называют индексом поисковой системы.
Search Engine Results Engine. Система выдачи результатов занимается ранжированием страниц. Она решает, какие страницы удовлетворяют запросу пользователя, и в каком порядке они должны быть отсортированы. Это происходит согласно алгоритмам ранжирования поисковой системы. Эта информация является наиболее ценной и интересной для нас – именно с этим компонентом поисковой системы взаимодействует оптимизатор, пытаясь улучшить позиции сайта в выдаче, поэтому в дальнейшем мы подробно рассмотрим все факторы, влияющие на ранжирование результатов.
Web server. Как правило, на сервере присутствует html-страница с полем ввода, в котором пользователь может задать интересующий его поисковый термин. Веб-сервер также отвечает за выдачу результатов пользователю в виде html-страницы.
Пока, всё и До встречи!!!
среда, марта 12, 2008
Что же такое SEO?
Всем привет!
Начну свой блог с основного понятия SEO (англ. search engine optimization, SEO) или по нашему поисковая оптимизация или русский эквивалент СЕО, далее как SEO.)
Оставим ненадолго вопрос: «Что же такое SEO?» и проведем краткий вводный курс в работу поисковой системы. Поисковая система состоит из нескольких компонентов: spider (паук), crawler, indexer (индексатор), database (база данных), и самого важного компонента для нашей темы - search engine results engine (система выдачи результатов). Опустим разбор всех частей системы и остановим внимание на последней. Система выдачи результатов определяет, какие страницы удовлетворяют поисковому запросу и в каком порядке следует строить выдачу результатов. Критерии, на основании которых система принимает окончательное решение, постоянно совершенствуются, что является основной проблемой всех оптимизаторов (занимающиеся поисковой оптимизацией). На алгоритмах работы разных систем строится вся концепция SEO.
Таким оброзом, SEO это комплекс мер по оптимизации внутренних (HTML-код, структура, содержание) и внешних (количество и «качество» ссылающихся ресурсов) параметров, направленный на улучшение позиций сайта в выдаче по конкретным поисковым запросам.
Окунёмся немного в историю, SEO берет свое начало в середине 1990-ых годов вместе с открытием и развитием поисковых систем. Это было «золотое время» для оптимизаторов. Осуществляя поиск, системы делали ставку на содержание страниц и прочие внутренние факторы: навигацию, структуру, грамотную разметку и внутренние ссылки. Владельцам сайтов не составляло труда привести тексты (полностью HTML-код) в соответствие с запросами, по которым посетители находили ресурс через поисковой механизм. Подобный алгоритм работы привел к появлению в результатах массового поискового спама – страниц, не несущих, как правило, никакой смысловой нагрузки и созданных с целью манипуляции результатами поиска.
Дело круто изменилось с появлением PageRank – алгоритма расчета авторитетности страницы, введенного гигантом современной поисковой индустрии – Google. С этого момента внутренние факторы делили определяющую роль с внешними. Количество ссылок, ведущих на страницу, увеличивало «вес» («важность») этой страницы в глазах поисковой системы. Это предопределило новые вехи в SEO-деятельности: регистрацию в каталогах и рейтингах, обмен ссылками, и прочие действия, увеличивающие ссылаемость на страницу.
Выделают 4 класса SEO-деятельности, границы которых могут варьироваться от одного поисковика к другому.
«Белая» оптимизация
Белым называется оптимизаторская работа над ресурсом без применения официально запрещённых поисковиками методов раскрутки ресурса.
«Серая» оптимизация
Под серым SEO понимается, что вебмастер, который занимается продвижением ресурса так или иначе затрагивает методы, запрещенные поисковыми системами — например, использует линкаторы, взаимный обмен ссылками, покупает ссылки с других ресурсов, участвует в автоматической накрутке счетчиков и т.п. Также к серым методам относится перенасыщение текста ключевыми словами в ущерб его читабельности, агрегация стороннего контента (т.е. в данном случае воровство).
«Чёрная» оптимизация
Чёрная оптимизация обычно представляется как использование дорвеев — страниц и ресурсов, созданных (зачастую автоматически) специально для роботов поисковых систем. В теории человек не должен читать текст, который размещен на дорвее, так как он представляет собой бессмысленный набор из ключевых слов и популярных запросов. Методы раскрутки дорвеев — это нарушения всех правил поисковых систем, это беспорядочный спам по любым чужим ресурсам (гостевым книгам, форумам, каталогам, блогам, вики-сайтам, и т. п.), где может остаться ссылка на дорвей.
Также к чёрным методам SEO можно отнести использование так называемого скрытого текста на страницах сайта. Для пользователей данный текст не виден, однако поисковые роботы легко его индексируют. Обычно в скрытом тексте содержатся ключевые слова для придания «веса» оптимизируемой странице.
«Оранжевая» оптимизация
Оранжевой называется оптимизация, отличная от трех классических методов. Основной смысл состоит в том, что к сайту прикрепляются некоторые интересные материалы, не имеющие прямого отношения к тематике сайта, и проводится привлечение публики с упором на эти материалы. Часто используются методы, такие, как хамбаги и прочие. Как правило, для каждого конкретного случая придумывается своя специальная технология. Применяется в условиях ограниченности материальных ресурсов. Относительно трудоемка. Основной недостаток — небольшой процент посетителей, заинтересованных в основной тематике сайта.
Итак, я постарался рассказать Вам, что же такое SEO и что представляет собой работа оптимизатора. Как и во всём, SEO-деятельность имеет имеет свои плюсы и минусы
SEO – весьма динамичная деятельность, требующая от оптимизаторов новых, соответствующих текущей ситуации, инструментов, методов, понимания того, как добиться желаемых результатов, и безошибочности в выбранных действиях.
Всем пока!) И до встречи!
Начну свой блог с основного понятия SEO (англ. search engine optimization, SEO) или по нашему поисковая оптимизация или русский эквивалент СЕО, далее как SEO.)
Оставим ненадолго вопрос: «Что же такое SEO?» и проведем краткий вводный курс в работу поисковой системы. Поисковая система состоит из нескольких компонентов: spider (паук), crawler, indexer (индексатор), database (база данных), и самого важного компонента для нашей темы - search engine results engine (система выдачи результатов). Опустим разбор всех частей системы и остановим внимание на последней. Система выдачи результатов определяет, какие страницы удовлетворяют поисковому запросу и в каком порядке следует строить выдачу результатов. Критерии, на основании которых система принимает окончательное решение, постоянно совершенствуются, что является основной проблемой всех оптимизаторов (занимающиеся поисковой оптимизацией). На алгоритмах работы разных систем строится вся концепция SEO.
Таким оброзом, SEO это комплекс мер по оптимизации внутренних (HTML-код, структура, содержание) и внешних (количество и «качество» ссылающихся ресурсов) параметров, направленный на улучшение позиций сайта в выдаче по конкретным поисковым запросам.
Окунёмся немного в историю, SEO берет свое начало в середине 1990-ых годов вместе с открытием и развитием поисковых систем. Это было «золотое время» для оптимизаторов. Осуществляя поиск, системы делали ставку на содержание страниц и прочие внутренние факторы: навигацию, структуру, грамотную разметку и внутренние ссылки. Владельцам сайтов не составляло труда привести тексты (полностью HTML-код) в соответствие с запросами, по которым посетители находили ресурс через поисковой механизм. Подобный алгоритм работы привел к появлению в результатах массового поискового спама – страниц, не несущих, как правило, никакой смысловой нагрузки и созданных с целью манипуляции результатами поиска.
Дело круто изменилось с появлением PageRank – алгоритма расчета авторитетности страницы, введенного гигантом современной поисковой индустрии – Google. С этого момента внутренние факторы делили определяющую роль с внешними. Количество ссылок, ведущих на страницу, увеличивало «вес» («важность») этой страницы в глазах поисковой системы. Это предопределило новые вехи в SEO-деятельности: регистрацию в каталогах и рейтингах, обмен ссылками, и прочие действия, увеличивающие ссылаемость на страницу.
Выделают 4 класса SEO-деятельности, границы которых могут варьироваться от одного поисковика к другому.
«Белая» оптимизация
Белым называется оптимизаторская работа над ресурсом без применения официально запрещённых поисковиками методов раскрутки ресурса.
«Серая» оптимизация
Под серым SEO понимается, что вебмастер, который занимается продвижением ресурса так или иначе затрагивает методы, запрещенные поисковыми системами — например, использует линкаторы, взаимный обмен ссылками, покупает ссылки с других ресурсов, участвует в автоматической накрутке счетчиков и т.п. Также к серым методам относится перенасыщение текста ключевыми словами в ущерб его читабельности, агрегация стороннего контента (т.е. в данном случае воровство).
«Чёрная» оптимизация
Чёрная оптимизация обычно представляется как использование дорвеев — страниц и ресурсов, созданных (зачастую автоматически) специально для роботов поисковых систем. В теории человек не должен читать текст, который размещен на дорвее, так как он представляет собой бессмысленный набор из ключевых слов и популярных запросов. Методы раскрутки дорвеев — это нарушения всех правил поисковых систем, это беспорядочный спам по любым чужим ресурсам (гостевым книгам, форумам, каталогам, блогам, вики-сайтам, и т. п.), где может остаться ссылка на дорвей.
Также к чёрным методам SEO можно отнести использование так называемого скрытого текста на страницах сайта. Для пользователей данный текст не виден, однако поисковые роботы легко его индексируют. Обычно в скрытом тексте содержатся ключевые слова для придания «веса» оптимизируемой странице.
«Оранжевая» оптимизация
Оранжевой называется оптимизация, отличная от трех классических методов. Основной смысл состоит в том, что к сайту прикрепляются некоторые интересные материалы, не имеющие прямого отношения к тематике сайта, и проводится привлечение публики с упором на эти материалы. Часто используются методы, такие, как хамбаги и прочие. Как правило, для каждого конкретного случая придумывается своя специальная технология. Применяется в условиях ограниченности материальных ресурсов. Относительно трудоемка. Основной недостаток — небольшой процент посетителей, заинтересованных в основной тематике сайта.
Итак, я постарался рассказать Вам, что же такое SEO и что представляет собой работа оптимизатора. Как и во всём, SEO-деятельность имеет имеет свои плюсы и минусы
SEO – весьма динамичная деятельность, требующая от оптимизаторов новых, соответствующих текущей ситуации, инструментов, методов, понимания того, как добиться желаемых результатов, и безошибочности в выбранных действиях.
Всем пока!) И до встречи!
Ярлыки:
поисковая оптимизация,
поисковая система,
СЕО,
PageRank,
SEO,
SEO-деятельность
Подписаться на:
Сообщения (Atom)
