JesCid ([info]jescid) wrote,

A9.com - сравним с известными поисковиками.

Краткая аннотация к A9:
A9.com по размеру индексной базы оценочно (по выдаче) раз в 10 (по порядку, в зависимости от запроса - в 8-20 раз) меньше Google - в т.ч. по русскоязычному интернету. Имеет довольно удобный интерфейс.
Кроме стандартного поиска ищет по картинкам, блогам, книгам, кинофильмам, людям, википедии, жёлтым страницам - причём с одного клика на переключение опций открывает в том же окне секцию с результатами поиска. По блогам ищет без комментариев к записям. Продукт Amazon.com.
Ранжирование с учётом ссылок, но без особого приоритета. HTML-спецификация в построении ранжирования используется достаточно строго. Вот, в общем-то, пока и всё...
Из недостатков - нет поиска по сайту/поиска в результатах, непонятен синтаксис по строке запроса (только сам запрос в URI-строках...) и вообще открытый синтаксис запросов, похоже, отсутствует.

Проверим релевантность. Тест по точному запросу "захват нашего хлеба" - см. в Yandex и в A9. И тут Яндекс проиграл. Сравнение выдачи остальных поисковиков по этому запросу см. ранее.
То, что выдаёт Яндекс в числе страниц в анонсе результата поиска - это, скорее всего, те результаты, которые находятся по ссылкам "Похожие документы" (под ссылками выдачи), в самой выдаче число выдаваемых им документов обычно равно числу сайтов, а если нажать на ссылку "Похожие документы" - то вот прямо сейчас там наблюдается забавный баг (без всякой связи с запросом).
Рамблер тоже разделяет сайты и документы, Гугль, Мейл.ру, A9 - строят выдачу только по документам.
Оказывается, что A9 даже в русскоязычной сети ищет лучше Яндекса - как по релевантности выдачи, так и по числу найденных сайтов ("Похожими документами" в Яндексе смело можно пренебречь - мало кто на них щёлкает, да и не работает эта "опция" сейчас).
Например, если сравнить их выдачу по двусложным неточным запросам - видно, что число найденных сайтов - что у Яндекса, что у A9 - одинаково, у последнего даже немного больше.
Пример с запросом "формат логов":
- в Yandex (страниц — 186 805, сайтов — не менее 1 596),
- в A9 (about 1 950).
- и для сравнения в Google (22 200),
- ну и в Поиске mail.ru (14 100) для занятности - ибо этот поисковик построен на индексной базе Google с русским морфологическим фильтром (и какими-то ещё, видать, фильтрами) - выдачи у поиска mail.ru и Гугль довольно похожи
- и у Рамблера (сайтов: 3 188, документов: 36 777) - реально Rambler тоже выдаёт столько ссылок, сколько у него указано сайтов, а не документов, но у него внизу есть опция поиска "Группировка: по сайтам - по документам" - если выбрать "по документам" - то показывается число ссылок столько, сколько указано документов (то же, если выбрать опцию ранжирования по дате, а не по релевантности - тогда показываются ссылки сгрупированные по сайтам, но и с документами на них, соответсвующими запросу).

Если сравнивать точные двусложные запросы (в кавычках) - то Яндекс выдаёт раза в 2-3 больше A9.

По односложным запросам сравнительно с Яндексом (см. число сайтов у Рамблера и у Яндекса):
- "хлеб" в Yandex (страниц — 5 955 138, сайтов — не менее 8 125),
- "хлеб" в A9 (about 290 000),
- "хлеб" в Google (примерно 5 110 000)
- "хлеб" у Мейл.ру (144 000 документов)
- "хлеб" на Рамблере (сайтов: 154 882, документов: 4 806 579)

Ещё пример по запросу "формат":
- about 252 000 - A9
- страниц — 56 411 499, сайтов — не менее 13 150 - в Яндекс
- примерно 2 840 000 в Гугль
- примерно 414 000 документов в Мейл.ру
- сайтов: 296 540, документов: 32 482 106 - Рамблер
(Кстати, кто-нибудь знает, почему перевод русского в URI у Гугля и A9 отличается от оного у наших поисковиков?)


Яндекс заявляет, что имеет в индексной базе "749 436 627 уникальных документов на более чем 2 млн уникальных серверов" (корпоративный блог от 21 сентября 2005 года). А Google недавно показывал (по запросу с точкой, ибо число проиндексированных документов он убрал с главной страницы), что имеет порядка 770 млн. документов в русскоязычной сети и около 11млрд во всём мире.

Разумеется, все эти примеры, опять же, характеризуют состояние поисковиков на данный момент, но в их иллюстративности можно убедиться и на других словах и словосочетаниях - по "закону больших чисел" :) отклонения будут небольшими и непринципиальными.


Выводы:
- Рамблер выдаёт заметно больше сайтов, чем Яндекс - по числу документов (заявленных в найденных) он менее богат, но, как мы убедились, число документов в выдаче Яндекса вообще не имеет значение - ни фактически (на данный момент), ни с т.з. юзабилити
- размер заявленных индексных баз кого-то из поисковиков не соответсвует их выдаче - возможно, что выдача не справляется с размером базы
- с выдачей Yandex творится действительно что-то неладное (конкретно - с качеством), если даже забугорные поисковики без морфологических фильтров выдают куда более релевантный запросу список страниц
- а какое вообще значение для пользователя имеет результат "найдено N документов", где N - порядка 1000 и больше? Разве что рекламное. Опции "поиск в найденном" предлагаются не всеми, пользуются спросом не так уж и часто (у Гугля - это просто добавление новых слов в запрос), использование расширенного синтаксиса запросов часто неэффективно, у Яндекса это вообще какое-то почти "виртуальное" число
- довольно удобна выдача по ассоциативно-контекстным кластерам у nigma.ru, иногда скорее только занятны "ассоциации" рамблера "у нас так же ищут" (внизу страницы поиска при односложном/распространённом запросе), а в целом - больше никаких инноваций в технологиях поиска пока не наблюдается, а наблюдается скорее рост "насильственной" фильтрации выдачи и её "зашумление" явно нерелевантными результатами (особенно у некоторых... тоже не будем показывать пальцем у кого).
- и о разделении выдачи по числу документов/сайтов на Рамблере и Яндексе закономерен в общем-то риторический вопрос: у Рамблера в том разделении есть ясный смысл, а какой смысл в нём у Яндекса, при том, что у него релевантный список то строится всё равно в группировке по сайтам, а не по документам?
Tags: google, rambler, yandex, поисковые системы

  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    Your IP address will be recorded 

  • 11 comments

[info]584

October 3 2005, 07:26:34 UTC 6 years ago

Спасибо, интересно.
Только у меня этот А9 муйню выдает на кирилице.

[info]reon

October 3 2005, 08:28:01 UTC 6 years ago

ну, конечно, я очень рад, что есть такой классный поисковик A9, который делает яндекс с рамблером.

вот только что-то не видел я никогда, чтобы на какой-нибудь из моих сайтов с него люди заходили. а следовательно, интереса он никакого не представляет.

[info]jescid

October 3 2005, 09:34:23 UTC 6 years ago

дело не в том

во-первых рамблер то он точно не делает, пмсм,
во-вторых, это обзор про выдачу поиковиков, а вовсе не реклама а9 :)
в третьих, трафик между поисковиками поделён куда раньше, чем появился а9... а молодой поисковик с такой базой и выходом сам по себе интересен...

[info]reon

October 3 2005, 20:34:55 UTC 6 years ago

Re: дело не в том

я согласен, что поисковик интересен, просто я наткнулся на ваш пост в комьюнити по оптимизации, где все поисковики рассматриваются исключительно как инструмент рекламы и продвижения сайта...

[info]zhzhitel

October 3 2005, 08:34:49 UTC 6 years ago

Спасибо. Потенциальный трафик, конечно, копеечный, но будем знать.

[info]mihun

October 4 2005, 07:10:03 UTC 6 years ago

>Кстати, кто-нибудь знает, почему перевод русского в URI у Гугля и A9 отличается от оного у наших поисковиков?

Вот-вот. Вы бы выяснили все эти вопросы, прежде чем садиться за "аналитику".
При чем тут юзабилити? И т.д. и т.п.

Учите матчасть, мой вам совет.

[info]jescid

October 4 2005, 09:16:23 UTC 6 years ago

Хм...

А при чём тут это? кодировка кириллицы в URI и юзабилити?
Юзабилити у A9 отличная без всякой связи с этим обстоятельством :)

[info]mihun

October 4 2005, 09:25:42 UTC 6 years ago

Re: Хм...

Вот-вот. Не совсем понятно о чем вы пишете - об объеме индекса, релевантности, юзабилити? Если о всем понемногу - то тема сисек не раскрыта. Если о релевантности - то причем тут юзабилити?

Что же до кодировки, то в яндексе, к примеру, на разных проектах ури кодируют по-разному.
Сравните:
http://www.yandex.ru/yandsearch?text=%D0%BF%D0%B8%D0%B2%D0%BE&stype=www
http://blogs.yandex.ru/search.xml?how=tm&rd=2&text=%EF%E8%E2%EE
что несколько неудобно, когда пишешь запрос через адресную строку в mozilla

Хотя блоги они пофиксили, но карты до сих пор так автоматом и не переконвертируются.

[info]jescid

October 4 2005, 09:39:23 UTC 6 years ago

пишу без претензий

просто сравнительный обзор по всем этим параметрам с примерами
про релевантность можно было написать подробнее, если бы возникли вопросы

что касается ваших примеров
у меня в яндексе это слово кодируется в URI
http://www.yandex.ru/yandsearch?text=%EF%E8%E2%EE&stype=www так же, как и в блоге
но ваш тоже работает, разумеется
если приглядеться, то видно, что второй вариант ури кодируется не как буква->%ZX, а как буква->%ZX%AC
дело в том, что я не знаю спецификацию этой кодировки (для собственных нужд просто использую соотв. модуль) - потому и возник вопрос - что значит эта разница

[info]mihun

October 4 2005, 10:14:18 UTC 6 years ago

Re: пишу без претензий

Ну, это субъективно всё, поэтому не стоит принимать близко к сердцу...

что же да URI, то весь вопрос в том как кодировать. Если в соответствии с RFC1738, то это первый пример. В принципе, большой разницы нет - кому как удобно. Однако при наборе запроса через адресную строку - например 'maps проспект мира', firefox кодирует её в соответствии с RFC - поэтому maps.yandex.ru, к примеру, выдает ошибку. Ибо не может скушать. Основной поиск и, с некоторых пор, поиск по блогам конвертируют запрос по своему вкусу и выдают результат нормально.

[info]jescid

October 4 2005, 10:18:42 UTC 6 years ago

Create an Account
Forgot your login or password?
Facebook Twitter More login options
English • Español • Deutsch • Русский…