JesCid (jescid) wrote,
JesCid
jescid

Categories:

A9.com - сравним с известными поисковиками.

Краткая аннотация к A9:
A9.com по размеру индексной базы оценочно (по выдаче) раз в 10 (по порядку, в зависимости от запроса - в 8-20 раз) меньше Google - в т.ч. по русскоязычному интернету. Имеет довольно удобный интерфейс.
Кроме стандартного поиска ищет по картинкам, блогам, книгам, кинофильмам, людям, википедии, жёлтым страницам - причём с одного клика на переключение опций открывает в том же окне секцию с результатами поиска. По блогам ищет без комментариев к записям. Продукт Amazon.com.
Ранжирование с учётом ссылок, но без особого приоритета. HTML-спецификация в построении ранжирования используется достаточно строго. Вот, в общем-то, пока и всё...
Из недостатков - нет поиска по сайту/поиска в результатах, непонятен синтаксис по строке запроса (только сам запрос в URI-строках...) и вообще открытый синтаксис запросов, похоже, отсутствует.

Проверим релевантность. Тест по точному запросу "захват нашего хлеба" - см. в Yandex и в A9. И тут Яндекс проиграл. Сравнение выдачи остальных поисковиков по этому запросу см. ранее.
То, что выдаёт Яндекс в числе страниц в анонсе результата поиска - это, скорее всего, те результаты, которые находятся по ссылкам "Похожие документы" (под ссылками выдачи), в самой выдаче число выдаваемых им документов обычно равно числу сайтов, а если нажать на ссылку "Похожие документы" - то вот прямо сейчас там наблюдается забавный баг (без всякой связи с запросом).
Рамблер тоже разделяет сайты и документы, Гугль, Мейл.ру, A9 - строят выдачу только по документам.
Оказывается, что A9 даже в русскоязычной сети ищет лучше Яндекса - как по релевантности выдачи, так и по числу найденных сайтов ("Похожими документами" в Яндексе смело можно пренебречь - мало кто на них щёлкает, да и не работает эта "опция" сейчас).
Например, если сравнить их выдачу по двусложным неточным запросам - видно, что число найденных сайтов - что у Яндекса, что у A9 - одинаково, у последнего даже немного больше.
Пример с запросом "формат логов":
- в Yandex (страниц — 186 805, сайтов — не менее 1 596),
- в A9 (about 1 950).
- и для сравнения в Google (22 200),
- ну и в Поиске mail.ru (14 100) для занятности - ибо этот поисковик построен на индексной базе Google с русским морфологическим фильтром (и какими-то ещё, видать, фильтрами) - выдачи у поиска mail.ru и Гугль довольно похожи
- и у Рамблера (сайтов: 3 188, документов: 36 777) - реально Rambler тоже выдаёт столько ссылок, сколько у него указано сайтов, а не документов, но у него внизу есть опция поиска "Группировка: по сайтам - по документам" - если выбрать "по документам" - то показывается число ссылок столько, сколько указано документов (то же, если выбрать опцию ранжирования по дате, а не по релевантности - тогда показываются ссылки сгрупированные по сайтам, но и с документами на них, соответсвующими запросу).

Если сравнивать точные двусложные запросы (в кавычках) - то Яндекс выдаёт раза в 2-3 больше A9.

По односложным запросам сравнительно с Яндексом (см. число сайтов у Рамблера и у Яндекса):
- "хлеб" в Yandex (страниц — 5 955 138, сайтов — не менее 8 125),
- "хлеб" в A9 (about 290 000),
- "хлеб" в Google (примерно 5 110 000)
- "хлеб" у Мейл.ру (144 000 документов)
- "хлеб" на Рамблере (сайтов: 154 882, документов: 4 806 579)

Ещё пример по запросу "формат":
- about 252 000 - A9
- страниц — 56 411 499, сайтов — не менее 13 150 - в Яндекс
- примерно 2 840 000 в Гугль
- примерно 414 000 документов в Мейл.ру
- сайтов: 296 540, документов: 32 482 106 - Рамблер
(Кстати, кто-нибудь знает, почему перевод русского в URI у Гугля и A9 отличается от оного у наших поисковиков?)


Яндекс заявляет, что имеет в индексной базе "749 436 627 уникальных документов на более чем 2 млн уникальных серверов" (корпоративный блог от 21 сентября 2005 года). А Google недавно показывал (по запросу с точкой, ибо число проиндексированных документов он убрал с главной страницы), что имеет порядка 770 млн. документов в русскоязычной сети и около 11млрд во всём мире.

Разумеется, все эти примеры, опять же, характеризуют состояние поисковиков на данный момент, но в их иллюстративности можно убедиться и на других словах и словосочетаниях - по "закону больших чисел" :) отклонения будут небольшими и непринципиальными.


Выводы:
- Рамблер выдаёт заметно больше сайтов, чем Яндекс - по числу документов (заявленных в найденных) он менее богат, но, как мы убедились, число документов в выдаче Яндекса вообще не имеет значение - ни фактически (на данный момент), ни с т.з. юзабилити
- размер заявленных индексных баз кого-то из поисковиков не соответсвует их выдаче - возможно, что выдача не справляется с размером базы
- с выдачей Yandex творится действительно что-то неладное (конкретно - с качеством), если даже забугорные поисковики без морфологических фильтров выдают куда более релевантный запросу список страниц
- а какое вообще значение для пользователя имеет результат "найдено N документов", где N - порядка 1000 и больше? Разве что рекламное. Опции "поиск в найденном" предлагаются не всеми, пользуются спросом не так уж и часто (у Гугля - это просто добавление новых слов в запрос), использование расширенного синтаксиса запросов часто неэффективно, у Яндекса это вообще какое-то почти "виртуальное" число
- довольно удобна выдача по ассоциативно-контекстным кластерам у nigma.ru, иногда скорее только занятны "ассоциации" рамблера "у нас так же ищут" (внизу страницы поиска при односложном/распространённом запросе), а в целом - больше никаких инноваций в технологиях поиска пока не наблюдается, а наблюдается скорее рост "насильственной" фильтрации выдачи и её "зашумление" явно нерелевантными результатами (особенно у некоторых... тоже не будем показывать пальцем у кого).
- и о разделении выдачи по числу документов/сайтов на Рамблере и Яндексе закономерен в общем-то риторический вопрос: у Рамблера в том разделении есть ясный смысл, а какой смысл в нём у Яндекса, при том, что у него релевантный список то строится всё равно в группировке по сайтам, а не по документам?
Tags: google, rambler, yandex, поисковые системы
Subscribe

  • Право на труд

    Почему-то теперешее время сравнивают с советским по материальному показателю, сравнивая чего было, чего не было, что по чём, что доступно и что нет,…

  • Шерше ля фам (образец логики)

    — Дорогой, почему ты меня грязными словами обзываешь? — А мне что, перед тобой на колени упасть?? Кстати, мужику реально хреново и весь мир у него…

  • #янебоюсьсказать

    Политическое и соц.-психологическое состояние общества на территории некогда 1/6 части суши на мой взгляд наиболее точно будут характеризовать два…

  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 11 comments

  • Право на труд

    Почему-то теперешее время сравнивают с советским по материальному показателю, сравнивая чего было, чего не было, что по чём, что доступно и что нет,…

  • Шерше ля фам (образец логики)

    — Дорогой, почему ты меня грязными словами обзываешь? — А мне что, перед тобой на колени упасть?? Кстати, мужику реально хреново и весь мир у него…

  • #янебоюсьсказать

    Политическое и соц.-психологическое состояние общества на территории некогда 1/6 части суши на мой взгляд наиболее точно будут характеризовать два…