A9.com по размеру индексной базы оценочно (по выдаче) раз в 10 (по порядку, в зависимости от запроса - в 8-20 раз) меньше Google - в т.ч. по русскоязычному интернету. Имеет довольно удобный интерфейс.
Кроме стандартного поиска ищет по картинкам, блогам, книгам, кинофильмам, людям, википедии, жёлтым страницам - причём с одного клика на переключение опций открывает в том же окне секцию с результатами поиска. По блогам ищет без комментариев к записям. Продукт Amazon.com.
Ранжирование с учётом ссылок, но без особого приоритета. HTML-спецификация в построении ранжирования используется достаточно строго. Вот, в общем-то, пока и всё...
Из недостатков - нет поиска по сайту/поиска в результатах, непонятен синтаксис по строке запроса (только сам запрос в URI-строках...) и вообще открытый синтаксис запросов, похоже, отсутствует.
Проверим релевантность. Тест по точному запросу "захват нашего хлеба" - см. в Yandex и в A9. И тут Яндекс проиграл. Сравнение выдачи остальных поисковиков по этому запросу см. ранее.
То, что выдаёт Яндекс в числе страниц в анонсе результата поиска - это, скорее всего, те результаты, которые находятся по ссылкам "Похожие документы" (под ссылками выдачи), в самой выдаче число выдаваемых им документов обычно равно числу сайтов, а если нажать на ссылку "Похожие документы" - то вот прямо сейчас там наблюдается забавный баг (без всякой связи с запросом).
Рамблер тоже разделяет сайты и документы, Гугль, Мейл.ру, A9 - строят выдачу только по документам.
Оказывается, что A9 даже в русскоязычной сети ищет лучше Яндекса - как по релевантности выдачи, так и по числу найденных сайтов ("Похожими документами" в Яндексе смело можно пренебречь - мало кто на них щёлкает, да и не работает эта "опция" сейчас).
Например, если сравнить их выдачу по двусложным неточным запросам - видно, что число найденных сайтов - что у Яндекса, что у A9 - одинаково, у последнего даже немного больше.
Пример с запросом "формат логов":
- в Yandex (страниц — 186 805, сайтов — не менее 1 596),
- в A9 (about 1 950).
- и для сравнения в Google (22 200),
- ну и в Поиске mail.ru (14 100) для занятности - ибо этот поисковик построен на индексной базе Google с русским морфологическим фильтром (и какими-то ещё, видать, фильтрами) - выдачи у поиска mail.ru и Гугль довольно похожи
- и у Рамблера (сайтов: 3 188, документов: 36 777) - реально Rambler тоже выдаёт столько ссылок, сколько у него указано сайтов, а не документов, но у него внизу есть опция поиска "Группировка: по сайтам - по документам" - если выбрать "по документам" - то показывается число ссылок столько, сколько указано документов (то же, если выбрать опцию ранжирования по дате, а не по релевантности - тогда показываются ссылки сгрупированные по сайтам, но и с документами на них, соответсвующими запросу).
Если сравнивать точные двусложные запросы (в кавычках) - то Яндекс выдаёт раза в 2-3 больше A9.
По односложным запросам сравнительно с Яндексом (см. число сайтов у Рамблера и у Яндекса):
- "хлеб" в Yandex (страниц — 5 955 138, сайтов — не менее 8 125),
- "хлеб" в A9 (about 290 000),
- "хлеб" в Google (примерно 5 110 000)
- "хлеб" у Мейл.ру (144 000 документов)
- "хлеб" на Рамблере (сайтов: 154 882, документов: 4 806 579)
Ещё пример по запросу "формат":
- about 252 000 - A9
- страниц — 56 411 499, сайтов — не менее 13 150 - в Яндекс
- примерно 2 840 000 в Гугль
- примерно 414 000 документов в Мейл.ру
- сайтов: 296 540, документов: 32 482 106 - Рамблер
(Кстати, кто-нибудь знает, почему перевод русского в URI у Гугля и A9 отличается от оного у наших поисковиков?)
Яндекс заявляет, что имеет в индексной базе "749 436 627 уникальных документов на более чем 2 млн уникальных серверов" (корпоративный блог от 21 сентября 2005 года). А Google недавно показывал (по запросу с точкой, ибо число проиндексированных документов он убрал с главной страницы), что имеет порядка 770 млн. документов в русскоязычной сети и около 11млрд во всём мире.
Разумеется, все эти примеры, опять же, характеризуют состояние поисковиков на данный момент, но в их иллюстративности можно убедиться и на других словах и словосочетаниях - по "закону больших чисел" :) отклонения будут небольшими и непринципиальными.
Выводы:
- Рамблер выдаёт заметно больше сайтов, чем Яндекс - по числу документов (заявленных в найденных) он менее богат, но, как мы убедились, число документов в выдаче Яндекса вообще не имеет значение - ни фактически (на данный момент), ни с т.з. юзабилити
- размер заявленных индексных баз кого-то из поисковиков не соответсвует их выдаче - возможно, что выдача не справляется с размером базы
- с выдачей Yandex творится действительно что-то неладное (конкретно - с качеством), если даже забугорные поисковики без морфологических фильтров выдают куда более релевантный запросу список страниц
- а какое вообще значение для пользователя имеет результат "найдено N документов", где N - порядка 1000 и больше? Разве что рекламное. Опции "поиск в найденном" предлагаются не всеми, пользуются спросом не так уж и часто (у Гугля - это просто добавление новых слов в запрос), использование расширенного синтаксиса запросов часто неэффективно, у Яндекса это вообще какое-то почти "виртуальное" число
- довольно удобна выдача по ассоциативно-контекстным кластерам у nigma.ru, иногда скорее только занятны "ассоциации" рамблера "у нас так же ищут" (внизу страницы поиска при односложном/распространённом запросе), а в целом - больше никаких инноваций в технологиях поиска пока не наблюдается, а наблюдается скорее рост "насильственной" фильтрации выдачи и её "зашумление" явно нерелевантными результатами (особенно у некоторых... тоже не будем показывать пальцем у кого).
- и о разделении выдачи по числу документов/сайтов на Рамблере и Яндексе закономерен в общем-то риторический вопрос: у Рамблера в том разделении есть ясный смысл, а какой смысл в нём у Яндекса, при том, что у него релевантный список то строится всё равно в группировке по сайтам, а не по документам?
October 3 2005, 07:26:34 UTC 6 years ago
Только у меня этот А9 муйню выдает на кирилице.
October 3 2005, 08:28:01 UTC 6 years ago
вот только что-то не видел я никогда, чтобы на какой-нибудь из моих сайтов с него люди заходили. а следовательно, интереса он никакого не представляет.
October 3 2005, 09:34:23 UTC 6 years ago
дело не в том
во-первых рамблер то он точно не делает, пмсм,во-вторых, это обзор про выдачу поиковиков, а вовсе не реклама а9 :)
в третьих, трафик между поисковиками поделён куда раньше, чем появился а9... а молодой поисковик с такой базой и выходом сам по себе интересен...
October 3 2005, 20:34:55 UTC 6 years ago
Re: дело не в том
я согласен, что поисковик интересен, просто я наткнулся на ваш пост в комьюнити по оптимизации, где все поисковики рассматриваются исключительно как инструмент рекламы и продвижения сайта...October 3 2005, 08:34:49 UTC 6 years ago
October 4 2005, 07:10:03 UTC 6 years ago
Вот-вот. Вы бы выяснили все эти вопросы, прежде чем садиться за "аналитику".
При чем тут юзабилити? И т.д. и т.п.
Учите матчасть, мой вам совет.
October 4 2005, 09:16:23 UTC 6 years ago
Хм...
А при чём тут это? кодировка кириллицы в URI и юзабилити?Юзабилити у A9 отличная без всякой связи с этим обстоятельством :)
October 4 2005, 09:25:42 UTC 6 years ago
Re: Хм...
Вот-вот. Не совсем понятно о чем вы пишете - об объеме индекса, релевантности, юзабилити? Если о всем понемногу - то тема сисек не раскрыта. Если о релевантности - то причем тут юзабилити?Что же до кодировки, то в яндексе, к примеру, на разных проектах ури кодируют по-разному.
Сравните:
http://www.yandex.ru/yandsearch?text=%D
http://blogs.yandex.ru/search.xml?how=t
что несколько неудобно, когда пишешь запрос через адресную строку в mozilla
Хотя блоги они пофиксили, но карты до сих пор так автоматом и не переконвертируются.
October 4 2005, 09:39:23 UTC 6 years ago
пишу без претензий
просто сравнительный обзор по всем этим параметрам с примерамипро релевантность можно было написать подробнее, если бы возникли вопросы
что касается ваших примеров
у меня в яндексе это слово кодируется в URI
http://www.yandex.ru/yandsearch?text=%E
но ваш тоже работает, разумеется
если приглядеться, то видно, что второй вариант ури кодируется не как буква->%ZX, а как буква->%ZX%AC
дело в том, что я не знаю спецификацию этой кодировки (для собственных нужд просто использую соотв. модуль) - потому и возник вопрос - что значит эта разница
October 4 2005, 10:14:18 UTC 6 years ago
Re: пишу без претензий
Ну, это субъективно всё, поэтому не стоит принимать близко к сердцу...что же да URI, то весь вопрос в том как кодировать. Если в соответствии с RFC1738, то это первый пример. В принципе, большой разницы нет - кому как удобно. Однако при наборе запроса через адресную строку - например 'maps проспект мира', firefox кодирует её в соответствии с RFC - поэтому maps.yandex.ru, к примеру, выдает ошибку. Ибо не может скушать. Основной поиск и, с некоторых пор, поиск по блогам конвертируют запрос по своему вкусу и выдают результат нормально.
October 4 2005, 10:18:42 UTC 6 years ago