JesCid (jescid) wrote,
JesCid
jescid

Сколько всего документов в сети? Немного статистики.

Через сутки после появления одиозной статьи г-на emdrone мной была высказана цифра в максимум 80% документов проиндексированных Гуглём из всей сети.
Цифра дана мной совершенно оценочно, но откуда она взята я могу уточнить.
На главной странице Гугля указано среди скольких документов он ищет в данный момент: Поиск среди 8 058 044 651 страниц.
А некоторое время назад мне встречалась фраза: число документов в Сети выросло в десятки тысяч раз, приближаясь к 10 миллиардам - эта информация уже устарела, потому и получаем 80% максимум.

А каков же реально размер сети?
Вообще-то, цифра в 10 млрд. документов во сети (на сентябрь 2004года - тогда, кстати, индексная база Гугля была вдвое меньше - см. ниже, но и интернет с тех пор тоже вырос) на мой взгляд является нижним пределом и для сентября 2004года.
Как проводятся оценки охвата сети поисковой системой (ПС)? Соответсвующими исследованиями занимаются профессиональные электронные статистические службы типа Spylog - их счётчики стоят (ставятся веб-мастерами) на некотором множестве документов n доменов N, далее это число сравнивается с числом m - числом проиндексированных поисковой системой документов на тех же доменах N. Число проиндексированных документов узнается по запросу к данной ПС - например, для Yandex это будет запрос вида http://www.yandex.ru/yandsearch?serverurl=N_, который может задавать робот для каждого домена N_ из N. Для Гугля забейте в поиск site:N_ (тоже может спрашивать робот) - теперь вы сами можете сравнить число документов проиндексированных на одном и том же сайте Гуглём и Яндексом (N_ д.б. вида www.site.ru).
У меня проверки доходили до 60%-го превалирования числа документов, проиндексированных Яндексом над Гуглём и 75%-го превалирования Гугля над Яндексом (особенно это заметно по информационным ресурсам с большим числом документов).
Примеры: www.gazeta.ru (~163000 - Гугль, 94993 - Яндекс), www.dni.ru (~38200 - Гугль, 49947 - Яндекс), www.izvestia.ru (~122000 - Гугль, 32840 - Яндекс), www.contr-tv.ru (~12400 - Гугль, 30635 - Яндекс), www.finiz.ru (~ 26300 - Гугль, 57913 - Яндекс). Пропорции по превалированию индексированных документов на небольших сайтах (до 1000 документов) среди русскоязычного сектора сети распределяются чаще в сторону Яндекс. И уже на этих примерах видно, насколько ПС в среднем покрывают документы во сети.

Но вернёмся к оценкам. Далее статистики делят m/n *100% и получают на данном множестве документов оценочно процент документов, проиндексированных поисковой системой.
Рассмотрим недостатки такого метода.
1. не все веб-мастера ставят счётчики на все страницы сайта
2. не все веб-мастера вообще ставят счётчики
Это обусловлено ошибками веб-мастеров или своими соображениями - скажем, тем, кто имеет собственные системы сбора стастистики посещений, счётчики вообще не нужны.
Какой тут может быть вывод? Да только тот, что данный метод оценивает процент индексированных документов приблизительно. Но на множестве тех документов, на которых стоят счётчики этот метод вполне чист и точен. И позволяет сделать оценку процента охвата поисковыми системами всей сети. Причём оценка будет скорее всего верхняя, ибо, всё-же, проводится на тех сайтах, которые заведомо обслуживаются веб-мастерами, желающими в большинстве своём попасть в индекс поисковой системы и предпринимающими для того определённые действия.

Остаётся один конспирологический вопрос: а если поисковые системы делают публичным вовсе не весь свой индекс и тайно используют какой-то подпольный индекс?
Здесь ответ сначала упирается уже в совершенно технические детали: поисковые системы ограничены железом. Да, Гугль имеет распределённую систему на нескольких десятках серверов по всему миру, Яндекс положился на один серверный комплекс, размещённый в одной точке.
Но задача вычисления PageRank (вычисляемого на основе всего индекса некоего "коэффициента релевантности") связана с просмотром всего индекса и где-то она должна выполняться в одном месте (на т.н. gateway или search engine) - так, не так давно по сети прошли сообщения, что Гугль увеличил свою базу вдвое (до ~8млрд. - см. цифры проиндексированных документов Гугля выше - это произошло в ноябре 2004г.) - и возможно (т.к. до этого были сообщения, что индекс Гугля перестал расти) случилось это всвязи со сменой 32-битных процессоров (232 - как раз порядка 4млрд. URL) на 64-битные. В последнем предположении я могу и ошибаться - так что меня можно поправлять, но, однако, с моей т.з. сокрытие части индекса дело совершенно неблагодарное ещё и постольку, поскольку существует всё же несколько конкурирующих поисковиков (Билл Гейтс никак не успокоится, что его MSNsearch не может приблизиться к Гуглю по популярности), каждый из которых претендует на максимальный охват сети, скрывая, при том, технологии поиска др. от друга.
Намеренно понижать размер индекса дело рискованное - завтра конкурент опубликует факт того, что его база чувствительно шире и перебегание пользователей не заставит себя ждать.
Плюс сама задача поиска среди ещё большего числа документов наиболее релевантных (и, параллельно, вычисления релевантного списка) где-то тайно - ничуть не легче, а даже сложнее оной же на меньшем явном индексе - если уж на нём приходится покопаться даже специалистам по поиску (и, параллельно, специалистам по технологиям поиска), то на тайном индексе потеть надо больше и дольше. Хотя, конечно, можно до бесконечности развивать сказ о том, будто для того, чтобы что-то узнать у огромной базы данных - достаточно знать одно волшебное слово (ну, или несколько...) - и такие фантазии стары как мир... :)

Итак, интернетом пользуется около 600млн. жителей Земли и (сделайте вдох!) каковы же пессимистичные (с т.з. апологета поисковых систем) оценки того, сколько Гугль имеет интернета во своём индексе?
А, вот, скажу: порядка трети интернета... Ибо в сети находится ~25-45 млрд страниц (без т.н. deep Internet, который может быть и больше...) - это оценка по числу веб-серверов на число IP (с учётом того, что на %20 IP могут находиться веб-сайты) - подробнее выкладки по этой оценке см. здесь (со всей дискуссией) - я делаю поправку (утверждая о максимум трети поиндексированных Гуглём документов) на то, что Гугль увеличил свой индекс с тех пор вдвое (но и интернет за это время вырос ~20% по числу хостов - до почти 70млн.).
Почему я соглашаюсь с приведённой оценкой?
1. Она вполне разумна.
2. Потому что вижу как Гугль может пропускать кучу страниц! Примеры того, как он может это делать (пусть и относительно Яндекса) мной приведены выше в явном виде. Причём максимум на чьей либо стороне в приведённой сравнительной таблице индексации сайтов Гуглём и Яндексом вовсе не говорит о том, что обладающий этим максимумом проиндексировал все документы на сервере. И ведь это на тех серверах, которые заведомо известны ПС... Хотя бы потому, что на них стоит масса ссылок.
Заметки про работу поисковых систем, ровно как и вообще про работу информационных систем, по мере сил буду продолжать...
Копия этого сообщения здесь
Разумная критика приветствуется

Subscribe

  • Отличнейший докфильм, есть ли на русском??

    И вот, походя в том же интервью, что Кэри Муллис давал для этого фильма: Напомню, что Кэри Муллис, разработчик технологии ПЦР тестировния,…

  • Неслучайное же, да?

    «Я всегда восхищался Маргарет Тэтчер» © Илон Маск. Как верно заметили в одной статье (крайне рекомендуется к прочтению) о сём архимандрите от ИТР…

  • Странности с MH17

    Не только Мухин заметил. Запрос «MH17 hoax» много чудесатого выдаёт (особенно видео). А натолкнуло спросить его у Гугля вот что вдруг: Первое. Нет…

  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 8 comments