| ФОРУМ
| |
ПОИСКОВЫЕ МАШИНЫ - Современные поисковые машины• Автор Евгений Золотов • см. тематический раздел: обзоры и интервью / Интернет и маркетинг / WEB-серфинг
Современные поисковые машины не поспевают за ростом Сети: через Yahoo!, Google или AltaVista доступна в лучшем случае треть документов, хранящихся в интернете. Но способ исправить это есть - и работа над поисковиком, способным отслеживать всю Сеть в реальном времени, уже идет. Современные поисковые машиныОценки количества документов в сегодняшней Сети разнятся, но с цифрой 10 миллиардов согласны многие: да, число страничек в Интернет уже давно превысило численность населения планеты Земля. И рост неутомим - каждый день здесь появляется или обновляется ещё около миллиона страничек. Охватить всё это великолепие не в силах ни одна поисковая машина. Посмотрите на Google, в базе которой всего лишь три с небольшим миллиарда документов и добрая половина из них не соответствует действительности, поскольку давно не проверялась на предмет изменений. Есть ли выход из этой ситуации? Есть. Нужно позвать на помощь рядовых сетян, добровольцев, которые помогут привести базы данных поисковиков в нормальный вид, пожертвовав своё время или ресурсы своих машин. Идея не новая - впервые она была воплощена в код почти два года назад. Сделали это четверо энтузиастов, объединившихся в рамках проекта Grub. По сути своей, Grub - распределённая поисковая система (часть её кода, кстати, опубликована под лицензией GPL), в которой основная роль отводится не владельцам, а пользователям. Если в обычных поисковых машинах "рытьём" Интернет-контента занимаются программы, работающие на серверах, принадлежащих владельцам машин (такие программы зовутся роботами или пауками - начав с одной странички, они переходят по всем обнаруженным на ней ссылкам, индексируя контент в базе данных поисковика), то в Grub этим занимается программа-клиент, работающая на компьютерах пользователей-добровольцев. Регистрируясь в системе, юзер устанавливает себе программу, которая время от времени связывается с центральным сервером Grub, получает список URL-адресов, требующих индексации или проверки, делает всю необходимую работу (естественно, через Интернет-канал пользователя) и отсылает конечные результаты на сервер. Экономия вычислительных мощностей огромная, но много важней экономия времени: теоретически, таким образом можно в реальном масштабе времени отслеживать состояние всей Сети. Идеальная поисковая машина, иначе говоря. Но что же мешает её развитию - ведь два года спустя после рождения в ней всего 18 миллионов документов и сотня с небольшим активных пользователей? Популярные распределённые системы вроде SETI@Home, RC5 и им подобные изначально обладают очень важным свойством - т.н. фактором гика, делающим их привлекательными для типичных компьютерных пользователей: поиск инопланетян, лекарства от рака или тайного криптоключа интересны миллионам человек. Задача рутинной индексации Сети, увы, этого достоинства лишена. Grub может быть действительно интересен лишь владельцам сайтов или серверов (где размещено множество сайтов) - жаждущих скорейшей индексации их виртуальных территорий поисковой системой. Чтобы популяризовать Grub среди рядовых пользователей, нужны деньги. К счастью, время Grub пришло. Как выяснилось на днях, в январе компания LookSmart (известная по поисковикам LookSmart и WiseNut) приобрела Grub за 1.3 млн. долл. в акциях. В апреле технология и база Grub будут подключены к двум поисковым машинам LookSmart, после чего, наверняка, придёт и известность: достаточно известные в деловой среде поисковики LookSmart популяризуют идею, а общим результатом станет появление идеальной поисковой машины - которую мы построим своими руками. Получится? Подключайтесь к дискуссии, обсудим!
Добавлено: 25 Марта 2003 г. хиты: 4483
оценка читателей: 271 из 598 считают этот обзор полезнымА вы считаете его полезным?да нет[ оглавление ]
Добавил guest on 25 Мар, 2003 г. - 11:26 моя оценка:
По-моему, это просто здорово – убрать инерцию из глобальных поисковых машин. Ещё бы правда базу данных сделать открытой полностью, чтобы была одна машина на всю Сеть…
Добавил guest on 25 Мар, 2003 г. - 11:26 моя оценка:
Не думаю, что поисковики сейчас могут развиваться в данном направлении. Для индексации все таки требуется достаточная ширина канала, корпоративные пользователи вряд-ли будут рады лишним расходам на траффик, а энтузиасты в большинстве своем на дайлапе, да и деньги тоже экономят. ИМХО конечно.
Добавил guest on 25 Мар, 2003 г. - 11:27 моя оценка:
компьютеров у них - немеряно, и соединения быстрые ( а именно это важно).
Залез к себе в веб статистику - а там в referrer - почти один google, зато в стольких вариантах (216.239.37.120 и 216.239.33.100 - тоже он, как и search.yahoo.com):
1 4498 21.08% - (Direct Request)
2 286 1.34% http://www.google.com/search
3 35 0.16% http://216.239.37.120/translate_c
4 29 0.14% http://search.yahoo.com/bin/search
5 28 0.13% http://216.239.33.100/search
6 24 0.11% http://www.google.ca/search
7 21 0.10% http://search.yahoo.com/search
8 21 0.10% http://www.google.fr/search
9 21 0.10% http://www.google.it/search
10 20 0.09% http://www.google.com.ru/search
11 20 0.09% http://www.linuxdevices.com/articles/AT2441343146.html
12 17 0.08% http://www.google.de/search
13 15 0.07% http://www.linuxdevices.com/products/PD5517164463.html
14 15 0.07% http://www.sllug.org/
15 10 0.05% http://images.google.com/imgres
16 10 0.05% http://www.cs.columbia.edu/~hgs/rtp/cameras.html
17 9 0.04% http://www.google.nl/search
18 8 0.04% http://www.google.co.kr/search
19 8 0.04% http://www.google.com.au/search
20 7 0.03% http://search.msn.com/results.aspx
21 6 0.03% http://search.msn.com/spresults.aspx
22 6 0.03% http://www.google.be/search
23 6 0.03% http://www.google.co.jp/search
24 6 0.03% http://www.sllug.org/modules.php
25 4 0.02% http://www.altavista.com/web/results
26 4 0.02% http://www.google.com/custom
27 4 0.02% http://www.google.pl/search
28 3 0.01% http://images.google.ie/imgres
29 3 0.01% http://mhonarc.axis.se/dev-etrax/msg02755.html
30 3 0.01% http://search.msn.com/results.asp
Посмотрел access-log за прошлую неделю - 5 дней из 7 googlebot файлы сканировал (и примерно так на каждой неделе) |