ISO, менеджмент, консалтингпользователи сайтаRSSФОРУМСТАНДАРТЫГОСТ РСЛОВАРЬНАВИГАТОРКОНСУЛЬТАНТЫ 
Логин : Пароль:   
       [регистрация] [напомнить пароль]
 

ФОРУМ
• Re: методики описания БП 
 23. Окт 08:43 от PrilipkoAI
• ISO 22000:2018 
 10. Сент 23:29 от GurbanovR
• HACCP vs FSMS 
 23. Авг 10:52 от PrilipkoAI
• Re: план контроля качества 
 13. Авг 12:07 от Facebook



ПОИСКОВЫЕ МАШИНЫ - Современные поисковые машины

Автор Евгений Золотов
см. тематический раздел: обзоры и интервью / Интернет и маркетинг / WEB-серфинг



Современные поисковые машины не поспевают за ростом Сети: через Yahoo!, Google или AltaVista доступна в лучшем случае треть документов, хранящихся в интернете. Но способ исправить это есть - и работа над поисковиком, способным отслеживать всю Сеть в реальном времени, уже идет.

Современные поисковые машины

Оценки количества документов в сегодняшней Сети разнятся, но с цифрой 10 миллиардов согласны многие: да, число страничек в Интернет уже давно превысило численность населения планеты Земля. И рост неутомим - каждый день здесь появляется или обновляется ещё около миллиона страничек. Охватить всё это великолепие не в силах ни одна поисковая машина. Посмотрите на Google, в базе которой всего лишь три с небольшим миллиарда документов и добрая половина из них не соответствует действительности, поскольку давно не проверялась на предмет изменений. Есть ли выход из этой ситуации? Есть. Нужно позвать на помощь рядовых сетян, добровольцев, которые помогут привести базы данных поисковиков в нормальный вид, пожертвовав своё время или ресурсы своих машин.

Идея не новая - впервые она была воплощена в код почти два года назад. Сделали это четверо энтузиастов, объединившихся в рамках проекта Grub. По сути своей, Grub - распределённая поисковая система (часть её кода, кстати, опубликована под лицензией GPL), в которой основная роль отводится не владельцам, а пользователям. Если в обычных поисковых машинах "рытьём" Интернет-контента занимаются программы, работающие на серверах, принадлежащих владельцам машин (такие программы зовутся роботами или пауками - начав с одной странички, они переходят по всем обнаруженным на ней ссылкам, индексируя контент в базе данных поисковика), то в Grub этим занимается программа-клиент, работающая на компьютерах пользователей-добровольцев. Регистрируясь в системе, юзер устанавливает себе программу, которая время от времени связывается с центральным сервером Grub, получает список URL-адресов, требующих индексации или проверки, делает всю необходимую работу (естественно, через Интернет-канал пользователя) и отсылает конечные результаты на сервер. Экономия вычислительных мощностей огромная, но много важней экономия времени: теоретически, таким образом можно в реальном масштабе времени отслеживать состояние всей Сети. Идеальная поисковая машина, иначе говоря. Но что же мешает её развитию - ведь два года спустя после рождения в ней всего 18 миллионов документов и сотня с небольшим активных пользователей?

Популярные распределённые системы вроде SETI@Home, RC5 и им подобные изначально обладают очень важным свойством - т.н. фактором гика, делающим их привлекательными для типичных компьютерных пользователей: поиск инопланетян, лекарства от рака или тайного криптоключа интересны миллионам человек. Задача рутинной индексации Сети, увы, этого достоинства лишена. Grub может быть действительно интересен лишь владельцам сайтов или серверов (где размещено множество сайтов) - жаждущих скорейшей индексации их виртуальных территорий поисковой системой. Чтобы популяризовать Grub среди рядовых пользователей, нужны деньги. К счастью, время Grub пришло. Как выяснилось на днях, в январе компания LookSmart (известная по поисковикам LookSmart и WiseNut) приобрела Grub за 1.3 млн. долл. в акциях. В апреле технология и база Grub будут подключены к двум поисковым машинам LookSmart, после чего, наверняка, придёт и известность: достаточно известные в деловой среде поисковики LookSmart популяризуют идею, а общим результатом станет появление идеальной поисковой машины - которую мы построим своими руками. Получится?

Подключайтесь к дискуссии, обсудим!


Добавлено:  25 Марта 2003 г.
хиты: 4483   

оценка читателей: 271 из 598 считают этот обзор полезным
А вы считаете его полезным?
да  нет
[ оглавление ]



Добавил guest on 25 Мар, 2003 г. - 11:26
моя оценка: Reviewer Rated 5 StarsReviewer Rated 5 StarsReviewer Rated 5 StarsReviewer Rated 5 StarsReviewer Rated 5 Stars


По-моему, это просто здорово – убрать инерцию из глобальных поисковых машин. Ещё бы правда базу данных сделать открытой полностью, чтобы была одна машина на всю Сеть…

Добавил guest on 25 Мар, 2003 г. - 11:26
моя оценка:


Не думаю, что поисковики сейчас могут развиваться в данном направлении. Для индексации все таки требуется достаточная ширина канала, корпоративные пользователи вряд-ли будут рады лишним расходам на траффик, а энтузиасты в большинстве своем на дайлапе, да и деньги тоже экономят. ИМХО конечно.

Добавил guest on 25 Мар, 2003 г. - 11:27
моя оценка:


компьютеров у них - немеряно, и соединения быстрые ( а именно это важно). Залез к себе в веб статистику - а там в referrer - почти один google, зато в стольких вариантах (216.239.37.120 и 216.239.33.100 - тоже он, как и search.yahoo.com): 1 4498 21.08% - (Direct Request) 2 286 1.34% http://www.google.com/search 3 35 0.16% http://216.239.37.120/translate_c 4 29 0.14% http://search.yahoo.com/bin/search 5 28 0.13% http://216.239.33.100/search 6 24 0.11% http://www.google.ca/search 7 21 0.10% http://search.yahoo.com/search 8 21 0.10% http://www.google.fr/search 9 21 0.10% http://www.google.it/search 10 20 0.09% http://www.google.com.ru/search 11 20 0.09% http://www.linuxdevices.com/articles/AT2441343146.html 12 17 0.08% http://www.google.de/search 13 15 0.07% http://www.linuxdevices.com/products/PD5517164463.html 14 15 0.07% http://www.sllug.org/ 15 10 0.05% http://images.google.com/imgres 16 10 0.05% http://www.cs.columbia.edu/~hgs/rtp/cameras.html 17 9 0.04% http://www.google.nl/search 18 8 0.04% http://www.google.co.kr/search 19 8 0.04% http://www.google.com.au/search 20 7 0.03% http://search.msn.com/results.aspx 21 6 0.03% http://search.msn.com/spresults.aspx 22 6 0.03% http://www.google.be/search 23 6 0.03% http://www.google.co.jp/search 24 6 0.03% http://www.sllug.org/modules.php 25 4 0.02% http://www.altavista.com/web/results 26 4 0.02% http://www.google.com/custom 27 4 0.02% http://www.google.pl/search 28 3 0.01% http://images.google.ie/imgres 29 3 0.01% http://mhonarc.axis.se/dev-etrax/msg02755.html 30 3 0.01% http://search.msn.com/results.asp Посмотрел access-log за прошлую неделю - 5 дней из 7 googlebot файлы сканировал (и примерно так на каждой неделе)

менеджмент качества ( процессы | школа качества | нормирование | управление качеством | хассп)
книги: стандарты | качество | ХАССП | маркетинг | торговля
управленческий консалтинг ( планирование и контроль | конфликтменеджмент)
новости и события: пресс-релизы | новые стандарты | новости партнеров | новости | архив новостей, статей
новая торговля (автоматизация | магазиностроение | маркетинг и экономика)
интернет-маркетинг (создание сайта | интернет - бизнес)
финансы & страхование (страхование | бизнес-школа)
обзоры и интервью: маркетинг | консалтинг | торговля | управление качеством )
энциклопедия: это интересно | глоссарий | о семье | менеджмент семьи | каталог ресурсов