– Как функционируют поисковые машины и как правильно строить запросы
– Специальные виды поиска
– Эффективный поиск в Google
– «Яндекс» на полную мощь
– Поисковые программы
– Онлайновый метапоиск
– Пиринговые сети
– Архив Интернета

Поиск информации в Интернете – одна из самых частых операций, овладеть которой должен каждый пользователь компьютера.

Как функционируют поисковые машины и как правильно строить запросы

Современные поисковые машины представляют собой комплекс специальных программ, предназначенных для поиска информации в Интернете.

Принцип их работы состоит в следующем: время от времени они просматривают веб-страницы и регистрируют появившиеся там изменения. На этой основе создается база данных ссылок на веб-страницы. При ее формировании поисковые машины обращают внимание на некоторые дополнительные элементы, например на то, как часто встречается слово на странице, выделено ли оно, сколько ссылок на данный документ есть на других сайтах и др. Все эти сведения также будут учитываться при поиске.

Из-за необходимости постоянного обновления информации поисковые машины время от времени возвращаются к просмотренным ранее веб-страницам, чтобы найти и зарегистрировать возникнувшие там изменения.

Например, когда робот поисковой машины Google посещает сайт, он обращает внимание на две характеристики: слова на странице и место их расположения, то есть в какой именно части страницы они находятся.

Обнаружив список адресов и соответствующих им ключевых слов, робот-поисковик сохраняет эту информацию в своей базе данных. При этом сохраняется информация о количестве (частоте) упоминаний слова на странице с использованием некой величины – «веса» слова. Как раз на основе этих данных поисковая машина формирует списки ссылок, упорядоченные по весу слов поискового запроса, а также с учетом его местонахождения (в ссылках, метатегах, заголовке страницы и т. п.). Следует заметить, что у каждого коммерческого поисковика есть своя формула для вычисления веса ключевых слов при индексации. Это одна из причин, почему по одному и тому же запросу поисковики выдают разные результаты.

Пользователь, работая с поисковой машиной, задает запрос, в результате которого машина формирует список ссылок, упорядоченных по релевантности. Релевантность – это степень соответствия найденной страницы поисковому запросу.

Поисковые механизмы на первых местах списка располагают документы, которые содержат максимум слов из поискового запроса. Найденные ссылки сортируются в зависимости от местоположения ключевых слов (в заголовке, в начале текста или в первых параграфах) и частоты их использования в тексте. Таким образом, вверху размещены ссылки на сайты, в которых искомые слова встречаются чаще всего. Поэтому основная задача пользователя во время поиска в Интернете – получить список ссылок, которые соответствуют поисковому запросу.

Однако, несмотря на общие принципы работы и похожий интерфейс, поисковые машины отличаются между собой целым рядом параметров. Среди них: релевантность результатов, величина и частота обновления баз данных, скорость выдачи результатов и удобство работы.

Наряду с этим существуют и другие различия: языки запроса, зоны поиска, глубина поиска внутри документов, методы определения приоритетов и др. Это является еще одной причиной того, что применение разных поисковых машин дает различные результаты.

Итак, поисковая машина формирует список документов на основе сформированного пользователем запроса. Если запрос не выражает в полной мере суть поиска, его результаты не будут соответствовать тому, что пользователю собственно нужно. Поэтому в первую очередь необходимо уметь правильно создавать поисковые запросы. Их составляют так, чтобы область поиска была максимально конкретизирована, а значит, сужена.

ПРИМЕЧАНИЕ
Основную смысловую нагрузку в поисковом запросе несут имена существительные, гораздо реже – имена прилагательные, а вот использование глаголов почти бесполезно.

Таким образом, для эффективного поиска информации в первую очередь необходимо подобрать для запроса именно те слова, которые действительно несут основную смысловую нагрузку.

У каждой поисковой машины своя уникальная методика поиска, от эффективности которой зависит успех поисковика: чем больше релевантность полученного списка ссылок, тем выше успех на рынке поисковых машин. Механизм поиска не только хранится в секрете, но и регулярно меняется.

В настоящее время все поисковые механизмы ищут документы не только по строгому соответствию введенному запросу – все поисковые машины, которые работают с русскоязычными запросами, умеют проводить морфологический поиск. Это означает, что поиск осуществляется по всем формам слов, заданных в запросе, а также с учетом синонимов (то есть не только в определенном падеже и числе, но и в других).

Согласно общей классификации, поиск разделяют на простой, расширенный и сложный. Чаще всего большинство пользователей используют первый вариант. Принцип его использования состоит в формулировании запроса и получении списка ссылок, соответствующих ему.

Самая важная задача этого этапа – правильно подобрать слова для поискового запроса. Они должны быть, во-первых, характерны для документов, которые вы ищете, а во-вторых, не характерны для нерелевантных документов.

При использовании нескольких слов в поисковом запросе нужно знать, как именно будет производиться поиск– по каждому из слов в отдельности или же по всему запросу в целом. Ответ на этот вопрос зависит от того, какой логический оператор используется по умолчанию при обработке запроса. Это может быть один из двух операторов: AND (поиск по всем словам) или OR (по каждому в отдельности).

Обычно поисковые машины по умолчанию используют первый вариант. Это означает, что в ответ на запрос информационная компетентность поисковик будет искать сайты, в которых это словосочетание встречается полностью. Для использования других логических связей необходимо применить другие логические операторы. Их синтаксис обычно уникален в каждой поисковой машине, поэтому о них поговорим чуть позже.

Специальные виды поиска

Если вы хотите найти в Интернете не список сайтов, а нечто более конкретное, например, программу или книгу, в этом случае вам лучше воспользоваться специальными поисковыми машинами или же, в крайнем случае, специальными возможностями обычных поисковых машин.

Для поиска файлов можно воспользоваться поисковой машиной FileSearch.ru (http://www.filesearch.ru). FileSearch.ru – это поисковая система, осуществляющая поиск среди миллионов файлов, собранных практически со всех российских FTP-серверов и нескольких тысяч зарубежных серверов. База поиска постоянно обновляется (рис. 4.1).

Если традиционные поисковые машины системы ищут на WWW-серверах и HTML-страницах по их содержимому, то FileSearch.ru ищет на FTP-серверах по именам самих файлов и каталогов. Если вам нужна какая-либо программа, игра и т. п., то на WWW-серверах вы, скорее всего, найдете их описание, а найти и скачать нужный файл можно именно с помощью FileSearch.ru.

Кроме файлов, система умеет производить поиск изображений, а также MP3– или видеофайлов. Принцип работы системы аналогичен поиску с помощью обычных поисковых систем.

Метапоисковая система http://www.metabot.ru умеет искать самые разнообразные файлы (MP3, видео и др.). Прежде всего необходимо выбрать нужный вид поиска, установив соответствующий переключатель в нужное положение. Затем следует ввести поисковый запрос. В результате программа предложит список найденных ссылок.

Поиск файлов по FTP-серверам поможет произвести система Rambler-ftp (http://ftpsearch.rambler.ru/db/ftpsearch). Здесь также можно искать файлы самых разнообразных форматов. Пользователям системы доступен простой и расширенный поиск. По схожему принципу работает сервис http://ru.findfile.net, который ищет более чем по 1900 FTP-серверам.

Рис. 4.1. Главная страница поисковика FileSearch.ru

Воспользоваться простым инструментом поиска по FTP-серверам можно на сайте http://ftpsearch.orbita.ru. Англоязычные поисковики размещены на сайтах http://www.ftpplanet.com, http://www.shareware.com.

Поисковая система Google позволяет осуществлять множество видов поиска. Доступ к некоторым из них возможен на странице англоязычного Google по адресу http://www.google.com. Например, воспользовавшись разделом Картинки, можно задать поиск картинок, Новости – поиск новостей. Cписок поисковых возможностей Google представлен на странице по адресу http://www.google.ru/intl/ru/options/.

Эффективный поиск в Google

Расширенный поиск (в зарубежных системах – Advanced Search) позволяет получить меньше ссылок, чем простой, но при этом их релевантность значительно повышается. В большинстве поисковых машин эта функция реализована. Для этого предназначена специальная ссылка на главной странице, по которой переходят на страницу расширенного поиска.

В данном режиме с помощью специальных средств можно задать более точные критерии отбора и уточнить область поиска. В этом случае расширенным является только набор критериев, а вот область поиска в большинстве случаев существенно сужается.

Расширенный поиск в Google

Рассмотрим некоторые инструменты расширенного поиска. В поисковой системе Google доступна настройка типа содержания запроса на искомых страницах. При этом возможны следующие варианты.

– со всеми словами – в этом режиме поиска формируется список всех индексированных страниц, содержащих все ключевые слова, в произвольном порядке. При этом сохраняется вероятность получения результатов, не соответствующих поисковому запросу.

– с точной фразой – в данном режиме поиска составляется список страниц, содержащих фразу, точно совпадающую с ключевой, знаки препинания при этом игнорируются. Обычно поиск точной фразы будет проводиться, если поисковый запрос взять в кавычки.

– с любым из слов – в результате поиска составляется список всех индексированных страниц, содержащих любое из слов поискового запроса. Нередко в этом случае число полученных ссылок огромно. Поиск по любому слову может быть удобен в случаях, когда пользователь не уверен в правильности подбора ключевых слов. Например, если вы точно не знаете, как называется какой-то термин, введите оба названия.

– без слов – если вы хотите исключить некоторые слова из результатов поиска, укажите их в данном поле (рис. 4.2).

Рис. 4.2. Окно расширенного поиска Google

Большинство поисковых машин в параметрах расширенного поиска позволяют ограничить найденные ссылки рядом других параметров. Например, вы можете задать поиск страниц только на одном языке (параметр Язык), ограничить сайты определенным диапазоном дат обновления (это удобно, если нужно найти, например, только самые новые документы). Кроме этого, можно задать поиск документов определенного типа (например, только HTML, DOC, RTF, PPT или PDF-файлов) – для этого предназначен параметр Формат файла.

Многие поисковые машины позволяют ограничить поиск фрагментом страницы. Например, вы можете указать, что фраза поискового запроса может встречаться только в заголовке страницы или в основной части, в адресе или в любом месте страницы – это можно сделать с помощью параметра Упоминание.

Еще одно удобное решение, доступное среди параметров расширенного поиска, – возможность искать фразу поискового запроса на определенном сайте. Такая возможность доступна для всех на сегодня известных поисковых машин, она позволяет получить список документов с одного сайта, соответствующих запросу.

Сложный поиск в Google

Сложный поиск предусматривает возможность использования особенностей языка поисковых запросов. Он является уникальным по своему синтаксису для каждой поисковой системы, но его возможности схожи.

Вот наиболее популярные задачи, которые можно решить с помощью сложного поиска.

– Если вы хотите, чтобы найденные ссылки содержали точную фразу поискового запроса, то ее следует заключить в кавычки.

– Если в найденных документах должно быть несколько слов из поискового запроса, то необходимо применить логический оператор И (AND). При работе в Google ему соответствует знак +. Таким образом, запись книжный + магазин в строке поиска будет означать поиск таких сайтов, в состав которых вошли оба слова поискового запроса.

– Если в полученных ссылках должно быть хотя бы одно слово поискового запроса, то необходимо использовать оператор ИЛИ (OR). В Google для этого необходимо указать слово or.

– Если вы хотите из результирующего списка ссылок исключить документы с определенными словами, то для этого вам необходимо применить логический оператор НЕ. В Google используют символ – . Оператор НЕ нужно вводить после слова через пробел слитно с необязательным словом. Например, запрос вида карта Парижа – (агентство|тур) позволит найти карту, а не туры по Франции.

С подробностями использования Google можно познакомиться по адресу http://www.google.ru/support/?ctx=web.

Команды особого назначения

Дополнительные команды Google позволяют добиться лучших результатов и сузить область поиска. С их помощью вы можете ограничить область поиска, а также указать машине, что не нужно просматривать все страницы. Эти команды позволяют управлять поиском по самой странице, указывая, в какой именно ее части следует искать.

Эти специальные команды записываются перед параметром, а перед некоторыми необходимо указывать символ – . Рассмотрим следующие команды.

– allinlinks: ищет только в названиях ссылок, но не в тексте или названии страницы, например – allinlinks ain.

– allintext: ищет внутри текста на страницах, но не в ссылках или названии страницы, например – allintext:piter.

– allintittle: показывает результаты поиска в заголовке страницы.

– allinurl: показывает страницы, похожие на данный шаблон, например – allinurl:links.php.

– cache: находит копию страницы, проиндексированной в Google, даже если она уже недоступна по адресу в Интернете или изменила свое содержание. Иными словами, эта команда проводит поиск в кэше Google. Она пригодится для просмотра страниц, содержание которых часто меняется. Например, cache: www.news.com.

– cache: url показывает сохраненную версию данной страницы.

– filetype: эта команда позволяет ограничить поиск только файлами с заданным расширением. Однако будьте внимательны, параметры команды Google понимает слишком буквально, и поэтому если вы сначала наберете filetype:htm, а потом filetype:html, то результаты поиска в обоих случаях будут разными. Google поддерживает поиск в файлах наиболее популярных форматов PPT, XLS и DOC.

– info: url эта команда покажет страницу, содержащую ссылки на варианты поиска: поиск по похожим страницам, обратные ссылки и страницы, содержащие такую же ссылку. Результат тот же, что и если вписать в строку поиска адрес веб-страницы.

– intext: в этом случае при поиске не будут учитываться заголовки страниц и ссылки, а будет просматриваться только текст страницы (тега ‹body›). Это бывает полезно, когда вы разыскиваете некий фрагмент текста и вам, по большому счету, безразлично, какой у страницы заголовок и какие ссылки там расположены.

– intitle: данная команда, наоборот, ограничивает поиск только заголовком страницы, то есть содержимым тега ‹title›. Например, такая команда – intitle: первая полоса (пробелов между командой и параметром быть не должно) приведет к тому, что Google выдаст ссылки на первые полосы русскоязычных интернет-газет.

– inurl: по этой команде поиск будет проводиться только в адресе страницы. Обычно ее используют вместе с другими командами, когда хотят отыскать страницу поиска. Например, команда – inurl:search выведет список страниц, у которых в адресе встречается слово search. Например, search.aol.com или home.netscape.com/home/internet-search.html.

– link: возвращает список страниц, которые содержат ссылки на заданный сайт. Если ввести, например, – link:ain.com.ua, получите список страниц, ссылающихся на ресурс ain.com.ua. Это просто незаменимый инструмент мониторинга для тех, кто занимается «раскруткой» сайтов.

– related: с помощью этой команды вы сможете получить список страниц, похожих на данную. Например, если вы введете – related: lenta.ru, получите список ссылок на другие онлайновые СМИ. Кроме этого, – related: – удобное средство, если вы хотите узнать, к какой категории Google относит ваш сайт (или наоборот, если хотите найти авторитетные информационные сайты). Именно авторитетные, потому что Google при выводе результатов сортирует их в порядке значимости, и если вы введете, например, – related: cnn.com, то первые позиции среди результатов будут занимать наиболее весомые издания схожей тематики: The New York Times, WashingtonPost и т. д.

– site: – это, наверное, одна из самых часто используемых команд Google. Она позволяет ограничить поиск данных только указанным сайтом.

Структура адреса страницы Google с результатами поиска

Информация о структуре адреса страницы с результатами поиска позволит вам лучше разобраться в принципах использования поисковых машин.

Вот пример характерного адреса: http://www.google.com/search?num=55&hl=en&q=piter. Он состоит из следующих частей:

– num=55 – количество результатов на одной странице. Это количество может колебаться от 1 до 100. По умолчанию установлено значение 10;

– hl=en – этот параметр задает язык интерфейса Google. В данном случае это английский, но можно изменить на hl=ru (русский);

– q=piter – это сам запрос. К сожалению, ввести русский запрос в адресной строке человек не в состоянии. Вот каким образом выглядит, например, слово кактус: q=%D0%BA%D0%B0%D0%BA%D1%82%D1%83%D1%81.

Кроме того, к URL можно смело добавить еще несколько параметров:

– as_qdr=m1 – указывает максимальный «возраст» найденной информации в месяцах. Значения могут быть от 1 до 12;

– safe=on – включает систему фильтров, которая блокирует по большей части информацию явного порнографического характера.

Поиск Google на вашем сайте

В следующем листинге приведена форма, которая позволит искать информацию на вашем сайте. Чтобы все заработало, разместите этот HTML-код на своей странице и укажите свой адрес вместо mysite.com. Теперь посетители смогут искать интересующую их информацию на сайте средствами Google.

‹meta http-equiv="content-type" content="text/html; charset=UTF-8"›

‹form method="get" action="http://www.google.com/search"›

‹input type="text" name="q" size=32 maxlength=110 value="›

‹input type="submit" name="sa" value="Google!"›

‹input type="hidden" name="as_sitesearch" value="mysite.com"›

‹input type="hidden" name=hl value="ru"›

‹/form›

Кроме того, вы можете модифицировать форму по своему усмотрению, добавляя новые параметры. Например, следующая строка: ‹input type="hidden" name="as_filetype" value="txt"› заставит Google искать только текстовые документы.

Ограничение по дате искомых результатов можно задать, добавив строку ‹input type="hidden" name="as_qdr" value="m3"› (результаты трехмесячной давности). Если хотите найти данные шестимесячной давности, вместо m3 используйте m6, если ищете информацию за год, то замените m3 на латинское y.

Количество результатов на странице контролирует параметр ‹input type="hidden" name="num" value="50"›.

Поиск в Google по электронному адресу

Специальный инструмент Google под названием Google Alerts (веб-сайт http://www.google.com/alerts) позволяет получать результаты поиска по указанному электронному адресу. Для этого необходимо указать нужный поисковый запрос, задать тип поиска (новости, поиск в Интернете или поиск в Google Groups), а также указать периодичность и электронный адрес. В результате этого Google будет создавать электронные письма с указанием новых сайтов, которые соответствуют поисковому запросу, и присылать их на ваш электронный адрес.

Персональная страница на Google

Персональный поиск Google представляет собой весьма удобный инструмент, позволяющий каждому пользователю не только хранить нужные данные на сайте Google, но и создать оптимальный для себя внешний вид главной страницы сайта, превращая его в актуальный информационный ресурс.

Чтобы использовать персонализированный поиск Google, необходимо перейти на страницу http://www.google.com/ig. Для работы с сервисом необходимо зарегистрироваться на Google (это можно сделать здесь же). Однако те, кто уже зарегистрирован в Gmail, Froogle или какой-либо другой службе Google, могут указать здесь свои логин и пароль.

Внешний вид этой страницы можно настроить. Следует также отметить возможность работы с историей поисковых запросов. По умолчанию на главной странице размещено несколько блоков, среди которых – информация о погоде, последние новости, новые видео на сервисе YouTube и т. д. (рис. 4.3).

Рис. 4.3. Персональная страница Google

Каждый из этих разделов можно отредактировать, свернуть или удалить. Для редактирования нужно щелкнуть на кнопке с изображением треугольничка и выбрать в появившемся меню строку Edit settings. Можно добавить и другие информационные блоки для отображения на главной странице персонального поиска. Для этого необходимо щелкнуть на том же треугольничке и выполнить команду You might also like. В результате появится список сервисов Google. Для добавления любого из них нужно щелкнуть в его описании на кнопке Add it now. Сервисы сгруппированы в разделы: News (содержит новостные сервисы), Tools (различные инструменты, например часы, календари, географические карты, словари, записные книжки), Communication (сервисы для общения) и т. д.

После добавления блока с Gmail на странице персонального поиска Google будут отображены заголовки последних сообщений, полученных в почтовый ящик на Gmail, адреса их отправителей и время получения письма.

Кроме того, сервис позволяет самостоятельно создать информационный блок и поместить его на главную страницу персонального поиска. Для этого необходимо задать запрос, в результате Google проведет поиск RSS-лент, соответствующих ему, и предложит поместить блок на страницу Google. Его содержимым будут экспортированные заголовки новостей найденной RSS-ленты.

Воспользовавшись ссылкой Classic Home, можно в любой момент перейти к классическому виду главной страницы Google, на которой не будут отображены все перечисленные информационные блоки.

Однако наиболее интересные возможности касаются поиска при работе с персонализированным сервисом Google. В этом случае на сайте сохраняется вся история предыдущих запросов к системе, она может быть помещена на главную страницу сервиса. Для перехода в полнофункциональный режим использования истории поиска воспользуйтесь ссылкой Web History.

На этой странице отображен список всех предыдущих запросов к системе с указанием дат поиска, то есть страница отображена в виде персонального дневника. В правой части экрана находится календарь поисковой активности – в нем разными цветами выделена интенсивность использования Google (цвета определяются в соответствии с количеством запросов к системе).

По мере наполнения истории поисковых запросов Google начинает группировать результаты поиска по темам.

На странице Web History после формирования запроса можно выбрать вид поиска – искать по личной истории поисковых запросов или в Сети. Получив результат, запрос можно упорядочить по релевантности или по дате поиска.

При поиске в персональной истории результаты сортируются в хронологической последовательности, где самые последние запросы выводятся первыми. Возле каждого результата указан поисковый запрос и перечень посещенных сайтов с указанием количества посещений. Ненужные результаты могут быть легко удалены из истории. Кроме того, предусмотрена возможность временного приостановления автосохранения запросов и найденных в ответ на них ссылок.

Не менее полезна возможность отображения похожих результатов, связанных с определенным термином, названием или объектом. Для этого можно воспользоваться ссылкой Related History. Сервис Web History также автоматически запоминает посещенные страницы и впоследствии выделяет их цветом, что значительно упрощает навигацию и просмотр ссылок полученного списка.

«Яндекс» на полную мощь

Бесспорно, самой популярной поисковой машиной русскоязычного Интернета является «Яндекс» (http://www.yandex.ru). Система содержит больше всего проиндексированных страниц, а качество ее поиска соответствует ее лозунгу – «найдется все».

Несомненным плюсом является то, что «Яндекс» учитывает морфологию русского языка во время поиска, то есть рассматривает все формы искомого слова. Если задан, например, запрос Смотреть, в результате поиска будут найдены ссылки на документы, содержащие кроме Смотреть слова смотри, смотрите, смотрел и т. д.

«Яндекс» также позволяет проводить расширенный поиск. В окне расширенного поиска в разделе употреблены в тексте можно выбрать один из двух вариантов: в любой форме или точно так, как в запросе. Выбор второго варианта означает поиск точного совпадения на искомых сайтах (рис. 4.4).

Рис. 4.4. Окно расширенного поиска «Яндекса»

Кроме этого, работая с «Яндексом», вы можете ограничить расстояние между словами поискового запроса – они могут идти подряд, в одном предложении или не очень далеко. Это важно в тех случаях, когда слова из поискового запроса составляют логически цельную фразу, например, издательство «Питер», расписание поездов и т. п.

В расширенном поиске с помощью «Яндекса» можно ограничить ссылки регионом (например, Минск, Украина, Москва).

Специальные команды сложного поиска также позволяют управлять результатами поискового запроса. Например, если в найденном списке ссылок вы хотите получить точное соответствие найденного слова запросу, вам достаточно будет поставить восклицательный знак перед искомым словом (без пробела), например! смотреть.

Обратите внимание, что «Яндекс» различает заглавные и строчные буквы в поисковом запросе. Действует следующее правило: если в окне поиска вы набрали слово с заглавной буквы, то найдены будут только страницы, на которых это слово начинается с заглавной. Если слово написано со строчной буквы, то отыщутся все варианты написания – как со строчной, так и с заглавной.

Если вы хотите указать, что слово должно обязательно входить в результирующие сайты, перед ним следует поставить знак +. Наоборот, если вы не желаете, чтобы какое-либо слово встречалось в результатах поиска, поставьте перед ним знак – .

По умолчанию при обработке запроса «Яндекс», как и Google, использует логический оператор И. Это значит, что каждое слово, входящее в запрос, должно быть найдено. Если вы хотите получить в найденном списке одно из слов, используйте оператор OR, который в «Яндексе» имеет вид символа |.

В этом случае система будет искать сайты, где содержится хотя бы одно из перечисленных слов. Например, выражение юмор | шутка | анекдот | прикол означает, что нужно искать сайты, содержащие одно из указанных слов.

Еще одна удобная функция «Яндекса» – так называемый поиск с расстоянием – позволяет задать расстояние между словами. Расстояние между первым и вторым словом равно 1, между первым и третьим – 2. Расстояние между соседними словами, стоящими не в том порядке, будет отрицательным: -1.

Если между двумя словами находится знак / и число, значит, расстояние между словами не должно превышать значение этого числа. К примеру, запрос курсы /2 массажа означает, что вы требуете документы, в которых между словами курсы и массажа может находиться только одно слово. То есть подходят фразы: курсы лечебного массажа, курсы точечного массажа и просто курсы массажа.

В предыдущем случае расстояние может варьировать от 1 до 2. Если нужно задать расстояние жестко, введите запрос курсы /+2 массажа. Тем самым вы зафиксируете положение слова массажа относительно курсы.

Если вы хотите использовать оператор AND в пределах документа, используйте символ &&. Например, рецепты && (плавленый сыр).

Символ ~ означает оператор И НЕ (в пределах предложения), например, запрос банки ~ закон означает, что нужно искать сайты, на которых есть слово банки, но не встречается закон.

Символы – или ~ ~ – это бинарный оператор И НЕ (в пределах документа). Например, запрос путеводитель по Парижу ~ ~ (агентство | тур) позволит получить список документов, в которых встречается фраза путеводитель по Парижу, но при этом нет слов агентство или тур.

Специальные команды «Яндекса» позволяют дополнительно ограничить область поиска. Вот некоторые из них:

• $title (выражение) – позволяет провести поиск в заголовке страницы, например $title Питер;

• $anchor (выражение) – эта команда означает поиск в тексте ссылок, например $anchor Яndex находит ссылки, в которых есть слово Яndex;

• #keywords=(выражение) – поиск в ключевых словах, например следующее выражение: #keywords=(поисковая система);

• #abstract=(выражение) – поиск в описании страницы, например следующее выражение: #abstract=(искалка | поиск);

• #image="значение" – поиск картинок с указанным названием, например #image="nokia" выберет ссылки на сайты, на которых есть картинки с названием nokia;

• #hint=(выражение) – эта команда проведет поиск в подписях к изображениям, например #hint=(lenin | ленин);

• #url="значение" – означает поиск на заданном сайте (странице), например #url="www.lenta.ru";

• #link="значение" – поиск ссылок на заданный сайт, например следующее выражение: #link="www.yandex.ru";

• #mime="значение" – эта команда ограничивает тип найденных документов, например, в результате запроса концепция Web 2.0 #mime="pdf" вы найдете PDF-документы, в которых встречаются данные слова;

• host="www.host.ru" – оператор аналогичен url с именем хоста, но учитывает все зеркала сайта, например host="www.yandex.ru";

• rhost="ru.url.*" или rhost="ru.url.www" – оператор аналогичен host, но имя хоста записывается в обратном порядке – вначале домен верхнего уровня, затем второго и т. д. Если в конце указано.*, то поиск идет по всем поддоменам заданного домена (исключая ru. url!), например rhost="ru.yandex.*";

• lang="язык" – отбирает для поиска страницы, написанные на определенном языке, например на русском (ru), украинском (uk), белорусском (be), английском (en), французском (fr), немецком (de), например lang="de";

• like="url.ru/file.html" – отбирает для поиска страницы, похожие на заданный URL, например like="www.yandex.ru";

• domain="домен" – производит поиск по страницам, которые расположены в заданном домене, например domain="yandex" /+1 domain="ru";

• date="ГГГГ{*|ММ{*|ДД}}" – поиск производится только по страницам, дата которых удовлетворяет заданному условию, например date="200310*";

• cat=(ID региона) или cat=(ID темы) – поиск включает только страницы сайтов, зарегистрированных в каталоге, тематическая рубрика или регион которых совпадают с заданным.

Поисковые программы

В последнее время наряду с онлайновыми поисковыми машинами появляются и другие инструменты, предназначенные для поиска в Интернете. Одним из таких инструментов являются поисковые программы. Особенностью их работы является возможность искать сразу с помощью нескольких поисковиков. Поисковые программы также умеют группировать результаты поиска, а также сохранять их для последующего использования.

«ДИСКо Искатель»

Одним из преимуществ программы «ДИСКо Искатель» (http://www.disco.ru/russian/products/finder.htm) является использование русскоязычных поисковых машин. При поиске с ее помощью можно выбирать один из восьми поисковиков, среди которых, наряду с Google, Yahoo! AltaVista, используются «Апорт!», «Яндекс», «Рамблер». Этот список нельзя пополнить своими поисковыми серверами, но и этого набора достаточно для успешного поиска. При построении сложного запроса, состоящего из нескольких слов, можно задать использование различных условий, например или, и, точно (рис. 4.5).

Рис. 4.5. Окно программы «ДИСКо Искатель»

Результат поиска с помощью «ДИСКо Искателя» также представлен очень удобно – в окне программы отображаются два списка: в левой части помещен перечень названий найденных ссылок, а справа – их адреса. При этом, если фраза поискового запроса встретилась несколько раз на одном сайте, такие ссылки будут объединены в разделы, а названия таких разделов и в левом, и в правом списке будут помечены символом +. Программа позволяет синхронизировать пункты левого и правого списка – воспользовавшись специальной командой контекстного меню, вы сможете выбрать адрес сайта из правого списка, соответствующий выделенному названию в левом.

Возможности программы не ограничиваются только поиском. «ДИСКо Искатель» позволяет проверять ссылки на работоспособность, и если ссылка не функционирует, ее можно удалить из списка.

Эту программу используют в первую очередь в тех случаях, когда необходимо не только найти набор ссылок, но еще и определить, на каких страницах одного сайта встречаются фразы поискового запроса. Кроме этого, она удобна, когда необходимо часто искать в Интернете одну и ту же информацию. Ведь здесь предусмотрено сохранение поискового запроса и списка найденных ссылок в виде отдельного файла. Эта возможность позволяет создавать свои собственные тематические подборки ссылок.

Сохранив таким образом все нужные запросы, вы можете в любой момент открыть файл и повторить поиск. Причем во время повторного поиска можно выделить новые ссылки, таким образом, вы сможете отслеживать появление новых сайтов, соответствующих вашему поисковому запросу.

Search+

Программа Search+ (http://srchplus.chat.ru) выделяется среди инструментов для метапоиска, ведь база данных используемых поисковых систем в этой программе является одной из самых больших. Количество сайтов, с помощью которых Search+ ищет, исчисляется десятками; все они сгруппированы в 40 тематических разделов. С помощью программа вы можете искать не только используя стандартные поисковые машины, но еще и с помощью других инструментов, например каталогов софта, энциклопедий, сайтов для поиска работы и др. (рис. 4.6).

Кроме этого, каждый из сайтов, сохраненный в каталогах программы, имеет еще одну характеристику – он принадлежит одной из девяти категорий, соответствующих географическим регионам: Belorussia, Russia, Ukraine, UK, World и др. В каждом разделе можно отметить, какие именно поисковые машины следует использовать; также можно ограничить поиск по региону. Однако дополнить этот список своими поисковыми машинами нельзя.

Формируя запрос в Search+, необходимо выбрать категорию, а также режим поиска (простой или расширенный). Во втором случае доступна возможность сортировки результата и настройка дополнительных параметров.

Очень удобно в программе представлен результат поиска. Это список ссылок с цитатой, содержащей поисковый запрос. Причем рядом с адресом будет указан источник, то есть поисковая машина, с помощью которой сайт был найден. Кроме этого, для каждой ссылки указан ее вес, то есть величина, показывающая соответствие ссылки поисковому запросу.

Рис. 4.6. Окно программы Search+

Для каждой ссылки можно просмотреть ее свойства – источник, с помощью которого она была найдена, вес, а также дату создания документа и цитату, содержащую поисковый запрос.

Полученный список ссылок можно сохранить как во внутреннем формате программы, так и в одном из стандартных форматов – HTML или CSV. Программа позволяет обновить результаты поиска – еще раз опросить поисковики с этим же поисковым запросом. При этом новые ссылки будут выделены полужирным шрифтом, а при желании с помощью фильтра на экране можно оставить только их.

Quintura Search

Для начала отметим, что у программы очень красивый и не совсем обычный интерфейс, тем не менее работать с ней легко и удобно.

В результате поиска с помощью Quintura Search (http://www.quintura.com) вы получите список ссылок, а в левой части окна будет размещена так называемая смысловая карта поискового запроса. Программа предлагает для уточнения поискового запроса использовать термины (подсказки), которые по смыслу связаны со словами запроса (ведь слова запроса встречаются на найденных сайтах в сочетании с другими словами). Смысловая карта позволяет увидеть эти сочетания, более того, если указатель мыши навести на одно из слов смысловой карты, то рядом будут отображены и другие связанные с ним термины. Если выбрать какой-нибудь термин из смысловой карты, то в правой части окна будет размещен соответствующий результат поиска, то есть вы сможете увидеть, какие результаты выдаст поисковая машина, если добавить этот термин в запрос (рис. 4.7).

Рис. 4.7. Quintura Search предлагает возможность уточнения поискового запроса

В настройках программы можно указать количество ссылок в результирующем списке. Можно также регулировать релевантность, то есть соответствие поисковому запросу.

Онлайновый метапоиск

Несмотря на постоянное улучшение алгоритмов поиска традиционных поисковых машин, их работа уже давно не удовлетворяет современного интернет-пользователя. Ведь чем короче путь от поискового запроса до полученного результата, тем лучше. При постоянном увеличении количества веб-сайтов использование традиционного метода поиска приведет к тому, что результат будет содержать много информационного шума – сайтов, которые случайно попали в результирующий список и не соответствуют или не совсем соответствуют поисковому запросу.

Кроме того, различия в стратегии, широте охвата и мощности разных систем очень часто приводят к тому, что разные поисковые машины дают разные результаты поиска при одних и тех же запросах. Этим не замедлили воспользоваться разработчики специальных программ, основанных исключительно на применении потенциала других, уже существующих традиционных поисковых систем.

Системы, которые не ведут собственной базы интернет-сайтов, а только предоставляют доступ к другим поисковым системам, называются метапоисковыми системами. По сути, метапоисковые системы – это посредник между пользователем и набором обычных поисковых систем. Они реализуют свои алгоритмы и методы обработки результатов работы других поисковых систем.

Метасистема позволяет в соответствии с пожеланиями пользователя ограничить свой поиск определенными серверами и осуществить уточненный поиск в полученном списке сайтов. Основной чертой такой системы является объединение поисковых серверов различных специализаций.

Большинство современных метапоисковых систем умеют обрабатывать полученные результаты поиска, как минимум они удаляют из результирующего списка сайтов ссылки-дубликаты. Большинство из них представляют список ссылок по суммарной релевантности, но некоторые группируют их по используемым поисковым машинам.

ПРИМЕЧАНИЕ
Иногда поиск с применением метасредств может оказаться очень медленным, ведь им приходится координировать во времени поступления результатов обработки поискового запроса от нескольких серверов. Еще одним недостатком является то, что они не позволяют использовать возможности языка запроса каждого из применяемых поисковых средств.

Метапоисковая система, которая умеет объединять полученные списки ссылок в группы, предлагает пользователям сразу два списка ссылок. Кроме обычного списка ссылок с указанием различной дополнительной информации, пользователь получает список ключевых слов, то есть разделов, в которые были сгруппированы полученные результаты поиска. Выбор ключевого слова в этом списке приведет к отображению соответствующих ему ссылок на найденные сайты.

Вы можете найти в Интернете метапоисковые системы, объединяющие результаты работы нескольких традиционных поисковых машин. Одной из таких систем является http://www.gahooyoogle.com. Метапоисковик GahooYoogle умеет искать сразу по двум поисковым машинам – Yahoo! и Google. В результате работы экран браузера будет разделен на две части: слева отобразится результат поиска, полученный с помощью Yahoo! справа – страничка с результатами поиска в Google.

Vivisimo

Один из старейших метапоисковиков – Vivisimo (http://vivisimo.com) использует группировку результатов поиска на основе содержимого сайтов. Вместо простого перечня ссылок он удобно упорядочивает результат. По запросу пользователя строится дерево тем, в котором размещены не только ключевые слова, но и типы документов (статьи, новости и т. д.) (рис. 4.8).

Сайты, для которых не были определены ключевые слова, будут отнесены к специальной группе Other topics. В результате работы Vivisimo создает сложную древовидную структуру, состоящую из разделов и подразделов. Рядом с названием каждого сайта отображаются ссылки, открывающиеся в новом окне или в фрейме текущего окна, здесь же можно осуществить предварительный просмотр найденного сайта. В последнем случае будет открыт специальный блок Preview в окне ниже названия ссылки.

Рис. 4.8. Главное окно Vivisimo

При поиске можно задавать его тематическую направленность, можно искать как в общей категории (Search the web), так и проводить поиск в новостях нескольких типов, а также (специализированный поиск) по конкретным порталам (BBC News, eBay, Open Directory и т. д.).

Для каждой найденной ссылки в результирующем списке отображается название поисковой машины, с помощью которой она была найдена. Кроме обычного, пользователям Vivisimo доступен также и расширенный поиск. Среди его параметров настройка списка используемых поисковых средств, ограничение количества найденных ссылок, время поиска и язык.

Clusty

Еще одна метапоисковая система Clusty (http://www.clusty.com) – это дочерний проект Vivisimo. Возможности обеих этих систем похожи, но последняя имеет гораздо более удобные инструменты для структурирования результата поиска.

По умолчанию список ссылок, полученных в Clusty, сгруппирован по тематике. Однако кроме этого параметра, заданного по умолчанию, можно задать группировку полученных ссылок по источнику и по домену (URL) (рис. 4.9).

Рис. 4.9. Окно с результатами поиска Clusty

Каждую полученную в результате поиска ссылку можно открыть в новом окне или в фрейме, кроме этого, можно просмотреть месторасположение найденной ссылки в дереве тем. Другими дополнительными возможностями Clusty является проведение специфического поиска – для этого предназначены вкладки News, Image, Shopping, Encyclopedia, Gossip. Используя вкладку Customize, можно настроить внешний вид и функциональные возможности Clusty для себя, добавив в стандартный набор вкладок еще одну, свою (при этом необходимо указать ее имя и отметить используемые в ней поисковые средства). При этом одновременно можно создать до четырех своих вкладок.

Пиринговые сети

Вы пересмотрели все поисковые машины, провели специализированный поиск по FTP, поиск программ – и все равно нужный файл не находится… В этом случае остается единственный выход – попытаться поискать файл в других сетях, так называемых файлообменных.

Развитие технологий доступа к Интернету, широкополосный доступ – все это делает еще более популярными инструменты обмена файлами. Современные скорости соединения с Сетью позволяют легко закачивать сотни мегабайт. Результатом этого стало развитие сервисов обмена файлами. Такие сервисы являются одним из самым популярных средств для распространения информации между пользователями. Они могут применяться, например, чтобы выложить объемный архив с фотографиями для друзей вместо того, чтобы отправлять его по почте, или для распространения в Интернете файлов, не нарушающих ничьих прав. Однако контролировать содержание хранилищ файлов, число которых доходит иногда до сотен тысяч или даже больше, практически невозможно.

Все началось в 1999 году, когда свет увидел проект Napster. Всего через год Napster стал едва ли не самым популярным брендом в Интернете. Причиной этого стала возможность с его помощью быстро и бесплатно скачивать музыку. Потом борцы за авторские права расправились с ненавистной им системой, однако пример был подан.

Не только Napster, но и другие файлообменные сети подвергались преследованию со стороны музыкальных компаний и компаний, выпускающих программное обеспечение. Однако это совсем не изменило отношения пользователей к подобным серверам.

Файлообменные сети используют принцип работы, который несколько отличается от привычного для большинства компьютерных сетей принципа «клиент-сервер». Они работают на основе технологии P2P.

Технология P2P (peer to peer) – это схема построения распределенной сети, каждый узел которой может одновременно выступать как в роли клиента, получающего информацию, так и в роли сервера, информацию предоставляющего. P2P-сети (или пиринговые) еще называют сетями равных возможностей, в которых осуществлено взаимодействие между всеми узлами сети.

Технология Р2Р подразумевает общение и распространение файлов между компьютерами в сети напрямую, без посредников. Это значит, что для передачи нового фильма от одного пользователя к другому не будет задействовано никаких промежуточных серверов, а значит, скорость закачки будет выше.

Общий принцип работы пиринговых сетей состоит в следующем: клиентская программа передает в сеть список файлов, которые она может предоставить для скачивания и которые хочет получить сама.

Как правило, сеть состоит из равноправных узлов, причем каждый из них взаимодействует лишь с некоторыми узлами сети, так как установление связи «каждый с каждым» невозможно из-за ограниченности ресурсов (как вычислительных, так и пропускных). При этом передача информации между узлами, не связанными в данный момент непосредственно, может осуществляться как по своеобразной «эстафете» (от узла к узлу), так и путем установления временной прямой связи. Маршрутизация и авторизация сообщений, передаваемых первым способом, происходит не на едином сервере, а на всех этих отдельных узлах.

Существуют две модели пиринговых сетей. Если поиск подходящих партнеров осуществляется с помощью сервера, а сами данные качаются напрямую, то такая сеть называется централизованной. Если любые компьютеры сети могут одновременно выполнять функции и клиентов, и серверов, посылая запросы друг другу, то подобный тип сетей называется децентрализованным.

Пиринговая сеть, которая поддерживает оба режима работы, является смешанной (гибридной).

Отметим, что централизованные P2P-сети, как правило, работают быстрее, но менее надежны, поскольку не могут функционировать без сервера. Гибридные системы наиболее оптимальны, поскольку они используют преимущества обеих моделей.

Чем больше человек участвует в пиринговой сети, тем лучше. Представьте, что своими файлами обмениваются несколько миллионов человек, у каждого из которых есть хотя бы 1 Гбайт информации. Выходит почти 1 000 000 Гбайт! Добавьте сюда еще специальные файловые хранилища энтузиастов, огромные объемы данных на Р2Р-серверах… Таким образом, в пиринговых сетях можно найти практически все, что угодно: от фильмов и музыки до исходных кодов вирусов и операционных систем.

На сегодняшний день существует множество Р2Р-сетей: BitTorrent, SHAREAZA, ed2k и т. д. Чем более распространена пиринговая сеть, тем больше вероятность найти в ней редкий и уникальный файл.

Сети P2P выступают хорошей альтернативой FTP-архивам, которые уже давно перестали справляться с ростом информационного наполнения и числа потребителей. Несмотря на постоянное улучшение количественных характеристик файлсерверной архитектуры, P2P потенциально обладает целым рядом преимуществ: балансировкой нагрузки, более широкой полосой пропускания, высокой устойчивостью и широкими возможностями по организации содержания.

У каждой пиринговой сети есть свой стандарт передачи данных, поэтому существуют клиенты, которые могут работать в нескольких сетях.

KaZaa

В сети KaZaa (http://www.kazaa.com) доступны для обмена файлы следующих типов: MP3, AVI, MPG, ASF, JPEG, GIF, BMP, DOC, RAR, ZIP, EXE и др. Для работы сеть использует центральный сервер.

Сеть KaZаa – одна из первых, которая возникла после исчезновения Napster. При работе с ней пользователь соединяется с одним из центральных серверов или с компонентами дополнительной подсети суперузлов, которые выполняют ту же роль, что и центральный сервер.

Среди достоинств сети можно назвать возможность работы со всеми форматами файлов, наличие докачки, умение копировать файл сразу у нескольких пользователей (у каждого свою часть файла) и др.

При работе с сетью в списке найденных файлов отображается полная информация о файле: длина, битрейт, исполнитель (для аудио и видео), название, размер экрана (для видео) и то, какие преимущества имеет данная сеть.

К недостаткам сети можно отнести то, что количество результатов поиска здесь ограничено первой сотней найденных файлов, а также большие очереди на закачку.

Для работы с сетью KaZaa используется одноименный клиент. Особенность программы состоит в полном отсутствии модулей spyware и adware.

При самом первом запуске KaZaa предложит зарегистрироваться и выбрать пользовательское имя. В дальнейшем подключение будет происходить автоматически при запуске программы. В статусной строке KaZaa можно увидеть информацию о количестве активных пользователей и о суммарном объеме доступных файлов.

KaZaa также поддерживает загрузку файла из нескольких источников. Поиск нужного файла занимает сравнительно много времени, но зато при подключении вам не придется перебирать список серверов – статус online будет доступен вскоре после запуска программы.

Специальная функция My Recommendations в окне My Files позволяет рекомендовать наиболее интересные для прослушивания музыкальные файлы.

EDonkey2000

В сети eDonkey2000 (http://www.edonkey2000.com) доступны для обмена практически любые файлы – сеть работает через центральные серверы.

Эту сеть еще называют «Осликом». Принцип ее работы состоит в использовании нескольких центральных серверов: то есть это нечто среднее между одноранговой технологией и клиент-серверной архитектурой.

Серверы играют роль справочника ссылок для закачки, а сама закачка файлов производится по принципу пиринговой сети с одного компьютера на другой. Интересной особенностью является тот факт, что как только пользователь начал качать какой-то файл – его компьютер тут же становится местом, откуда этот файл можно скачать. Причем, даже если файл переименован, он все равно будет опознан по уникальному индексу.

EMule (http://www.emule-project.net) – это программа-клиент для сети eDonkey2000. Она обладает удобным интерфейсом. Здесь присутствует встроенная поддержка русского языка и нет рекламы. При создании eMule была переработана и оптимизирована процедура загрузки файлов. Например, в первую очередь загружаются наиболее редкие блоки файла, а при повреждении блока повторно скачивается только его поврежденная часть. Кроме того, был улучшен поисковый механизм (рис. 4.10).

Рис. 4.10. Окно программы eMule

После запуска программы часть серверов сразу доступна по умолчанию в базе данных, а специальная кнопка позволяет обновить его. После запуска программа опрашивает серверы и подключается к одному из них, который, в свою очередь, общается с другими серверами сети.

Вначале работы программы необходимо определить ресурсы общего доступа на вашем компьютере. Это очень важный этап, так как сеть eDonkey работает по принципу – чем больше вы отдаете, тем больше получаете.

Специальная система очереди и кредитов действует таким образом: пользователь получает нужные ему файлы гораздо быстрее, если закачивает их кому-нибудь еще. При необходимости можно ограничить доступ к спискам сетевых адресов или к именам конкретных клиентов пиринговой сети. EMule может получить список серверов не только с определенного ресурса, но и от партнеров по сети. Кроме того, партнеры могут обмениваться списками источников скачиваемых файлов, что снижает потребность в серверах.

Список файлов, которые пользователь скачивает у других или которые располагаются у него на диске в специальных открытых для доступа папках, при подключении к сети передается на соответствующий сервер, и они становятся доступными для скачивания другим клиентам, подключенным к тому же узлу.

Для любого файла, помещаемого в eDonkey, вычисляется хэш-сумма (специальная контрольная сумма, зависящая от содержимого файла), в соответствии с которой он однозначно определяется в сети независимо от его названия. Ссылки на файлы имеют следующий вид: ed2k://|file|SomeFile. zip|43573472|94cb15b58509c52afcf8bed5dd7a4bd|.

Этот цифровой идентификатор файла в сети eDonkey позволяет однозначно определить месторасположение файла. Таким образом, достаточно указать данный адрес, и клиент eMule самостоятельно найдет нужный файл на серверах сети eDonkey и начнет закачку на ваш компьютер.

Функция Предпросмотр позволяет ознакомиться с фильмами и заглянуть в архивы еще до того, как они скачаны до конца. В состав eMule включен планировщик задач, а также небольшой веб-сервер, позволяющий удаленно управлять программой через Интернет или с мобильного телефона, поддерживающего Java.

BitTorrent

Технологию BitTorrent (битовый поток) (http://www.bittorrent.com) создал в одиночку американский программист Брэм Коэн (Bram Cohen). Уже в 2001 году у него была готова первая версия BitTorrent, а через три года, в июне 2004-го, по данным исследования компании CacheLogic, более трети всего трафика в Интернете передавалось с использованием этого протокола.

Как таковой глобальной сети BitTorrent не существует. Пиринговая система работает следующим образом. Владелец некоторого файла с помощью специальной программы-клиента разбивает его на фрагменты, для каждого из которых вычисляется специальная контрольная сумма. Полученные в результате этой операции данные вместе с информацией об адресах серверов, на которых размещены фрагменты файла, а также адрес специального tracker-сервера сохраняются в небольшой файл с расширением torrent. Эти файлы размещаются в Интернете. Они являются ссылкой на необходимую информацию. Примечательным является тот факт, что BitTorrent – это единственная пиринговая сеть, у которой поиск файлов осуществляется не с помощью программы-клиента, а с помощью любой поисковой системы, например Google.

Другой пользователь скачивает файл с указанным расширением и запускает при помощи специализированной программы (например, SHAREAZA), после чего уже программа подключается к tracker-серверу. При этом клиент управляет процедурой закачки, обеспечивая эффективное управление скачиванием. Далее ситуация развивается по следующей схеме: искомый файл разбивается на блоки и передается через tracker-сервер по кускам от владельца к скачивающему пользователю. Однако со временем количество людей, копирующих этот конкретный файл, растет, а значит, увеличивается число загруженных ими блоков.

Для работы с сетью BitTorrent существует несколько клиентов, один из них так и называется BitTorrent (http://www.bitconjurer.org) (рис. 4.11).

Рис. 4.11. Окно клиента BitTorrent, предназначенного для работы с одноименной сетью

Принцип работы программы состоит в следующем: после скачивания файла штатными средствами операционной системы необходимо дважды щелкнуть на нем кнопкой мыши, в результате чего будет запущен клиент и начнется скачивание нужного файла.

SHAREAZA

По отзывам пользователей, SHAREAZA (http://www.shareaza.com) является одним из лучших универсальных P2P-клиентов. Он весьма быстро завоевал популярность. Программа работает с четырьмя пиринговыми сетями (Gnutella2, Gnutella1, eDonkey2000/eMule, BitTorrent) и распознает пять видов ссылок (Magnet, Piolet, Gnutella, eDonkey2000/eMule, BitTorrent).

Программе не надо подключаться к каким-либо определенным серверам, она самостоятельно находит рабочие серверы и автоматически обновляет их список из Интернета. Она самостоятельно подключается к серверам выбранной пиринговой сети, а также закачивает torrent-файлы.

Можно задать поиск нужного файла – программа предоставит список файлов, которые можно будет скачать (рис. 4.12).

Кроме того, в программе реализован весьма быстрый поиск, к тому же она выдает различную полезную информацию, такую, например, как скорость доступного канала.

Также в SHAREAZA есть встроенный проигрыватель, позволяющий воспроизводить различные форматы музыки и видео. Причем возможен предварительный просмотр файлов, закачка которых еще не завершена.

Рис. 4.12. Универсальный P2P-клиент SHAREAZA

В последнее время все большее число гигантов IT-мира стали обращать внимание на эту технологию, например компания Sun, объявившая о том, что в новый протокол Jxta будет добавлена поддержка карманных компьютеров и мобильных телефонов, что позволит мобильным устройствам получать доступ к данным и обмениваться информацией в P2P-сетях.

Архив Интернета

Интернет – среда, меняющаяся чрезвычайно быстро, страницы открываются и исчезают, их содержимое тоже непостоянно. Что делать, если вам нужна информация, ссылка на которую уже устарела? Только одно – посетить специальный сайт, своеобразный архив Интернета (http://www.archive.org) (рис. 4.13).

Безусловно, создать точную копию всех сайтов, существовавших когда-либо в виртуальном пространстве, просто нереально. Однако время от времени отслеживать обновления, а главное, не дать исчезнуть вовсе тем сайтам, которые по разным причинам перестали существовать, – вот основная задача архива Интернета.

Сервис, называемый The Internet Archive Wayback Machine, позволяет просматривать заархивированные версии сайтов Сети, в том числе за определенный промежуток времени.

Архив Интернета был основан в 1996 году Брюстером Кейлом (Brewster Kahle), который работает в тесном сотрудничестве с Библиотекой Конгресса США.

В декабре 2000 года Конгресс США выделил Библиотеке Конгресса $100 млн для разработки национальной программы сохранения цифровой информации. Помимо оплаты хранения, эти деньги пойдут и на научные исследования стабильности цифровых носителей. За долгие годы человечество научилось хранить бумажные материалы и знает все об их сохранности и долговечности. С цифровыми данными все иначе. В первые годы существования компьютеров люди предполагали, что цифровые данные смогут храниться без потерь десятилетиями. Однако сотрудники архивов уже заявляют, что магнитные пленки и гибкие диски, на которых хранится информация, выходят из строя.

Рис. 4.13. Архив Интернета содержит копии всех сайтов

Кроме того, цифровые носители постоянно меняются, как меняются и аппаратные средства для их воспроизведения. Сейчас многие библиотеки и архивы являются обладателями больших собраний музыкальных и иных компакт-дисков, а также DVD, которые тоже стареют год от года.

Не стоит на месте и программное обеспечение, что приводит к появлению большого количества разных форматов, не всегда совместимых между собой. Поэтому специалисты архивного дела стараются хранить данные в таких стандартных форматах, как HTML и ASCII.

Немного статистики: объем накопленной в архиве информации измеряется в PB (petabyte), а растет со скоростью 20 Тбайт в месяц. Архив обновляется каждые два месяца. Архив Интернета планирует переписывать собираемые материалы на новые носители каждые пять лет, чтобы предотвратить потерю данных.

Кроме этого, совместно с архивом Интернета работает специальная поисковая машина Wayback Machine, которая позволяет путешествовать в прошлое Интернета и отыскивать сайты, которых уже не существует.

В качестве базы для поиска Wayback Machine использует не сам Интернет, а «Архив Интернета».

Wayback Machine очень полезна для журналистов, поскольку сохраняет «снимки» электронных газет так же, как микрофильмы сохраняют старые бумажные издания. Особенно это актуально в случае электронных изданий, которые не имеют собственного архива, как, например, знаменитый Drudge Report.

Для поиска информации в архиве достаточно указать адрес сайта, в результате чего вы получите список дат, за которые в архиве сохранены его «снимки». Вы можете выбрать нужное значение и просмотреть, как выглядел сайт в определенный день.

ПРИМЕЧАНИЕ
Следует заметить, что при использовании ссылок на научные статьи, опубликованные в Интернете, часто требуют указывать ссылку именно на архив Интернета.

Оглавление

Глава 4Секреты поиска в Интернете