Лучшие поисковые системы

§ 4.2. Поиск информации в Интернете

Содержание урока

4.2. Поиск информации в Интернете

4.2. Поиск информации в Интернете

Сеть Интернет растет очень быстрыми темпами, поэтому найти нужную информацию становится все сложнее. Для поиска информации используются специальные поисковые системы, которые содержат постоянно обновляемую информацию о местонахождении Web-страниц и файлов на серверах Интернета.

Поисковые системы содержат тематически сгруппированную информацию об информационных ресурсах Всемирной паутины в базах данных. Специальные программы-роботы периодически «обходят» Web-серверы Интернета, читают все встречающиеся документы, выделяют в них ключевые слова и заносят в базу данных Интернет-адреса документов.

Большинство поисковых систем разрешают автору Web-сайта самому внести информацию в базу данных, заполнив регистрационную анкету. В процессе заполнения анкеты разработчик сайта вносит адрес сайта, его название, краткое описание содержания сайта, а также ключевые слова, по которым легче всего будет найти сайт.

Поиск по ключевым словам. Поиск документа в базе данных поисковой системы осуществляется с помощью введения запросов в поле поиска.

Запрос должен содержать одно или несколько ключевых слов, которые являются главными для этого документа. Например, для поиска самих систем поиска в Интернете можно в поле поиска ввести ключевые слова «российская система поиска информации Интернет».

Через некоторое время после отправки запроса поисковая система вернет список ссылок на документы, в которых были найдены указанные ключевые слова. Для просмотра такого документа в браузере достаточно активизировать указывающую на него ссылку.

Если ключевые слова были выбраны неудачно, то список ссылок на документы может быть слишком большим (содержать десятки и даже сотни тысяч ссылок). Для того чтобы уменьшить список, можно в поле поиска ввести дополнительные ключевые слова или воспользоваться каталогом поисковой системы.

Одной из наиболее полных и мощных поисковых систем является (www.google.ru), в базе данных которой хранятся более 300 миллиардов Web-страниц, и каждый месяц программы-роботы заносят в нее 5 миллионов новых страниц (рис. 4.9). В российской части Интернета обширные базы данных, содержащие по 400 миллионов документов, имеют поисковые системы Яндекс (www.yandex.ru), Mail (www.mail.ru) и Rambler (www.rambler.ru).

Поиск в иерархической системе каталогов. В базе данных поисковой системы Web-сайты группируются в иерархические тематические каталоги, которые являются аналогами тематического каталога в библиотеке.

Тематические разделы верхнего уровня, например «Интернет», «Компьютеры», «Наука и образование» и т. д., содержат вложенные каталоги. Например, каталог «Интернет» может содержать подкаталоги «Поиск», «Сервис» и др.

Рис. 4.9. Поиск по ключевым словам в системе Google

Поиск информации в каталоге сводится к выбору определенного каталога, после чего пользователю будет представлен список ссылок на наиболее посещаемые и содержательные Web-сайты. Каждая ссылка обычно аннотирована, т. е. содержит короткий комментарий к содержанию документа.

Наиболее полный многоуровневый иерархический тематический каталог русскоязычных Интернет-ресурсов имеет поисковая система Апорт (www.aport.ru) (рис. 4.10). Каталог содержит подробную аннотацию содержания Web-сайтов и указание на их географическое положение.

Поиск файлов. Для поиска файлов на серверах файловых архивов существуют специализированные поисковые системы, в том числе российская файловая поисковая система FileSearch (www. filesearch.ru). Для поиска файла необходимо имя файла ввести в поле поиска, и поисковая система выдаст ссылки на серверы файловых архивов, на которых хранится файл с заданным именем.

Рис. 4.10. Тематические каталоги поисковой системы Апорт

Cкачать материалы урока

Google

Согласно данным Statcounter за май 2019 года, Google занимает 92.04% рынка поисковых систем. Эти данные не включают социальные сети (Facebook, YouTube, Twitter и т.д.).

Google старается дать наилучший ответ на запрос пользователя.  Именно с этой целью и происходит регулярная эволюция его алгоритмов. Но этот процесс завел Google к интересному результату.

Часто факторы связанные с авторитетом домена, трастом сайта, количеством обратных ссылок имеют большее значение, чем ценность информации для пользователя. Как результат, сайты, которые лучше отвечают на запрос пользователя, но не обладают большим «авторитетом» в глазах поисковой системы, остаются вне внимания пользователя. Удивительно, но одна из самых инновационных компаний в мире делает свои алгоритмы консервативнее. Продвинутые пользователи (как читатели, так и авторы контента) замечают это и их всё больше раздражает монополия Google среди поисковых систем.

Кроме того, многие знают, что Google детально отслеживает каждый шаг пользователя. Кроме понимания, как улучшать свои продукты, это также дает возможность Google создавать лучшие условия для таргетинга в рекламной системе Google Ads. Кто-то из нас не обращает на это внимания. Но все больше растет количество пользователей, которые хотят использовать поисковые системы без рекламных объявлений, или же искать информацию по другим алгоритмам. К счастью, существует множество альтернатив для Google. Каждая из них имеет определенные преимущества и особые сферы применения.

Важно уточнить, что данная статья создана не для того, чтобы занизить значение гугла в глазах активных пользователей всей сети. Её цель, лишь показать большое количество инструментов и вариантов поиска информации, которые сейчас существуют

Google не был первопроходцем на рынке поисковых систем, но он (а именно Сергей Брин и Ларри Пейдж) создал самый совершенный для своего времени алгоритм ранжирования сайтов. И на протяжении всей истории развития рынка поисковых систем, он определял и определяет правила игры на этом рынке.

notEvil: поиск по интернету, которого нет

Поисковик notEvil позволяет осуществлять поиск из интернета по анонимной сети Tor. Для этого не надо устанавливать никакого дополнительного программного обеспечения (хотя оно, понадобится для того, чтобы открывать результаты поиска).

Эта поисковая система позволяет искать по так называемому даркнету — той части Интернета, которая обычно недоступна среднему пользователю. В связи с блокировками в нее постепенно переезжают полезные сервисы, например, для скачивания контента.

Большинство веб-поисковиков по Tor бессовестно зарабатывают на рекламе: вы получаете результаты из Tor, и вдобавок — горсть рекламных объявлений и трекинг в подарок. notEvil принципиально этим не занимается. Понятное дело, что об отслеживании IP и использовании cookie речь тут вообще не идет.

notEvil: помогает найти в Tor то, чего в интернете может не быть

Сайт пригодится тем, кто хочет познакомиться с содержимым невидимого интернета; хардкорная анонимность гарантируется. Кстати, рекомендуем сразу сохранить себе ссылку в закладки — URL-адреса категории Tor-to-web очень недружелюбны в плане запоминания.

Механизм поиска

Это один из главных параметров, определяющих, кто круче – «Гугл» или «Яндекс». Механизм поиска каждый сервис оттачивает ежедневно. Он довольно сложный и запутанный, но тем не менее позволяет в считанные секунды выдать пользователю максимально релевантный ответ на заданный вопрос.

Мощности серверов американского поисковика вполне хватает для того, чтобы обработать запрос в реальном времени. Апдейты выдачи происходят каждый день, поэтому если сравнивать как таковой интернет у «Яндекса» и «Гугла», последний имеет самую актуальную информацию.

К примеру, по горячему запросу «Сирия» американский поисковик выдает текущие новости по сирийскому конфликту. В то время как «Яндекс» в первую очередь предлагает ознакомиться с «Википедией», какими-то географическими особенностями, а уж потом, где-то в середине страницы, выводит новостную ленту.

Кроме того, «Гугл» – это международный продукт, поэтому он прекрасно подходит для поиска на иностранных языках. Но именно в этом случае есть и обратная сторона. Почему «Яндекс» лучше «Гугла»? Потому что последний пытается охватить все, но у него это далеко не всегда получается, а отечественный поисковик привязывает себя к районам и выдает действительно качественный и релевантный результат по региональному запросу.

Если «Гугл» справляется с актуальной выдачей за счет своих многочисленный серверов, то мощностей «Яндекса» на такую оперативность не хватает. Отечественный поисковик попросту кэширует добрую часть запросов, и пользователь получает заранее подготовленный ответ. Подобное решение позволяет моментально получить нужную информацию, но последняя не всегда будет актуальной.

Так что если ваши запросы можно назвать стандартными (погода, фильмы, музыка, разделы «Википедии» и т. п.), то разницы между «Гуглом» или «Яндексом» вы не заметите. Если вам нужна более специфическая и именно актуальная информация для каких-то профессиональных нужд, то лучше отдать предпочтение американскому поисковику.

Справочные поисковые системы

Ask – общественная поисковая система, позволяющая находить интернет-сайты, изображения, видео и новости. Также можно задавать вопросы, получая на них мгновенные ответы.

eHow – является одним из самых старых интернет-сайтов по вопросам и ответам, который дает возможность находить информацию на любую тематику – от декоративных элементов дома — до разновидностей блюд, от финансовой системы — до юрисдикции.

Answers – система вопросов-ответов и сообщество, позволяющее людям задавать конкретные вопросы и заниматься поиском ответов.

Wolfram Alpha – вычислительная справочно-поисковая система по поиску ответов на фактические вопросы, которая находит необходимые изображения, выполняет расчеты и множество других функций.

ChaCha – поисковая система, функционирующая за счет активности пользователей. Она предоставляет развернутые ответы на любой поставленный вопрос в режиме реального времени через интернет-сайт. Также с ее помощью можно делиться изображениями и задавать вопросы в режиме онлайн.

Quora – сайт вопросов-ответов, который помогает найти нужный совет либо получить поучительный урок от людей, у которых есть ценный жизненный опыт.

TheQuestion – сравнительно молодой российский сервис вопросов и ответов. Сообщество людей, часть из которых ищет информацию, а часть имеет проф. знания и опыт, чтобы корректно отвечать на вопросы.

Ответы@Mail.ru – российский сайт вопросов и ответов с системой баллов и рейтингов для участников.

Приватные поисковые системы

DuckDuckGo – система поиска, целью которой является защита приватности пользователя. Она позволяет проводить поиск интернет-сайтов, изображений и видео, определений и терминов и др.

Qwant – французкая анонимная поисковая система в интернете. Данная система отрицает всякого рода шпионство за пользователями, предоставляя им поиск интернет-сайтов, изображений и видео, новостей и др.

Startpage – поисковая система от Google, обеспечивающая безопасность и приватность пользователей. Позволяет осуществлять поиск интернет-страниц, изображений, видео и др.

Самые популярные поисковые системы в России и мире

Ответить на вопрос о том, какие поисковые системы наиболее популярны в России и мире сможет практически каждый человек. Их всего две – Google и Яндекс. Многие любят поспорить на тему о том, какой поисковик лучше, но в этом нет смысла, так как каждый из них имеет свои преимущества и недостатки.

Яндекс — самый популярный поисковик в России

Яндекс – это поисковая система, которая принадлежит одноименной российской корпорации и является ее основным продуктом. Одним из главных преимуществ российского поисковика является возможность осуществления поиска по конкретным регионам. В топ поисковой выдачи попадают те сайты, которые больше всего подходят каждому конкретному пользователю исходя из его местоположения. Также стоит отметить хорошую скорость работы службы поддержки.

К недостаткам относится контекстная реклама, которую вставляют куда только можно. Еще один недостаток – это капча, которая демонстрируется при большом количестве запросов, поступивших за короткий промежуток времени.

Google – самая крупная поисковая система в мире, которая была основана еще в конце 90-х годов. Она обрабатывает порядка 42 миллиардов пользовательских запросов в месяц и занимает более 90% мирового рынка. К преимуществам данной поисковой системы можно отнести:

  • Множество дополнительных функций.
  • Рекламы на порядок меньше, чем у Яндекса.
  • Можно осуществлять поиск на 12 различных языках.
  • Есть возможность поиска информации в PDF-файлах.
  • В индексе этой поисковой системы хранится порядка 5 миллиардов разнообразных веб-сайтов.

Однако и здесь без недостатков не обошлось:

  • В топ поисковой выдачи нередко попадают сайты с неактуальной информацией.
  • Поисковая система быстро индексирует веб-страницы. В связи с этим в результаты поиска часто попадают недоделанные сайты.

DuckDuckGo

Duckduckgo.com – полноценная альтернатива Google. Этот поисковик информации позиционирует себя как наиболее конфиденциальную поисковую систему.

В свое время команда поисковика даже организовала большую плакатную акцию под названием «Google следит за тобой. Мы – нет»

Гугл не смог проигнорировать это и ответил: «К сожалению, DuckDuckGo играет на страхах людей и предлагает неполную информацию, лишь бы привлечь к себе внимание»

Рис. 3 Поисковик DuckDuckgo

Особенностью системы DuckDuckGo является то, что она отказалась от использования «пузыря фильтров». Это значит, что поисковик предлагает вам не только ту информацию, которую посчитает нужной, а всю, что у него имеется. Таким образом, на двух разных компьютерах вы получите одинаковый перечень ответов на запросы, а не как при поиске в Гугле.

Всемирные поисковые системы

В данном списке мы не будем рассматривать поисковые системы, известные каждому, а следовательно вы не увидите в нем таких названий, как: , Яндекс, Yahoo, Bing. Список содержит в себе множество альтернативных поисковых систем.

AOL – AOL предоставляет результаты поиска вместе с содержанием (сниппеты). Данная поисковая система позволяет осуществлять поиск интернет-страниц, изображений и видео, новостей, а также есть опция «критерии отсеивания», т.е. возможность выбора фильтра по поиску: за все время, 24 часа, неделю или месяц, указывать локацию).

ScrubTheWeb – обеспечивает систематизированные результаты поиска и предоставляет бесплатные SEO-инструменты для анализа сайтов.

Ecosia – это поисковая система в интернете, владельцы которой выделяют 80% своей дополнительной прибыли на посадку деревьев. Данная система предоставляет поиск веб-сайтов, изображений, новостей, видео и др.

MyWebSearch – поисковая система, которая показывает результаты поиска Google. Позволяет проводить поиск веб-сайтов, изображений и видео, новостей, товаров в интернет магазине, карт и прочего.

Teoma – поисковая система в интернете со своим алгоритмом популярности ссылки. Позволяет проводить поиск веб-сайтов, изображений и видео, новостей, кулинарных рецептов, а также много другого.

InfoSpace – предлагает поисковую систему, а также решение по монетизации в поиске (партнерская программа). Комбинированная поисковая система позволяет проводить поиск интернет-страниц, изображений и видео, а также новостей.

Giga Blast – насчитывает миллиарды страниц и обеспечивает мгновенную и свежую информацию. Данная система предназначена только для поиска веб-страниц, однако к ним прилагается фильтр для расширенного типа поиска.

Поисковые системы разных стран

Baidu – поисковая система Китая, предназначенная для поиска интернет-сайтов, новостей, карт, изображений, аудио и видеофайлов. Она также предоставляет определения и позволяет осуществлять поиск с использованием изображений. Другие системы поиска в Китае: Yam, Youdao, Sogou.

Naver – первый интернет-портал Южной Кореи, который позволяет проводить поиск интернет-сайтов, определений, изображений, новостей, статей, видео. Помимо этого, данная поисковая система предоставляет и другие интернет-услуги. Остальные поисковые системы Южной Кореи: Nate.

Goo – поисковая система и интернет-портал Японии, которая предназначена преимущественно для японских сайтов и позволяет вести поиск интернет-сайтов, изображений, блогов, карт и даже терминологических определений. Другие поисковые системы Японии: Biglobe.

Rambler – интернет-портал России, предоставляя такие услуги, как: поисковая система, электронная почта, портал новостей, финансовый портал и т.д. Он позволяет пользователям проводить поиск интернет-сайтов и изображений, а также опции фильтра. Другие поисковые системы России: Поиск Mail.ru, Спутник.

Seznam – интернет-портал и поисковая система Чехии. Позволяет просматривать страницы в интернете, карты, фотографии и видео, терминологические пояснения, товаров и прочего.

SAPO (Servidor de Apontadores Portugueses) – это провайдер услуг Португалии. Он заключает в себе систему поиска, позволяющую вести поиск интернет-сайтов, изображений и видео, новостей и блогов.

Virgilio – интернет-портал и поисковая система Италии, которая позволяет пользователям выполнять поиск интернет-сайтов, изображений и видео, компаний и карт. Другие поисковые системы Италии: Libero.

Diri – интернет-портал Болгарии, который предоставляет поисковые, новостные и прочие виды услуг. Позволяет осуществлять поиск интернет-сайтов, описаний терминов, рейсов авиалиний, блогов, музыки, видео и другого.

Search – поисковая система и интернет-портал Швейцарии, предоставляющий прогноз погоды, карты, кинофильмы и прочие услуги.

Najdi – поисковая система, разработанная специально для Македонии. В отличии от большинства поисковых систем, она не предназначена для просмотров содержания интернет-сайтов, задействуя вместо этого источники RSS либо другие XML-файлы.

Search Nigeria (закрылся)– интернет-портал и поисковая система Нигерии. Позволяет проводить поиск интернет-страниц, изображений и видео, новостей, блогов и др.

Das Oertliche – интернет-портал и локальный каталог Германии, позволяющий своим пользователям определять местоположение, используя мобильные номера, имена или название улиц.

Ukr.net – интернет-портал, самый популярный сайт Украины 2014 г. с функцией поиска.

Язык запросов

Поисковые системы – это разумный инструмент, использующий язык запросов, то есть определенные команды и символы в строке поиска, которые помогают быстрее найти нужную информацию.

Основные возможности языка запросов поисковой системы Google и Yandex

Если вам необходимо найти слово или фразу в точно таком виде, как вы вводите, без всяких изменений форм и порядка слов, то заключите свой поисковый запрос в кавычки. Это часто бывает удобно для поиска фильма по его названию, текста песни по строчке или отрывка из книги.

Если вам необходимо исключить из результатов поиска в Google все страницы, содержащие определенное слово, то поставьте перед этим словом в запросе знак минус (). Например, если ввести в строку поиска «вирус –компьютерный», то система выдаст документы, в которых не встречается ключевое слово «компьютерный». В Яндексе же подобная операция производится с помощью символа тильда (~), поставленного в запросе перед словом, которое нужно исключить из поиска.

Оператор site: в Google позволяет осуществлять поиск на конкретном сайте. Например, если набрать в строке поиска Google «поступление site:www.msu.ru», то система будет искать информацию о поступлении именно на сайте МГУ. В Яндексе подобная операция осуществляется с помощью оператора host:

Символом звездочка (*) можно заменять в запросе неизвестные слова. Например, «буря * небо кроет».

Оператор define: в Google позволяет искать определения слова, указанного в запросе.

В обычном режиме Google старается найти страницы, содержащие все указанные слова. Если же вставить между словами оператор OR (заглавными буквами), то система покажет страницы, включающие в себя как минимум одно из этих слов. Например,купить квартиру в Москве OR Подмосковье. В Яндексе же подобная операция производится с помощью символа прямой слэш (|), поставленного между словами запроса, например;билеты Лондон | Париж;.

Чтобы получить в выдаче Google диапазон чисел «от и до», нужно между ними поставить две точки, например, «снять квартиру $1000..$1500».

Язык запросов поддерживают многие поисковые системы. Перед их использованием рекомендуется посмотреть описание в разделе помощи сайта конкретной поисковой системы, которую планируется использовать.

Работа поисковых систем

Условно считается, что история создания поисковых систем берет свое начало с 1989 года. Именно тогда был создан сервис Арчи, главная задача которого была индексация информации, которую можно найти в интернете (в пространстве WWW). Система изобретена и создана программистом Аланом Эмтеджем. И алгоритмы, которые он в ней использовал, в базовом понимании используются и по сегодняшний день. Правда, данный сервис был локальным.

А уже в 1996 году была создана программа BackRub. Её главное преимущество — она выполняет глобальную индексацию. Уже в 1998 году система будет переименована в Google. А сейчас это — самый популярный сервис в мире для поиска информации в интернете (по данным аналитиков, его использует порядка 85% всех интернет-пользователей).

Общий принцип работы любой поисковой системы условно можно разделить на следующие этапы:

  1. Сбор информации. Специальная программа сканирует веб-пространство, открывает каждый доступный для неё сайт и анализирует его по заданным алгоритмам.
  2. Все документы закачиваются на сервер поисковой системы и создается база данных, которая содержит информацию о сайте.
  3. На основе полученных по сайту данных проводится построения индекса. То есть определяется, какие данные на нём содержатся, к какой группе запросов относятся данный контент их можно отнести и так далее.
  4. Программа определяет релевантность страницы,  в момент когда она получает пользовательский поисковый запрос, на его основе предоставляет перечень сайтов, которые по результатам индексирования содержат запрашиваемую информацию.
  5. Сервис проводит ранжирование результатов выдачи. То есть выстраивает порядок ссылок, которые будут показаны пользователю, отправившему запрос.

Описанный принцип работы информационно поисковых систем — это лишь условное пояснение, как работает тот же Google или Яндекс. Но вот алгоритмы, которые они используют для обхода, сайтов, индексации и ранжирования, обычным пользователям неизвестны, каждая поисковая система применяет свои алгоритмы и постоянно их совершенствует, так как обработка информации занимает большое количество ресурсов сервера, расходы на который лежат на поисковой системе.

Понятно лишь одно — каждый сайт анализируется по более чем 1000 критериев. И именно благодаря этому пользователь, отправивший поисковый запрос, в 99% случаев в ответ получает ссылку, на страницу с полезной информацией.

Поисковые системы бывают нескольких подвидов и существуют и другие вариации таких сервисов:

  • управляемые человеком (то есть каталог сайтов, каждый пункт которого и общая их база данных сформированы вручную пользователем, яркий пример каталог Rambler, );
  • гибридные поисковые системы (где часть работы выполняет человек, часть — программа,принцип работы поисковой системы Google как раз таковой);
  • мета-системы (которые не составляют базу данных, а дают результат сразу из нескольких поисковых сервисов пример Vivisimo).

И многие рядовые пользователи ошибочно полагают, что особенности работы поисковых систем таковы, что поиск оптимальных результатов для выдачи выполняется в режиме реального времени. Нет, выполнить анализ значительной части веб-пространства за несколько секунд — невозможно. Даже суперкомпьютерам для этого понадобится несколько месяцев, а то и лет. Поэтому без предварительной обработки информации, и постоянного ранжирования не обойтись.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Adblock
detector