Лабораторная работа № 2 «Поиск информации в Internet»
Автор: drug | Категория: Технические науки / Информатика | Просмотров: | Комментирии: 0 | 21-08-2013 11:12

Лабораторная работа № 2  «Поиск информации в Internet»

Современные службы поиска в Internet ориентированы, прежде всего, на поиск в Web-пространстве Internet и условно могут быть разделены на две группы: поисковые машины и каталоги

Поисковые машины  (такие как  AltaVista или  HotBot) традиционно включают в себя три компонента: программу сканирования по пространству  Internet  (crawler), индексную базу и программу поиска. Crawler      или Spider (паук) – это программа, которая автоматически просматривает различные Web-сайты и создает индексные файлы на ресурсы  URL, ключевые слова, ссылки и тексты. Программа  –  crawler периодически возвращается к исходным сайтам для обновления индексов. Когда пользователь делает запрос поисковой машине, её программа поиска пробегает по созданному индексу в поиске  Web-страниц     с заданными       ключевыми словами и классифицирует эти страницы по степени близости к запросу.

Каталоги  (например,  Yahoo или LookSmart) работают не с индексами, а с описателями  Web-страниц, созданными либо  Web-мастерами, либо специальными редакторами, которые просматривают  Web-страницы. В ответ на запрос каталоги выполняют поиск по этим описателям.

Среди множества поисковых серверов можно выделить: AltaVista, AlterVista, Апорт, Да, eXcite, infoseek, LYCOS,  Rambler,  WebCrawler,  Yahoo, Яndex соответственно с адресами: www.altavista.com, www.altervista.ru, www.aport.ru,  www.da.ru, www.excit.com, infoseek.go.com,  www.lycos.ru,  www.rambler.ru,  www.webcrawler.com, www.yahoo.ru www.yandex.ru.

Для русскоязычных пользователей особый интерес представляют сервера www.list.ru,      www.weblist.ru, www.mark-itt.ru. Их нельзя, в полном смысле этих слов, назвать поисковыми серверами. Скорее это базы данных, которые содержат информацию практически о всех русских серверах.

Несмотря на различный интерфейс (точнее, различное художествен-ное оформление) все поисковые сервера практически одинаковы и реализуют одинаковые функции.

Основным элементом любого          поискового сервера является «Окно             Запроса». Различают  “простые” и “точные” или  “тонкие” запросы. В простом запросе Вы можете использовать одно или несколько слов, разделенных пробелами. Тонкий запрос  (точный поиск) подразумевает использование специальных операторов языка запросов. Все поисковые сервера используют примерно одинаковый синтаксис и набор операторов языка запросов. В любом случае, мы рекомендуем Вам перед заданием точного запроса бегло просмотреть описание языка запросов данного сервера. Эту справочную информацию Вы всегда можете найти по ссылке «Помощь» («Справка», «Help» и т.д.) на домашней страничке поискового сервера.

Существует несколько общих рекомендаций по работе с поисковыми серверами:

  • · Используйте тематику сервера.             Не начинайте поиск сразу с ввода запроса в окне запросов. Все поисковые сервера на своей домашней странице обязательно имеют тематическое оглавление сервера. Выбрав изначально тематику поиска, вы существенно сужаете пространство поиска и делаете саму процедуру поиска гораздо эффективнее и быстрее. 
  • · Выполните предварительную настройку сервера. Многие поисковые сервера позволяют выполнять, так называемый, «расширенный поиск». Например, сервер Яndex допускает следующие настройки поиска:

А) Словарный фильтр. Здесь вы можете указать, какие слова обязательно должны встретиться в документе, каких быть не должно, а какие желательны  (то есть могут                быть, а могут не быть). Поле  "все формы" или  "точная форма" указывает Яndex, надо ли учитывать при запросе все словоформы.  "Точная форма" обычно требуется только для поиска цитат. Зоной поиска слова может быть как текст документа (слова находятся в одном предложении или всем документе), так и его заголовок, аннотация (тэг description), ссылка (подпись URL) или адрес (сам URL). Вариант "во фразе" означает необходимость искать слова в том порядке, в котором они введены. Вы можете задать несколько слов через запятую.

b) Дата. Ограничение выдачи документов по дате.

c) Сайт/вершина. Запрос идет только по страницам указанного сайта или поддиректории (вершины) сайта. Поиск будет проведен среди всех поддиректорий. Здесь же (в соседнем поле) Вы можете исключить из поиска страницы определенного сайта. Вы можете внести несколько адресов, перечислив их через пробел. Таким образом, Вы можете сделать поиск по своему личному сайту через Яndex, то есть ограничить поиск только Вашим сайтом.

d) Ссылка. Как узнать, кто ссылается на Ваш ресурс? Введите в этом поле адрес Вашей страницы, и Вы это узнаете. Если адрес Вашего сайта начинается с www, то впишите его целиком, включая www. Здесь же Вы можете исключить из поиска страницы, где    стоит ссылка на определенный адрес. На основе этой возможности рассчитывается  «индекс цитируемости». Чтобы исключить все внутренние ссылки  (то есть с одних                страниц                Вашего ресурса                на другие его страницы), используйте поле сайт/вершина и            исключите ресурс из поиска ссылок

e) Изображение.  Поиск документов, содержащих  с определенным названием или подписью. Файл картинки может                          называться, например, applegreen.jpg. Тогда найти такие файлы можно запросом: apple. Запрос аналогичен apple*.*. Для поиска в подписи к изображению (тэг alt) впишите запрос в соседнее поле.

f)Специальные объекты. Поиск страниц, содержащих файлы объектов: скрипт, объект, апплет, java. В поле указывается имя объекта.

g) Язык. Яndex и другие сервера  умеют определять язык документа. Вы можете задать язык документа, где надо провести поиск: русский  (кириллица) или не русский. Например,  в базе Яndex находятся только документы русскоязычного Интернета  (по умолчанию в поисковую машину вносятся сервера в доменах su, ru, am, az, by, ge, kg, kz, md, tj, ua, uz), а также зарубежные сайты, представляющие интерес для русскоязычного поиска.

h) Формат   выдачи. "Краткая выдача" показывает только список заголовков документов   "Только URL" - только адреса найденных страниц.

Проверяйте орфографию. Если поиск не нашел             ни одного документа, то Вы, возможно, допустили орфографическую ошибку в написании слова. Проверьте                            правильность написания  Если Вы использовали при поиске несколько слов, то посмотрите на количество каждого из слов в найденных документах (перед их списком после фразы  "Результат поиска"). Какое-то из слов                     не встречается ни разу? Скорее всего, его Вы и написали неверно.

Используйте синонимы. Если список найденных страниц слишком         мал или не содержит полезных страниц, попробуйте изменить слово. Например, вместо  "рефераты" возможно больше подойдет  "курсовые работы" или "сочинения". Попробуйте задать для поиска три-четыре слова-синонима сразу. Для этого перечислите их через запятую и поставьте галочку в поле  "строгий                поиск"  (находится под запросом). Тогда будут найдены страницы, где         встречается хотя бы одно из них. Например, вместо  "фотографии" попробуйте фотографии, фото, фотоснимки (со строгим поиском)

Поиск по словоформам. Стоит еще раз подчеркнуть важное и очень полезное свойство большинства поисковых серверов: независимо от того, в какой                            грамматической  форме вы пишите в запросе слово, оно находится в документах во всех своих формах. Например, по запросу: человек шел, будут найдены среди прочих и документы, содержащие текст "люди идут". Распознавание всех форм работает для обычных слов русского языка. Для                                                             экзотических  слов, неологизмов и т.п. оно не проходит. В этом случае может пригодиться оператор  "*" (звездочка). Например, если Вы хотите найти все документы, связанные с таким замечательным животным, как тигр, и если считать слово  «тигр» экзотическим, воспользуйтесь запросом:  тигр* . Он позволит вам найти все документы со словами тигр, тигрище, тигра, тигрица, тигрёнок и т.п, поскольку звездочка заменяет собой любое число любых сочетаний букв. Не удивляйтесь, кстати, если в этот список попадут документы со словами «Тигран Петросян», наверное, понятно почему.

Ищите больше, чем по одному слову. Слово  "психология" или  "продукты" дадут при поиске поодиночке большое число бессмысленных ссылок. Добавьте одно или два ключевых слова, связанных с искомой темой. Например,  "психология Юнга" или  "продажа и покупка продовольствия". Рекомендуем также         сужать область                             вашего   вопроса.  Если Вы интересуетесь автомобилями ВАЗа, то запросы  "автомобиль       Волга" или "автомобиль ВАЗ" выдадут более подходящие документы, чем "легковые автомобили".

Не пишите большими буквами. Начиная слово с большой буквы, Вы не найдете слов, написанных с маленькой буквы. Поэтому не набирайте обычные слова с Большой Буквы, даже если с них начинается Ваш вопрос Яndex. Заглавные буквы в запросе рекомендуется использовать только в именах собственных. Например, "группа Черный кофе", "телепередача Здоровье".

Найти похожие документы. Если один из найденных документов ближе  к искомой теме, чем остальные, нажмите на  ссылку  "найти похожие документы".         Ссылка            расположена под краткими описаниями найденных документов. Яndex проанализирует страницу и найдет документы, похожие на тот, что Вы указали. Но если эта страница была стерта с сервера, а Яndex еще не успел      удалить ее из базы, то Вы получите сообщение "Запрошенный документ не найден".

Используйте знаки  "+"                и  "-". Чтобы исключить                документы, где встречается определенное слово, поставьте перед этим словом знак «минус». И наоборот, чтобы определенное слово обязательно присутствовало в документе, поставьте перед ним «плюс». Обратим внимание, что между словом и знаком «плюс-минус» не должно быть пробела. Например, запрос "частные объявления продажа велосипедов" выдаст Вам много ссылок на сайты с разнообразными частными объявлениями. А запрос с  "+"  -"частные объявления продажа +велосипедов" покажет объявления о продаже именно велосипедов. Если Вам нужно описание Парижа, а не предложения многочисленных

турагентств, имеет смысл задать такой запрос "путеводитель по парижу -агентство -тур".

Ищите сайты, а не страницы. Если Вы хотите найти именно сайт компании, издания, музыкальной группы,        то переставьте флажок справа от кнопки  "Найти"    в позицию  "сервера"  (по умолчанию выбрано "страницы").

Используйте язык запросов.                 С помощью                     специальных знаков Вы сможете                                 сделать запрос более точным. Например, укажите, каких слов не должно быть в документе, или что два слова должны идти подряд, а не просто оба встречаться в документе.

Искать без морфологии. Вы можете указать Яндексу не перебирать все словоформы слов из запроса при поиске. Например,         !лукоморья найдет только страницы, цитирующие строчку из стихотворения Пушкина ("У лукоморья дуб зеленый").

Поиск картинок и фотографий. Яndex и другие сервера умеют искать не только в тексте документа, но                                       и отыскивать картинки по названию файла               или подписи. Для этого  на первой странице  yandex.ru нажмите  ссылку  "расширенный поиск". Для        поиска  картинки предусмотрены два поля. В поле  "Название      картинки" вписываются                   слова для поиска по названиям картинок,  обычно появляющихся, когда к картинке  подводится курсор. Например, название картинки  "Венера"     выдаст все страницы с картинками Венеры  (всего,          что можно понимать под этим  словом). В поле  "Подпись к картинке" вписывается название      файла, содержащего картинку. Например, запрос dog найдет в  Интернете      все картинки, в         имени  файла  которых встречается             слово  "dog". С большой вероятностью эти картинки связаны с собаками.

Поиск по адресам (по URL). Сервер Апорт и другие сервера позволяет искать документы не только по всему русскоязычному Интернету, но и по его части. Самый простой случай — поиск по определенному серверу. Например, если ввести запрос: url=www.  freeware.ru      броузер,          то поданному запросу          будут найдены                   все документы на сервере www.freeware.ru, содержащие слово " броузер ". Возможно, вам интересно, а что будет, если написать    просто:    url=www.freeware.ru  .        В этом случае вы получите список            всех документов, расположенных на указанном  вами сервере. Вы можете ограничивать      поиск и сильнее  — одним из каталогов сервера. Например: url=www.  freeware.ru/win/   сибкоммуникатор.  По данному запросу документы,  содержащие слово "Сибкоммуникатор", будут искаться только в  каталоге  /win  (и его      подкаталогах)            бесплатного сервера программного обеспечения FreeWare 

Для формирования точного запроса необходимо           абсолютно точно придерживаться синтаксиса языка запросов и иметь элементарное представление о простейших логических операциях.

УПРАЖНЕНИЕ 1. 

Изучите назначение, интерфейс и возможности поисковых серверов  WWW  –по выбору: http://www.aport.ru/,   http://www.yandex.ru/,   http://www.da.ru/http://www.altavista.com/, http://www.rambler.ru/, http://www.yahoo.ru/    и др. В отчете написать краткую информацию про эти поисковые серверы, (со скриншотами), Изучите язык запросов одного из поисковых серверов WWW.

УПРАЖНЕНИЕ 2. 

Найдите в Интернет источники информации о Вашем          любимом музыкальном исполнителе Если  он иностранец, то попробуйте найти иноязычные источники информации. Запишите адреса найденных вами страниц.

Отчет создать в виде:

Исполнитель (или группа)_______________________________________________________

Сайты с информацией об исполнителе (или группе)_________________________________

Информация___________________

УПРАЖНЕНИЕ 3. 

Используя            возможности           поиска         информации          в  Internet,             найдите фирмы                                            которые продают специализированные      образовательные пакеты  (программы) или предоставляют услуги для работы с ними.

В отчет вставить следующую таблицу и заполнить:

Фирма

Программа

Стоимость программы

Дополнительная информация

1

 

 

 

 

2

 

 

 

 

3

 

 

 

 

 

 

 

УПРАЖНЕНИЕ 4.

Найти ответы на вопросы, используя  «точные» запросы и язык         запросов одного из вышеуказанных поисковых серверов.

1.            Место и дата рождения Президента России. Найти его фотографии и отрывки из последних выступлений или интервью и сохранить их в Вашем пользовательском каталоге.

2.            Место и дата рождения теннисиста Евгения Кафельникова. Найти его фотографии и отрывки из последних интервью и сохранить их в Вашем пользовательском каталоге.

3.            Фамилию первого тренера теннисиста Марата Сафина. Найти фотографии теннисиста и отрывки из  последних интервью и сохранить их в Вашем пользовательском каталоге.

4.            Когда и где родился А.И. Солженицын. Составить список его произведений. Найти его фотографии сохранить их в Вашем пользовательском каталоге.

5.            Когда и где родился английский писатель Дж. Р. Р. Толкиен. Составить список его произведений. Найти его фотографии сохранить их в Вашем пользовательском каталоге.

6.            Назвать режиссера фильма “Титаник”. Когда и где он родился. Найти его фотографии сохранить их в Вашем пользовательском каталоге.

7.            Когда и где родился В.И. Даль. Составить список его произведений. Найти его фотографии или отрывки из произведений и сохранить их в Вашем пользовательском каталоге.

8.            Когда и где родился Ф.А. Искандер. Составить список его произведений. Найти его фотографии или отрывки из произведений и сохранить их в Вашем пользовательском каталоге.

9.            Когда и где родился В.С. Высоцкий. Составить список его произведений. Найти его фотографии или отрывки из произведений и сохранить их в Вашем пользовательском каталоге.

10.          Когда и где родился Л.Н. Толстой. Составить список его произведений. Найти его фотографии или отрывки из произведений и сохранить их в Вашем пользовательском каталоге.

11.          Когда и где родился В.В. Гиляровский. Составить список его произведений. Найти его фотографии или отрывки из произведений и сохранить их в Вашем пользовательском каталоге.

12.          Когда и где родился В. Войнович. Составить список его произведений. Найти его фотографии или отрывки из произведений и сохранить их в Вашем пользовательском каталоге.

13.          Когда и где родился А.Г. Битов . Составить список его произведений. Найти его фотографии или отрывки из произведений и сохранить их в Вашем пользовательском каталоге.

14.          Когда и где родилась И. Хмелевская. Составить список ее произведений. Найти ее фотографии или отрывки из произведений и сохранить их в Вашем пользовательском каталоге.

15.          Когда и где родился Л.Н. Гумилев. Составить список его произведений. Найти его фотографии или отрывки из произведений и сохранить их в Вашем пользовательском каталоге.

16.          Когда и где родились А.Н. и Б.Н. Стругацкие. Составить список их произведений. Найти их фотографии или отрывки из произведений и сохранить их в Вашем пользовательском каталоге.

 

УПРАЖНЕНИЕ 5.

 

Используя сведения из сети Internet, подготовить тезисы доклада по указанной теме. Составьте список источников, из которых Вы берете информацию для доклада (по вариантам)

1. Приведение региональных законодательных актов в соответствии с основным законом РФ.

2. Информационные модели

3. Основы языка HTML  и структура HTML - документа

4. Предмет “информатика” и его связь с естественными и гуманитарными науками

5. Принципы фон Неймана работы ЭВМ

6. История возникновения сети Internet

7. Информационные технологии: возможности и ограничения

8. Краткая история вычислительной техники

9. Основы технологии “клиент – сервер”

10. Основы компьютерных коммуникаций

11. Классификация персональных компьютеров.

12. Классификация информационных          систем

13. Вычислительные сети: основные возможности и проблемы работы в сетях

14. Программы-переводчики: основные характеристики и возможности

15. Основные возможности и области применения ftp-службы Internet.

 

 

Контрольные вопросы

1. Перечислите известные Вам поисковые сервера Internet.

2. Какие особенности Вы можете выделить в интерфейсе домашней страницы поискового сервера по сравнению с обычными серверами?

3. Что такое язык запроса поискового сервера?

4. Чем «простой» запрос отличается от «точного» запроса?

5. Как найти описание языка запросов на поисковом сервере?

6. Какую команду языка запросов нужно использовать, чтобы найти ресурсы на конкретном сервере (поиск по адресам)?

7. Какую команду языка запросов нужно использовать, чтобы найти фотографии по выбранной теме?

8. Какие логические  команды используются в используемом      Вами языке запросов и как они записываются?

9.  Что такое «стоп – слова»?

10. Какая команда используется в используемом Вами языке запросов для поиска словосочетаний?

11. Какая команда используется в используемом Вами языке запросов для поиска по датам?

 

 

 

 

 

Сочинения курсовыеСочинения курсовые