Сайт о телевидении

Сайт о телевидении

» » Как я узнаю, что моя посылка дошла до офиса IPS за рубежом? Состав компонент и технология работы с ИПС

Как я узнаю, что моя посылка дошла до офиса IPS за рубежом? Состав компонент и технология работы с ИПС

17.03.1996 Павел Храмцов

Пользователям Internet хорошо известны названия таких сервисов и информационных служб, как Lycos, AltaVista, Yahoo, OpenText, InfoSeek и др. - без услуг этих систем сегодня практически нельзя найти что-либо полезное в море информационных ресурсов Сети. Что собой представляют эти сервисы изнутри, как они устроены, почему результат поиска в терабайтных массивах информации осуществляется достаточно быстро и как устроено ранжирование документов при выдаче - все это обычно остается за кадром. Тем не менее без правильного планирования стратегии поиска, знакомства с основными положениями теории ИПС (Информационно-Поисковых Систем), насчитывающей уже двадцатилетнюю историю, трудно эффективно использовать даже такие скорострельные сервисы, как AltaVista или Lycos. Архитектура современных ИПС для WWW Информационные ресурсы и их представление в ИПС Индекс поиска Информационно-поисковый язык системы Интерфейс системы Заключение Литература Пользователям Internet уже хорошо известны названия таких сервисов

Пользователям Internet хорошо известны названия таких сервисов и информационных служб, как Lycos, AltaVista, Yahoo, OpenText, InfoSeek и др. - без услуг этих систем сегодня практически нельзя найти что-либо полезное в море информационных ресурсов Сети. Что собой представляют эти сервисы изнутри, как они устроены, почему результат поиска в терабайтных массивах информации осуществляется достаточно быстро и как устроено ранжирование документов при выдаче - все это обычно остается за кадром. Тем не менее без правильного планирования стратегии поиска, знакомства с основными положениями теории ИПС (Информационно-Поисковых Систем), насчитывающей уже двадцатилетнюю историю, трудно эффективно использовать даже такие скорострельные сервисы, как AltaVista или Lycos.

Информационно-поисковые системы появились на свет достаточно давно. Теории и практике построения таких систем посвящено множество статей, основная масса которых приходится на конец 70-х - начало 80-х годов. Среди отечественных источников следует выделить научно-технический сборник "Научно-техническая информация. Серия 2", который выходит до сих пор. На русском языке издана так же и "библия" по разработке ИПС - "Динамические библиотечно-информационные системы" Ж. Солтона , в которой рассмотрены основные принципы построения информационно-поисковых систем и моделирования процессов их функционирования. Таким образом, нельзя сказать, что с появлением Internet и бурным вхождением его в практику информационного обеспечения появилось нечто принципиально новое, чего не было раньше. Если быть точным, то ИПС в Internet - это признание того, что ни иерархическая модель Gopher, ни гипертекстовая модель World Wide Web еще не решают проблему поиска информации в больших объемах разнородных документов. И на сегодняшний день нет другого способа быстрого поиска данных, кроме поиска по ключевым словам.

При использовании иерархической модели Gopher приходится довольно долго бродить по дереву каталогов, пока не встретишь нужную информацию. Эти каталоги должны кем-то поддерживаться, и при этом их тематическое разбиение должно совпадать с информационными потребностями пользователя. Учитывая анархичность Internet и огромное количество всевозможных интересов у пользователей Сети, понятно, что кому-то может и не повезти и в сети не будет каталога, отражающего конкретную предметную область. Именно по этой причине для множества серверов Gopher, называемого GopherSpace была разработана информационно-поисковая программа Veronica (Very Easy Rodent-Oriented Net-wide Index of Computerized Archives).

Аналогичное развитие событий наблюдается и в World Wide Web. Собственно еще в 1988 году в специальном выпуске журнала "Communication of the ACM" среди прочих проблем разработки гипертекстовых систем и их использования Франк Халаз назвал в качестве первоочередной задачи для следующего поколения систем этого типа назвал проблему организации поиска информации в больших гипертекстовых сетях. До сих пор многие идеи, высказанные в той статье, не нашли еще своей реализации. Естественно, что система, предложенная Бернерсом-Ли и получившая такое широкое распространение в Internet, должна была столкнуться с теми же проблемами, что и ее локальные предшественники. Реальное подтверждение этому было продемонстрировано на второй конференции по World Wide Web осенью 1994 года, на которой были представлены доклады о разработке информационно-поисковых систем для Web, а система World Wide Web Worm, разработанная Оливером МакБрайном из Университета Колорадо, получила приз как лучшее навигационное средство. Следует также отметить, что все-таки долгая жизнь суждена отнюдь не чудесным программам талантливых одиночек, а средствам, являющимся результатом планового и последовательного движения научных и производственных коллективов к поставленной цели. Рано или поздно этап исследований заканчивается, и наступает этап эксплуатации систем, а это уже совсем другой род деятельности. Именно такая судьба ожидала два других проекта, представленных на той же конференции: Lycos, поддерживаемый компанией Microsoft, и WebCrawler, ставший собственностью America On-line.

Разработка новых информационных систем для Web не завершена. Причем как на стадии написания коммерческих систем, так и на стадии исследований. За прошедшие два года снят только верхний слой возможных решений. Однако многие проблемы, которые ставит перед разработчиками ИПС Internet, не решены до сих пор. Именно этим обстоятельством и вызвано появление проектов типа AltaVista компании Digital , главной целью которого является разработка программных средств информационного поиска для Web и подбор архитектуры для информационного сервера Web.

Архитектура современных ИПС для WWW

Прежде чем описать проблемы построения информационно-поисковых систем Web и пути их решения рассмотрим типовую схему такой системы. В различных публикациях, посвященных конкретным системам, например , приводятся схемы, которые отличаются друг от друга только способом применения конкретных программных решений, а не принципом организации различных компонентов системы. Поэтому рассмотрим эту схему на примере, взятом из работы (рис.).

Рис. Типовая схема информационно-поисковой системы.

Client (клиент) на этой схеме - это программа просмотра конкретного информационного ресурса. Наиболее популярны сегодня мультипротокольные программы типа Netscape Navigator. Такая программа обеспечивает просмотр документов WWW, Gopher, Wais, FTP-архивов, почтовых списков рассылки и групп новостей Usenet. В свою очередь все эти информационные ресурсы являются объектом поиска информационно-поисковой системы.

User interface (пользовательский интерфейс) - это не просто программа просмотра, в случае информационно-поисковой системы под этим словосочетанием понимают также способ общения пользователя с поисковым аппаратом: системой формирования запросов и просмотров результатов поиска.

Search engine (поисковая машина) - служит для трансляции запроса на информационно-поисковом языке (ИПЯ), в формальный запрос системы, поиска ссылок на информационные ресурсы Сети и выдачи результатов этого поиска пользователю.

Index database (индекс базы данных) - индекс, который является основным массивом данных ИПС и служит для поиска адреса информационного ресурса. Архитектура индекса устроена таким образом, чтобы поиск происходил максимально быстро и при этом можно было бы оценить ценность каждого из найденных информационных ресурсов сети.

Queries (запросы пользователя) - сохраняются в его (пользователя) личной базе данных. На отладку каждого запроса уходит достаточно много времени, и поэтому чрезвычайно важно запоминать запросы, на которые система дает хорошие ответы.

Index robot (робот-индексировщик) - служит для сканирования Internet и поддержания базы данных индекса в актуальном состоянии. Эта программа является основным источником информации о состоянии информационных ресурсов сети.

WWW sites - это весь Internet или точнее - информационные ресурсы, просмотр которых обеспечивается программами просмотра.

Рассмотрим теперь назначение и принципу построения каждого из этих компонентов более подробно и определим, в чем отличие данной системы от традиционной ИПС локального типа.

Информационные ресурсы и их представление в ИПС

Как видно из рисунка, документальным массивом ИПС Internet является все множество документов шести основных типов: WWW-страницы, Gopher-файлы, документы Wais, записи архивов FTP, новости Usenet и статьи почтовых списков рассылки. Все это довольно разнородная информация, которая представлена в виде различных, никак несогласованных друг с другом форматов данных: тексты, графическая и аудиоинформация и вообще все, что имеется в указанных хранилищах. Естественно возникает вопрос - как информационно-поисковая система должна со всем этим работать?

В традиционных системах используется понятие поискового образа документа - ПОД. Обычно, этим термином обозначают нечто, заменяющее собой документ и использующееся при поиске вместо реального документа. Поисковый образ является результатом применения некоторой модели информационного массива документов к реальному массиву. Наиболее популярной моделью является векторная модель , в которой каждому документу приписывается список терминов, наиболее адекватно отражающих его смысл. Если быть более точным, то документу приписывается вектор размерности, равный числу терминов, которыми можно воспользоваться при поиске. При булевой векторной модели элемент вектора равен 1 или 0, в зависимости от наличия или отсутствия термина в ПОД. В более сложных моделях термины взвешиваются - элемент вектора равен не 1 или 0, а некоторому числу (весу), отражающему соответствие данного термина документу. Именно последняя модель стала наиболее популярной в ИПС Internet .

Вообще говоря, существуют и другие модели описания документов: вероятностная модель информационных потоков и поиска и модель поиска в нечетких множествах . Не вдаваясь в подробности, имеет смысл обратить внимание на то, что пока только линейная модель применяется в системах Lycos, WebCrawler, AltaVista, OpenText и AliWeb. Однако ведутся исследования по применению и других моделей, результаты которых отражены в работах . Таким образом, первая задача, которую должна решить ИПС, - это приписывание списка ключевых слов документу или информационному ресурсу. Именно эта процедура и называется индексированием. Часто, однако, индексированием называют составление файла инвертированного списка, в котором каждому термину индексирования ставится в соответствие список документов в которых он встречается. Такая процедура является только частным случаем, а точнее, техническим аспектом создания поискового аппарата ИПС. Проблема, связанная с индексированием, заключается в том, что приписывание поискового образа документу или информационному ресурсу опирается на представление о словаре, из которого эти термины выбираются, как о фиксированной совокупности терминов. В традиционных системах существовало разбиение на системы с контролируемым словарем и системы со свободным словарем. Контролируемый словарь предполагал ведение некоторой лексической базы данных, добавление терминов в которую производилось администратором системы, и все новые документы могли быть заиндексированы только теми терминами, которые были в этой базе данных. Свободный словарь пополнялся автоматически по мере появления новых документов. Однако на момент актуализации словарь также фиксировался. Актуализация предполагала полную перезагрузку базы данных. В момент этого обновления перегружались сами документы, и обновлялся словарь, а после его обновления производилась переиндексация документов. Процедура актуализации занимала достаточно много времени и доступ к системе в момент ее актуализации закрывался.

Теперь представим себе возможность такой процедуры в анархичном Internet, где ресурсы появляются и исчезают ежедневно. При создании программы Veronica для GopherSpace предполагалось, что все серверы должны быть зарегистрированы, и таким образом велся учет наличия или отсутствия ресурса. Veronica раз в месяц проверяла наличие документов Gopher и обновляла свою базу данных ПОД для документов Gopher. В WWW ничего подобного нет. Для решения этой задачи используются программы сканирования сети или роботы-индексировщики . Разработка роботов - это довольно нетривиальная задача; существует опасность зацикливания робота или его попадания на виртуальные страницы. Робот просматривает сеть, находит новые ресурсы, приписывает им термины и помещает в базу данных индекса. Главный вопрос заключается в том, что за термины приписывать документам, откуда их брать, ведь ряд ресурсов вообще не является текстом. Сегодня роботы обычно используют для индексирования следующие источники для пополнения своих виртуальных словарей: гипертекстовые ссылки, заголовки, заглавия (H1,H2), аннотации, списки ключевых слов, полные тексты документов, а также сообщения администраторов о своих Web-страницах . Для индексирования telnet, gopher, ftp, нетекстовой информации используются главным образом URL, для новостей Usenet и почтовых списков поля Subject и Keywords. Наибольший простор для построения ПОД дают HTML документы. Однако не следует думать, что все термины из перечисленных элементов документов попадают в их поисковые образы. Очень активно применяются списки запрещенных слов (stop-words), которые не могут быть употреблены для индексирования, общих слов (предлоги, союзы и т.п.). Таким образом даже то, что в OpenText, например, называется полнотекстовым индексированием реально является выбором слов из текста документа и сравнением с набором различных словарей, после которого термин попадает в ПОД, а потом и в индекс системы. Для того чтобы не раздувать словарей и индексов (индекс системы Lycos уже сегодня равен 4 Тбайт), применяется такое понятие, как вес термина . Документ обычно индексируется через 40 - 100 наиболее "тяжелых" терминов.

Индекс поиска

После того как ресурсы заиндексированы и система составила массив ПОД, начинается построение поискового аппарата. Совершенно очевидно, что лобовой просмотр файла или файлов ПОД займет много времени, что абсолютно не приемлемо для интерактивной системы WWW. Для ускорения поиска строится индекс, которым в большинстве систем является набор связанных между собой файлов, ориентированных на быстрый поиск данных по запросу. Структура и состав индексов различных систем могут отличаться друг от друга и зависят от многих факторов: размер массива поисковых образов, информационно-поисковый язык, размещения различных компонентов системы и т.п. Рассмотрим структуру индекса на примере системы , для которой можно реализовывать не только примитивный булевый, но и контекстный и взвешенный поиск, а также ряд других возможностей, отсутствующие во многих поисковых системах Internet, например Yahoo. Индекс рассматриваемой системы состоит из таблицы идентификаторов страниц (page-ID), таблицы ключевых слов (Keyword-ID), таблицы модификации страниц, таблицы заголовков, таблицы гипертекстовых связей, инвертированного (IL) и прямого списка (FL).

Page-ID отображает идентификаторы страниц в их URL, Keyword-ID - каждое ключевое слов в уникальный идентификатор этого слова, таблица заголовков - идентификатор страницы в заголовок страницы, таблица гипертекстовых ссылок - идентификатор страниц в гипертекстовую ссылку на эту страницу. Инвертированный список ставит в соответствие каждому ключевому слову документа список пар - идентификатор страницы, позиция слова в странице. Прямой список - это массив поисковых образов страниц. Все эти файлы так или иначе используются при поиске, но главным среди них является файл инвертированного списка. Результат поиска в данном файле - это объединение и/или пересечение списков идентификаторов страниц. Результирующий список, который преобразовывается в список заголовков, снабженных гипертекстовыми ссылками возвращается пользователю в его программу просмотра Web. Для того чтобы быстро искать записи инвертированного списка, над ним надстраивается еще несколько файлов, например, файл буквенных пар с указанием записей инвертированного списка, начинающихся с этих пар. Кроме этого, применяется механизм прямого доступа к данным - хеширование. Для обновления индекса используется комбинация двух подходов. Первый можно назвать коррекцией индекса "на ходу" с помощью таблицы модификации страниц. Суть такого решения довольно проста: старая запись индекса ссылается на новую, которая и используется при поиске. Когда число таких ссылок становится достаточным для того, чтобы ощутить это при поиске, то происходит полное обновление индекса - его перезагрузка. Эффективность поиска в каждой конкретной ИПС определяется исключительно архитектурой индекса. Как правило, способ организации этих массивов является "секретом фирмы" и ее гордостью. Для того чтобы убедиться в этом, достаточно почитать материалы OpenText .

Информационно-поисковый язык системы

Индекс - это только часть поискового аппарата, скрытая от пользователя. Второй частью этого аппарата является информационно-поисковый язык (ИПЯ), позволяющий сформулировать запрос к системе в простой и наглядной форме. Уже давно осталась позади романтика создания ИПЯ, как естественного языка, - именно этот подход использовался в системе Wais на первых стадиях ее реализации. Если даже пользователю предлагается вводить запросы на естественном языке, то это еще не значит, что система будет осуществлять семантический разбор запроса пользователя. Проза жизни заключается в том, что обычно фраза разбивается на слова, из которых удаляются запрещенные и общие слова, иногда производится нормализация лексики, а затем все слова связываются либо логическим AND, либо OR. Таким образом, запрос типа:

>Software that is used on Unix Platform

будет преобразован в:

>Unix AND Platform AND Software

что будет означать примерно следующее: "Найди все документы, в которых слова Unix, Platform и Software встречаются одновременно ".

Возможны и варианты. Так, в большинстве систем фраза "Unix Platform" будет опознана как ключевая фраза и не будет разделяться на отдельные слова. Другой подход заключается в вычислении степени близости между запросом и документом. Именно этот подход используется в Lycos. В этом случае в соответствии с векторной моделью представления документов и запросов вычисляется их мера близости. Сегодня известно около дюжины различных мер близости. Наиболее часто применяется косинус угла между поисковым образом документа и запросом пользователя. Обычно эти проценты соответствия документа запросу и выдаются в качестве справочной информации при списке найденных документов.

Наиболее развитым языком запросов из современных ИПС Internet обладает Alta Vista. Кроме обычного набора AND, OR, NOT эта система позволяет использовать еще и NEAR, позволяющий организовать контекстный поиск. Все документ в системе разбиты на поля, поэтому в запросе можно указать, в какой части документа пользователь надеется увидеть ключевое слово: ссылка, заглавие, аннотация и т.п. Можно также задавать поле ранжирования выдачи и критерий близости документов запросу.

Интерфейс системы

Важным фактором является вид представления информации в программе-интерфейсе. Различают два типа интерфейсных страниц: страницы запросов и страницы результатов поиска.

При составлении запроса к системе используют либо меню - ориентированный подход, либо командную строку. Первый позволяет ввести список терминов, обычно разделяемых пробелом, и выбрать тип логической связи между ними. Логическая связь распространяется на все термины. На схеме из рисунка указаны сохраненные запросы пользователя - в большинстве систем это просто фраза на ИПЯ, которую можно расширить за счет добавления новых терминов и логических операторов. Но это только один способ использования сохраненных запросов, называемый расширением или уточнением запроса. Для выполнения этой операции традиционная ИПС хранит не запрос как таковой, а результат поиска - список идентификаторов документов, который объединяется/пересекается со списком, полученным при поиске документов по новым терминам. К сожалению, сохранение списка идентификаторов найденных документов в WWW не практикуется, что было вызвано особенностью протоколов взаимодействия программы-клиента и сервера, не поддерживающих сеансовый режим работы.

Итак, результат поиска в базе данных ИПС - это список указателей на удовлетворяющие запросу документы. Различные системы представляют этот список по-разному. В некоторых выдается только список ссылок, а в таких, как Lycos, Alta Vista и Yahoo, дается еще и краткое описание, которое заимствуется либо из заголовков, либо из тела самого документа. Кроме этого, система сообщает, на сколько найденный документ соответствует запросу. В Yahoo, например, это количество терминов запроса, содержащихся в ПОД, в соответствии с которым ранжируется результат поиска. Система Lycos выдает меру соответствия документа запросу, по которой производится ранжирование.

При обзоре интерфейсов и средств поиска нельзя пройти мимо процедуры коррекции запросов по релевантности . Релевантность - это мера соответствия найденного системой документа потребности пользователя. Различают формальную релевантность и реальную. Первую вычисляет система, и на основании чего ранжируется выборка найденных документов. Вторая - это оценка самим пользователем найденных документов. Некоторые системы имеют для этого специальное поле , где пользователь может отметить документ как релевантный. При следующей поисковой итерации запрос расширяется терминами этого документа, а результат снова ранжируется. Так происходит до тех пор, пока не наступит стабилизация, означающая, что ничего лучше, чем полученная выборка, от данной системы не добьешься.

Кроме ссылок на документы в списке, полученном пользователем, могут оказаться ссылки на части документов или на их поля. Это происходит при наличии ссылок типа http://host/path#mark или ссылок по схеме WAIS. Возможны ссылки и на скрипты, но обычно такие ссылки роботы пропускают, и система их не индексирует. Если с http-ссылками все более или менее понятно, то ссылки WAIS - это гораздо более сложные объекты. Дело в том, что WAIS реализует архитектуру распределенной информационно-поисковой системы, при которой одна ИПС, например Lycos, строит поисковый аппарат над поисковым аппаратом другой системы - WAIS. При этом серверы WAIS имеют свои собственные локальные базы данных. При загрузке документов в WAIS администратор может описать структуру документов, разбив их на поля, и хранить документы в виде одного файла. Индекс WAIS будет ссылаться на отдельные документы и их поля как на самостоятельные единицы хранения, программа просмотра ресурсов Internet в этом случае должна уметь работать с протоколом WAIS, чтобы получить доступ к этим документам.

Заключение

В обзорной статье были рассмотрены основные элементы информационно-поисковых систем и принципы их построения. Сегодня ИПС являются наиболее мощным механизмом поиска сетевых информационных ресурсов Internet. К сожалению, в российском секторе Internet пока не наблюдается активного изучения этой проблемы за исключением, может быть, проекта LIBWEB, финансируемого РФФИ и системы "Паук", которая работает недостаточно надежно. Наибольшим опытом разработки такого сорта систем безусловно обладает ВИНИТИ, но здесь работа сосредоточена пока на размещении своих собственных ресурсов в Сети, что принципиально отличается от информационно-поисковых систем Internet типа Lycos, OpenText, Alta Vista, Yahoo, InfoSeek и т.п. Казалось бы, что такая работа могла быть сосредоточена в рамках таких проектов, как Россия On-line компании SovamTeleport, но здесь мы пока наблюдаются ссылки на чужие поисковые машины. Развитие ИПС для Internet в США началось два года назад, учитывая отечественные реалии и темпы развития технологий Сети в России, можно надеяться, что у нас еще все впереди.

Литература

1. Дж. Солтон. Динамические библиотечно-информационные системы. Мир, Москва, 1979.
2. Frank G. Halasz. Reflection notecards: seven issues for the next generation of hypermedia systems. Communication of the acm, V31, N7, 1988, p.836-852.
3. Tim Berners-Lee. World Wide Web: Proposal for HyperText Project. 1990.
4. Alta Vista . Digital Equipment Corporation, 1996.
5. Brain Pinkerton. Finding What People Want: Experiences with the WebCrawler .
6. Bodi Yuwono, Savio L.Lam, Jerry H.Ying, Dik L.Lee. .
7. Martin Bartschi. An Overview of Information Retrieval Subjects. IEEE Computer, N5, 1985,p.67-84.
8. Michel L. Mauldin, John R.R. Leavitt. Web Agent Related Research at the Center for Machine Translation .
9. Ian R.Winship. World Wide Web searching tools -an evaluation . VINE (99).
10. G.Salton, C.Buckley. Term-Weighting Approachs in Automatic Text Retrieval. Information Processing & Management, 24(5), pp. 513-523, 1988.
11. Open Text Corporation Releases Industry"s Highest Performance Text Retrieval System.

Павел Храмцов ([email protected]) - независимый эксперт, (Москва).



Семинар

Проектирование систем управления документами

Понятие информационно-поисковой системы (ИПС).

Состав компонент и технология работы с ИПС.

В работе современных предприятий важную роль играют его информационные ресурсы, под которыми можно понимать проектную документацию, переписку с партнерами, внутренние приказы и распоряжения, финансовые данные и другие документы, которые служат основой для принятия новых решений и используются в процессах управления предприятием. И если для хранения структурированных данных можно применять специализированные информационные системы (типа бухгалтерской или торговой системы или системы планового отдела), основанные, на использовании СУБД, то для неструктурированных данных нужны системы общего назначения – электронные архивы, работающие на принципах информационно-поисковой системы.

Информационно-поисковая система (ИПС) – это система, предназначенная для хранения и поиска документов с текстовой, графической, табличной информацией по атрибутам, ключевым словам документа и содержанию в какой-либо предметной области. Выделяют ИПС двух типов: фактографические и документографические системы. ИПС фактографического типа предназначены для хранения и поиска фактов, показателей, характеристик каких-либо объектов или процессов (например, сведения о работниках, о предприятиях, акционерах и т.д.). Документографические ИПС отличаются тем, что объектом хранения и поиска в этих системах служат документы, отчеты, рефераты, обзоры, журналы, книги и т.д. Сценарий поиска документа при помощи ИПС обычно сводится к вводу запроса на поиск, состоящего из одного или нескольких слов, после чего предъявляется список имен найденных документов. Пользователь может открыть любой из найденных документов и если поисковая система позволяет, вхождения искомых слов в документе выделяются - «подсвечиваются». Можно выделить следующие особенности организации и



функционирования документографической ИПС, отличающие ее от систем управления базами структурированных данных: – Документы могут храниться на бумаге, микрографических носителях или существовать в электронных форматах. Микрографические форматы включают микрофильмы, микрофиши, слайды и другие микроформы, производимые разнообразными документными камерами. Электронные форматы еще многочисленнее, они включают документы, подготовленные в текстовых процессорах, системах электронной почты и других компьютерных программах, оцифрованные изображения прошедших сканирование документов и проч. При этом предполагается обязательное хранение как электронных копий документов, так и их бумажных оригиналов.

Если документы занимают большой объем и полные электронные копии выдавать на просмотр или хранить не возможно, то для таких документов создают и хранят электронные адреса их хранения.

Поиск осуществляется нахождением документа по двум принципам: по

атрибутам документа – дате создания, размеру, автору и пр. и по его содержанию (тексту). Обычно поиск по содержанию документа выполняется двумя способами: по ключевым словам и по всему тексту, который называют полнотекстовым, подчеркивая тем самым, что для поиска используется весь текст документа, а не только его реквизиты.

Для поиска документов создают и хранят их поисковые образы. Поисковый образ документа (ПОД) – совокупность кодов ведущих ключевых слов (дескрипторов), которые описывают смысл, содержание документа.

Ключевые слова и их коды хранятся в специальном словаре – тезаурусе .

Для того, чтобы осуществлять поиск документов, нужно создать информационно-поисковый язык (ИПЯ), в состав которого входит тезаурус и грамматика языка, т.е. совокупность правил задания множества высказываний на множестве ключевых слов.

Чтобы отыскать документ, нужно создать с помощью ИПЯ поисковый образ запроса (ПОЗ) , который представляет собой совокупность закодированных ключевых слов, описывающие те документы, которые нужно найти.

Схема взаимодействия компонент ИПС представлена на рис. 1.

Рис. 1. Схема взаимодействия компонент ИПС

ИПС состоит из следующих обеспечивающих подсистем:

Лингвистическое обеспечение, включающее в свой состав информационно-поисковый язык;

Техническое обеспечение системы, включающее ЭВМ и устройства создания, хранения, чтения и размножения копий на бумажных носителях, в микроформатах и в электронной форме;

Информационное обеспечение, состоящее из БД документов (БД Док.), адресов (БД Адр.) и БД поисковых образов документов (БД ПОД) и списков дескрипторов и их кодов - тезауруса;

Программное обеспечение.

Программное обеспечение ИПС предназначено для автоматизации следующих основных функций, которые должна выполнять эта система:

Составления, кодирования и загрузки базы данных ПОД;

Загрузки БД документов и их адресов хранения;

Составления, кодирования ПОЗ;

Выполнение операции поиска и выдачи ответа на запрос в виде документа или адресов хранения документов на экран ЭВМ, на бумагу, в файл;

Актуализация баз данных ПОД, документов и адресов;

Актуализация тезауруса;

Выдача справок.

Рассмотрим основные понятия, употребляемые в сфере поиска документов.

Релевантность - степень соответствия найденного документа запросу. Найденный по запросу документ может иметь отношение к запросу, т. е. содержать нужную (искомую) информацию, а может и не иметь никакого отношения. В первом случае документ называется релевантным (по-английски relevant - «относящийся к делу» ), во втором - нерелевантным , или шумовым. Как правило, в любой поисковой системе по запросу выдается несколько (чаще много) найденных документов. Многие из них могут повествовать не о том. И наоборот, некоторые важные, релевантные, документы могут быть пропущены при поиске. Ясно, что количество тех и других определяет качество поиска, которое можно определить достаточно точно. Основными понятиями в мире поисковых средств являются идеи точности и полноты поиска.

Точность поиска (Т) определяется тем, какая часть информации, выданная в ответ на запрос, является релевантной, т.е. относящейся к этому запросу и является параметром, показывающим, какова доля релевантных документов в общем числе найденных. Этот показатель рассчитывается по формуле:

Если, например, все выданные по запросу документы относятся к делу, то точность равна 100%; если, напротив, все документы шумовые, то точность поиска равна нулю.

Полнота поиска (П) - дополнительный параметр, показывающий, какова доля (или процент) найденных релевантных документов в общем количестве релевантных документов, т.е. характеризуется соотношением между всей релевантной информацией, имеющейся в базе, и той ее частью, которая включена в ответ и рассчитывается по формуле:

Если в области поиска на самом деле имеется 100 документов, содержащих нужную информацию, а по запросу найдено из них всего 30, то полнота поиска равна 30%. Кроме этого при оценке поисковых систем учитывается, с какими типами данных может работать та или иная система, в какой форме представляются результаты поиска и какой уровень подготовки пользователей необходим для работы в этой системе. Следует отметить, что точность поиска и его полнота зависят не только от свойств поисковой системы, но и от правильности построения конкретного запроса, а также от субъективного представления пользователя о том, какая нужна ему информация. Если стоит проблема оценки нескольких систем и выбора наиболее эффективной, можно вычислить средние значения полноты и точности рассматриваемых конкретных систем, протестировав их на эталонной базе документов.

Индексация документов (т.е. составление ПОД), которая означает предварительную подготовку текстов для поиска и применяется главным образом для ускорения поиска; как правило, текстовые базы данных, предназначенные для многократного поиска, обрабатывают заранее, составляя так называемый индекс (ПОД) . При индексации поисковая система составляет списки слов, встречающихся в тексте, и приписывает каждому слову его код - координаты в тексте (чаще всего номер документа и номер слова в документе). При поиске слово ищется в индексе, и по найденным координатам выдаются нужные документы. Если слов в запросе несколько, над их координатами производится операция пересечения. В том случае, если множество документов пополняется, приходится пополнять и индекс.

Единица поиска - это квант текста, в пределах которого в данной поисковой системе осуществляется поиск, от величины которого зависит показатель точности поиска, величина шума и время ответа на запрос. Единицей поиска может быть документ, предложение или абзац. В технологии использования ИПС можно выделить три группы операций:

Операции, связанные с получением поисковых образов документов (ПОД), описывающих содержание документов и загрузкой их в базу данных (БД ПОД), а также загрузкой самих документов или их адресов хранения в БДДок и БДАдр.;

Операции составления поисковых образов запроса (ПОЗ) с использованием тезауруса, поиска и выдачи результатов на просмотр и отбор или файл или на печать найденных документов или списка адресов;

Операции ведения информационно-поисковой системы, включающие актуализацию БД ПОД, БДДок., БДАдр. и тезауруса вследствие возникновения и необходимости пополнения памяти системы новыми документами или ключевыми словами. В состав операций ведения ИПС входит также процедура выдачи справок о работе системы, о ее структуре, методах поиска и классах и видах хранимых u1076 документах.

С иском к россиянину, заказавшему в зарубежном Интернет-магазине новый смартфон Motorola? Тогда было немало заметок на эту тему и почти все они могли бы быть сформулированы коротко: “Российские власти закручивают гайки и обычному россиянину уже даже через Интернет нельзя заказать ничего нужного - везде фискалы и правоохранительные органы вставляют палки в колеса”. Надо заметить, что такие высказывания типичны для почти любого человека, который столкнувшись с нестандартной для себя ситуацией, в которой происходит якобы ущемление прав, начинает, не разобравшись, винить во всем всех кроме себя. С ввозом смартфона ситуация была как раз из этой области. Однако случай этот был далеко не первый. Еще несколько лет назад один из россиян, купив на eBay маршрутизатор Cisco, столкнулся с аналогичной ситуацией на российской таможне. А до и после было и еще несколько аналогичных случаев. Попробуем разобраться.

Дело в том, что в России, а точнее на территории Таможенного Союза, в который входят Россия, Беларусь и Казахстан, уже несколько лет действуют правила ввоза криптографических средств, под которые попадают многие гаджеты и иные предметы, о которых мы даже не задумываемся, что они подпадают под понятие средств щифрования. До сих пор в отношении этой темы больше слухов и мифов, чем достоверной информации. Основным заблуждением является две позиции и их производные “В Россию нельзя ввозить средства шифрования Cisco” и “Я могу заказать в зарубежном Интернет-магазине или аукционе все, что угодно, и без проблем получить это в России”. Это неверно и в данной статье нам бы хотелось ответить на самые распространенные вопросы в отношении импорта ИТ-продукции, и в частности, средств шифрования.

А причем тут вообще шифровальные средства?

Документы, регламентирующие вопросы ввоза-вывоза шифровальных средств, определяют, что средства шифрования – это “аппаратные, программные и аппаратно-программные средства, системы и комплексы, реализующие алгоритмы криптографического преобразования информации и предназначенные для защиты информации от несанкционированного доступа при ее передаче по каналам связи и (или) при ее обработке и хранении”. С одной стороны это очень емкое, а с другой – совсем неконкретное определение, которое может трактоваться по разному в разных ситуациях. Кодирование – это шифрование? А электронная подпись? А криптографическая аутентификация?

На самом деле с точки зрения таможенных органов контролю подлежат не только средства шифрования определенные абзацем выше, но также:

  • средства имитозащиты
  • средства электронной цифровой подписи
  • средства кодирования
  • средства изготовления криптографических ключей
  • сами криптографические ключи
  • системы, оборудование и компоненты, разработанные или модифицированные для выполнения криптоаналитических функций
  • системы, оборудование и компоненты, разработанные или модифицированные для применения криптографических методов генерации расширяющегося кода для систем с расширяющимся спектром, включая скачкообразную перестройку кодов для систем со скачкообразной перестройкой частоты
  • системы, оборудование и компоненты, разработанные или модифицированные для применения криптографических методов формирования каналов или засекречивающих кодов для модулированных по времени сверхширокополосных систем.

Список получается достаточно большой, но для целей ввоза не так уж и важно само определение. Важнее то, что именно контролируется таможней. В Перечне 2.19 нет отдельно определенной группы шифровальных средств и соответствующих им кодов так называемой единой Товарной номенклатуры внешнеэкономической деятельности (ЕТН ВЭД). В Перечне 2.19 указаны наименования товаров и их коды ЕТН ВЭД, по принадлежности к которым, таможенные органы могут определить ввозимый продукт как шифровальный (и не важно, есть ли там шифрование на самом деле или нет). Применительно к продукции компании Cisco выдержка из Перечня 2.19 выглядит, например, следующим образом:

Не стоит сильно вникать в то, что написано в таблице:-) Гораздо важнее понимать, что таможенные органы контролируют все, что так или иначе мы используем в своей обычной жизни или в служебных целях - компьютеры, смартфоны, лэптопы, GPS-приемники, маршрутизаторы, точки беспроводного доступа, программное обеспечение, телевизоры и телевизионные приставки и т.п. Именно поэтому смартфон Motorola в нашумевшем недавно случае попал “под раздачу” - он считается шифровальным средством с точки зрения таможни. Хотя надо признать, что он таковым считается и не только с точки зрения таможни, но и здравый смысл подсказывает нам, что в любом современном смартфоне шифрование есть. Оно есть в чипе, реализующем любой стандарт мобильной связи (например, A5 в GSM). Оно есть в операционной системе Android или iOS или Blackberry. Оно есть в бразуере Safari или ином мобильном варианте распространенных браузеров. Оно есть в почтовом клиенте на смартфоне. Оно есть… Да мало ли приложений или микросхем на смартфоне, где есть шифрование. Если посмотреть на многие другие приведенные в таблице устройства, то мы поймем, что шифрование там действительно есть. Как минимум, для защиты информации на самом устройстве, для хранения ключей или аутентификационной информации, или для защищенного управления (SSH - это тоже шифрование).

Если в продукте шифровальный функционал не является основным или его не предполагается использовать в качестве шифровального средства, он будет считается шифровальным средством или нет?

Поставьте себя на место рядового таможенника… Как он узнает, для чего вы будете использовать провозимый через границу продукт? Может быть вы приобретенный на eBay смартфон повесите в рамочку на стену, а может быть будете им гвозди заколачивать. А может вы скрытый террорист или экстремист, который планирует использовать импортное средство связи для взаимодействия со своими подельниками? Но если отбросить шутки в сторону, то позиция властей проста - если продукт может реализовать алгоритмы криптографического преобразования информации, он в любом случае считается шифровальным средством, даже если шифрование является неосновной или неиспользуемой функцией продукта.

Иными словами получается, что почти любой ИТ-товар, пересекающий границу Российской Федерации, становится предметом таможенного регулирования и на него распространяются все правила ввоза шифровальных средств. И совершенно неважно, кто является заказчиком такого средства - физическое или юридическое лицо.

Единая ли процедура ввоза для разных средств шифровальных средств?

Все шифровальные средства (читай почти любые ИТ-продукты) по процедуре ввоза разделены на две группы:
  • Упрощенная процедура ввоза. Означает ввоз по так называемой зарегистрированной нотификации, которая оформляется для шифровальных средств, которые могут быть включены в “Перечень категорий товаров (продукции), являющихся шифровальными (криптографическими) средствами или содержащих в своем составе шифровальные (криптографические) средства, технические и криптографические характеристики которых подлежат нотификации” (приложение к ранее упомянутому Положению о ввозе, далее - Перечень НТФ).
  • Ввоз по лицензии. Шифровальные средства, непопавшие в Перечень НТВ, ввозятся на основании разовой лицензии Минпромторга России, выданной на основании заключения Центра лицензирования, сертификации и защите государственной тайны ФСБ России (далее - ЦЛСЗ) о возможности ввоза шифровального средства. Лицензия и заключение выдаются импортеру на конкретную поставку в сторону конкретного заказчика (потребителя).

Что ввозится по упрощенной схеме?

Идеально, если продукт попадает под “упрощенку”. В этом случае его ввоз ничем не отличается от ввоза любой иной, неограниченной никакими запретами продукции. На сегодняшний день в этот список попадают:
  • Товары, содержащие шифровальные (криптографические) средства, имеющие любую из следующих составляющих:
    • симметричный криптографический алгоритм, использующий криптографический ключ длиной, не превышающей 56 бит (это обычный и мало где сейчас применяемый DES); или
    • асимметричный криптографический алгоритм, основанный на любом из следующих методов (тот же RSA в современной реализации в это исключение тоже не попадает):
      • на разложении на множители целых чисел, размер которых не превышает 512 бит;
      • на вычислении дискретных логарифмов в мультипликативной группе конечного поля
        размера, не превышающего 512 бит; или
      • на дискретном логарифме в группе, отличного от поименованного в вышеприведенном
        подпункте “b” размера, не превышающего 112 бит.
  • Товары, содержащие шифровальные (криптографические) средства, обладающие следующими ограниченными функциями:
    • аутентификация, включающая в себя все аспекты контроля доступа, где нет шифрования файлов или текстов, за исключением шифрования, которое непосредственно связано с защитой паролей, персональных идентификационных номеров или подобных данных для защиты от несанкционированного доступа;
    • электронная цифровая подпись.
  • Шифровальные (криптографические) средства, являющиеся компонентами программных операционных систем, криптографические возможности которых не могут быть изменены пользователями, которые разработаны для установки пользователем самостоятельно без дальнейшей существенной поддержки поставщиком и техническая документация (описание алгоритмов криптографических преобразований, протоколы взаимодействия, описание интерфейсов и т.д.) на которые является доступной. Именно под это исключение подпадают широко распространенные ОС - Windows, Linux и т.п.
  • Шифровальное (криптографическое) оборудование, специально разработанное и ограниченное применением для банковских или финансовых операций. Это банкоматы, оборудование для SWIFT и т.п. Cisco специально для данных целей выпускает маршрутизаторы 800-й серии с кодом PCI в коде продукта.
  • Персональные смарт-карты (интеллектуальные карты).
  • Приемная аппаратура для радиовещания, коммерческого телевидения или аналогичной коммерческой аппаратуры для вещания на ограниченную аудиторию без шифрования цифрового сигнала, кроме случаев использования шифрования исключительно для управления видео- или аудиоканалами и отправки счетов или возврата информации, связанной с программой, провайдерам вещания.
  • Оборудование, криптографические возможности которого недоступны пользователю, специально разработанное и ограниченное для применения любым из следующего
    • программное обеспечение исполнено в защищенном от копирования виде
    • доступом к любому из следующего:
      • защищенному от копирования содержимому, хранящемуся только на доступном для чтения носителе информации;
      • информации, хранящейся в зашифрованной форме на носителях, когда эти носители информации предлагаются на продажу населению в идентичных наборах
    • контролем копирования аудио- и видеоинформации, защищенной авторскими правами.
  • Портативные или мобильные радиоэлектронные средства гражданского назначения (например, для использования в коммерческих гражданских системах сотовой радиосвязи), которые не способны к сквозному шифрованию (т.е. от абонента до абонента). Именно под это исключение попадают обычные мобильные телефоны и многие модели смартфонов.
  • Беспроводное радиоэлектронное оборудование, осуществляющее шифрование информации только в радиоканале с максимальной дальностью беспроводного действия без усиления и ретрансляции менее 400 м в соответствии с техническими условиями производителя. Домашние точки доступа вполне подпадают под это исключение.
  • Шифровальные (криптографические) средства, используемые для защиты технологических каналов информационно-телекоммуникационных систем и сетей связи.
  • Товары, у которых криптографическая функция заблокирована производителем. Например, Cisco для многих своих продуктовых линеек выпускает специальные версии оборудования с установленным программным обеспечением NO PAYLOAD ENCRYPTION - “NPE”. Такое ПО есть для маршрутизаторов Cisco 800, ISR 1900, ISR 2900, ISR 3900, 2100 CGR, ASR1000, ASR 903, коммутаторов Cisco Catalyst 3560-X, Catalyst 3750-X, 2500 CGS, Nexus 7000, оборудования систем видеоконференцсвязи, систем унифицированных коммуникаций. Этот список модифицированных продуктов постоянно расширяется.

Что ввозится по “сложной” схеме?

Если на пересекающий границу товар отсутствует нотификация, то ввозится он по “сложной” схеме. Даже если формально он мог бы быть оформлен по упрощенному варианту. Такая ситуация часто возникает для совсем новых продуктов, на которые производитель еще не успел (или и вовсе не планирует) оформить нотификацию.

А других вариантов нет?

В Положении указан ряд исключений, когда шифровальное средство может быть ввезено без нотификации, но и без лицензии Минпромторга. Это происходит в следующих случаях:

  • при ввозе и вывозе шифровальных средств для осуществления ремонта или замены в соответствии с обязательствами по договору (контракту, соглашению);
  • при временном ввозе и временном вывозе шифровальных средств в целях:
    • проведения научно-технической экспертизы
    • научных исследований;
    • экспонирования на выставках;
  • при ввозе и вывозе шифровальных средств в целях обеспечения собственных нужд организаций без права их распространения и оказания третьим лицам услуг в области шифрования;
  • при транзитных перевозках шифровальных средств через территорию государств – участников таможенного союза.

Правда, в этом случае все равно необходимо получение соответствующего заключения ЦЛСЗ.

Кто должен заниматься оформлением документов на ввоз средств шифрования?

В случае с ввозом по нотификации, ее оформлением занимается производитель ввозимой продукции. Например, Cisco заполняет нотификации на свою продукцию в двух экземплярах, после чего соответствующая информация попадает в Перечень НТФ, а Cisco передает сами нотификации для регистрации в ЦЛСЗ. После регистрации один экземпляр нотификации возвращается в Cisco. ЦЛСЗ также направляет информацию о зарегистрированной нотификации в ЕЭК для опубликования на сайте www.tsouz.ru/db/entr/notif/Pages/default.aspx (кстати, вы можете и сами проверить законность ввоза используемой вами продукции). В среднем, процедура регистрации нотификации занимает не менее 2-3 недель. Ввоз шифровальных средств, попадающих в Перечень НТФ, осуществляется на основании информации о зарегистрированной нотификации без оформления иных разрешительных документов.

В случае с ввозом по “сложной” схеме все работы с уполномоченными государственными органами (ЦЛСЗ и Минпромторг) осуществляет импортер (а не потребитель). Процедура получения лицензии и вся необходимая информация подробно представлена на сайте Минпромторга - www.minpromtorg.gov.ru/services/permission/export-import . При этом Положение о ввозе не делает различия между юридическими или физическими лицами, но на практике обычный гражданин врядли будет в состоянии пройти все процедуры общения с регулирующими органами.

Общий срок получения лицензии Минпромторга с учетом проведения экспертизы и получения заключения ЦЛСЗ не должен превышать 90 дней со дня регистрации обращения импортера в ЦЛСЗ. Сложившаяся практика показывает, что при условии правильно подготовленных документов, получение разрешительных документов занимает около 7 - 9 недель (ЦЛСЗ – от 4 до 6 недель, Минпромторг – не более 3 недель). При этом заказывать продукцию можно сразу после получения заключения ЦЛСЗ. Процедуру получения лицензии Минпромторга можно совместить с процессом изготовления и транспортировки продукции в Россию.

В вышеприведенном случае с ввозом смартфона он должен был попасть под упрощенную схему; но только после того, как российское юридическое лицо, представляющее интересы Motorola, зарегистрировало бы нотификацию на данный смартфон. Так как модель эта было новая и в Россию на момент заказа не поставлялась, то к смартфону была применена “сложная” схема. При этом оформлением документов на ввоз смартфона должен был заниматься не покупатель, а импортер - курьерская или логистическая компания, доставляющая товар через границу. У нее, разумеется, никаких специальных разрешительных документов на ввоз шифровального средства не было, а таможня в базе зарегистрированных нотификаций провозимой модели смартфона тоже не нашла. В результате и возникло нарушение таможенного законодательства.

Что грозит за нарушение правил ввоза средств шифрования?

Как было написано в повестке, приведенной пострадавшим любителем смартфонов Motorola, ему инкриминировали нарушение части 1 статьи 16.3 Кодекса об административных правонарушениях (“”Несоблюдение ограничений на ввоз товаров). На самом деле таможня не совсем верно классифицировала правонарушение - зесь следовало бы применить часть 2 данной статьи. Помимо статьи 16.3 возможно применение (но уже к импортеру) статей 16.2 “Недекларирование или недостоверное декларирование” и 16.7 “Представление недействительных документов при таможенном декларировании”. Все эти статьи могут быть применены как к юридическому лицу, ввозящему шифровальные средства через таможенную границу РФ, так и физическому лицу, что и было уже не раз продемонстрировано за прошедшие несколько лет.

Но вот если шифровальное средство пересекло границу и продается уже на территории России, то покупателю ничего не грозит. Дело в том, что покупка шифровальных средств на территории Российской Федерации в настоящее время никак не регламентируется. Действующее законодательство не обязывает покупателя на территории России проверять условия ввоза приобретаемых им продуктов. Только в случае заказа шифровальных средств за пределами РФ и ввоза их через границу Таможенного Союза вступают в силу все правила, описанные выше.

А разве конечный пользователь не участвует в процессе оформления своего заказа?

Как это ни странно, нет. В Положении не определены процедуры, которые должен осуществлять потребитель. Но в соответствии со сложившейся практикой, потребитель оказывает импортеру поддержку, предоставляя в ЦЛСЗ информационное письмо по применению ввозимого оборудования (для “сложной” схемы), т.к. импортер обязан указать для кого осуществляется ввоз шифровального средства. В письме указывается минимально необходимая следующая информация:
  • каталожные номера (P/N), наименования, количество ввозимых шифровальных средств
  • цель ввоза
  • краткая характеристика среды функционирования – локализация, пользователи, обрабатываемая информация
  • назначение ввозимых шифровальных средств, их размещение (адрес).

Информационное письмо должно совпадать по содержанию с заявлением в ЦЛСЗ от импортера. Отсутствие информационного письма может трактоваться как недобросовестность импортера и, как правило, означает стопроцентный отказ в выдаче заключения на ввоз шифровального средства.

С практикой оформления таких писем от потребителей - рядовых граждан нам сталкиваться не приходилось.

А вот другой вендор уверяет, что у него нет проблем с ввозом. Такое может быть?

Для перемещения любого шифровального средства через таможенную границу независимо от страны происхождения и названия производителя обязательными документами являются зарегистрированная нотификация или заключение ЦЛСЗ (при необходимости требуется также лицензия Минпромторга России). Обойти эту процедуру можно единственным способом - ввозить оборудование незаконным путем.

Если при приобретении продукции с функцией шифрования покупатель не может получит у продавца информацию о зарегистрированной нотификации или копию лицензии Минпромторга России – существует высокая вероятность, что данная продукция ввезена на территорию России с нарушением законодательства.

А если я ввез оборудование без шифрования, а потом обновил его через Интернет и получилось средство шифрования?

В действующем российском законодательстве действия по изменению криптографических характеристик устройств, уже находящихся и приобретенных на территории России не регламентированы и предсказать последствия скачивания из Интернет апгрейда с включенной криптографической функциональностью никто не возьмется. Вместе с тем, в настоящее время существует практика получения разрешения ЦЛСЗ на ввоз продуктов, позволяющих изменить криптографических характеристики имеющегося оборудования, например программного обеспечения на физическом носителе (CD/DVD) или скачиваемого по сети Интернет. Правда, действует эта практика преимущественно для юридических лиц, использующих средства шифрования. Они должны понимать, что у регулирующих и проверяющих органов могут быть вопросы к организации, которая никогда не приобретала криптографические продукты, ввезенные для нее по заключению ЦЛСЗ, но использует их в своей деятельности.

В отношении рядовых граждан, скачивающих из Интернет программные шифровальные средства, правоприменительной практики пока не сложилось.

Кто регламентирует вопросы ввоза и вывоза шифровальных средств?

Вопреки бытующему мнению, что регулирование ввоза средств шифрования у нас занимается таможня или ФСБ, это не совсем верно, а точнее совсем неверно. Эти органы по сути только выполняют распоряжения вышестоящей организации - Евразийской экономической комиссии (далее - ЕЭК), созданной решением Президентов Российской Федерации, Республики Беларусь и Республики Казахстан в конце 2011 года.

ЕЭК была создана как единый постоянно действующий регулирующий орган Таможенного союза и Единого экономического пространства. Комиссия имеет статус наднационального органа управления, не подчинена какому-либо правительству и решения Комиссии обязательны для исполнения на территории трех стран, включая и Россиию. Основной задачей ЕЭК является обеспечение условий функционирования и развития Таможенного союза и Единого экономического пространства, а также выработка предложений по дальнейшему развитию интеграции. ЕЭК передаются полномочия упраздняемой Комиссии Таможенного союза.

В соответствии с решением Межгосударственного Совета Евразийского экономического сообщества от 27 ноября 2009 года «О едином нетарифном регулировании таможенного союза Республики Беларусь, Республики Казахстан и Российской Федерации» нынешнее Положение о ввозе, с изменениями и дополнениями, действует с 01 января 2010 года. Вступление России в ВТО 22 августа 2012 года ничего не поменяло в области нетарифного регулирования внешней торговли.

После подписания договора о создании Евразийского экономического союза ситуация врядли изменится и ЕЭК пока остается основным органом, определяющим правила ввоза средства шифрования, а таможня только реализует на практике эти правила. ФСБ же, а точнее ее ЦЛСЗ, определяет, что будет ввозиться по упрощенной схеме, а что потребует бОльших телодвижений.

В качестве заключения хотелось бы ответить еще на 2 вопроса, которые могут возникнуть по ходу прочтения материала.

А мне нужна лицензия ФСБ на ввоз средств шифрования?

Нет. Несмотря на схожие названия, лицензии Минпромторга на ввоз шифровальных средств и лицензии ФСБ на деятельность с шифровальными средствами это совершенно разные ветви законодательства.

Какими документами регулируется ввоз шифровальных средств на территорию Российской Федерации?

Решением Решение Коллегии Евразийской экономической комиссии от 16 августа 2012г. №134 «О нормативных правовых актах в области нетарифного регулирования» утверждены:
  • «Единый перечень товаров, к которым применяются запреты или ограничения на ввоз или вывоз государствами - членами таможенного союза в рамках Евразийского экономического сообщества в торговле с третьими странами», включающий в себя перечень шифровальных (криптографических) средств, ввоз которых на таможенную территорию Таможенного союза и вывоз с таможенной территории Таможенного союза ограничен (далее - Перечень 2.19).
  • Положения о применении ограничений, включающие в себя Положение о порядке ввоза на таможенную территорию Таможенного союза и вывоза с таможенной территории Таможенного союза шифровальных (криптографических) средств (далее - Положение о ввозе).

Геометрические и содержательные характеристики полей могут быть как абсолютно независимыми, так и взаимосвязанными. Например, в приходном ордере рядом с полями "количество" и "цена" находится поле "сумма".

Документы, которые подлежат сканированию, могут быть объединены в группы по нескольким признакам. По способу нанесения информации можно выделить документы, в которых используются метки, печатный или рукописный тексты. Так, например, "Избирательные бюллетени" используют меточный способ, в то время как "Прайс-листы" – печатный, а первичные бухгалтерские документы – в основном рукописный.

Выполнение описания настроек системы на конкретную форму документа предполагает также выполнение разработки настройки на модель ввода документа в информационную базу или в электронный архив и составление настройки соответствия полей формы документа и полей индексации для ввода в информационную базу или архив. Построение этих настроек опирается на существование трех подходов к вводу данных в базу:

Ввод ключевых слов. В этом случае одно или несколько ключевых слов будет использоваться в качестве индексов для конкретного изображения. В дальнейшем возможен быстрый доступ к изображению документа с применением введенных ключевых слов - индексов.

Ввод всего текста документа. Производится ввод всех слов документа и после этого возможно осуществление полнотекстового поиска изображения документа с помощью полнотекстового индекса, составляемого для этого документа. Этот метод может применяться при необходимости получения текстового варианта документа.

Формоориентированный ввод данных. Данный метод используется для полной замены ручного ввода данных в компьютерные системы и в основном применяется для ввода данных из форм (стандартных, однотипных документов). В этом случае атрибуты документа будут использованы для составления индекса документа для его поиска и хранения в базе или архиве.

Основной этап автоматизированного ввода бумажных документов включает в себя выполнение таких операций как:

Сканирование;

Контроль качества отсканированных изображений и повторное сканирование;

Предварительная обработка текста;

Основная обработка текста документа;

Контроль качества распознавания и редактирование;

Сканирование – это очень ответственная операция, и, следовательно, к выбору конкретной модели сканера необходимо подходить достаточно ответственно. При выборе следует учитывать следующие факторы: размеры документов, их состояние, является ли документ односторонним или двухсторонним, производительность сканеров, необходимое разрешение изображения, надежность получаемых изображений и другие.

В настоящее время на рынке технических средств предлагается достаточно большое количество различных моделей сканеров, которые можно классифицировать по производительности на следующие виды (см табл. 5.1):

Персональные;

Настольные;

Высокопроизводительные потоковые.

По качеству сканирования, зависящего от разрешающей способности, их можно разделить на следующие группы:

С низкой разрешающей способностью (200–400 точек на дюйм);

Со средней разрешающей способностью (600–800 точек/дюйм);

С высокой разрешающей способностью (1600–2800 точек/дюйм);

Специального назначения.

Ввод документов предъявляет достаточно низкие требования к качеству сканирования, обычно бывает достаточно разрешения 200-300 точек/дюйм. Профессиональные издательские сканеры имеют разрешение порядка точек/дюйм и даже персональные сканеры имеют разрешение порядка 600-800 точек/дюйм. Единственная отличительная особенность - автоматическая подача страниц документов и высокая скорость сканирования (от 10 до 200 листов формата А4 в минуту). Данные высокоскоростные сканеры предназначены для ввода разброшюрованных документов.

Для ввода ветхих документов применяют сканеры с вакуумным прижимом документов, которые предъявляют весьма низкие требования к документу и обрабатывают его в щадящем режиме. В совсем редких случаях, когда документ настолько стар, что его нельзя помещать даже в планшетный сканер, применяют сканеры специального назначения. Такие сканеры позволяют сканировать не полностью раскрытые книги и документы плохого качества. Скорость ввода у таких устройств - 0,25-3 страницы в минуту.

Обработка данных, содержащихся в документе, предполагает выполнение следующих основных операций:

Предварительная обработка изображений;

Основная обработка изображений документа.

Предварительная обработка изображения документов используется для улучшения полученных изображений и необходима по следующим причинам:

Улучшение читаемости изображения. Обработанные изображения более понятны при визуальном просмотре.

Повышение точности распознавания. Применение специальных методов улучшения изображения может значительно повысить точность оптического распознавания символов.

Уменьшение размера изображения. Размер файлов обработанных изображений может быть меньше первоначального размера на 80%. Под уменьшением размера понимается как простое сжатие файла, так и удаление ненужной информации.

Предварительная обработка изображения документов предусматривает использование следующих методов: очищение изображения применяется для снятия с изображений отдельных элементов (например, точки, пятна); снятие фона и выделений (например, с ценных бумаг); восстановление букв и символов – если они оказываются пересеченными элементами формы, например, линией, (для последующего распознавания символа необходимо удалить линию, таким образом, чтобы буква не пострадала); вращение изображения на произвольный угол; масштабирование изображения; регулирование уровня серого; компрессия и декомпрессия изображения.

Процесс основной обработки документов предусматривают выполнение операций:

Нахождения полей (сегментация документа);

Распознавание текста документов.

Они могут быть выполнены последовательно и независимо, если поля полностью определены своими визуальными характеристиками. Такая ситуация характерна для машиночитаемых форм и документов с явными разделителями полей в виде линий или больших промежутков.

Распознавание документа, анализ содержания документа и извлечение данных может осуществляются с помощью следующих систем распознавания текстов, отличающихся по стоимости, качеству и скорости работы:

OCR (Optical Character Recognition) – технология оптического распознавания печатных символов, т. е. перевода сканированного изображения печатных символов в их текстовое представление;

ICR (Intelligent Character Recognition) – распознавание раздельных печатных символов, написанных от руки;

OMR (Optical Mark Recognition) – распознавание отметок (обычно перечеркнутые крест-накрест либо галочками квадраты или круги);

Стилизованные цифры – распознавание рукописных цифр, написанных от руки по шаблону, как на почтовых конвертах;

Существует несколько подходов к реализации технологий ввода рукописных символов:

Распознавание on-line осуществляется в тот момент, когда человек пишет специальным пером на сенсорном экране, воспринимающем дополнительную информацию о траектории движения руки, наклоне пера, силе нажима и т. д. Применяется в основном в персональных электронных записных книжках типа 3Com PalmPilot для рукописного ввода числовых и символьных данных.

Распознавание off-line – распознавание произвольного рукописного текста, введенного в компьютер через сканер.

Распознавание рукопечатных символов является подмножеством технологии распознавания off-line. Этот метод применяется, как правило, для ввода стандартных форм. Распознавание рукописного текста значительно сложнее, чем печатного, поскольку если в последнем случае мы имеем дело с ограниченным числом вариаций изображений шрифтов (шаблонов), то в рукописном варианте число шаблонов неизмеримо больше.

Для OCR- систем в основном используются три технологии распознавания напечатанного текста:

Матричная (Matrix - based),

Описательная (основана на описании правил построения символов),

Нейронная (основана на использовании нейронных сетей).

Строгое соблюдение стандарта внешнего вида формы существенно повышает точность распознавания полей документа.

Контроль распознанных данных является следующей операцией, реализуемой системой ввода.

Системы автоматического распознавания обычно вместе с результатом возвращают так называемую «степень уверенности». Для повышения надежности данных после распознавания применяются определенные пользователем автоматизированные методы проверки данных (например, можно проверить, имеется ли распознанная информация в базе данных , и если нет, то пометить поле как некорректное). Для повышения надежности данных используются дополнительные механизмы, такие как применение словарей и таблиц, определяемых пользователем. Помимо этого, системы включают специальные встроенные средства для определения специальных процедур проверки для каждого поля документа.

Если данные после распознавания помечены как не корректные, то они автоматически направляются на ручное редактирование. Во время редактирования оператор видит реальное изображение нераспознанного поля и имеет возможность откорректировать его. После ввода оператором новых данных снова применяются правила проверки данных, т. е. на всех этапах ввода, как автоматического, так и ручного, осуществляется проверка данных в соответствии с правилами, определенными пользователем.

Индексирование и загрузка данных. Заключительная операция процесса - это экспорт изображений документов и сопутствующих данных в конкретную систему документооборота или базу данных и индексирование. Основными требованиями к экспорту являются поддержка различных форматов данных и его скорость.

После того, как документ распознан, он поступает в базу данных или в систему управления документами, где проводится его индексирование. В отличие от обычной системы распознавания система ввода стандартных форм использует формальное описание исходной формы документа, описание модели ввода и модели соответствия полей ввода и индексирования. Это позволяет автоматически производить индексирование документов и загружать информацию в поля базы данных или архив без участия оператора.

В зависимости от конкретной задачи и типа документа, он может быть загружен в полнотекстовый модуль или информация из него извлеченная должна будет попасть в систему атрибутивной индексации (например, значения из полей формы попадают в карточку документа). При этом, может быть сохранено изображение документа.

5.2 Требования, предъявляемые к СМВ. Характеристика систем

Основной фактор при оценке эффективности систем распознавания заключается в стоимости исправления ошибок при распознавании, а не в точности и скорости системы. В некоторых случаях затраты на исправление ошибок при распознавании могут перекрыть все плюсы автоматизации и сделать ручной ввод по изображению более эффективным. При разработке и использовании СМВ проектировщику требуется выполнить также большой объем работ по интеграции этой системы ввода в действующую или разрабатываемую информационную систему . На производительность системы очень большое влияние оказывают используемая технология ввода, ее настройка на текущую задачу и вид документов. Здесь нужно учитывать состав оборудования, программное обеспечение и совместимость формата распознанной информации с уже существующими системами.

Существует множество компаний, которые предлагают решения или компоненты систем обработки форм. Решение о внедрении системы обработки форм, а также выбор того или иного приложения должны производиться с учетом в первую очередь следующих требований:

Тип обрабатываемых документов и вид содержащихся в них данных;

Точность распознавания;

Наличие эффективной системы редактирования;

Настраиваемость системы на требования конкретного заказчика и способность изменяться согласно меняющимся внешним условиям без программирования;

Наличие поддержки сканеров различных типов, а также разного рода плат обработки изображений документов;

Наличие редактора форм, настраивающего систему на новые формы или изменения старой формы, на которую система была предварительно ориентирована;

Наличие редактора схем обработки документов, открытого интерфейса подключения различных модулей распознавания (в зависимости от типа формы можно для повышения качества распознавания подключать тот или иной модуль, который наиболее подходит для данного типа формы);

Наличие редактора схем экспорта в базу данных (данные, которые извлекаются при обработке формы, должны быть переданы или в базу данных для хранения, или в другие бизнес-приложения для обработки).

Помимо этого к выбору ПО для СМВ можно предъявить совокупность общих требований:

Открытость. Система должна позволять включать в себя различные технологии и программные продукты в зависимости от конкретного приложения, даже если эти продукты поставляются другими фирмами. Необходима возможность интеграции с различными workflow-системами и с системами документооборота.

Возможность настройки. Пользовательский интерфейс должен быть настраиваемым для достижения максимальной эффективности работы операторов.

Масштабируемость. Необходимо иметь возможность добавлять и уменьшать системные ресурсы при различных уровнях загрузки системы.

Возможность администрирования. Пользователь должен иметь возможность гибкого управления системой. Необходимо иметь возможность контролировать используемые ресурсы и инструментарий для получения различных видов отчетов.

Рассмотрим в качестве примера две системы класса СМВ - Cognitive Forms компании Cognitive Technologies и FineReader.

Cognitive Forms – российская система промышленного (иногда говорят поточного) ввода стандартных форм документов, которая работает под управлением операционных систем Windows 95/NT и MacOS. Система принадлежит к классу OCR/ICR/OMR и позволяет вводить в базы данных и информационные системы формы с печатным, рукописным заполнением и отметками (checkbox).

Cognitive Forms предназначена для автоматизированного ввода в информационные системы и базы данных произвольных, одно - и многостраничных форм документов, соответствующих определенным требованиям к оформлению и заполнению и подготовленных на лазерных, струйных и матричных принтерах или на стандартных бланках с использованием пишущих машинок.

Эта система позволяет осуществлять распределенную поточную обработку (сканирование, распознавание, редактирование и контроль) в сети с производительностью распознавания достраниц А4 в смену на одном компьютере и осуществлением автоматического контроля результатов распознавания. Экспорт данных может осуществляться в базы данных, банковские системы типа «Операционный день» и системы создания электронных архивов и автоматизации документооборота.

Внедрение системы позволяет обеспечить ускорение ввода стандартных форм документов в 5–10 раз по сравнению с ручным вводом.

Сканированные образы могут быть сохранены в электронном архиве банка для ведения истории делопроизводства организации.

Cognitive Forms состоит из трех основных модулей:

Cognitive FormDesigner отвечает за проектирование описания формы документа для программ распознавания и редактирования.

Cognitive FormReader обеспечивает автоматическое распознавание потока стандартных форм, поступающих со сканера. В автоматическом режиме осуществляет поточное распознавание форм по заданному описанию и контекстную проверку результатов.

Cognitive FormEditor предназначен для операторского контроля распознанных форм и сохранения информации из введенных форм в записи базы данных и позволяет оператору визуально контролировать и редактировать распознанные поля форм.

Cognitive Forms дает возможность осуществлять распределенную, в рамках локальной сети, обработку вводимых форм и добиться эффективного доступа к данным в режиме реального времени. Например, на Pentium II-233 время распознавания системой Cognitive Forms одного бланка составляет около 2 сек. Для промышленного ввода применяются высокопроизводительные сканеры: Kodak, Bell+Howell, BancTec, Fujitsu и др., а также сетевые устройства (Hewlett-Packard). Производительность некоторых моделей достигает сотен страниц в минуту.

Эффективность применения системы ввода бумажных документов в ЭИС основана, в первую очередь, на значительном сокращении участия человека во вводе данных. Как следствие, можно наблюдать уменьшение времени ввода документов и количества ошибок. Для организаций, обрабатывающих большие потоки форм (центральные налоговые и почтовые ведомства , статистические организации, центры авторизации по расчетам за кредитные карты), использование описанных технологий позволит решить проблемы эффективности обработки сотен тысяч и даже миллионов форм в сжатые сроки.

В основу системы FineReader, разработанной компанией ABBYY, положены три принципа распознавания, сформулированные при наблюдении за поведением животных и человека: Целостность, Целенаправленность и Адаптивность, позволившие получить решение, использующее в своей основе принципы распознавания, характерные для живых систем, - технология Целостностного Целенаправленного Адаптивного распознавания (IPA-технология).

Целостность. Объект описывается как целое с помощью значимых элементов и отношений между ними. Объект признается объектом данного класса только при наличии всех элементов описания и нужных отношений между ними.

Целенаправленность. Распознавание строится как процесс выдвижения и целенаправленной проверки гипотез. Традиционный подход, состоящий в интерпретации того, что наблюдается на изображении, заменятся подходом, состоящем в целенаправленном поиске того, что ожидается на изображении.

Адаптивность. Способность системы к самообучению, т. е. сначала система FineReader выдвигает гипотезу об объекте распознавания (символе, части символа или нескольким склеенным символам), а затем подтверждает или опровергает ее, пытаясь последовательно обнаружить все структурные элементы в нужных отношениях. В качестве структурных используются элементы, значимые для восприятия объекта с точки зрения человека, - отрезки, дуги, кольца и точки.

Следуя принципу адаптивности программа самостоятельно "настраивается" на новый шрифт (или на новый почерк), используя положительный опыт, полученный на первых уверенно распознанных символах.

Целенаправленный поиск и учет контекста позволяют распознавать разорванные и искаженные изображения, делая систему устойчивой к дефектам печати.

Эти принципы используются как при распознавании отдельных символов, так и при анализе раскладки страницы (выделении участков текста, картинок, таблиц). Благодаря использованию IPA-технологии FineReader демонстрирует высокое качество распознавания при малой чувствительности к дефектам печати, а безупречный анализ раскладки страницы отмечен в большинстве сравнительных тестов. Компания ABBYY получила патент на использование IPA-технологии. Система FineReader имеет два варианта реализации: FineReader Office и FineReader от Pro, которые постоянно развиваются.

Система FineReader имеет следующие входные форматы файлов: BMP: черно-белые, серые, цветные; PCX, DCX: черно-белые, серые, цветные; JPEG: серые, цветные; PNG: черно-белые, серые, цветные; TIFF: черно-белые, серые, цветные, многостраничные.

При получении документов применяетя несколько методов сжатия текста: несжатый, CCITT Group 3, CCITT Group 3 FAX (2D), CCITT Group 4, PackBits, JPEG.

Система FineReader сохраняет результат распознавания в следующих форматах: Microsoft Word 95, Microsoft Excel 95, Microsoft Word 97, Microsoft Excel 97, Microsoft Word 2000, Microsoft Excel 2000, Text, Rich Text Format, Unicode Text, DBF, HTML, CSV, Unicode HTML, PDF.

Требования к системе: операционная система Microsoft Windows 2000, Windows NT Workstation 4.0 с пакетом обновления 3 (SP3) или выше, или Windows 95/98 .

Система поддерживает работу 19 типов сканеров, включая Acer, Samsung , Mitsubishi , Scanpaq, Canon, Syscan, E-Lux, Nikon, Silitek, Epson, Storm, Fujitsu, Packard Bell, HP, IBM, Xerox, Kodak и др. и более 100 моделей 100% TWAIN-совместимых сканеров других фирм.

Тема 6. Автоматизация хранения электронных

документов

6.1 Понятие информационно-поисковой системы (ИПС). Состав компонент и технология работы с ИПС

В работе современных предприятий важную роль играют его информационные ресурсы, под которыми можно понимать проектную документацию , переписку с партнерами, внутренние приказы и распоряжения, финансовые данные и другие документы, которые служат основой для принятия новых решений и используются в процессах управления предприятием. И если для хранения структурированных данных можно применять специализированные информационные системы (типа бухгалтерской или торговой системы или системы планового отдела), основанные, на использовании СУБД, то для неструктурированных данных нужны системы общего назначения - электронные архивы, работающие на принципах информационно-поисковой системы.

Информационно-поисковая система (ИПС) - это система, предназначенная для хранения и поиска документов с текстовой, графической, табличной информацией по атрибутам, ключевым словам документа и содержанию в какой-либо предметной области.

Выделяют ИПС двух типов: фактографические и документографические системы. ИПС фактографического типа предназначены для хранения и поиска фактов, показателей, характеристик каких-либо объектов или процессов (например, сведения о работниках, о предприятиях, акционерах и т. д.). Документографические ИПС отличаются тем, что объектом хранения и поиска в этих системах служат документы, отчеты, рефераты, обзоры, журналы, книги и т. д. Сценарий поиска документа при помощи ИПС обычно сводится к вводу запроса на поиск, состоящего из одного или нескольких слов, после чего предъявляется список имен найденных документов. Пользователь может открыть любой из найденных документов и если поисковая система позволяет, вхождения искомых слов в документе выделяются - «подсвечиваются».

Можно выделить следующие особенности организации и функционирования документографической ИПС, отличающие ее от систем управления базами структурированных данных:

Документы могут храниться на бумаге, микрографических носителях или существовать в электронных форматах. Микрографические форматы включают микрофильмы, микрофиши, слайды и другие микроформы, производимые разнообразными документными камерами. Электронные форматы еще многочисленнее, они включают документы, подготовленные в текстовых процессорах, системах электронной почты и других компьютерных программах, оцифрованные изображения прошедших сканирование документов и проч. При этом предполагается обязательное хранение как электронных копий документов, так и их бумажных оригиналов.

Если документы занимают большой объем и полные электронные копии выдавать на просмотр или хранить не возможно, то для таких документов создают и хранят электронные адреса их хранения.

Поиск осуществляется нахождением документа по двум принципам: по атрибутам документа - дате создания, размеру, автору и пр. и по его содержанию (тексту). Обычно поиск по содержанию документа выполняется двумя способами: по ключевым словам и по всему тексту, который называют полнотекстовым, подчеркивая тем самым, что для поиска используется весь текст документа, а не только его реквизиты. –

Для поиска документов создают и хранят их поисковые образы. Поисковый образ документа (ПОД) - совокупность кодов ведущих ключевых слов (дескрипторов), которые описывают смысл, содержание документа.

Ключевые слова и их коды хранятся в специальном словаре - тезаурусе.

Для того чтобы осуществлять поиск документов, нужно создать информационно-поисковый язык (ИПЯ), в состав которого входит тезаурус и грамматика языка, т. е. совокупность правил задания множества высказываний на множестве ключевых слов.

Чтобы отыскать документ, нужно создать с помощью ИПЯ поисковый образ запроса (ПОЗ), который представляет собой совокупность закодированных ключевых слов, описывающие те документы, которые нужно найти. Схема взаимодействия компонент ИПС представлена на рис. 6.1.

файл-сервер", поэтому для решения поставленных задач и проблем наиболее перспективным является выбор варианта архитектуры интегрированных систем управления документами - "клиент-сервер", который существенно увеличивают эффективность работы пользователей, поскольку системы данного класса обеспечивают не только быстрый поиск необходимых пользователям документов, но и помогают им организовывать и совместно использовать информацию. И, что особенно важно, СУД создают удобную для пользователя структуру представления всей информации, хранящейся в сети. Создатель документа будет избавлен от необходимости каждый раз придумывать, где его хранить, как защищать и какие права на него предоставлять коллегам.

Системы управления документами должны решать проблему с управлением большими объемами документов на следующих принципах:

1. Управление должно осуществляться над электронными документами, созданными в разных прикладных программах для персональных компьютеров, таких как: текстовые процессоры, электронные таблицы, электронная почта.

Добрый день, мои уважаемые читатели. Сегодня мы коснемся чрезвычайно интересной и важной темы – информационно поисковые системы. Умение правильно работать с ними, знание основных понятий и принципов работы смогут помочь начинающим пользователям научиться быстро и оперативно искать различную информацию в сети, получать нужные данные и быстро развивать свой интернет бизнес.

В данной статье я расскажу об истории создания систем поиска, принципах их работе и структуре. Помимо этого, остановлюсь на очень важных фишках, которые необходимо обязательно знать при работе с ИПС.

Итак, давайте более подробно изучим, что такое ИПС, какие компоненты входят в их состав.

Информационно – поисковые системы (ИПС) и их виды

Данное понятие возникло еще в конце 80 – х, начале 90 – х годов прошлого века. Именно тогда и возникли их первые прототипы, как в России, так и за рубежом. Согласно определению – это система, которая позволяет искать, обрабатывать, отбирать требуемые данные запроса в своей особой базе, где находятся описания различных источников информации, а также правила пользования ими.

Основной ее задачей является поиск нужной пользователю информации. Для того, чтобы он был более эффективным, используется понятие релевантности, то есть то, насколько сами результаты поиска точно подходят тому или иному запросу.

К основным типам ИПС относятся следующие понятия:

Индексация каталога может производиться, как вручную, так и автоматически с обновлением индекса. В свою очередь сам результат работы системы включает в себя особый список. В него входят гиперссылка на требуемые ресурсы и описание того или иного документа в интернете.

Из наиболее популярных каталогов можно выделить: Yahoo , Magellan (зарубежные) и Weblist , Улитка и @ Rus из отечественных.


К наиболее распространенным зарубежным ИПС относят – Google, Altavista, Excite. Русские – «Яндекс» и «Рамблер».

  • В мире существует огромное количество различных видов ИПС, которые содержат множество источников информации. Разумеется, что даже наличие самого современного и мощного сервера не может удовлетворить запросы миллионов пользователей. Именно поэтому, появились специальные метапоисковые системы. Они могут одновременно пересылать запросы пользователей различным поисковым серверам, а на основе своего обобщения имеют возможность предоставить пользователю документ, содержащий ссылки на требуемый ресурс. К их числу можно отнести – MetaCrawler или SavvySearch.

История создания ИПС

Самые первые ИПС появились в середине 90 – х годов 20 века. Они весьма напоминали обычные указатели, которые находятся в любых книгах, некие справочники. В их базе данных содержались специальные ключевики (слова), которые различными способами собирались с многочисленных сайтов. Так, как интернет – технологии были не совершенными, то и сам поиск выполнялся только по ключевым словам.

Значительно позднее был разработан специальный полнотекстовый поиск, облегчающий нахождение необходимой пользователю информации. Система производила фиксацию ключевых слов. Благодаря ей, пользователи могли производить нужные запросы по тем или иным словам и различным словосочетаниям.

Одной из первых, была «Wandex». Ее разработкой занимался очень известный программист Мэтью Греэм в 1993 году. Также, в этом же году возникла и новая «поисковка» «Aliweb» (кстати, и по сей день успешно работает). Однако все они имели достаточно сложную структуру и не обладали современными технологиями.

Одной из наиболее удачных явилась «WebCrawler», которая впервые была запущена в 1994 году. Отличительной особенностью и главным преимуществом, выгодно выделяющим ее среди других систем поиска, явилось то, что она могла находить любые ключевики на той или иной странице. После этого, это стало своего рода эталоном и для всех остальным ИПС, которые разрабатывались позднее.

Значительно позже возникли и другие поисковики, которые иногда конкурировали между собой. Это были – «Excite», «AltaVista», «InfoSeek», «Inktomi» и многие другие. Начиная с 96 года, российские пользователи сети начали работать с «Рамблером» и «Апортом». Но, настоящим триумфом для российского интернета, стал созданный в 1997 году «Яндекс».

Этот российский аналог «Google» стал настоящей гордостью российских программистов. Сегодня, он уверенно теснит конкурента в рунете и также является одним из лидеров по поисковым запросам среди ИПС в России.

На сегодняшний день, имеются многочисленные специальные «поисковики», которые созданы для решения определенных задач. Так, например, информационно – поисковая система «Патрон», разработана для того, чтобы хранить и искать данные по патронам для различного оружия и сейчас применяется, как в органах Министерства Внутренних Дел и спецслужб, так и для охотников – профессионалов и любителей.

Имеются и другие, разработанные для нотариусов, врачей, инженеров, военных, автолюбителей и т д

Как работает ИПС

Работа информационно – поисковой системы является очень сложной. Однако при желании можно разобраться в ее структуре. Первое, что необходимо отметить, что существует особая программа – она называется поисковым роботом (пауком). Данная программа систематически мониторит различные страницы и индексирует их.

Веб сервер создает запрос пользователя на получение той или иной информации, а затем предоставляет данный запрос машине поиска. Поисковик исследует требуемую базу данных, потом составляет полный список страниц, а затем передает веб-серверу. Он в свою очередь окончательно формирует все результаты запроса в «читаемый» вид, затем передает их на «комп» пользователя.

ИПС предназначена для следующих целей:

  • Хранить значительные объемы данных;
  • Производить оперативный поиск нужной информации;
  • Добавлять, а также удалять различные данные;
  • Выводить информацию в простом и удобном виде.

Существуют несколько основных типов ИПС:

  • Автоматизированные
  • Библиографические
  • Диалоговые
  • Документальные

Какие поисковые системы наиболее популярны сегодня?

На первом месте, без всякого сомнения, находиться неотъемлемый лидер – «Google». На сегодняшний день, к нему адресуется около 80 процентов различных мировых запросов по самым различным сферам. Что касается второго места, то его, также заслуженно, занимает американский «eBay».

На третьем месте, наш, отечественный, российский «Яндекс». На четвертом – «Yahoo» и на пятом – MSN. Еще одним отечественным браузером, но занимающим только 10 место в рейтинге Европы – это российский «Rambler».

Google

Этот поисковик знают огромное количество пользователей. На сегодняшний день это первая по популярности система в мире! Ежемесячно она обрабатывает более 41 млрд запросов и проводит индексацию 25 миллиардов страниц.

Что касается истории создания компании «Google», то еще в 1996 году, пара студентов университета Стэнфорда – Ларри Пейдж и Сергей Брин разработали браузер, созданный на новых методах поиска. Назвали они ее просто и лаконично, как собственно и дизайн поисковой системы «Google». Собственно название google – это искаженный googol (число десять в сотой степени).

В основе нее специальный поисковый робот, который называется «Googlebot». Он производит сканирование страниц и их индексацию. В качестве алгоритма авторитетности, эта ПС . Собственно именно он обеспечивает то, как будут выдаваться страницы посетителю в поисковых результатах.

Одним из первых, эта фирма разработала и на различных языках, который значительно облегчает введение данных в систему. Ну, и наконец, именно и послужил основой для слова «гуглить», которое все чаще встречается в сленге молодых тинейджеров.

«Yahoo » – вторая по популярности в США. Ее организовали в 1994 году два аспиранта Стэнфорда – Дэвид Фило и Джерри Янг. В конце 90 –х ими был приобретен портал RocketMail и на основе него создан бесплатный почтовый сервер «Yahoo». Сегодня на ее серверах можно хранить любое количество писем. В 2010 году появляется и русскоязычный ресурс почты – Yahoo! Почта.

Яндекс

Одним из лучших российских поисковиков, вне всякого сомнения, является «Яндекс». На сегодняшний день он стоит на четвертом месте по общему количеству запросов. В то же самое время, по популярности «Яндекс» занимает сегодня первое место в Российской Федерации. Общее количество произведенных запросов превышает 250 миллионов каждый день

Он был представлен в сентябре 1997 года, а уже в мае 2011, произведя размещение своих акций на IPO, эта фирма смогла заработать наибольшее количество акций среди других интернет – компаний.

Сегодня, «Yandex» имеет 50 сервисов, из которых некоторые уникальные – Яндекс.Поиск, Яндекс.Карты, Яндекс.Маркет. Помимо этого, российских пользователей очень интересуют такие сервисы, как «Поиск по блогам», «Яндекс Пробки». Основные запросы для пользователей в основном из следующих стран ближнего зарубежья: Россия, Белоруссия, Турция и Казахстан.

Исторически фирму основал бизнесмен – программист Аркадий Волож в 1989 году. Само название компании было придумано Ильей Сегаловичем, директором «Яндекса». Благодаря сотрудничеству с институтом проблем передачи информации был создан справочный словарь с поиском.

В отличие от других браузеров, учитывает и морфологию русского языка. Таким образом, сама система предназначена именно для работы в русскоязычном сегменте интернета.

Начиная с 2010 года, помимо браузера «Yandex.ru» появился еще один поисковик «Yandex.com». Данный интернет – ресурс используется для поиска по зарубежным порталам.

Поисковая система « Ebay »

Ebay представляет собой интернет – компанию из США, которая специализируется на проведении интернет – аукционов. Она производит управление портала eBay.com, а также версиями в других странах мира. Помимо этого, в собственности фирмы есть еще одна eBay Enterprise.

Основателем фирмы является американский программист Пьер Омидьяр, который в середине 90 – х годов разработал интернет – аукцион для своего личного портала. В то же время, eBay – это своего рода посредник при купле продаже. Чтобы использовать его продавцы вносят определенный взнос, а покупатели получают возможность бесплатного использования сайта.

Общие принципы его работы следующие:

  • В основном все люди добропорядочны
  • Каждый может внести свой вклад
  • В открытом общении люди проявляют свои лучшие качества

Уже в 1995 году на тысячах онлайн аукционов продавались миллионы различных предметов. Сегодня, это мощная платформа для купли продажи, как физлицами, так и юрлицами.

С 2010 года возникла и русскоязычная версия популярного ресурса и стала называться «Международный торговый центр eBay». Оплата на аукционе производится через платежную систему «PayPal».

Для того, чтобы продать предметы на данном портале необходимо написать сколько он стоит, его стартовая цена, когда начнутся торги, а также сколько будут длиться торги. Как и в обычном аукционе, выбранный товар получает заплативший самую высокую цену.

Из плюсов подобного аукциона стоит отметить то, что продавец и покупатель могут находиться в любом месте земного шара, а наличие локальных филиалов и временных рамок предоставляют возможность участвовать в аукционах огромному количеству продавцов и покупателей.

Данная поисковая система является ведущим интернет – браузером, разработанным компанией «Microsoft». Он появился одновременно с выпуском первой операционной системы Windows 95. Далее этим названием стал пользоваться и сервис электронной почты Hotmail, а также различные веб-узлы Майкрософт. В начале 2002 года он являлся одним из самых крупных интернет – провайдеров в США и имел 9 миллионов подписчиков.

Поисковая система Rambler

Вторым крупным российским поисковиком, является интернет – портал «Rambler». По своей сути, вместе с «Яндекс» он является родоначальником рунета, а также главным игроком на рынке медиа услуг.

Основателем его является Сергей Лысаков, который в 1994 году разработала поисковую систему, а в 1996 году был зарегистрирован и домен www.rambler.ru. Начиная с 2012 года, «Рамблер» стал работать, как новостной портал.

Сегодня он имеет 11 место по популярности среди других сайтов РФ. Также, был разработан и специальный классификатор Rambler Top-100. По своей сути он был первый и в России. Сегодня – это удобный каталог объектов недвижимости «Rambler – недвижимость».

Поисковик mail

Одной из самых крупных почтовых служб явилась, созданная в 1998 году, Mail.ru. Сегодня она представляет собой службу электронной почты, каталог интернет – ресурсов и информационные разделы. Помимо очень удобной почты, она имеет ряд специальных проектов, которые весьма популярны и нужны подписчикам: «Авто Mail.ru», Афиша «Mail.ru», «Дети mail.ru», «Здоровье mail.ru», «Леди mail.ru», «Новости mail.ru» и «Недвижимость mail.ru».

Для любителей спорта и Hi-Tech есть соответствующие рубрики.

На этом я завершаю свой материал. Если вам нравилось, то, пожалуйста, подписывайтесь на мой блог и приглашайте своих родных, друзей и знакомых.

(Пока оценок нет)

Прочитано: 469 раз