Сайт о телевидении

Сайт о телевидении

» » Меры информации семантического уровня. Семантическая мера информации. Синтаксическая мера информации

Меры информации семантического уровня. Семантическая мера информации. Синтаксическая мера информации

Тема 2. Основы представления и обработки информации в компьютере

Литература

1. Информатика в экономике: Учебное пособие/Под ред. Б.Е. Одинцова, А.Н. Романова. – М.: Вузовский учебник, 2008.

2. Информатика: Базовый курс: Учебное пособие/Под ред. С.В. Симоновича. – СПб.: Питер, 2009.

3. Информатика. Общий курс: Учебник/Соавт.: А.Н. Гуда, М.А. Бутакова, Н.М. Нечитайло, А.В. Чернов; Под общ. ред. В.И. Колесникова. – М.: Дашков и К, 2009.

4. Информатика для экономистов: Учебник/Под ред. Матюшка В.М. - М.: Инфра-М, 2006.

5. Экономическая информатика: Введение в экономический анализ информационных систем.- М.: ИНФРА-М, 2005.

Меры информации (синтаксическая, семантическая, прагматическая)

Для измерения информации могут применяться различные подходы, но наибольшее распространение получили статистический (вероятностный), семантический и прагматический методы.

Статистический (вероятностный) метод измерения информации был разработан К. Шенноном в 1948 году, который предложил количество информации рассматривать как меру неопределенности состояния системы, снимаемой в результате получения информации. Количественно выраженная неопределенность получила название энтропии. Если после получения некоторого сообщения наблюдатель приобрел дополнительную информацию о системе Х, то неопределенность уменьшилась. Дополнительно полученное количество информации определяется как:

где - дополнительное количество информации о системе Х , поступившее в форме сообщения;

Начальная неопределенность (энтропия) системы X ;

Конечная неопределенность (энтропия) системы X, наступившая после получения сообщения.

Если система X может находиться в одном из дискретных состояний, количество которых n , а вероятность нахождения системы в каждом из них равна и сумма вероятностей всех состояний равна единице, то энтропия вычисляется по формуле Шеннона:

где - энтропия системы Х;

а - основание логарифма, определяющее единицу измерения информации;

n – количество состояний (значений), в котором может находится система.

Энтропия величина положительная, а так как вероятности всегда меньше единицы, а их логарифм отрицательный, поэтому знак минус в формуле К.Шеннона делает энтропию положительной. Таким образом, за меру количества информации принимается та же энтропия, но с обратным знаком.

Взаимосвязь информации и энтропии можно понимать следующим образом: получение информации (ее увеличение) одновременно означает уменьшение незнания или информационной неопределенности (энтропии)

Таким образом, статистический подход учитывает вероятность появления сообщений: более информативным считается то сообщение, которое менее вероятно, т.е. менее всего ожидалось. Количество информации достигает максимального значения, если события равновероятны.

Р. Хартли предложил следующую формулу для измерения информации:

I=log2n ,

где n - количество равновероятных событий;

I – мера информации в сообщении о наступлении одного из n событий

Измерение информации выражается в ее объёме. Чаще всего это касается объёма компьютерной памяти и объёма данных, передаваемых по каналам связи. За единицу принято такое количество информации, при котором неопределённость уменьшается в два раза, такая единица информации получила название бит .

Если в качестве основания логарифма в формуле Хартли используется натуральный логарифм (), то единицей измерения информации является нат (1 бит = ln2 ≈ 0,693 нат). Если в качестве основания логарифма используется число 3, то - трит , если 10, то - дит (хартли).

На практике чаще применяется более крупная единица - байт (byte ), равный восьми битам. Такая единица выбрана потому, что с ее помощью можно закодировать любой из 256 символов алфавита клавиатуры компьютера (256=28).

Кроме байтов информация измеряется полусловами (2 байта), словами (4 байта) и двойными словами (8 байт). Широко используются также еще более крупные единицы измерения информации:

1 Килобайт (Кбайт - kilobyte ) = 1024 байт = 210 байт,

1 Мегабайт (Мбайт - megabyte ) = 1024 Кбайт = 220 байт,

1 Гигабайт (Гбайт - gigabyte ) = 1024 Мбайт = 230 байт.

1 Терабайт (Тбайт - terabyte ) = 1024 Гбайт = 240 байт,

1 Петабайт (Пбайт - petabyte ) = 1024 Тбайт = 250 байт.

В 1980 году российский математик Ю. Манин предложил идею построения квантового компьютера, в связи с чем появилась такая единица информации как кубит (quantum bit, qubit) – «квантовый бит» – мера измерения объема памяти в теоретически возможном виде компьютера, использующем квантовые носители, например - спины электронов. Кубит может принимать не два различных значения («0» и «1»), а несколько, соответствующих нормированным комбинациям двух основных состояний спина, что дает большее число возможных сочетаний. Так, 32 кубита могут закодировать около 4 млрд состояний.

Семантический подход. Синтаксической меры не достаточно, если требуется определить не объем данных, а количество нужной в сообщении информации. В этом случае рассматривается семантический аспект, позволяющий определить содержательную сторону сведений.

Для измерения смыслового содержания информации можно воспользоваться тезаурусом ее получателя (потребителя). Идея тезаурусного метода была предложена Н. Винером и развита нашим отечественным ученым А.Ю. Шрейдером.

Тезаурусом называется совокупность сведений , которыми располагает получатель информации. Соотнесение тезауруса с содержанием поступившего сообщения позволяет выяснить, насколько оно снижает неопределенность..

Зависимость объема смысловой информации сообщения от тезауруса получателя

Согласно зависимости, представленной на графике, при отсутствии у пользователя какого-либо тезауруса (знаний о существе поступившего сообщении, то есть =0), или наличия такого тезауруса, который не изменился в результате поступления сообщения (), то объем семантической информации в нем равен нулю. Оптимальным будет такой тезаурус (), при котором объем семантической информации будет максимальным (). Например, семантической информации в поступившем сообщении на незнакомом иностранном языке будет ноль , но и такая же ситуация будет в том случае, если сообщение уже не является новостью, так как пользователю уже все известно.

Прагматическая мера информации определяет ее полезность в достижении потребителем своих целей. Для этого достаточно определить вероятность достижения цели до, и после получения сообщения и сравнить их. Ценность информации (по А.А. Харкевичу) рассчитывается по формуле:

где - вероятность достижения цели до получения сообщения;

Вероятность достижения цели поле получения сообщения;

При реализации информационных процессов всегда происходит перенос информации в пространстве и времени от источника информации к приемнику (получателю). При этом для передачи информации используют различные знаки или символы, например естественного или искусственного (формального) языка, позволяющие выразить ее в некоторой форме, называемой сообщением.

Сообщение – форма представления информации в виде совокупности знаков (символов), используемая для передачи.

Сообщение как совокупность знаков с точки зрения семиотики (от греч. setneion - знак, признак ) – науки, занимающейся исследованием свойств знаков и знаковых систем, - может изучаться на трех уровнях:

1) синтаксическом , где рассматриваются внутренние свойства сообщений, т. е. отношения между знаками, отражающие структуру данной знаковой системы. Внешние свойства изучают на семантическом и прагматическом уровнях. На этом уровне рассматривают проблемы доставки получателю сообщений как совокупности знаков, учитывая при этом тип носителя и способ представления информации, скорость передачи и обработки, размеры кодов представления информации, надежность и точность преобразования этих кодов и т. п., полностью абстрагируясь от смыслового содержания сообщений и их целевого предназначения. На этом уровне информацию, рассматриваемую только с синтаксических позиций, обычно называют данными, так как смысловая сторона при этом не имеет значения.

Современная теория информации исследует в основном проблемы именно этого уровня. Она опирается на понятие «количество информации», являющееся мерой частоты употребления знаков, которая никак не отражает ни смысла, ни важности передаваемых сообщений. В связи с этим иногда говорят, что современная теория информации находится на синтаксическом уровне.

2) семантическом , где анализируются отношения между знаками и обозначаемыми ими предметами, действиями, качествами, т. е. смысловое содержание сообщения, его отношение к источнику информации. Проблемы семантического уровня связаны с формализацией и учетом смысла передаваемой информации, определения степени соответствия образа объекта и самого объекта. На данном уровне анализируются те сведения, которые отражает информация, рассматриваются смысловые связи, формируются понятия и представления, выявляется смысл, содержание информации, осуществляется ее обобщение.

3) прагматическом , где рассматриваются отношения между сообщением и получателем, т. е. потребительское содержание сообщения, его отношение к получателю.

На этом уровне интересуют последствия от получения и использования данной информации потребителем. Проблемы этого уровня связаны с определением ценности и полезности использования информации при выработке потребителем решения для достижения своей цели. Основная сложность здесь состоит в том, что ценность, полезность информации может быть совершенно различной для различных получателей и, кроме того, она зависит от ряда факторов, таких, например, как своевременность ее доставки и использования.


Для каждого из рассмотренных выше уровней проблем передачи информации существуют свои подходы к измерению количества информации и свои меры информации. Различают соответственно меры информации синтаксического уровня, семантического уроня и прагматического уровня.

Меры информации синтаксического уровня. Количественная оценка информации этого уровня не связана с содержательной стороной информации, а оперирует с обезличенной информацией, не выражающей смыслового отношения к объекту. В связи с этим данная мера дает возможность оценки информационных потоков в таких разных по своей природе объектах, как системы связи, вычислительные машины, системы управления, нервная система живого организма и т. п.

Для измерения информации на синтаксическом уровне вводятся два параметра: объем информации (данных) – V д (объемный подход) и количество информации – I (энтропийный подход).

Объем информацииV д (объемный подход). При реализации информационных процессов информация передается в виде сообщения, представляющего собой совокупность символов какого-либо алфавита. При этом каждый новый символ в сообщении увеличивает количество информации, представленной последовательностью символов данного алфавита. Если теперь количество информации, содержащейся в сообщении из одного символа, принять за единицу, то объем информации (данных) V д в любом другом сообщении будет равен количеству символов (разрядов) в этом сообщении. Так как одна и та же информация может быть представлена многими разными способами (с использованием разных алфавитов), то и единица измерения информации (данных) соответственно будет меняться.

Так, в десятичной системе счисления один разряд имеет вес, равный 10, и соответственно единицей измерения информации будет дит (десятичный разряд п п дит. Например, четырехразрядное число 2009 имеет объем данных V д = 4 дит.

В двоичной системе счисления один разряд имеет вес, равный 2, и соответственно единицей измерения информации будет бит (bit (binary digit) – двоичный разряд ). В этом случае сообщение в виде n -разрядного числа имеет объем данных V д = п бит. Например, восьмиразрядный двоичный код 11001011 имеет объем данных V д = 8 бит.

В современной вычислительной технике наряду с минимальной единицей измерения данных бит широко используется укрупненная единица измерения байт , равная 8 бит. Именно восемь битов требуется для того, чтобы закодировать любой из 256 символов алфавита клавиатуры компьютера (256=2 8).

При работе с большими объемами информации для подсчета ее количества применяют более крупные единицы измерения:

1 Килобайт (Кбайт) = 1024 байт = 2 10 байт,

1 Мегабайт (Мбайт) = 1024 Кбайт = 2 20 байт = 1 048 576 байт;

1 Гигабайт (Гбайт) = 1024 Мбайт = 2 30 байт = 1 073 741 824 байт;

В последнее время в связи с увеличением объёмов обрабатываемой информации входят в употребление такие производные единицы, как:

1 Терабайт (Тбайт) = 1024 Гбайт = 2 40 байт = 1 099 511 627 776 байт;

1 Петабайт (Пбайт) = 1024 Тбайт = 2 50 байт = 1 125 899 906 842 624 байт.

Следует обратить внимание, что в системе измерения двоичной (компьютерной) информации, в отличие от метрической системы, единицы с приставками «кило», «мега» и т. д. получаются путем умножения основной единицы не на 10 3 = 1000, 10 6 = 1 000 000 и т. д., а на 2 10 = 1024, 2 20 = 1 048 576 и т. д.

Количество информации I (энтропийный подход). В теории информации и кодирования принят энтропийный подход к измерению информации. Этот подход основан на том, что факт получения информации всегда связан с уменьшением разнообразия или неопределенности (энтропии) системы. Исходя из этого, количество информации в сообщении определяется как мера уменьшения неопределенности состояния данной системы после получения сообщения. Неопределенность может быть интерпретирована в смысле того, насколько мало известно наблюдателю о данной системе. Как только наблюдатель выявил что-нибудь в физической системе, энтропия системы снизилась, так как для наблюдателя система стала более упорядоченной.

Таким образом, при энтропийном подходе под информацией понимается количественная величина исчезнувшей в ходе какого-либо процесса (испытания, измерения и т.д.) неопределенности. При этом в качестве меры неопределенности вводится энтропия Н , а количество информации равно:

I = H apr – H aps

где, H apr – априорная энтропия о состоянии исследуемой системы или процесса;

H aps – апостериорная энтропия.

Апостериори (от лат. a posteriori – из последующего ) – происходящее из опыта (испытания, измерения).

Априори (от лат. a priori – из предшествующего ) – понятие, характеризующее знание, предшествующее опыту (испытанию), и независимое от него.

В случае, когда в ходе испытания имевшаяся неопределенность снята (получен конкретный результат, т. е. Н = 0), количество полученной информации совпадает с первоначальной энтропией

Рассмотрим в качестве исследуемой системы дискретный источник информации (источник дискретных сообщений), под которым будем понимать физическую систему, имеющую конечное множество возможных состояний {а i }, i = .

Все множество А = {a 1 , a 2 , ..., а n } состояний системы в теории информации называют абстрактным алфавитом или алфавитом источника сообщений.

Отдельные состояния a 1 , а 2 ,..., а n называют буквами или символами алфавита.

Такая система может в каждый момент времени случайным образом принять одно из конечных множеств возможных состояний a i . При этом говорят, что различные состояния реализуются вследствие выбора их источником.

Получатель информации (сообщения) имеет определенное представление о возможных наступлениях некоторых событий. Эти представления в общем случае недостоверны и выражаются вероятностями, с которыми он ожидает то или иное событие. Общая мера неопределенности (энтропия) характеризуется некоторой математической зависимостью от этих вероятностей, количество информации в сообщении определяется тем, насколько уменьшается мера неопределенности после получения сообщения.

Поясним эту идею на примере.

Пусть у нас имеется 32 различные карты. Возможность выбора одной карты из колоды – 32. До произведения выбора, естественно предложить, что шансы выбрать некоторую определенную карту, одинаковы для всех карт. Произведя выбор, мы устраняем эту неопределенность. При этом неопределенность можно охарактеризовать количеством возможных равновероятностных выборов. Если теперь определить количество информации как меру устранения неопределенности, то полученную в результате выбора информацию можно охарактеризовать числом 32. Однако удобнее использовать не само это число, а логарифм от полученной выше оценки по основанию 2:

где m – число возможных равновероятных выборов (При m=2, получим информацию в один бит). То есть в нашем случае

H = log 2 32 = 5.

Изложенный подход принадлежит английскому математику Р. Хартли (1928 г.). Он имеет любопытную интерпретацию. Он характеризуется числом вопросов с ответами «да» или «нет», позволяющим определить, какую карту выбрал человек. Таких вопросов достаточно 5.

Если при выборе карты, возможность появления каждой карты не одинаковы (разновероятны), то получим статистический подход к измерению информации, предложенный К. Шенноном (1948 г.). В этом случае мера информации измеряется по формуле:

где p i – вероятность выбора i -го символа алфавита.

Легко заметить, что если вероятности p 1 , ..., p n равны, то каждая из них равна 1/N , и формула Шеннона превращается в формулу Хартли.

Меры информации семантического уровня. Для измерения смыслового содержания информации, т. е. ее количества на семантическом уровне, наибольшее распространение получила тезаурусная мера, которая связывает семантические свойства информации со способностью пользователя принимать поступившее сообщение. Действительно, для понимания и использования полученной информации получатель должен обладать определенным запасом знаний. Полное незнание предмета не позволяет извлечь полезную информацию из принятого сообщения об этом предмете. По мере роста знаний о предмете растет и количество полезной информации, извлекаемой из сообщения.

Если назвать имеющиеся у получателя знания о данном предмете тезаурусом (т. е. неким сводом слов, понятий, названий объектов, связанных смысловыми связями), то количество информации, содержащееся в некотором сообщении, можно оценить степенью изменения индивидуального тезауруса под воздействием данного сообщения.

Тезаурус - совокупность сведений, которыми располагает пользователь или система.

Иными словами, количество семантической информации, извлекаемой получателем из поступающих сообщений, зависит от степени подготовленности его тезауруса для восприятия такой информации.

В зависимости от соотношений между смысловым содержанием информации S и тезаурусом пользователя S p изменяется количество семантической информации I с , воспринимаемой пользователем и включаемой им в дальнейшем в свой тезаурус. Характер такой зависимости показан на рис. 2.1. Рассмотрим два предельных случая, когда количество семантической информации I с равно 0:

а) при S p = 0 пользователь не воспринимает (не понимает) поступающую информацию;

б) при S -> ∞ пользователь «все знает», и поступающая информация ему не нужна.

Рис. 1.2. Зависимость количества семантической информации,

воспринимаемой потребителем, от его тезауруса I c =f(S p)

Максимальное количество семантической информации потребитель приобретает при согласовании ее смыслового содержания S со своим тезаурусом S p (S = S p opt), когда поступающая информация понятна пользователю и несет ему ранее неизвестные (отсутствующие в его тезаурусе) сведения.

Следовательно, количество семантической информации в сообщении, количество новых знаний, получаемых пользователем, является величиной относительной. Одно и то же сообщение может иметь смысловое содержание для компетентного пользователя и быть бессмысленным для пользователя некомпетентного.

При оценке семантического (содержательного) аспекта информации необходимо стремиться к согласованию величин S и Sp.

Относительной мерой количества семантической информации может служить коэффициент содержательности С, который определяется как отношение количества семантической информации к ее объему:

С = I с / V д

Меры информации прагматического уровня. Эта мера определяет полезность информации для достижения пользователем поставленной цели. Эта мера также величина относительная, обусловленная особенностями использования этой информации в той или иной системе.

Одним из первых российских ученых к проблеме оценки информации прагматического уровня обратился А.А. Харкевич, который предложил принять за меру ценности информации количество информации, необходимое для достижения поставленной цели, т. е. рассчитывать приращение вероятности достижения цели. Так, если до получения информации вероятность достижения цели равнялась р 0 , а после ее получения – p 1 то ценность информации определяется как логарифм отношения p 1 /p 0:

I = log 2 p 1 – log 2 р 0 = log 2 (p 1 /p 0)

Таким образом, ценность информации при этом измеряется в единицах информации, в данном случае в битах.

Единицы количества информации, определяемые в рамках вероятностного и объемного подходов, представляют собой разновидности синтаксической меры информации, используемой при наиболее общем подходе, когда предметом рассмотрения является не только информация в узком смысле (например, обрабатываемая компьютером), но все ее виды, включая социальную.

Синтаксическая мера оперирует с обезличенной информацией, не выражающей смыслового отношения к объекту. Объем данных в информационном сообщении измеряется количеством символов (разрядов). В различных системах счисления разряды имеют различный вес, соответственно меняются единицы измерения данных. Примерами могут служить бит, нат, трит, дит. В рамках вероятностного подхода синтаксическая мера количества информации определяется степенью изменения неопределенности состояния системы, в рамках объемного подхода характеризует объем информации.

Семантическая мера используется для характеристики информации с точки зрения ее смысла. Семантический анализ дает возможность раскрыть содержание информации и показать отношения между смысловыми значениями составляющих ее элементов. В сочетании с понятием «тезаурус» семантическая мера называется тезаурусной мерой информации. Тезаурусная мера была предложена Ю.И.Шнейдером и получила широкое распространение. Тезаурус – это совокупность сведений, которыми располагает пользователь или система. Другое определение, не противоречащее первому: тезаурус – полнота систематизированного набора данных о предмете информации. В ходе информационного процесса в зависимости от соотношений между смысловым содержанием информации и тезаурусом пользователя изменяется количество семантической информации, воспринимаемой пользователем и включаемой им в дальнейшем в свой тезаурус. Максимальное количество семантической информации пользователь получает, когда информация ему понятна и несет ранее неизвестные ему (отсутствующие в тезаурусе) сведения. Приобретенное в ходе информационного процесса количество семантической информации является величиной относительной, так как одно и то же сообщение может иметь смысловое содержание для компетентного пользователя и быть бессмысленным (семантический шум) для некомпетентного. Мерой семантической информации может служить коэффициент содержательности, определяемый как отношение количества семантической информации к общему ее объему.

Прагматическая мера характеризует полезность (ценность) информации для достижения пользователем поставленной цели. Эта мера также является относительной величиной, зависящей от конкретных потребностей пользователя и условий протекания информационного процесса. В технической системе прагматические свойства информации определяют возможность улучшения качества функционирования системы.

Формы представления информации в ЭВМ. Системы счисления

В физической основе работы вычислительной техники лежит генерация, обработка и передача электрических сигналов. Электрические сигналы разделяют на аналоговые (непрерывные) и цифровые (дискретные). В вычислительной технике применяют цифровые сигналы. Каждому уровню напряжения (тока) ставят в соответствие определённую цифру. Соотнесение параметров электрического сигнала с цифрами отражает связь между техникой и математикой. Современные ЭВМ базируются на двоичной системе счисления, в которой имеются только две цифры – 0 и 1. Выбор в пользу этой системы обусловлен тем, что технически реализовать её проще, чем привычную для человека десятичную систему счисления.

Основной элемент электроники ЭВМ – транзистор, работающий в ключевом режиме . В этом режиме транзистор в зависимости от приложенного к нему напряжения реализует по принципу ключа два логических состояния: открыт ‑ закрыт или включён ‑ выключен. Два этих состояния сопоставляют 0 и 1 двоичной системы счисления - тем математическим объектам, с помощью которых кодируется любая информация, обрабатываемая компьютером. На уровне характеристик электрического сигнала «нулю» может, например, соответствовать напряжение минус 5 вольт, а «единице» - плюс 5 вольт. Или – 15 В и + 15 В. Абсолютные значения напряжений, которым сопоставлены логические состояния 0 и 1, для программной обработки информации несущественны и определяются оптимальными условиями функционирования электронных плат. В устройствах хранения данных информационные «нули» и «единицы» могут быть реализованы иначе: например, на магнитном диске состояниям 0 и 1 соответствуют разные направления вектора намагниченности; в накопителях Flash – отсутствие или наличие электрического заряда в данной микроскопической области вещества; в микросхемах ОЗУ – незаряженный или заряженный конденсатор.

Итак, внутреннее представление любой информации в компьютере является двоичным. В программировании также используются восьмеричная и шестнадцатеричная системы счисления. Кроме того, поскольку пользователем компьютера является человек, важна связь упомянутых систем счисления с десятичной.

Система счисления – принятый способ записи чисел – характеризуется количеством цифр, с помощью которых можно выразить любое число. Все системы счисления можно разделить на два класса: позиционные и непозиционные . Позиционные системы счисления – те, в которых вес цифр зависит от их местоположения в записи числа. Количество цифр в позиционной системе называется основанием системы счисления . Ниже в одном блоке собраны важные определения, относящиеся к системам счисления.

Цифры – символы, используемые в записи числа и составляющие некоторый алфавит.

Число – некоторая величина, которая складывается из цифр по определённым правилам.

Система счисления – способ записи чисел с помощью цифр.

Позиционная система счисления – система счисления, в которой вес цифры зависит от ее местоположения в записи.

Разряд – позиция цифры в числе.

Основание – количество цифр, используемых для записи чисел.

В компьютерах используются позиционные системы счисления.

Системы счисления,

получившие наибольшее применение в вычислительной технике

Основание

Система счисления

двоичная

восьмеричная

0, 1, 2, 3, 4, 5, 6, 7

десятичная

0, 1, 2, 3, 4, 5, 6, 7, 8, 9

шестнадцатеричная

0, 1, 2, 3, 4, 5, 6, 7, 8, 9, A, B, C, D, E, F

Примером непозиционной системы счисления является римская. В этой системе используется 7 знаков (I, V, X, L, C, D, M), которые соответствуют следующим величинам: I – 1, V – 5, X – 10, L – 50, C – 100, D – 500, M – 1000. Обычно римскими числами пользуются при нумерации глав в книгах или веков в истории. Недостатком непозиционных систем счисления, исключающим возможность их использования в вычислительной технике, является отсутствие формальных правил записи чисел и, соответственно, невозможность выполнения арифметических действий над ними.

Рассмотрим представление числа в позиционной системе счисления. Начнём с простого примера. Пусть N – целое число. Оно может быть представлено краткой или развёрнутой записью. Краткая запись числа:

N = (a n a n -1 …a 1 a 0) p

Здесь a 0 , a 1 , … , a n -1 , a n – цифры, находящиеся соответственно на нулевой, первой, … , (n-1)-ой, n-ой позициях в записи числа. Нумерация позиций, или разрядов, начинается с нуля и идёт справа налево. 0 – это младший разряд числа, имеющий наименьший вес; n – старший разряд с наибольшим весом. Число p – это основание системы счисления.

Например, в числе N = (6874) 10 цифра 4 представляет нулевой разряд, 7 – первый разряд, 8 – второй разряд, 6 – третий разряд. Вес разрядов увеличивается справа налево, от единиц до тысяч: 4 единицы – 7 десятков – 8 сотен – 6 тысяч . 10 – основание системы счисления – указывает, что это число записано в привычной для человека десятичной системе счисления и читается как шесть тысяч восемьсот семьдесят четыре .

Число N может быть представлено развёрнутой записью:

N = a n p n + a n-1 p n-1 + … + a 1 p 1 + a 0 p 0

Здесь число N выражено в виде суммы, каждое слагаемое которой представляет произведение цифры на основание системы счисления, возведённое в степень, равную номеру позиции (разряду) этой цифры в числе:

цифра  (основание ) номер разряда

Возвращаясь к рассмотренному выше примеру, приведём развёрнутую запись числа N = (6874) 10:

(6874) 10 = 610 3 + 810 2 + 710 1 + 410 0 .

С развёрнутой формой записи числа связан универсальный способ перевода чисел из любой системы счисления в десятичную.

Например, требуется перевести шестнадцатеричное число (E7B) 16 в десятичную систему счисления.

Сначала нумеруем разряды числа – справа налево, от младшего разряда к старшим. Учитываем, что нумерация разрядов начинается с нуля.

Учтём соответствие цифр шестнадцатеричной и десятичной систем счисления: E – 14, B – 11. Тогда

Итак, задача решена: (E7B) 16 = (3707) 10 .

Аналогичным способом выполняется перевод дробных чисел. Цифры, расположенные справа от запятой, соответствуют разрядам с отрицательными номерами.

N = (a n a n-1 …a 1 a 0 ,a -1 a -2 …a -k) p

Рассмотрим перевод дробного восьмеричного числа (725,46) 8 в десятичную систему счисления.

Нумеруем разряды.

Произведём вычисления и получим результат в десятичной системе счисления.

(725,46) 8 = 78 2 + 28 1 + 58 0 + 48 -1 + 68 -2 = 448 + 16 + 5 + 4/8 + 6/64 =

448 + 16 + 5 + 0,5 + 0,09375 = 469,59375

Итак, (725,46) 8 = (469,59375) 10 .

Несколько сложнее выполняется перевод чисел из десятичной в иные системы счисления.

Методика основана на последовательном целочисленном делении с выделением остатков в качестве цифр искомого числа. Исходное число делят на основание системы счисления, в которую осуществляют перевод. Результатом целочисленного деления будет частное, представленное целым числом, и остаток. Этот остаток будет младшим разрядом искомого числа. Полученное на первом шаге частное снова делят на основание требуемой системы счисления, снова получают частное и остаток. Остаток сохраняют в качестве следующего разряда искомого числа. Деление продолжают до тех пор, пока очередное частное не окажется меньше основания требуемой системы счисления. Это частное будет старшим разрядом искомого числа. Из него и остатков, полученных на последнем и предыдущих шагах, формируют искомое число.

Разберём эту методику на примере. Пусть, требуется перевести число (894) 10 в семеричную систему счисления.

894: 7 = 127, остаток 5

127: 7 = 18, остаток 1

18: 7 = 2 , остаток 4

Последнее частное – 2 – меньше основания системы счисления, в которую осуществляется перевод, – 7. Теперь можно записать искомое число: (2415) 7 .

Итак, (894) 10 = (2415) 7 .

Логические основы ЭВМ

Алгебра логики. Логические высказывания

Предшественницей и составной частью алгебры, по правилам которой функционируют цифровые устройства ЭВМ, является алгебра логики. Эта алгебра оперирует логическими высказываниями, содержание которых можно оценить как соответствующее действительности (истина) или несоответствующее действительности (ложь).

Логическое высказывание – это повествовательное предложение, истинность или ложность которого можно оценить.

Примеры истинных высказываний: «вода – это жидкость», «после зимы наступит весна», «число 48 в 8 раз больше числа 6». Примеры ложных высказываний: «река Кама впадает в озеро Байкал», «воробей – это ястреб», «число 2 больше числа 3».

В первом предложении глагол употреблен в повелительном наклонении. Побудительное предложение не может быть логическим высказыванием.

Второе предложение не является логическим высказыванием ввиду абсурдности понятий «площадь отрезка» и «длина куба».

Третье предложение является вопросительным, поэтому оно также не может быть логическим высказыванием.

Логическим высказыванием, причем ложным, является четвертое предложение.

Первое предложение представляет собой логическое высказывание. Оно ложно, так как в реальности ближайшей к Солнцу планетой является Меркурий.

Второе предложение - не повествовательное, а восклицательное, поэтому оно не является логическим высказыванием.

Третье предложение могло бы быть логическим высказыванием, если бы содержащихся в нем сведений было достаточно, чтобы оценить его истинность или ложность. Однако невозможно судить о принадлежности числа X указанному интервалу, так как само это число неизвестно. Поэтому третье предложение также не является логическим высказыванием.

Булева алгебра. Основные логические операции

Логические устройства ЭВМ проектируются на основе математического аппарата булевой алгебры, названной в честь английского математика Джорджа Буля, сформулировавшего ее основные понятия и правила. Это алгебра двоичных переменных, констант и функций, принимающих только два значения – единица (в алгебре логики ей соответствует значение ИСТИНА) и ноль (в алгебре логики – ЛОЖЬ).

Основными операциями булевой алгебры являются инверсия , конъюнкция , дизъюнкция . Их русские названия – соответственно отрицание , логическое умножение , логическое сложение . Иначе - операции НЕ , И , ИЛИ .

Обозначения логических операций булевой алгебры

A и B – логические высказывания.

Для наглядного представления и выполнения логических вычислений используют таблицы истинности.

Ниже приведены таблицы истинности основных логических операций.

Инверсия

Инверсия – функция одного аргумента, которым является логическое высказывание A. Если A ложно, то Ā истинно, и наоборот.

Конъюнкция и дизъюнкция

Конъюнкция и дизъюнкция – функции двух и более аргументов. Их результатом является сложное (составное) логическое высказывание, которое в зависимости от значений аргументов функции принимает значение 1 или 0. Таблица истинности должна включать все возможные комбинации значений аргументов – простых или сложных логических высказываний. Всего таких комбинаций 2 n , где n – число аргументов. В простейшем случае, когда оперируем двумя логическими высказываниями A и B, таблицы истинности выглядят следующим образом.

Конъюнкция Дизъюнкция

Аргументы

Результат

Аргументы

Результат

Для произвольного числа аргументов верны два правила.

1. Если среди аргументов конъюнкции есть хотя бы один, который всегда принимает значение 0 (ЛОЖЬ), то результат конъюнкции вне зависимости от значений других аргументов тоже 0 (ЛОЖЬ).

2. Если среди аргументов дизъюнкции есть хотя бы один, который всегда принимает значение 1 (ИСТИНА), то результат дизъюнкции вне зависимости от значений других аргументов тоже 1 (ИСТИНА).

Приведенные таблицы истинности подтверждают эти правила.

Некоторые высказывания обычного человеческого языка можно сопоставлять логическим функциям. Например, высказывание «Для получения отличной оценки на экзамене требуется как наличие зачета по практике, так и хорошее знание теоретического материала» соответствует конъюнкции. Высказывание «Чтобы кожа приобрела загар, надо несколько дней провести на пляже при жарком солнце или несколько раз посетить солярий» представляет дизъюнкцию. Еще пример дизъюнкции: «Чтобы похудеть, надо больше работать физически и меньше есть.» Проиллюстрируем последнее высказывание таблицей истинности.

Высказываниям, представляющим конъюнкцию, обычно соответствуют конструкции «A и B », «как A ,так и B », «A вместе с B »; представляющим дизъюнкцию – «A или B ». Могут быть исключения: пример – разобранное в конце предыдущей страницы предложение.

Конструкциям типа «или A ,или B », «A либо B », «либо A ,либо B » соответствует функция, называемаястрогой дизъюнкцией . Ее отличие от обычной дизъюнкции заключается в том, что она равна 1 только в том случае, когда значения ее аргументов различны. Обозначение строгой дизъюнкции –A  B, другие ее названия –неравнозначность ,исключающее ИЛИ (XORв языках программирования),сложение по модулю 2 . Ниже приведена таблица истинности строгой дизъюнкции.

Строгая дизъюнкция (неравнозначность)

В современной алгебре логики определены еще две основные операции – эквиваленция и импликация .

Эквиваленция (эквивалентность, равнозначность) – это функция, противоположная строгой дизъюнкции. Она принимает значение ИСТИНА тогда, когда все ее аргументы либо истинны, либо ложны. Ее обозначение: A  B.

Эквиваленция (равнозначность)

Импликация – функция двух логических аргументов. Ее обозначение: A  B. Таблица истинности функции «импликация» выглядит следующим образом.

Импликация

Импликация может быть выражена через основные операции булевой алгебры: A  B = A  B.

В языках программирования эквиваленции соответствует функция EQV, импликации – IMP.

Функции «эквиваленция» и «импликация» также могут быть соотнесены с отдельными высказываниями русского языка. Эквиваленции соответствуют высказывания типа: «A эквивалентно B » ; «A тогда и только тогда, когда B » ; «A необходимо и достаточно для B ». Импликации соответствуют конструкции: «Если A , то B » ; «B , если A » ; «B необходимо для A » ; «A достаточно для B » ; «A только тогда, когда B » ; «B тогда, когда A » . Классическим примером импликации является фраза «Если идет дождь, то на небе тучи». Обозначим A = «Идет дождь», B = «На небе тучи» и составим таблицу истинности.

«Дождь не идет, на небе нет туч» - ясный солнечный день,

составное высказывание истинно

«Дождь не идет, на небе тучи» - сухой пасмурный день,

составное высказывание истинно

«Идет дождь, на небе нет туч» - такого не бывает,

составное высказывание ложно

«Дождь идет, на небе тучи» - пасмурный дождливый день,

составное высказывание истинно

Надо подчеркнуть, что формализация высказываний человеческого языка носит весьма ограниченный характер. Большинство фраз и предложений русского языка, как разговорного, так и литературного, вообще не являются высказываниями с точки зрения алгебры логики. Это связано с наличием множества нюансов письма и речи, которые невозможно охватить в рамках формальной логики, с эмоциональной окраской и субъективностью суждений, а также с непреложностью того факта, что в мире гораздо больше относительных истин, чем абсолютных. Поэтому эксперименты с соотнесением операций формальной логики с высказываниями человеческого языка применимы только к однозначно воспринимаемым предложениям, констатирующим самые общие и простые факты.

Итак, базисом современной алгебры логики являются пять основных логических операций: инверсия, конъюнкция, дизъюнкция, импликация, эквиваленция. Все остальные операции могут быть выражены комбинациями трех операций булевой алгебры: инверсии, конъюнкции и дизъюнкции.

При анализе сложных логических высказываний необходимо помнить о приоритете логических операций: при отсутствии скобок сначала выполняется отрицание, далее в порядке убывания приоритета идут конъюнкция, строгая дизъюнкция, дизъюнкция, импликация и в последнюю очередь – эквиваленция. Скобки могут изменить этот порядок.

В цифровой технике широкое распространение получили микросхемы, построенные на логических элементах И-НЕ и ИЛИ-НЕ. Технологически они реализуются наиболее просто. Предпринимались даже попытки построения компьютеров, состоящих только из этих элементов. С ними связаны еще две двоичные алгебры – алгебра Шеффера и алгебра Пирса. Операция И-НЕ носит название «штрих Шеффера», операция ИЛИ-НЕ – «стрелка Пирса». Обозначения: соответственно A  B и A  B. С позиций булевой алгебры обе эти операции составные.

A  B = A  B

A  B = A  B

Таблицы истинности этих функций:

Штрих Шеффера Стрелка Пирса

Аргументы

Результат

Аргументы

Результат

Обозначения в цифровой технике.

Тема 2. Основы представления и обработки информации в компьютере

Литература

1. Информатика в экономике: Учебное пособие/Под ред. Б.Е. Одинцова, А.Н. Романова. – М.: Вузовский учебник, 2008.

2. Информатика: Базовый курс: Учебное пособие/Под ред. С.В. Симоновича. – СПб.: Питер, 2009.

3. Информатика. Общий курс: Учебник/Соавт.:А.Н. Гуда, М.А. Бутакова, Н.М. Нечитайло, А.В. Чернов; Под общ. ред. В.И. Колесникова. – М.: Дашков и К, 2009.

4. Информатика для экономистов: Учебник/Под ред. Матюшка В.М. - М.: Инфра-М, 2006.

5. Экономическая информатика: Введение в экономический анализ информационных систем.- М.: ИНФРА-М, 2005.

Меры информации (синтаксическая, семантическая, прагматическая)

Для измерения информации могут применяться различные подходы, но наибольшее распространение получили статистический (вероятностный), семантический и прагматический методы.

Статистический (вероятностный) метод измерения информации был разработан К. Шенноном в 1948 году, который предложил количество информации рассматривать как меру неопределенности состояния системы, снимаемой в результате получения информации. Количественно выраженная неопределенность получила название энтропии. Если после получения некоторого сообщения наблюдатель приобрел дополнительную информацию о системе Х, то неопределенность уменьшилась. Дополнительно полученное количество информации определяется как:

где - дополнительное количество информации о системе Х , поступившее в форме сообщения;

Начальная неопределенность (энтропия) системы X ;

Конечная неопределенность (энтропия) системы X, наступившая после получения сообщения.

Если система X может находиться в одном из дискретных состояний, количество которых n , а вероятность нахождения системы в каждом из них равна и сумма вероятностей всех состояний равна единице , то энтропия вычисляется по формуле Шеннона:

где - энтропия системы Х;

а - основание логарифма, определяющее единицу измерения информации;

n – количество состояний (значений), в котором может находится система.

Энтропия величина положительная, а так как вероятности всегда меньше единицы, а их логарифм отрицательный, поэтому знак минус в формуле К.Шеннона делает энтропию положительной. Таким образом, за меру количества информации принимается та же энтропия, но с обратным знаком.

Взаимосвязь информации и энтропии можно понимать следующим образом: получение информации (ее увеличение) одновременно означает уменьшение незнания или информационной неопределенности (энтропии)

Таким образом, статистический подход учитывает вероятность появления сообщений: более информативным считается то сообщение, которое менее вероятно, т.е. менее всего ожидалось. Количество информации достигает максимального значения, если события равновероятны.

Р. Хартли предложил следующую формулу для измерения информации:

I=log 2 n ,

где n - количество равновероятных событий;

I – мера информации в сообщении о наступлении одного из n событий

Измерение информации выражается в ее объёме. Чаще всего это касается объёма компьютерной памяти и объёма данных, передаваемых по каналам связи. За единицу принято такое количество информации, при котором неопределённость уменьшается в два раза, такая единица информации получила название бит .

Если в качестве основания логарифма в формуле Хартли используется натуральный логарифм (), то единицей измерения информации является нат (1 бит = ln2 ≈ 0,693 нат). Если в качестве основания логарифма используется число 3, то - трит , если 10, то - дит (хартли).

На практике чаще применяется более крупная единица - байт (byte ), равный восьми битам. Такая единица выбрана потому, что с ее помощью можно закодировать любой из 256 символов алфавита клавиатуры компьютера (256=2 8).

Кроме байтов информация измеряется полусловами (2 байта), словами (4 байта) и двойными словами (8 байт). Широко используются также еще более крупные единицы измерения информации:

1 Килобайт (Кбайт - kilobyte ) = 1024 байт = 2 10 байт,

1 Мегабайт (Мбайт - megabyte ) = 1024 Кбайт = 2 20 байт,

1 Гигабайт (Гбайт - gigabyte ) = 1024 Мбайт = 2 30 байт.

1 Терабайт (Тбайт - terabyte ) = 1024 Гбайт = 2 40 байт,

1 Петабайт (Пбайт - petabyte ) = 1024 Тбайт = 2 50 байт.

В 1980 году российский математик Ю. Манин предложил идею построения квантового компьютера, в связи с чем появилась такая единица информации как кубит (quantum bit, qubit) – «квантовый бит» – мера измерения объема памяти в теоретически возможном виде компьютера, использующем квантовые носители, например - спины электронов. Кубит может принимать не два различных значения ("0" и "1"), а несколько, соответствующих нормированным комбинациям двух основных состояний спина, что дает большее число возможных сочетаний. Так, 32 кубита могут закодировать около 4 млрд состояний.

Семантический подход. Синтаксической меры не достаточно, если требуется определить не объем данных, а количество нужной в сообщении информации. В этом случае рассматривается семантический аспект, позволяющий определить содержательную сторону сведений.

Для измерения смыслового содержания информации можно воспользоваться тезаурусом ее получателя (потребителя). Идея тезаурусного метода была предложена Н. Винером и развита нашим отечественным ученым А.Ю. Шрейдером.

Тезаурусом называется совокупность сведений , которыми располагает получатель информации. Соотнесение тезауруса с содержанием поступившего сообщения позволяет выяснить, насколько оно снижает неопределенность..

Зависимость объема смысловой информации сообщения от тезауруса получателя

Согласно зависимости, представленной на графике, при отсутствии у пользователя какого-либо тезауруса (знаний о существе поступившего сообщении, то есть =0), или наличия такого тезауруса, который не изменился в результате поступления сообщения (), то объем семантической информации в нем равен нулю. Оптимальным будет такой тезаурус (), при котором объем семантической информации будет максимальным (). Например, семантической информации в поступившем сообщении на незнакомом иностранном языке будет ноль , но и такая же ситуация будет в том случае, если сообщение уже не является новостью, так как пользователю уже все известно.

Прагматическая мера информации определяет ее полезность в достижении потребителем своих целей. Для этого достаточно определить вероятность достижения цели до, и после получения сообщения и сравнить их. Ценность информации (по А.А. Харкевичу) рассчитывается по формуле:

где - вероятность достижения цели до получения сообщения;

Вероятность достижения цели поле получения сообщения;

Уровни и структура экономической информации. Синтаксический, семантический и прагматический уровни экономической информации. Структурные элементы экономической информации - реквизиты, показатели, составные единицы информации (СЕИ), документы, массивы и базы данных

Предметом рассмотрения настоящего курса является маркетинговая информация как составная часть экономической информации.

Экономическая информация – это совокупность сведений, характеризующих производственные отношения в обществе. Эти сведения можно фиксировать, хранить, передавать, обрабатывать и использовать в процессах планирования, учета, контроля и анализа экономической системы или процесса.

Экономическая информация включает различные сведения о составе и значениях трудовых, материальных и финансовых ресурсов и состоянии объекта управления на некоторый момент времени. Экономическая информация позволяет получить сведения о деятельности предприятий и организаций через различные экономические показатели. Сведения из любой предметной области обладают рядом характерных свойств.

Отметим особенности экономической информации :

1. Многомерность – большое количество и объем данных, без которых невозможно качественное управление экономическими процессами.

2. Численное отображение - экономическая информация, как правило, отражает производственно-хозяйственную деятельность с помощью системы натуральных и стоимостных показателей. Они выражаются с помощью числовых данных, поэтому при работе с экономической информацией очень широко используются числовые типы данных и методы работы с этими типами.

3. Периодичность – для большинства производственных и хозяйственных процессов характерна циклическая повторяемость составляющих их стадий (месяц, квартал, год), и соответственно характерна повторяемость информации, отражающей на этих стадиях процессы.

4. Графическое и табличное представление экономической информации. Экономические документы имеют чаще всего вид таблиц и графиков, поэтому для обработки экономической информации очень широко используются табличные процессоры.

5. Многообразие источников и потребителей.

Эти особенности экономической информации предопределяют научно-техническую необходимость и экономическую целесообразность использования средств информационных технологий при ее сборе, накоплении, передаче и обработке, что в свою очередь требует от специалистов умения определять структуру и объемы перерабатываемой информации.

В процессе использования в экономических и управленческих системах информация проходит несколько фаз существования :

Ассимилированная информация - представление сообщений в сознании человека, наложенное на систему его понятий и оценок;


Документированная информация - сведения, зафиксированные в знаковой форме на каком-либо физическом носителе;

Передаваемая информация - сведения, рассматриваемые в момент их передачи от источника к приемнику получения. В процессе передачи информация проходит через ряд преобразователей: кодирующие и декодирующие устройства, вычислительные машины, ведущие обработку информации, коммуникационные системы, вычислительные сети и т. п.

Информация представляет собой данные, которые циркулируют между отдельными структурными элементами экономической системы или между самими системами. Выделяют различные уровни рассмотрения информации: синтаксический, семантический и прагматический.

Синтаксический уровень изучает структуру знаков и отношений между ними в информационных сообщениях. На этом уровне анализируется структура символов и знаков в документах, форматах реквизитов, структуре массивов информации и т. п. На синтаксическом уровне используют термин «данные» и объем данных связан с количеством экземпляров документов, числом записей в базе данных и т. п. Полученные входные данные являются основой для обработки информации, получения выходных данных, служащих основой для принятия решения.

Семантический уровень определяет общее смысловое содержание информации, и дает возможность установить взаимосвязи между отдельными элементами информации. Семантикаизучает отношения между знаками и обозначаемыми ими объектами, не касаясь получателя знаков. Она изучает общие закономерности построения любых знаковых систем, рассматриваемых в синтактике. Различают семантику логическую и структурную. Логическая семантика рассматривает знаковые системы как средства выражения смысла, установление зависимости между структурой знакосочетаний и их выразительными возможностями. Структурная семантика - раздел структурной лингвистики, посвященный описанию смысла языковых выражений и операций над ним. Семантический анализ - совокупность операций, служащих для представления смысла текста на естественном языке в виде записи на некотором формализованном семантическом (смысловом) языке. Семантический анализ моделирует процесс понимания текста человеком. Информативность сообщения тем выше, чем более определенной становится состояние системы для получателя информации. На семантическом уровне содержательность информации основана на тезаурусе системы.

Тезаурус (словарь) включает в себя набор основных понятий, терминов, определений, согласованных структур данных логического уровня представления в базах данных и т. п. При этом информативность сообщений во многом зависит от способности получателя расширить свой тезаурус.

Прагматический уровень определяет ценность информации для принятия управленческого решения, для системы управления в целом. Прагматика изучает восприятие осмысленных выражений знаковой системы в соответствии с разрешающими способностями воспринимающего. Теоретическая прагматика рассматривает некоторые гипотезы о свойствах и строении интеллекта, которые формулируются на основе данных нейрофизиологии, экспериментальной психологии, бионики, теории персептронов и т.д. Прикладная прагматика включает в себя исследования, посвященные эмпирическому анализу понимания людьми различных языковых выражений, изучению ритмики и стихосложения, а также разработке информационно-поисковых систем.

Таким образом, выделяют три уровня рассмотрения любого информационного сообщения, три уровня абстрагирования от особенностей конкретных актов обмена информацией. На прагматическом уровне для выявления полезности информации рассматривают все элементы информационного обмена. На семантическом уровне, отвлекаясь от получателя информации, конечной целью изучения является смысловое значение сообщения, его адекватность описываемым объектам. Наиболее узким является синтактический уровень - уровень изучения только самих знаков и соотношений между ними.

Задача экономической информации - давать адекватное описание некоторого состояния рассматриваемой экономической системы или объекта. Поэтому к экономической информации предъявляется ряд требований.

Полнота информации для принятия решений и реализации функций управления. Полнота определяется по отношению к управленческим функциям. Информация может быть неполной по объему и составу сведений. Недостаток информации не позволяет выработать верного управленческого решения.Полнота информации означает ее достаточность для понимания и принятия решений.

Точность и достоверность информации. Данные характеристики определяют степень приближения значения информации к истинному значению. Достоверность отражает вероятностную оценку информации. Существуют определенные уровни точности использовании получаемых данных.

Ценность информации зависит от того, какие задачи решаются с ее помощью.

Актуальность и оперативность. Актуальностьпоказывает степень соответствия реального состояния экономического объекта и состояния информационной системы. Отсутствие своевременных изменений в информации, отражаемой в информационной системе, приводит к нарушению процессов управления. Оперативность определяет скорость внесения в информационную систему изменений информации о состоянии предметной области.Актуальнуюинформацию важно иметь при работе в постоянно изменяющихся условиях.

Воспринимаемость - информация становится ясной и понятной, если она выражена языком, понятным тем объектам, которым она предназначена.