Содержательный подход к измерению информации
Существует три подхода к измерению информации: алфавитный, содержательный и вероятностный. Раскроем основные аспекты второго подхода, основанного на теории информации.
Согласно данной теории,
Информация
– это снятая неопределенность знания человека об исходе какого-то события.
Разберемся с каждым словосочетанием данного определения.
Рассмотрим две ситуации.
Ситуация 1.
Ваш друг подбросил монетку, и вы спрашиваете у него «Выпал орел или решка?». Он ответил: «Орел».
В данной ситуации неопределенность знания равна двум ответам: орел, решка.
Ситуация 2.
Теперь друг кидает игральный кубик. Когда кубик остановился, вы узнали, что выпала грань с пятью точками.
В этом случае неопределенность знания равна шести вариантам по каждой грани игрального кубика (1, 2, 3, 4, 5 и 6).
Сущность содержательного подхода
В отличие от алфавитного подхода (в котором содержание информации не имеет значение), содержательный подход опирается на определение информации как содержание сообщения и заключается в следующем:
Сообщение, которое информирует об исходе какого-либо события, снимает неопределенность знания человека об этом событии.
При это чем больше неопределённость знания в начале, тем больше информации несет сообщение, которое снимает неопределенность.
Возвращаемся к нашим ситуациям.
Сообщение о выпадении орла в первой ситуации несет меньшее количество информации, чем во второй ситуации с игральным кубиком, так как неопределенность знания об исходе выпадения монетки меньше, чем неопределенность знания об исходе выпадения игрального кубика (2 < 6).
Единица измерения информации
Сообщение, сокращающее в два раза неопределенность знания об исходе какого-либо события, имеет 1 бит информации.
Рассмотрим еще одну ситуацию, чем монетка и игральный кубик.
Пример.
Вы впервые идете в гости к вашему другу. Подходя к 16-этажному дому, вы позвонили товарищу, чтобы узнать, на какой этаж подняться. Но он предложил угадать этаж, задав наименьшее количество вопросов, при этом ответ может быть либо «да», либо «нет».
Ваш первый вопрос:
– Этаж выше 8?
– Этаж выше 12?
– Этаж выше 10?
– Это 12 этаж?
– Получается, ты живешь на 11 этаже.
Таким образом, информация о том, что ваш друг живет на 12 этаже несет 4 бита информации.
В алфавитном подходе к измерению информации используется формула:
где N – мощность алфавита, а i – информационный вес одного символа алфавита.
Для содержательного подхода эта формула тоже имеет место, если все символы алфавита появляются в тексте равновероятно, то есть с одинаковой частотой. Тогда информационный вес i равен количеству информации в сообщении о появлении любого символа в тексте, а N – это неопределенность знания о том, какой именно символ алфавита должен стоять в данной позиции.
Получаем i = 3 бита.
Для измерения количества информации, когда N не является степенью двойки, применяем формулу Ральфа Хартли, основоположника теории информации, который предложил формулу:
где i – количество информации, содержащееся в сообщении об одном из N равновероятных исходов события.
В математике данная функция называется логарифмом.
В случаях, когда N не является степенью двойки, задачу можно решать с помощью инженерного калькулятора или табличного процессора Microsoft Excel, где есть встроенная функция логарифма.
Теоретически содержательный подход к определению количества информации может давать дробный результат, но если говорить про физическую сторону работы компьютера, то нецелое значение всегда нужно округлять до целого в большую сторону.
Информация — это знания, которые получает человек.
С позиции содержательного подхода сообщение, которое информирует об исходе некоторого события, снимает неопределённость знания человека об этом событии.
Сообщение несёт больше информации, в случае если изначально была большая неопределённость знания.
— это количество возможных вариаций ответа на поставленный вопрос.
Подбрасывая монету, мы не знаем, что выпадет: «орёл» или «решка» — это равновероятные события. После броска нам известен исход события — имеем полную определённость. Неопределённость знания уменьшается в \(2\) раза.
— это снятая неопределённость знания человека об исходе некоторого события (Клод Шеннон).
Сообщение, которое уменьшает неопределённость знания в \(2\) раза, несёт \(1\) информации.
«» информатики:
2
i
=
N
, где \(N\) — неопределённость знания (количество возможных исходов какого-то события); \(i\) — количество информации в сообщении об одном из \(N\) исходов.
Следовательно, для нахождения количества информации \(i\), которое содержится в сообщении об одном из \(N\) равновероятных исходов какого-то события, нужно воспользоваться формулой:
i
=
log
2
N
1) в доме \(16\) этажей, на каждом этаже по \(4\) квартиры. Какое количество информации несёт сообщение о том, что Игорь живёт на \(7\)-м этаже в квартире № \(27\)?
всего в доме
16
·
4
\(=\) квартиры, т. е. \(N\) \(=\) .
i
=
log
2
N
log
2
64
Ответ: \(6\) бит.
2) Загадали некоторое целое число в определённом диапазоне. Угадывая эта число, получили \(7\) бит информации. Сколько чисел содержит диапазон?
2
i
=
N
, значит, \(N\)\(=\)
2
7
Информатика, 10 класс. Урок № 2.
Тема
— Подходы к измерению информации
Перечень вопросов
, рассматриваемых в теме: Информация как снятая неопределенность. Содержательный подход к измерению информации.
Информация как последовательность символов некоторого алфавита. Алфавитный подход к измерению информации. Единицы измерения информации. Понятие больших данных
Глоссарий по теме
: Информатика, информация, свойства информации (объективность, достоверность, полнота, актуальность, понятность, релевантность), виды информации, информационные процессы, информационная культура, информационная грамотность.
Основная литература по теме урока:
Л. Л. Босова, А. Ю. Босова. Информатика. Базовый уровень: учебник для 10 класса — М.: БИНОМ. Лаборатория знаний, 2017
Дополнительная литература по теме урока:
И. Г. Семакин, Т. Ю. Шеина, Л. В. Шестакова. Информатика и ИКТ. Профильный уровень: учебник для 10 класса — М.: БИНОМ. Лаборатория знаний, 2012
Теоретический материал для самостоятельного изучения
:
Давайте составим план, что бы мы хотели сделать с имеющейся у нас информацией.
Хранить? — возможно.
Передавать — скорее всего, а может быть даже и продавать.
Обрабатывать и получать новую — вполне возможно!
Во всех трех случаях, которые называют основными информационными процессами
, нам нужно информацию измерять.
В случае хранения, чтобы быть уверенными, что объем хранилища и объем нашей информации соответствуют друг другу, в передаче или продаже — чтобы объем продажи соответствовал цене, в случае обработки, чтобы рассчитать время, за которое этот объем может быть обработан.
Во всех трех случаях мы говорим о соответствиях объемов, но если нам известно как вычислить объем хранилища в м 3
, количество денег в рублях или иной валюте, время, то с вычислением объема информации нужно разбираться
Целью
нашего урока будет определить способы измерения информации и сравнить их.
Для этого нужно будет определить:
— от чего зависит объем информации,
— какими единицами ее измерять.
Выявлять различия в подходах к измерению информации.
Применять различные подходы для измерения количества информации.
Переходить от одних единиц измерения информации к другим.
Предположим, что объем информации зависит от ее содержания. Нам нужна информация, которая для нас нова и понятна, соответствует всем свойствам информации, то есть та, которая приносит нам новые знания, решает наши вопросы.
Тут минимальным количеством информации будет ответ «да» или «нет». Ответ на такой простой вопрос принесет нам минимум информации и уменьшит неопределенность в два раза. Было два варианта, мы выбрали один и получили минимум информации — 1 бит.
Этот подход к измерению предложил К. Шеннон.
Информация (по Шеннону) — это снятая неопределённость. Величина неопределённости некоторого события — это количество возможных результатов (исходов) данного события. Сообщение, уменьшающее неопределённость знания в 2 раза, несёт 1 бит информации. Количество информации (i), содержащееся в сообщении об одном из N равновероятных результатов некоторого события, определяется из решения уравнения: 2i = N. Такой подход к измерению информации называют содержательным.
Разумно так же предположить, что текст, который для вас не понятен, понятен кому-то другому, то есть информация в нем все-таки есть. А ее объем зависит не от содержания текста, а от символов, которыми он написан. Назовем алфавитом все множество символов, используемых в языке, а их количество — мощностью алфавита.
Каждый символ, выбранный из алфавита, несет количество информации (i), вычисленное по формуле,

где N мощность алфавита.
Общее количество информации (I)
во всем тексте можно посчитать по простой математической модели:

где k — количество символов в тексте.
Такой подход к измерению информации называют алфавитным. Здесь объем информации зависит от используемого алфавита и количества символов в тексте.
Этот подход к измерению информации предложил советский ученый-математик А. Н. Колмогоров.
Бит — мельчайшая единица информации. Для кодировки каждого из 256 символов, сведенных в таблицу кодировки ASCII, требуется 8 бит. Эта величина получила отдельное название — байт. Помимо бита и байта существуют более крупные единицы. Традиционно они получили приставки Кило, Мега, Гига и т. д.
Но Кило в единицах измерения информации обозначает не 10 3
=1000, а 2 10
=1024. Это недоразумение решается с конца XX века. Международная электротехническая комиссия предложила приставки «киби-, меби-, гиби-», которые лучше отражают смысл кратности степеням двойки.

Переводить единицы измерения информации можно при помощи удобной схемы
Определив подходы и единицы измерения, перейдем к оценкам. Сколько информации содержит книга? Библиотека? Видеоролик? Много? Это конечно, можно посчитать по уже известным нам простым формулам, а вот оценить «много» или «мало» не удастся, потому что это не количественные категории.
Сегодня существует понятие «большие данные». Так называют социально-экономический феномен, связанный с появлением технологических возможностей анализировать огромные массивы данных. Эти технологические возможности стремительно развиваются и уже позволяют компьютерам узнавать нас на фото, советуют нам какую музыку слушать и какие книги читать. Такси безошибочно находит нас в большом городе и проходит тестирование беспилотный транспорт.
Объемы данных, которыми оперирует человечество, исчисляется единицами зеттабайт, это единицы и 61 «0», к 2020 году по прогнозам это будет 40—44 зеттабайтов, а 2025 возрастет в 10 раз. Данные станут жизненно-важным активом, а их безопасность — критически важным вопросом.
Информацию можно измерять. Для этого существуют разные подходы, содержательный подход, алфавитный подход.
Суть содержательного подхода в том, что при определении объема информации учитывается содержание информации. Она должна быть новой и понятной получателю.
Суть алфавитного подхода в определении количества информации в зависимости от алфавита, которым она записана. А объем подсчитывается по формуле

где — объем информации,
— количество символов в сообщении,
— количество информации о каждом символе.
Для измерения количества информации в объеме данных используются единицы измерения информации.
Обработка данных важна для всех сфер жизни. Технологии обработки данных стремительно развиваются и становятся жизненно-важными.