Термин "информация" происходит от латинского слова "informatio", что означает сведения, разъяснения, изложение. Несмотря на широкое распространение этого термина, понятие информации является одним из самых дискуссионных в науке. В настоящее время наука пытается найти общие свойства и закономерности, присущие многогранному понятию информация, но пока это понятие во многом остается интуитивным и получает различные смысловые наполнения в различных отраслях человеческой деятельности:
• в обиходе информацией называют любые данные или сведения, которые кого-либо интересуют. Например, сообщение о каких-либо событиях, о чьей-либо деятельности и т.п. "Информировать" в этом смысле означает "сообщить нечто, неизвестное раньше";
• в технике под информацией понимают сообщения, передаваемые в форме знаков или сигналов;
• в кибернетике под информацией понимает ту часть знаний, которая используется для ориентирования, активного действия, управления, т.е. в целях сохранения, совершенствования, развития системы (Н. Винер).
Клод Шеннон, американский учёный, заложивший основы теории информации — науки, изучающей процессы, связанные с передачей, приёмом, преобразованием и хранением информации, — рассматривает информацию как снятую неопределенность наших знаний о чем-то.
Приведем еще несколько определений:
• Информация — это сведения об объектах и явлениях окружающей среды, их параметрах, свойствах и состоянии, которые уменьшают имеющуюся о них степень неопределенности, неполноты знаний (Н.В. Макарова);
• Информация — это отрицание энтропии (Леон Бриллюэн);
• Информация — это мера сложности структур (Моль);
• Информация — это отраженное разнообразие (Урсул);
• Информация — это содержание процесса отражения (Тузов);
• Информация — это вероятность выбора (Яглом).
Современное научное представление об информации очень точно сформулировал Норберт Винер, "отец" кибернетики. А именно:
Информация — это обозначение содержания, полученного из внешнего мира в процессе нашего приспособления к нему и приспособления к нему наших чувств.
Люди обмениваются информацией в форме сообщений. Сообщение — это форма представления информации в виде речи, текстов, жестов, взглядов, изображений, цифровых данных, графиков, таблиц и т.п.
Одно и то же информационное сообщение (статья в газете, объявление, письмо, телеграмма, справка, рассказ, чертёж, радиопередача и т.п.) может содержать разное количество информации для разных людей — в зависимости от их предшествующих знаний, от уровня понимания этого сообщения и интереса к нему.
Так, сообщение, составленное на японском языке, не несёт никакой новой информации человеку, не знающему этого языка, но может быть высокоинформативным для человека, владеющего японским. Никакой новой информации не содержит и сообщение, изложенное на знакомом языке, если его содержание непонятно или уже известно.
Информация есть характеристика не сообщения, а соотношения между сообщением и его потребителем. Без наличия потребителя, хотя бы потенциального, говорить об информации бессмысленно.
В случаях, когда говорят об автоматизированной работе с информацией посредством каких-либо технических устройств, обычно в первую очередь интересуются не содержанием сообщения, а тем, сколько символов это сообщение содержит.
Применительно к компьютерной обработке данных под информацией понимают некоторую последовательность символических обозначений (букв, цифр, закодированных графических образов и звуков и т.п.), несущую смысловую нагрузку и представленную в понятном компьютеру виде. Каждый новый символ в такой последовательности символов увеличивает информационный объём сообщения.
И еще одно представлении об информации дано в статье Янковского С.Я. «Концепции общей теории информации»
Для того чтобы вывести наиболее общее определение понятия "Информация", выделим такое его свойство, которое с одной стороны было бы присущим любому его конкретному проявлению, и с другой стороны, позволяло бы отличать их от проявлений других понятий. Другими словами мы хотим выделить необходимый и достаточный признак, по которому мы будем определять, относится ли то или иное явление к проявлению понятия "Информации".
Начнем с того, что построим самую простую схему из трех понятий: "Объект", "Среда" и "Взаимодействие". "Объект" – это нечто устойчивое во времени и ограниченное в пространстве интересующее нас как единое целое. "Среда" – это множество всех других потенциальных "Объектов" интересующих нас только с точки зрения их влияния на состоянии выделенного "Объекта" и обратного влияния "Объекта" на их состояния. "Взаимодействие" – это растянутый во времени процесс взаимозависимого изменения параметров состояния "Объекта" и "Среды". Эта схема является замкнутой в том смысле, что "Среда" включает в себя все потенциальные "Объекты" способные влиять на состояние выделенного "Объекта". Далее мы не будем брать в кавычки приведенные понятия.
В природе существует два фундаментальных вида взаимодействия: обмен веществом и энергией. Фундаментальность этих видов взаимодействия заключается в том, что все прочие взаимодействия происходят только через их посредство. Эти виды взаимодействия подчиняются закону сохранения. Сколько вещества и энергии один объект передал другому, столько тот и получил, и наоборот. Потери, происходящие при передаче, не рассматриваются, ибо потери вещества и энергии в замкнутой среде не возможны и то, что называют потерями, является отдельными актами взаимодействия с другими объектами той же среды. Среда замкнута именно в том смысле, что все взаимодействия происходят только внутри ее.
Энергетическое и вещественное взаимодействие объектов является симметричным, т.е. сколько один отдал столько же другой получил. Переходы между веществом и энергией не влияют на общий баланс, поскольку действуют законы сохранения константы их соотношения. Так же не влияет на общий баланс разрушение объекта в результате таких взаимодействий, так как опять же сохраняется сумма констант соотношения вещества и энергии, образовавшихся в результате разрушения частей (новых объектов).
Примем за аксиому, что на основе комбинации фундаментальных взаимодействий, между объектами может происходить взаимодействие более высокого порядка, при котором от одного к другому переходит некоторая субстанция и при этом потери одного не совпадают с приобретением другого. Такое взаимодействие является несимметричным. В предельном случае несимметричного взаимодействия при передаче субстанции между объектами один из них ее приобретает, а другой не теряет. Изменение количества энергии и вещества при этом естественно, будут иметь место, поскольку данный акт взаимодействия имеет в своей основе комбинацию фундаментальных видов взаимодействия обеспечивающих перенос субстанции.
Таким образом, предлагается наиболее общее определение понятия Информации:
Любое взаимодействие между объектами, в процессе которого один приобретает некоторую субстанцию, а другой ее не теряет называется информационным взаимодействием. При этом передаваемая субстанция называется Информацией.
Из этого определения следует два наиболее общих свойства Информации. Первое - Информация не может существовать вне взаимодействия объектов. Второе - Информация не теряется ни одним из них в процессе этого взаимодействия.
Информация может существовать в виде:
• текстов, рисунков, чертежей, фотографий;
• световых или звуковых сигналов;
• радиоволн;
• электрических и нервных импульсов;
• магнитных записей;
• жестов и мимики;
• запахов и вкусовых ощущений;
• хромосом, посредством которых передаются по наследству признаки и свойства организмов и т.д.
Предметы, процессы, явления материального или нематериального свойства, рассматриваемые с точки зрения их информационных свойств, называются информационными объектами.
Измерение количества информации.
Какое количество информации содержится, к примеру, в тексте романа "Война и мир", во фресках Рафаэля или в генетическом коде человека? Ответа на эти вопросы наука не даёт и, по всей вероятности, даст не скоро. А возможно ли объективно измерить количество информации? Важнейшим результатом теории информации является следующий вывод:
В определенных, весьма широких условиях можно пренебречь качественными особенностями информации, выразить её количество числом, а также сравнить количество информации, содержащейся в различных группах данных.
В настоящее время получили распространение подходы к определению понятия "количество информации", основанные на том, что информацию, содержащуюся в сообщении, можно нестрого трактовать в смысле её новизны или, иначе, уменьшения неопределённости наших знаний об объекте. Эти подходы используют математические понятия вероятности и логарифма.
Подходы к определению количества информации. Формулы Хартли и Шеннона.
Американский инженер Р. Хартли в 1928 г. процесс получения информации рассматривал как выбор одного сообщения из конечного наперёд заданного множества из N равновероятных сообщений, а количество информации I, содержащееся в выбранном сообщении, определял как двоичный логарифм N.
Формула Хартли: I = log2N
Допустим, нужно угадать одно число из набора чисел от единицы до ста. По формуле Хартли можно вычислить, какое количество информации для этого требуется: I = log2100 6,644. Таким образом, сообщение о верно угаданном числе содержит количество информации, приблизительно равное 6,644 единицы информации.
Приведем другие примеры равновероятных сообщений:
1. при бросании монеты: "выпала решка", "выпал орел";
2. на странице книги: "количество букв чётное", "количество букв нечётное".
Определим теперь, являются ли равновероятными сообщения "первой выйдет из дверей здания женщина" и "первым выйдет из дверей здания мужчина". Однозначно ответить на этот вопрос нельзя. Все зависит от того, о каком именно здании идет речь. Если это, например, станция метро, то вероятность выйти из дверей первым одинакова для мужчины и женщины, а если это военная казарма, то для мужчины эта вероятность значительно выше, чем для женщины.
Для задач такого рода американский учёный Клод Шеннон предложил в 1948 г. другую формулу определения количества информации, учитывающую возможную неодинаковую вероятность сообщений в наборе.
Формула Шеннона: I = — ( p1log2 p1 + p2 log2 p2 + . . . + pN log2 pN),
где pi — вероятность того, что именно i-е сообщение выделено в наборе из N сообщений.
Легко заметить, что если вероятности p1, ..., pN равны, то каждая из них равна 1 / N, и формула Шеннона превращается в формулу Хартли.
Помимо двух рассмотренных подходов к определению количества информации, существуют и другие. Важно помнить, что любые теоретические результаты применимы лишь к определённому кругу случаев, очерченному первоначальными допущениями.
В качестве единицы информации Клод Шеннон предложил принять один бит (англ. bit — binary digit — двоичная цифра).
Бит в теории информации — количество информации, необходимое для различения двух равновероятных сообщений (типа "орел"—"решка", "чет"—"нечет" и т.п.).
В вычислительной технике битом называют наименьшую "порцию" памяти компьютера, необходимую для хранения одного из двух знаков "0" и "1", используемых для внутримашинного представления данных и команд.
Бит — слишком мелкая единица измерения. На практике чаще применяется более крупная единица — байт, равная восьми битам. Именно восемь битов требуется для того, чтобы закодировать любой из 256 символов алфавита клавиатуры компьютера (256=28).
Широко используются также ещё более крупные производные единицы информации:
• 1 Килобайт (Кбайт) = 1024 байт = 210 байт,
• 1 Мегабайт (Мбайт) = 1024 Кбайт = 220 байт,
• 1 Гигабайт (Гбайт) = 1024 Мбайт = 230 байт.
В последнее время в связи с увеличением объёмов обрабатываемой информации входят в употребление такие производные единицы, как:
• 1 Терабайт (Тбайт) = 1024 Гбайт = 240 байт,
• 1 Петабайт (Пбайт) = 1024 Тбайт = 250 байт.
За единицу информации можно было бы выбрать количество информации, необходимое для различения, например, десяти равновероятных сообщений. Это будет не двоичная (бит), а десятичная (дит) единица информации
Свойства информации:
• достоверность;
• полнота;
• ценность;
• своевременность (актуальность);
• понятность;
• доступность;
• краткость;
• и др.
Информация достоверна, если она отражает истинное положение дел. Недостоверная информация может привести к неправильному пониманию или принятию неправильных решений.
Достоверная информация со временем может стать недостоверной, так как она обладает свойством устаревать, то есть перестаёт отражать истинное положение дел.
Информация полна, если её достаточно для понимания и принятия решений. Как неполная, так и избыточная информация сдерживает принятие решений или может повлечь ошибки.
Точность информации определяется степенью ее близости к реальному состоянию объекта, процесса, явления и т.п.
Ценность информации зависит от того, насколько она важна для решения задачи, а также от того, насколько в дальнейшем она найдёт применение в каких-либо видах деятельности человека.
Только своевременно полученная информация может принести ожидаемую пользу. Одинаково нежелательны как преждевременная подача информации (когда она ещё не может быть усвоена), так и её задержка.
Если ценная и своевременная информация выражена непонятным образом, она может стать бесполезной.
Информация становится понятной, если она выражена языком, на котором говорят те, кому предназначена эта информация.
Информация должна преподноситься в доступной (по уровню восприятия) форме. Поэтому одни и те же вопросы по разному излагаются в школьных учебниках и научных изданиях.
Информацию по одному и тому же вопросу можно изложить кратко (сжато, без несущественных деталей) или пространно (подробно, многословно). Краткость информации необходима в справочниках, энциклопедиях, учебниках, всевозможных инструкциях.
Иногда выделяют около 20 свойств информации
Задание 2. Распознавание образов.
Распознавание образов — раздел кибернетики, развивающий теоретические основы и методы классификации и идентификации предметов, явлений, процессов, сигналов, ситуаций и т. п. объектов, которые характеризуются конечным набором некоторых свойств и признаков. Такие задачи решаются довольно часто, например, при переходе или проезде улицы по сигналам светофора. Распознавание цвета загоревшейся лампы светофора и знание правил дорожного движения позволяет принять правильное решение о том, можно или нельзя переходить улицу в данный момент.
В процессе биологической эволюции многие животные с помощью зрительного и слухового аппарата решили задачи распознавания образов достаточно хорошо. Создание искусственных систем распознавания образов остаётся сложной теоретической и технической проблемой. Необходимость в таком распознавании возникает в самых разных областях — от военного дела и систем безопасности до оцифровки всевозможных аналоговых сигналов.
Примеры задач распознавания образов
• Распознавание букв.
• Распознавание штрих-кодов.
• Распознавание автомобильных номеров.
• Распознавание лиц.
• Распознавание речи.
• Распознавание изображений.
Методы распознавания образов
Для оптического распознавания образов можно применить метод перебора. В этом случае производится сравнение с базой данных, где для каждого вида объектов представлены всевозможные модификации отображения. Например, для оптического распознавания образов можно применить метод перебора вида объекта под различными углами, масштабами, смещениями, деформациями и т. д. Для букв нужно перебирать шрифт, свойства шрифта и т. д. В случае распознавания звуковых образов, соответственно, происходит сравнение с некоторыми известными шаблонами (например, слово, произнесенное несколькими людьми).
Второй подход — производится более глубокий анализ характеристик образа. В случае оптического распознавания это может быть определение различных геометрических характеристик, нахождение контура и исследование его свойств (связность, наличие углов и т. д.). Звуковой образец в этом случае подвергается частотному, амплитудному анализу и т. д.
Еще один подход — использовать искусственные нейронные сети. Этот метод требует либо большого количества примеров задачи распознавания (с правильными ответами), либо специальной структуры нейронной сети, учитывающей специфику данной задачи. Тем не менее, его отличает более высокая эффективность и производительность.
Общая структура системы распознавания и этапы в процессе ее разработки показаны на рисунке.
Задачи распознавания имеют следующие характерные черты.
Это информационные задачи, состоящие из двух этапов:
- преобразование исходных данных к виду, удобному для распознавания;
- собственно распознавание (указание принадлежности объекта определенному классу).
В этих задачах можно вводить понятие аналогии или подобия объектов и формулировать правила, на основании которых объект зачисляется в один и тот же класс или в разные классы.
В этих задачах можно оперировать набором прецедентов-примеров, классификация которых известна и которые в виде формализованных описаний могут быть предъявлены алгоритму распознавания для настройки на задачу в процессе обучения.
Для этих задач трудно строить формальные теории и применять классические математические методы (часто недоступна информация для точной математической модели или выигрыш от использования модели и математических методов несоизмерим с затратами).
Выделяют следующие типы задач распознавания:
- Задача распознавания - отнесение предъявленного объекта по его описанию к одному из заданных классов (обучение с учителем);
- Задача автоматической классификации - разбиение множества объектов, ситуаций, явлений по их описаниям на систему непересекающихся классов (таксономия, кластерный анализ, самообучение);
- Задача выбора информативного набора признаков при распознавании;
- Задача приведения исходных данных к виду, удобному для распознавания;
- Динамическое распознавание и динамическая классификация - задачи 1 и 2 для динамических объектов;
- Задача прогнозирования - суть предыдущий тип, в котором решение должно относиться к некоторому моменту в будущем.
Программы распознавания образов
• CuneiForm
• FineReader
• PenReader
• Readiris
• NI Vision (на основе программного комплекса LabVIEW от National Instruments)
В практической деятельности часто встречаются ситуации, ког¬да необходимо перевести в электронный вид документ, напеча¬танный на бумаге. В этом случае можно просто набрать документ на компьютере, что довольно трудно, либо воспользоваться ска¬нером — устройством, специально предназначенным для пере¬вода документов в электронный вид. Для организации сканиро¬вания изображения помимо непосредственно сканера требуется одна из специальных программ систем оптического распознава¬ния текста.
Системы оптического распознавания текста (Optical Character Recognition — OCR-системы) предназначены для автоматическо¬го ввода печатных документов в компьютер.
Современные программы распознавания текста не только оши¬баются реже, чем живой человек, но и обеспечивают проверку орфографии, автоматическое форматирование текста и массу дру¬гих дополнительных удобств.
Последние годы ведущие позиции на российском рынке «рас¬познавалок» удерживают программы FineReader и CuneiForm. Несмотря на свои замысловатые названия, обе программы отече¬ственного производства вполне хорошего качества. По своим воз¬можностям и сервису они примерно равноценны.
Одной из популярных программ оптического распознавания текстов является программа FineReader, созданная компанией ABBYY Software House.
FineReader позволяет распознавать тек¬сты, набранные практически любыми шрифтами. Особенностью программы FineReader является высокая точность распознавания и малая чувствительность к дефектам печати, что достигается благодаря применению технологии «целостного целенаправленного адаптивного распознавания».
Программа позволяет распознавать с высокой точностью тек¬сты более чем на 175 языках, выводить на печать исходное изо¬бражение и распознанный текст, сохранять отсканированное изо¬бражение в различных форматах, настраивать панели инструмен¬тов программы, а также отвечает требованиям совместимости с новыми операционными системами Microsoft и Macintosh. Версия программы FineReader 6.0 Professional совместима с Windows-2000, -ХР, a FineReader 5.0 Pro for Mac предназначена для владельцев компьютеров Apple Macintosh.
Кроме того, отсканированный файл можно сразу же отправить электронным письмом или загрузить в браузер в виде Web-стра¬нички.
Программа FineReader, начиная с третьей версии, оказалась настолько удачной, что завоевала широкое признание и в России, и за ее пределами. Именно в связи с выходом на мировую арену фирма получила свое новое имя ABBYY, ранее называясь Bit Software.
Программные продукты ABBYY FineReader представлены в настоящее время следующими программами: FineReader Sprint, FineReader 6.0 Professional, FineReader 6.0 Corporate Edition и ABBYY FineReader 5.0 Pro for Mac.
FineReader Sprint поставляется в комплекте со сканерами. Это продукт для тех, кто только начинает работать с системами рас¬познавания OCR. Версия обладает ограниченной функционально¬стью по сравнению с версиями Professional и Corporate Edition.
FineReader 6.0 Corporate Edition разработана с учетом запро¬сов корпоративных клиентов и поддерживает такие функции, как работа в локальной сети, пакетный поиск и индексирование, рас¬познавание штрих-кодов и разбивка изображений. FineReader Scripting Edition позволяет создавать интегрированные решения, обладающие всеми возможностями Corporate Edition.
Интерфейс программы ABBYY FineReader 5.0 Pro for Mac, включая панели управления, пиктограммы и диалоговые окна, создавался непосредственно для Mac OS. Поддержаны все основ¬ные технологии Apple, включая QuickTime, Speech, Drag and Drop и Navigation Services. Продукт разработан компаниями ABBYY Software House и Sound & Vision.Inc.
Для автоматизации ввода платежных документов в банковских системах выпускается программа FineReader Банк, позволяющая значительно повысить эффективность работы. При создании пла¬тежного документа программа генерирует и печатает штрих-код, что позволяет при получении в банке документа и сканировании кода дополнительно идентифицировать данные.
В комплект ABBYY FineReader 6.0 Professional помимо дистри¬бутивного компакт-диска входят руководство пользователя и лицензионный договор. Для установки программы необходим ком¬пьютер, отвечающий следующим требованиям:
• ПК с процессором Pentium 200 или более мощным;
• операционная система Microsoft Windows XP/2000/NT 4.0 (SP6 или выше), Windows ME/98/95 (для работы с локализованным интерфейсом операционная система должна обеспечивать необходимую языковую поддержку);
• размер оперативной памяти для Windows XP/2000 — 64 Мбайт, Windows ME/98/95/NT 4.0 - 32 Мбайт;
• 160 Мбайт свободного места на жестком диске, включая 90 Мбайт для установки системы в минимальной конфигурации и 70 Мбайт для работы системы;
• браузер Microsoft Internet Explorer 5.0 или выше (на компакт-диске находится дистрибутив MS IE 5.5);
- • 100 %-й Twain-совместимый сканер, цифровая камера или факс-модем;
• дисковод для компакт-дисков;
• дисковод 3,5 дюйма или возможность произвести активацию продукта через Интернет, по электронной почте или по телефону.
Комплексное продвижение сайтов - эффективно и доступно.
Оригинальные рецепты блюд: несколько десятков рецептов борща!
Качественный seo копирайтинг для оптимизации по поисковым запросам