Статья опубликована в рамках: XX Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 15 мая 2014 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
- Условия публикаций
- Все статьи конференции
дипломов
ПРОБЛЕМА СИНТЕЗА ИНФОРМАЦИОННОЙ СТРУКТУРЫ ТЕРРИТОРИАЛЬНО РАСПРЕДЕЛЁННЫХ БАЗ ДАННЫХ
Мухомедзянова Камиля Хаджимуратовна
магистрант, факультет информационных технологий, кафедра «Информатики и математики», КГУ им. А. Байтурсынова, Республика Казахстан, г. Костанай
E-mail: info_kami@mail.ru
Кудубаева Сауле Альжановна
научный руководитель, канд. техн. наук, доцент, зав.кафедрой «Информатики и математики», КГУ им. А. Байтурсынова, Республика Казахстан, г. Костанай
Анализ информационных проблем проектирования РБД и их логических взаимосвязей дает основание для выделения следующих основных этапов в процессе синтеза оптимальной информационной структуры [1, 2].
1-й этап. Структурно-функциональный и информационный анализ системы.
На этом этапе проводится анализ целей, задач, функций системы [3]. Определяются основные массивы информации, необходимой для реализации задач и функций системы. Производится оценка объемов информации. Определяются основные потребители и источники информации, и проводится анализ направлений и интенсивности основных потоков информации.
2-й этап. Выбор критерия синтеза оптимальной информационной структуры.
На этом этапе определяются основные проектируемые параметры и выявляются главные факторы, влияющие на эти параметры. Далее проводится исследование функциональных зависимостей между проектируемыми и задаваемыми параметрами и формируется критериальная функция.
3-й этап. Выбор общей информационной структуры. На этом этапе проводятся выбор некоторых параметров, не вошедших в критериальную функцию, и отбрасывание некоторых вариантов структур, не удовлетворяющих заданным ограничениям и функциональным требованиям. Далее формируются стратегия поиска и обновления информации.
4-й этап. Синтез оптимальной логической структуры базы данных [4]. На этом этапе, на основании уточненных исходных данных, представляемых будущими пользователями системы, производится синтез общей логической структуры базы данных, позволяющей обеспечить обработку запросов пользователей и оптимальной в смысле выбранного ранее критерия. Далее общая логическая структура условно разбивается на блоки заданного размера с целью дальнейшего оперирования с физически реализуемыми единицами информации и понижения размерности задачи размещения информации.
5-й этап. Физическая реализация структуры РБД [5]. На этом этапе определяются оптимальное число узлов хранения информации, их расположение, размещение массивов по узлам, прикрепление пользователей к узлам.
Выбор критерия синтеза оптимальной информационной структуры
Выбор глобального критерия синтеза оптимальной информационной структуры является одним из важнейших вопросов проектирования [6, 7]. Он предопределяет локальные критерии создания отдельных элементов и влияет на показатели эффективности функционирования системы в целом. Поэтому необходимо, чтобы глобальный критерий был по возможности комплексным, то есть включал основные показатели функционирования и не противоречил критерию системы управления, который по своему содержанию является экономическим.
Рассмотрим некоторые основные критерии применительно к созданию РБД [8]. Сравнительный анализ проводится на основании изучения их влияния на параметры, характеризующие эффективность системы с различных точек зрения.
Основными параметрами, характеризующими структуру РБД, являются:
· стоимость хранения системы массивов за определенный период времени;
· стоимость передачи установившихся потоков информации за определенный период времени;
· стоимость обновления системы массивов за определенный период времени;
· стоимость поиска системы массивов при установившемся потоке запросов за определенный период времени;
· быстродействие;
· надежность;
· достоверность хранения и передачи информации;
· суммарный объем хранимой информации;
· суммарные объемы передаваемой информации;
· степень равномерности загрузки системы памяти;
· степень равномерности загрузки каналов связи.
Среди этих параметров есть зависимые, однако, они рассматриваются отдельно из-за их важности.
Рассмотрим некоторые возможные критерии синтеза оптимальной информационной структуры РБД.
Минимизация потоков информации является в настоящее время одной из основных проблем проектирования любой системы управления и обработки информации. Минимизация суммарных потоков информации приводит в основном к уменьшению затрат на передачу информации. Однако этот критерий не учитывает стоимости хранения информации. Очевидно, что при допущении дублирования информации этот критерий не может быть хорошим измерителем эффективности проектируемой системы хранения и обработки информации, так как приводит в пределе к максимальной децентрализации размещения информации, увеличению стоимости хранения и обновления информации. Процесс обновления информации при этом очень затрудняется из-за наличия большого числа дублирующих массивов. Однако, децентрализация размещения информации повышает надежность системы, но при этом ухудшается общее быстродействие системы в результате увеличения объемов хранимой информации.
Уменьшение объемов хранимой информации уменьшает непериодические затраты на хранение и обновление информации, увеличивает быстродействие поиска информации. Однако это приводит к увеличению объемов передаваемой информации, общего времени и стоимости поиска информации из-за необходимости обращения к нескольким узлам хранения информации и тем самым к увеличению общей стоимости системы. Степень централизации возрастает, что ухудшает надежность системы [9].
При наличии дублирующих массивов и большой их изменчивости потоки обновления информации в территориально распределенной системе становятся весьма значительными, а иногда даже превалируют над остальными потоками.
Использование при создании РБД критерия минимизации стоимости обновления информации приводит к децентрализации размещения информации по источникам и к сокращению числа дублирующих массивов. Следствием этого является уменьшение объемов и стоимости хранимой информации, но увеличение потоков использования информации, то есть увеличение стоимости передачи информации. Общее быстродействие системы падает из-за излишней децентрализации информации. Надежность системы повышается.
Обычно под быстродействием имеют в виду среднее время ответа на запрос пользователя, в которое включаются время передачи запроса в «ближайший» узел хранения информации, время поиска данных и формирования ответа, время передачи ответа пользователю. Очевидно, что критерий максимального быстродействия приводит к чрезмерному ужесточению требований к быстродействию ЭВМ, среднему времени доступа запоминающих устройств, скорости передачи данных и т. д. Это удорожает систему. Однако быстродействие в экономических системах управления, как правило, не является главным и предопределяющим фактором. Необходимое быстродействие можно обеспечить наложением ограничений на выбор средств и методов передачи, хранения и организации информации.
Надежность комплекса РБД зависит от надежности, прежде всего, технических средств. Увеличение надежности комплекса приводит к децентрализации его, введению структурной избыточности и увеличению степени дублирования информации. Поэтому повышение степени надежности связано со значительными дополнительными затратами. Заданную надежность можно обеспечить выбором соответствующей общей структуры комплекса, определением степени централизации информации и степени дублирования. Однако, принимать надежность в качестве главного критерия синтеза нецелесообразно, так как при этом практически ухудшаются все экономические характеристики системы.
Поэтому обычно надежность задается как ограничение при проектировании систем по другим критериям.
Рассмотренные выше критерии влияют существенным образом на основные параметры, характеризующие эффективность системы. Однако, ни один из этих критериев в отдельности не может быть принят в качестве глобального критерия синтеза оптимальной структуры, так как они, улучшая отдельные параметры, существенно ухудшают другие, то есть ни один из них не является комплексным. Наиболее рациональным и измеримым критерием экономического характера является следующий комплексный критерий: минимум стоимости хранения, обновления и передачи информации за определенный период с учетом дублирования информации. Этот критерий учитывает основные рассмотренные выше критерии. В общем случае данный критерий можно представить как функцию С следующих основных параметров:
C=F(Сn, Cxq, Csq, Coq, Lj, t, kj, Voj,Vuq Т) (1)
где: Сn — стоимость передачи единицы информации;
Cxq — стоимость хранения единицы информации в единицу времени;
Csq — стоимость поиска единицы информации;
Coq — стоимость обновления единицы информации;
Lj — объем массива (элемента базы данных j=l,..., t);
Loj — средний объем информации массива (элемента базы данных)], обновляемой за одно обращение;
t — число массивов (элементов базы данных);
kj — число хранимых дублей (копий) массива j;
Voj — средняя интенсивность потока обновления для массива (элемента базы данных) j за время Т;
Vuq — средняя интенсивность потока использования данных массива (элемента базы данных) j за время Т;
Т — рассматриваемый период времени.
Стоимость передачи единицы информации зависит от следующих основных параметров:
Cn=f(r,S,g,Vn,t), (2)
где: S — расстояние между пунктами передачи информации;
г — метод передачи информации;
g — скорость передачи информации;
Vn — объем передаваемой информации;
t — время начала передачи.
Для большинства методов передачи информации зависимость (2) нелинейная.
Однако, ступенчатый характер этих зависимостей и достаточно большая ширина «ступени» позволяет в ряде случаев допустить Cn=const для рассматриваемого диапазона расстояний. Зависимость стоимости от времени начала сеанса передачи для некоторых способов передачи обусловлена неравномерной загрузкой системы связи. По-видимому, эту зависимость следует рассматривать не как объективную оценку стоимости передачи, а как метод или средство, направленное для выравнивания загрузки систем связи по времени. Однако, эта зависимость может быть также усреднена по времени, поэтому в дальнейшем она не учитывается. Будем полагать, что для каждого способа передачи существует некоторая скорость передачи, оптимальная для данного способа, на которой производится передача подавляющего объема сообщений.
Таким образом, в первом приближении можно считать, что
Cn=f(r,S), (3)
и для фиксированного метода передачи r
Cnr=f(X,Y)=f(S), (4)
где: X, Y — относительные координаты.
Обычно известна арендная (абонентская) плата Аr за использование r-го метода передачи информации в течение времени Т. Тогда
Cnr=Ar/gcpT , (5)
где: gcp — средняя скорость передачи информации за период Т.
Далее предполагается, что стоимость передачи информации прямо пропорциональна объёмам передаваемой информации.
В общем случае стоимость хранения единицы информации в единицу времени Cxq является функцией следующих основных параметров:
Cxq=(aAq + Cq)/Vx , (6)
где: Kq — капитальные вложения на систему накопителей;
q — тип ЭВМ, на которой предполагается реализация системы;
а — нормативный коэффициент окупаемости капитальных затрат;
Cq — эксплуатационные расходы за период Т на поддержание системы накопителей;
Vx — суммарный объем хранимой информации.
В свою очередь, Kq зависит от затрат на приобретение накопителей, их установку, затрат на строительство и оборудование помещений и других однократных затрат;
Эксплуатационные расходы Cq являются периодическими затратами за время Т и зависят от коэффициента амортизационных отчислений, суммы капитальных вложений, абонентской платы за электроэнергию, теплоснабжение, зарплаты персонала, обслуживающего оборудование и служебные помещения, стоимости расхода носителей информации и других материалов.
Таким образом, Cxq включает как непериодические, так и периодические составляющие, которые зависят, в свою очередь, от координат. Однако, даже на одном предприятии стоимость строительства зданий зависит от районов, участка, так как различаются условия подготовки строительства, подвода коммуникаций.
Затраты Cxq зависят и от времени, так как со временем меняются цены на оборудование, работы и услуги. Однако, в дальнейшем зависимость от времени не учитывается, а принимается, что Cxq= f(X,Y). Предполагается также, что стоимость хранения информации прямо пропорциональна ее объему. Точные вычисления Cxq по формуле (6) могут быть затруднительными. Однако почти всегда можно оценить Cxq, если известна Aq — средняя плата за эксплуатацию ЭВМ типа q с рассматриваемым комплектом накопителей за время Т.
Тогда Cxq можно оценить следующим образом:
Cxq=KH+Aq/Vx (7)
где: КH — относительный коэффициент стоимости накопителей к стоимости ЭВМ.
Стоимость поиска единицы информации Csq зависит от среднего времени занятия процессора при поиске единицы информации и от типа базовой ЭВМ q.
Стоимость обновления единицы информации в Coq зависит в основном от времени занятия процессора при обменах с целью обновления единицы информации.
Таким образом, рассмотренный критерий влияет на основные параметры, характеризующие эффективность системы, а его составляющие, как было показано выше, достаточно просто измерить. Причем важно, что он учитывает как периодические, так и непериодические затраты.
Несмотря на комплексность выбранного критерия, он не учитывает ряд параметров, характеризующих эффективность системы, таких как быстродействие, надежность, степень типизации и унификации элементов и ряд других.
Формирование комплексного критерия, учитывающего все параметры, невозможно, да и нецелесообразно из-за чрезмерной сложности получаемых при этом моделей синтеза и трудностей реализации алгоритмов их решения на современных вычислительных средствах.
Список литературы:
- Берзтисс А.Т., Моделирование и автоматизация проектирования структур баз данных. М.: Радио и связь, 1984. — 154 с.
- Кини Р.Л. Райфа X. Применение решений при многих критериях: предпочтения и замещения. М.: Радио и связь, 1981. — 258 с.
- Кульба В.В., Косяченко С.А., Ужастов И.А Задачи проектирования распределенных баз данных М.: НИИТЭХИМ, 1985. — 190 с.
- Мамиконов А.Г. Методы разработки автоматизированных систем управления. М.: Энергия, 1973. — 335 с: ил.
- Мамиконов А.Г., Ашимов А.А., Кульба В.В. Анализ информационных потоков и построение канонической структуры базы данных. Алма-Ата: КазНИИНТИ, 1984. — 174 С.
- Мамиконов А.Г., Ашимов А.А., Кульба В.В. Формализованные методы предпроектного анализа структуры информационных потоков при разработке информационных систем общего назначения // Анализ и синтез оптимальных модульных систем обработки данных. М.: Ин-т проблем управления, 1984. — С. 5—14.
- Мамиконов А.Г., Ашимов А.А., Кульба В.В. Формализованные модели и методы анализа и синтеза оптимальных структур баз данных. М.: Ин-т проблем управления, 1983. — 566 с.
- Михновский С.Д. Вопросы оценки промежуточных этапов проектирования баз данных // Методы и процедуры проектирования схем баз данных. Сб. науч. рудов. Киев: Ин-т кибернетики АН УССР, 1982. — С. 10—14.
- Силин А.В., Воробьев В.И., Ревунков Г.И. Методы и модели проектирования структур территориально распределенных баз данных // Деп. рук. ВИНИТИ Ко 3282-ООВ. — С. 21—25.
- Силин А.В., Силин В.В., Воробьев В.И. Методы и модели проектирования логических структур баз данных // Деп. рук. ВИНИТИ. — 2000. — № 3282-00В. — С. 16—20.
- Советов Б.Я. Автоматизированные системы обработки информации и управления. М.: Высш. шк., 1989. — 128 с: ил.
- Советов Б.Я., Яковлев С.А. Моделирование систем. М.: Высш. шк., 1985. — 271 с: ил.
- Ужастов И.А. Автоматизация этапов анализа и синтеза структур распределенных баз данных. М.: Радио и связь, 1984. — 335 с.
- Ужастов И.А., Петрова В.Е. Синтез оптимальных логических структур распределенных баз данных // Методы оптимизации сложных систем. М.: Наука, 1987. — С. 140—144.
- Шенброт И.М., Алиев В.М. Проектирование вычислительных систем распределенных АСУ ТП. М.: Энергоатомиздат, 1989. — 88 с: ил.
дипломов
Оставить комментарий