Географические данные принадлежат к различным типам: изображения (снимки, карты, рисунки), тексты, координаты, сложные объекты. Набор необходимой географической информации, представление данных в ГИС и их отображение определяются тематикой решаемых задач, составляемых карт, источниками пространственно определенной информации, используемыми техническими и программными средствами перевода данных в цифровую форму, их хранения и картографической визуализации. Рассмотрим принципы построения информационного обеспечения ГИС.
Источники пространственных данных
Совокупность цифровых данных о пространственных объектах образует множество пространственных данных и составляет содержание баз географических данных. Данные, необходимые для создания информационного обеспечения ГИС и входящие в БД, можно подразделить на две группы - первичные и вторичные.
Первичные данные - это данные, которые измерены непосредственно, например, путем выборочного обследования в полевых условиях или путем дистанционного зондирования. При этом "плотность" обследования определяет так называемое разрешение данных. Например, если пространственная выборка осуществляется через 1 км, останутся незафиксированными изменения, размер которых меньше 1 км, хотя выборка должна отражать характеристики, свойственные всем точкам территории. Разрешение данных, получаемых путем дистанционного зондирования, определяется автоматически и зависит от технических характеристик съемки.
К стандартным методам выборочного обследования относятся случайные, систематические (ключевые) и расслоенные (районированные) выборки.
При случайной выборке могут быть с одинаковой вероятностью выбраны любые точки или любые моменты времени, а при систематической выборке придерживаются определенных правил (например, через 1 км), которые, однако, не должны оказывать влияния на результат анализа. При расслоенной выборке эксперт заранее исходит из того, что имеющаяся совокупность состоит из различных подмножеств, проводя выборку по каждому из них, чтобы добиться адекватного отражения всех их параметров. Например, если известно, что на части территории рельеф более расчлененный, она обследуется с большей плотностью, что позволяет дать более точное представление о характере рельефа. Если необходима репрезентативная выборка всей совокупности, то выборки по каждому подмножеству включаются в нее с соответствующими весами.
Вторичные данные получают из уже имеющихся карт, таблиц или других баз данных.
Как и карты, различают данные:
о природных ресурсах и окружающей среде;
экономические и социально-экономические;
географической привязки.
Данные о природных ресурсах и окружающей среде можно подразделить на тематические и топографические.
Большую часть тематических данных получают по тематическим картам, а также аэро- и космическим снимкам. Дешифрирование снимков позволяет создать множество типов тематических карт (а также слоев БД ГИС), например, карт растительности, почвенного покрова, сельскохозяйственных культур, использования земель. Другими источниками таких данных служат, например, метео и экологические наблюдения, мониторинг, лабораторные исследования и т.п.
Источником топографических данных служат топографические съемки и карты. Данные этого типа имеются и в цифровой форме, например, Роскартографией созданы цифровые карты 1:1 000 000 и 1:200 000 масштабов для всей территории России и выборочно - более крупных масштабов.
Данные о природных ресурсах относительно стабильны и не нуждаются в частом обновлении в БД; пространственное разрешение может быть не очень большим.
Экономические и социально-экономические данные. К ним относятся данные о взаимодействии природы и общества, населении, деятельности населения, а также о пространстве и/или структурах, используемых для осуществления этой деятельности. Данные могут быть обобщены по временным интервалам или по социально-экономическим показателям.
Источниками социально-экономических данных служат в основном государственная статистика и административная отчетность (надежные данные, но, как правило, они конфиденциальны, доступ к ним ограничен) и тематические карты. Ведомственная информация может поставляться в цифровой форме на коммерческой основе, однако она часто имеет особый географический охват или специфическое обобщение.
Социально-экономические данные малопригодны для баз данных ГИС, если отсутствует достоверная информация об их пространственном размещении. Пространственная привязка информации позволяет обобщать данные по географическому принципу, например, переходить от данных по отдельным городам к данным о регионе. Социально-экономические данные быстро меняются и устаревают.
Еще один тип данных, появившийся вследствие развития ГИС - это данные географической привязки - географические материалы, представленные в виде базовых карт территориальных единиц и атласов, а также цифровые материалы - файлы границ, данные многоцелевого кадастра, координатные данные, получаемые системами спутникового по-зиционирования.
Вместе с данными нужно получать и так называемые метаданные. Метаданные должны содержать информацию о проекции, географической основе и базовой карте, уровне генерализации, цензе и норме отбора объектов картографирования, дизайне, данные о времени создания или переиздания карты и давать дополнительную информацию о процедурах сбора и компиляции данных, системах кодирования и точности приборов. В метаданных необходимо указывать все примененные способы преобразования данных и их точности. Наличие метаданных позволяет пользователю получить представление о достоверности информации, а их отсутствие часто ведет к неправильной трактовке и ложным представлениям отечности самих данных.
Широкие возможности для получения данных открывают компьютерные сети. В сети Internet: в настоящее время распространяются электронные карты и атласы (туристические, тематические карты и атласы, созданные для презентаций), отсканированные печатные карты и снимки, мультимедийные изображения, динамические карты, например, синоптические.
Снимки и карты могут довводиться в ГИС по мере надобности. В силу ограниченности технических ресурсов данные могут храниться как в цифровом, так и не цифровом виде (традиционные карты, снимки).
Общее представление об информационной обеспеченности территории должна давать информационно-поисковая система, которую целесообразно включить в структуру ГИС.
Анализ общего состава данных - геокодированной информации, необходимого для создания функционирующей ГИС, показывает, что для его определения необходимо ответить на ряд вопросов:
имеется ли возможность сбора, хранения и обновления географической информации?;
каковы ожидаемые объемы данных и каковы их форматы?;
какой объем данных необходимо преобразовать в цифровую форму, сколько времени это замет и сколько будет стоить?;
каковы качество данных, надежность информации?;
какого рода затруднения могут возникнуть при обработке информации?
Проектирование географических баз и банков данных
Выявление географических объектов и явлений и последующий выбор адекватного представления данных о них являются составной частью процесса, именуемого проектированием базы данных.
В ГИС пользователь рассматривает реальный мир через призму тематической базы данных. Измерения и выборки, содержащиеся в базе данных, должны как можно полнее и точнее соответствовать предмету исследования и его основным характеристикам. Представление данных должно учитывать типы их возможных преобразований. К созданию БД ГИС предъявляются высокие требования, связанные с пространственной формой организации и представления данных.
Требования к базе данных. База данных должна быть:
согласованной по времени - хранящиеся в ней количественные данные должны соответствовать определенному времени, быть актуальными;
полной, достаточно подробной для предполагаемого создания ГИС или картографического произведения;
категории данных и их подразделения должны включать все необходимые сведения для осуществления анализа или математико-картографического моделирования исследуемого объекта или явления;
позиционно точной, абсолютно совместимой с другими данными, которые могут добавляться в нее;
достоверной, правильно отражающей характер явлений, для этого необходимо четко определить включенные в нее атрибуты явлений;
легко обновляемой;
доступной для любых пользователей.
Проектирование базы данных. В процессе проектирования БД обычно выделяют три основных уровня: концептуальный, логический и физический.
Концептуальный уровень не зависит от имеющихся аппаратных и программных средств. Для БД ГИС он связан с концептуальной моделью географических данных и включает: описание и определение рассматриваемых объектов; установление способа представления географических объектов в базе данных; выбор базовых типов пространственных объектов - точки, линии, ареалы, ячейки растра; решение вопроса о способе представления размерности и взаимосвязей реального мира в БД (например, следует ли показать здание ареалом или точкой).
Логический уровень определяется имеющимися программными средствами и практически не зависит от технического обеспечения. Он включает разработку логической структуры элементов базы данных в соответствии с системой управления базами данных (СУБД), используемой в программном обеспечении. СУБД представляет собой три взаимосвязанные компоненты: командный язык для выполнения требуемых операций с данными (ввод, вывод, модификация), интерпретирующую систему (или компилятор) для обработки команд и перевода их на язык машины, интерфейс пользователя для формирования запросов к БД (выборки нужных данных).
Наиболее распространенными логическими структурами - моделями БД и их СУБД - являются иерархическая, сетевая, реляционная.
Позиционная и семантическая составляющие данных
Пространственные данные традиционно подразделяются на две взаимосвязанные составляющие - позиционные и непозиционные данные.
Позиционная информация описывает положение географических объектов (или пространственную форму) в координатах двух- и трехмерного пространства - декартовых (x,y,z) или географических.
К непозиционной информации относятся качественная характеристика пространственных объектов (семантика) и статистика; эта информация называется атрибутивной и представляется в виде текстовых или числовых параметров. Она соответствует тематической форме данных или кодированному представлению взаимосвязей объектов (топологии). Почти всегда тип объекта маркируется и опознается по его атрибутивным параметрам (дорога имеет название и идентифицируется по ее классу - грунтовая, шоссе). Обычно атрибутивная информация не имеет пространственного характера, хотя некоторая ее часть может иметь связь с пространственной природой изучаемого объекта; например, площадь, периметр.
В качестве атрибутивной информации часто выступает время (временная форма), которая может отражаться несколькими способами: указанием временного периода существования объектов, соотнесением информации с определенными моментами времени, указанием скорости движения объектов.
Количественные атрибуты создаются в соответствии с номинальными, порядковыми, интервальными или пропорциональными шкалами измерений. Важно знать, какие шкалы измерений использованы для данных, поскольку это определяет характер возможных математических операций с ними.
Кратко составляющие пространственных данных называют геометрией и атрибутами.
Представление точечных, линейных и площадных объектов в базе данных и на цифровой карте
В БД ГИС картографические источники и итоговые карты представляются в виде цифровых карт, каждая из которых является "цифровой моделью карты, созданной путем цифрования картографических источников, фотограмметрической обработки данных дистанционного зондирования, цифровой регистрации данных полевых съемок". Отличие таких карт от традиционных изображений состоит в том, что она, как и БД, недоступна непосредственному восприятию человеком как карта. Поэтому важно знать, как географические объекты представляются в БД и на цифровой карте.
Любая БД состоит из цифровых представлений дискретных объектов. Содержание карты можно хранить в БД в виде цифровой карты, превратив объекты карты в объекты базы данных. Правда, всегда нужно помнить, что многое из показанного на картах умозрительно и не существует в реальном мире: горизонталей в природе не существует, а вот дома и озера - это реальные объекты.
Итак, географические объекты, моделируемые с помощью карты или ГИС, имеют три формы представления:
объект в действительности;
объект, представленный в базе данных (некоторые авторы вводят для таких объектов наименование предмет);
знак, который используется для показа объекта (предмета) на карте или на другом графическом изображении.
Мы будем во всех случаях использовать наименование "объект", поскольку о чем идет речь обычно понятно из контекста.
Предназначенный для отражения в БД или цифровой карте объект - это явление действительности, последнее в ряду подразделения однотипных явлений при выборе "элементарных кирпичиков" для информационного моделирования; например, город можно считать объектом, при его подразделении составные части уже не будут городами, они будут районами, кварталами и т. п.
Объект в БД - это цифровое представление всего реального объекта или его части. Способ цифрового представления объекта зависит от назначения ГИС, масштаба исследования, его задач и других факторов, например, географически город может быть представлен в виде точки, если рассматриваемая территория имеет масштабы материка; если речь идет о базе географических данных области, тот же город может быть представлен ареалом.
Сходные явления, информация о которых хранится в базе данных, определяются как типы объектов - любая группа сходных явлений, которые должны иметь одинаковую форму хранения и представления, например, дороги, реки, высоты, растительность; тем самым обеспечивается основа для формирования общего атрибута явлений. Каждый тип объектов должен быть точно определен, это помогает выявить перекрывающиеся категории данных, вносит ясность в содержание базы данных.
Основные элементы базы данных. Для цифрового представления типов реальных объектов необходимо выбрать подходящую форму объектов, являющихся представителями первых (кодами) в базе пространственных данных. Их классификация может быть основана на представлении пространственной размерности:
точка - объекты, имеющие положение в пространстве, но не имеющие длины (0-мерные);
линия - объекты, имеющие длину, они состоят из двух и более 0-мерных объектов (1-мерные);
полигон - объекты, имеющие длину и ширину, они ограничены, по крайней мере, тремя 1-мерными объектами (отрезками) (2-мерные);
объемная фигура - объекты, имеющие длину, ширину и высоту или глубину, они ограничены, по крайней мере, четырьмя 2-мерными объектами (3-мерные).
Такие объекты хорошо отражают тип пространственной локализации реальных объектов. Они могут быть объединены в классы, например, множество точек для представления множества городов.
Пространственные типы объектов БД могут группироваться в слои, именуемые также покрытиями или темами. Один слой представляет один тип объектов или группу концептуально взаимосвязанных типов объектов. Например, слой может включать только отрезки водотоков, или же водотоки, озера, береговую линию и болота. Возможны самые разные варианты системы слоев, как и модели данных. Некоторые базы пространственных данных создаются путем объединения всех объектов в один слой.
Одни и те же географические явления можно представить в разных масштабах и с разной точностью. Переход от одного представления к другому достаточно сложен, например, переход от мелкого масштаба (1:250 000) к крупному (1:10 000). Поэтому часто встречаются базы данных, содержащие множественные представления одних и тех же явлений. Это неэкономно, но избежать этого пока не удается, ибо соответствующие методы перехода еще недостаточно разработаны.
Объектно-ориентированные и реляционные структуры БД
В преобладающем большинстве ГИС используются реляционные базы данных, поддерживаемые такими СУБД как dBASE , INFO ,ORACLE, INFORMIX и т.п. Такие БД позволяют разработчикам ГИС разделить проблему управления пространственными данными на две части: как представлять геометрию объектов и топологию пространственных объектов (вектор или растр) и как работать с атрибутами этих объектов. Для этого годятся реляционные СУБД, а управляемые ими модели данных иногда называют геореляционными моделями. Основные их преимущества таковы:
нет необходимости хранить атрибуты с пространственными данными, но они всегда могут содержаться где-нибудь в системе или поставляться, например, по сети;
атрибуты могут быть изменены или удалены без изменения пространственной БД;
коммерческие реляционные СУБД стандартны и могут управляться стандартными запросами;
хранение атрибутивных данных в реляционных БД не противоречит основным принципам слоев в ГИС;
атрибуты могут быть привязаны к пространственным единицам и представлены разными способами.
В последнее время, особенно в разработках фирмы ESRI, большое внимание стало уделяться четвертому типу СУБД - объектно-ориентированному (здесь этот термин имеет отношение только к структуре БД и языку программирования, а не объекту как реальности). Ее применение направлено на снижение объемов хранимой информации и времени последовательного поиска в БД. В ГИС такие структуры применяются, когда появляется необходимость управления сложными реальными объектами более разумным способом, чем простыми точками, линиями и полигонами, а также модификации БД при оверлее полигонов.
В объектно-ориентированных БД требуется, чтобы географические данные были определены как совокупности элементов. При этом они характеризуются серией атрибутов и параметров их поведения, которые определяют их пространственные, графические, временные, текстовые/численные размерности. Примерами таких элементов могут служить участок железной дороги и связанное с ним здание вокзала, участок трубопровода с серией ответвлений разного диаметра и т.п. Такая структура позволяет унифицировать хранение геометрии и атрибутов при отображении взаимосвязанных объектов.
Организация и форматы данных
Для хранения цифровых пространственных данных, позиционной и атрибутивной их составляющих в БД применяют различные структуры, которые связаны в основном с векторным или растровым представлениями географических объектов. Способы компьютерной реализации этих представлений носят, соответственно, названия векторный и растровый форматы.
В векторном формате, в котором пространственные объекты представляются точками, линиями и полигонами, позиционная составляющая или геометрия обычно хранится в одном файле в виде индексированных записей: индекс кодирует объект (соответственно, точечный, линейный или полигональный), а запись состоит из набора пар или троек координат, число которых в записи соответствует типу объекта: 1 -для точки, n - для линии или полигона. Чтобы отличить записи для линий и полигонов их либо кодируют разными типами индексов, либо для полигонов в последней записи повторяют координаты первой точки полигона.
Значения атрибутов часто упорядочивают в виде таблиц атрибутов. В реляционных моделях БД каждая клетка таблицы отражает значение одного из признаков определенного объекта. В зависимости от способа отражения временная форма фиксируется в одной таблице атрибутов данного объекта или в нескольких таблицах для различных временных этапов. Таблица отражает тематическую и, отчасти, пространственную формы информации.
В растровом формате геометрия и атрибуты хранятся в одном файле: записи в нем организованы по строкам или столбцам растра, номера которых кодируют систему координат, а каждое число в записи кодирует уникальное значение атрибута, относящегося к одной ячейке растра (пикселу).
Сопоставление векторного и растрового форматов. Основные проблемы, обсуждаемые при выборе растрового или векторного форматов - это отображение реальности, точность координат, скорость аналитической обработки, потребности в объеме памяти, отражение характерных признаков явлений.
Обработка данных. Данные в растровых форматах обрабатываются быстрее при решении таких аналитических задач, как наложение (оверлей), определение соседства, выполнение логических запросов. Для определения взаимного положения объектов и их анализа в большинстве случаев требуется лишь сравнить содержание соответствующих ячеек растра в различных слоях БД с применением простейших условных операторов.
При построении векторной топологии приходится многократно выполнять однотипные вычисления и логические проверки, например, для нахождения точек пересечения отрезков линий, составляющих контуры объектов. Сложные алгоритмы необходимы и при наложении полигонов, для выявления ложных ("паразитных") полигонов. Эти обстоятельства удлиняют время обработки данных, запросов пользователей.
Хранение данных. Простейший метод хранения растровых данных требует 1-2 байтов памяти для каждого пиксела независимо от величины им представляемой, и в этом аспекте он не эффективен. В некоторых системах хранения существуют ограничения на число строк и столбцов. На практике применяются различные методы сжатия информации; наиболее распространенным из них является групповое кодирование, при котором степень сжатия зависит от пространственной изменчивости данных. Однако в некоторых случаях группового кодирования упаковка и распаковка данных дает лишь небольшое преимущество по сравнению с их поячеечным хранением.
Для хранения простых полигонов в векторном формате требуются небольшие объемы памяти; в общем случае необходимый ее объем зависит от сложности объектов, от того, что хранится вместе с координатами, а также от точности координат (одинарная или двойная). В целом векторные системы используют меньший объем памяти по сравнению с растровыми системами, графическое разрешение которых сопоставимо с векторными.
Растровые базы данных привлекают простотой организации, быстротой многих операций; они особенно привлекательны для специалистов в области дистанционного зондирования, привыкших оперировать пикселами при обработке информации, а также при представлении первичных и систематизированных данных о высотах рельефа. Растровый файл легко получить путем сканирования фотоотпечатков или бумажных карт. С другой стороны, во многих случаях растровый подход ведет к потере деталей. Растровые данные различных источников могут иметь разный размер элементов, ориентацию, положение, проекцию. В случае их совместного использования необходим процесс интерполяции информации из одной системы элементов растра в другую. При этом переход к элементам большего размера относительно безопасен, переход к меньшим элементам чреват большими неприятностями.
Хорошие результаты дает использование систем, в которых растровый и векторный анализ могут осуществляться параллельно с использованием функций преобразования (конвертирования) форматов. Такие системы позволяют, например, осуществить наложение векторной карты участков с различным типом использования земель на снимок для более точного его дешифрирования, а затем снимок использовать для корректировки векторной карты ареалов растительности.
Обменные форматы данных. Совместное использование разных источников данных (как векторных, так и растровых) связано с еще одним понятием формата данных - шаблоном представления их в файлах данных. Некоторые из них приняты государственными организациями как стандарты, другие определяются распространителями данных и разработчиками программных средств как внутренние форматы. Обилие таких форматов и уже накопленных данных делают чрезвычайно важной проблему разработки специальных обменных форматов и способов их конвертирования. Многие современные ГИС-пакеты представляют широкие возможности для конвертирования внутренних форматов, как в обменные, так и форматы других пакетов.
Графические форматы, используемые как обменные в разных ГИС- и графических пакетах программ, также делятся на векторные и растровые.
Среди векторных наибольшее распространение получил формат DFX пакета AutoCad, использующий для передачи атрибутивной информации формат DBF (Dbase), более подробные характеристики разных форматов можно найти в толковом словаре.
Преобразование данных других цифровых источников. Все больше данных появляется на магнитных носителях, CD-ROM, данных, доступных в сети Internet; (цифровые карты мира - DCW, цифровые картографические данные Геологической службы США - DLG, цифровые космические снимки, так называемые Quicklook, и многие другие).
Нужно помнить, что пока изображения, распространяемые в Internet, зачастую имеют низкое разрешение, растровый формат и ограниченные размеры.
Истинное горизонтальное и вертикальное положение объектов обычно непосредственно определяется в результате полевой съемки. Система спутникового позиционирования (ССП) - новый способ точного определения положения объектов на земной поверхности. Положение объекта рассчитывается по сигналам, поступающим с серии ИСЗ (ГЛОНАСС, Россия, NAVSTAR или GPS, США) с точностью от метров до нескольких сантиметров. Она сопоставима с точностью самых крупномасштабных карт.
Качество данных и контроль ошибок
Представления о качестве данных, их точности и оценке погрешности становятся чрезвычайно важными при создании баз и банков данных ГИС. Существует практически всеобщая тенденция забывать об ошибках в данных, если последние представлены в цифровой форме. Все пространственные данные до некоторой степени неточны, но в цифровой форме они обычно представляются с высокой точностью, определяемой параметрами памяти компьютера. Необходимо каждый раз рассматривать два вопроса:
насколько правильно представляемые в БД цифровые структуры отражают реальный мир;
насколько точно алгоритмы позволяют рассчитать истинное значение результата.
Методы расчета точности определений по картам рассматриваются в курсе картографии, с понятиями надежности и качества географических данных полезно ознакомиться в работе. Показатели качества данных определяются стандартами. Основные из них: позиционная точность и точность атрибутов объектов, а также логическая непротиворечивость, полнота, происхождение, относящиеся к базе данных в целом.
Позиционная точность данных и типы ошибок
Позиционная точность определяется как величина отклонения измерения данных о местоположении (обычно координат) от истинного значения. При ее определении, как правило, исходят из масштаба исследования или первичного материала, например, в данных о природных ресурсах стремятся достичь точности карты заданного масштаба. Обеспечение большей точности требует более качественных исходных материалов, но всегда следует задаться вопросом, оправданы ли дополнительные затраты задачами исследования.
Точность координат определяется по-разному в растровом и векторном представлении.
Точность растра зависит от размера ячеек сетки. Для избежания потери информации можно использовать ячейки меньшего размера с тем, например, чтобы показать искусственные объекты, но следует оценить, что будет представлять выбранная ячейка в заданном масштабе. В большинстве случаев неясно, относятся ли координаты, представленные в растровом формате, к центральной точке ячейки или к одному из ее углов; точность привязки, таким образом, составляет 1/2 ширины и высоты ячейки.
Координаты в векторном формате могут кодироваться с любой мыслимой степенью точности; она ограничивается возможностями внутреннего представления координат в памяти компьютера. Обычно для представления используется 8 или 16 десятичных знаков (одинарная или двойная точность), что соответствует ограничению по точности соответственно до 1/108 и 1/1016 измерения на местности. Для получения такой же точности растра необходимо, соответственно, 108х108 или 1016х1016 ячеек, что невозможно даже при специальном сжатии данных. Но лишь некоторые классы данных соответствуют такой точности векторного представления: данные, полученные точной съемкой, карты небольших участков, составленные на основе крупно-масштабных топографических карт; лишь для немногих природных явлений характерны четкие границы, которые можно представить в виде математически определенных линий. Поэтому можно утверждать, что тонкие линии в векторном формате дают ложное ощущение точности. Обычно на карте толщина линии отражает неопределенность положения объекта. Поэтому в векторной системе фиксируется неопределенность положения векторного объекта, а не точность координат. В растровой системе эта неопределенность автоматически выражается размером ячейки, который и дает действительное представление о точности.
Точность базы данных. Почти каждый этап создания БД чреват внесением ошибок.
Карты не свободны от погрешностей, которые при цифровании автоматически переносятся в базу данных; из-за генерализации они не всегда точно фиксируют информацию о местоположении объекта; несоответствия на границах листов могут обусловить несоответствия в базе данных.
Ошибки характерны для данных, взятых из некартографических источников. Они могут появиться и при проведении инвентаризации по аэрофотоснимкам, если изображения дешифрированы неверно, часто возникают потому, что слишком велико доверие к базовым картам. Другие ошибки связаны с проблемой границ и погрешностями классификации. Многие ошибки обусловлены особенностями сбора данных. Ручной ввод цифровых данных весьма утомителен и трудно сохранять качество работы на протяжении долгого времени.
Для снижения ошибок в измерении местоположения используют геодезический контроль и системы спутникового позиционирования, а также создание массивов данных географической привязки. К последним предъявляют особенно высокие требования по точности и достоверности еще на этапе сбора исходной информации. Их применение в качестве основы для интеграции данных в известных оригинальных масштабах и проекциях не вызывает затруднений. Во всех других случаях требуется преобразование информации, которое должно выполняться по правилам картографической генерализации и согласования. Большая часть данных о местоположении берется с аэроснимков, при этом точность зависит от правильного размещения контрольных точек. Данные космической съемки труднее расположить с большой точностью - не позволяет разрешение снимка.
На весь набор данных влияют: ошибки регистрации и определения контрольных точек, преобразования координат, особенно когда неизвестна проекция исходного документа; ошибки обработки данных, неправильный логический подход, генерализация и проблемы интерпретации; математические ошибки; потеря точности представления из-за невысокой точности вычислений; перевод векторных данных в растровый формат.
В БД обычно используются данные из разных источников с разной степенью точности. При наложении множества карт точность результирующего материала может оказаться очень низкой. Однако больший интерес представляет показатель пригодности полученной карты. Для некоторых типов операций степень пригодности карт определяется точностью наименее точного слоя БД. Показатель пригодности можно оценить также по его устойчивости при смене порядка ввода данных или изменении веса атрибута.
Часто возникают искусственные признаки ошибок (артефакты) - это нежелательные последствия применения высокоточных процедур для обработки пространственных данных, имеющих небольшую точность. Использование растровых данных позволяет застраховаться от артефактов до тех пор, пока размер элемента растра больше или равен позиционной точности данных. При работе с векторными данными артефакты возникают при кодировании (цифровании) и наложении полигонов.
Чтобы проверить позиционную точность, нужно использовать независимый, более точный источник, например, карту более крупного масштаба, данные спутникового позиционирования, первичные ("сырые") данные съемки. Для контроля можно использовать и внутренние признаки: незамкнутые полигоны, линии, проходящие выше или ниже узловых точек, и т. п. Величина этих погрешностей может служить мерой позиционной точности.
Наиболее надежным путем создания качественных БД, особенно для ее многократного и многопользовательского применения, является хранение информации о точности в самой БД в виде атрибутов или метаданных.
Точность атрибутивных данных
Точность атрибутов определяется как близость их к истинным показателям (на данный момент времени). В зависимости от природы данных точность атрибутов может быть проанализирована разными способами.
Для непрерывных атрибутов, представляющих модель поверхности, например, ЦМР, точность определяется как погрешность измерений по этой модели.
Для атрибутов объектов, выделяемых в результате классификации, точность выражается в оценках соответствия, определенности или правдоподобия. В случае двух объектов ситуация, в которой они представлены сочетанием 70% атрибута объекта А и 30% атрибута В, лучше, чем когда объекты А и В недостаточно определены, что не позволяет четко разграничить их. В общем случае для оценки точности атрибутов полезно составить матрицу ошибок классификации. Для этого нужно взять несколько случайных точек, определить их категорию по базе данных, затем на местности определить истинный класс и заполнить матрицу классификации (соответствия). Если, например, число классов 4, а число обследованных точек 100, из них на местности определено 25 точек класса А, 18 точек - В, 24 - С и 33 - О (табл. 1).
В идеале все точки должны располагаться по диагонали матрицы; это показывает, что на местности и в базе данных зафиксирован один и тот же класс. Ошибка пропуска возникает тогда, когда точки класса на местности неправильно зафиксированы в базе данных.
Матрица классификации класса В равно сумме записей в столбцах А, С и О строки В (числу точек, относящихся на местности к классу В, а в базе данных - к другим классам). Ошибка добавления(ложного класса) имеет место в случаях, когда в базе данных зафиксирован класс, которого нет на местности, например, для класса А - это сумма записей в строках В, С и О столбца А (соответствует числу точек, неправильно отнесенных к классу А в базе данных).
Для обобщения матрицы соответствия используют такой показатель достоверности классификации, как количество правильно классифицированных точек, расположенных по диагонали матрицы (в %). На самом деле это число может быть случайным. Чтобы учесть этот факт часто при обобщении результатов используют так называемый индекс к каппа Коэна, вносящий поправку на случайность. Он вычисляется по формуле:
K=(d-q)/(N-q) (1)
где d - число случаев правильного получения результата (сумма значений, стоящих на диагонали матрицы соответствия); q - число случайных результатов, вычисляемое через число случайных результатов в столбцах пс и истинных в строках пг матрицы соответствия. N - общее число точек. Для абсолютно точных результатов (все N точек на диагонали) каппа равна 1, а при чисто случайном попадании - О. В приведенном примере
q= (22x25/100 + 26x18/100 + 25x24/100 + 27x33/100) = 25,09; K= (58-25)/(100-25) = 0,44;
показатель достоверности классификации равен 44%, что меньше значения, полученного по диагональным элементам (58%).
Неопределенность атрибутов каждого элемента растра постоянна для каждого из представленных классов объектов, а позиционная неопределенность постоянна для всего растра - фиксируется один раз для всей карты.
Для социальных данных основной источник неточности в атрибутах - недоучет данных. Например, при проведении переписи в некоторых районах и по некоторым социальным группам недоучет может быть очень высоким (>10%).
Логическая непротиворечивость, полнота, происхождениеЭти элементы качества данных относятся к базе данных в целом, а не к объектам, атрибутам или координатам.
Логическая непротиворечивость связана с внутренней непротиворечивостью структуры данных, с топологическим представлением данных, что означает наличие исчерпывающего списка взаимоотношений между связными геометрическими представлениями данных без измерения хранимых координат пространственных объектов. Она обычно заключается в ответах на вопросы: замкнуты ли полигоны, нет ли полигонов без меток или с несколькими метками, есть ли узлы на всех пересечениях дуг. Логические противоречия могут быть связаны с проблемами согласования информации и географических границ при совмещении данных из разных источников.
Полнота связана со степенью охвата данными множества объектов, необходимых для представления реальности или отображения на результирующей карте (все ли соответствующие объекты включены в базу данных?). Она зависит от правил отбора объектов или явлений, генерализации и масштаба.
Происхождение включает сведения об источниках данных, времени сбора данных, точности источников и цифровых данных, организации, которая их собирала, об операциях по созданию базы данных (как кодировались данные и с какого исходного материала, как происходила их обработка). Обычно эта информация содержится в специальных файлах метаданных.
Особенности интеграции разнотипных данных
Новые виды и типы цифровых данных требуют разработки методов их совместного использования, оценки пригодности для создания ГИС и составления карт. Создание проблемно-ориентированных банков географических и картографических данных и знаний способствует не только накоплению и обмену информацией, но и повышению качества и достоверности результатов, получаемых ГИС. Особенно возрастает роль таких банков для интеграции, пространственного и тематического согласования информации. Проблемы интеграции данных особенно остро встали в связи с широким использованием уже существующих цифровых карт, содержащихся в разнообразных базах пространственных данных и распространяемых по телекоммуникационным сетям. Они могут быть слоями проблемноориентированных ГИС, представлять результаты компьютерного дешифрирования аэро и космических снимков, цифрового моделирования объектов или явлений. Информация относительно их происхождения, методов создания, точности и достоверности часто отсутствует или недоступна. Совокупность цифровых данных о пространственных объектах, составляющих содержание баз географических данных ГИС, по существу, еще не является цифровой картой. На картах, созданных на основе данных дистанционного зондирования, "пиксельные" разрешение и генерализация могут не соответствовать показателям картографической точности и генерализации для выбранных масштаба и проекции. Особенно сложна интеграция данных, представляемых на карте условными знаками, из-за их внемасштабности и уникальности. Технология создания цифровых карт часто определяется временными, не устоявшимися, разрозненными, не всегда профессионально составленными инструкциями и техническими заданиями, разработанными производителем или заказчиком работ, ведомственными инструкциями. Все чаще появляются в публикациях сообщения об ошибках в цифровых картах, а иногда об их полной непригодности к использованию или ненадежности как источников данных. При традиционном (бумажном) создании карт разнотипные данные применяются давно и методы их совместного использования хорошо разработаны.
Современное техническое и программное обеспечение позволяет на основе любых доступных данных создавать сколь угодно сложные по содержанию карты и делать их легко доступными для использования и модификаций. Но часто это делается без учета картографических традиций, в то время как доверие к цифровым картам велико. Решение проблем интеграции данных при создании и использовании цифровых карт лежит в области разработки инфраструктуры простран-ственных данных (на национальном, межгосударственном уровнях), четкой структуры метаданных и картографически обоснованного применения ГИС-технологий при работе с разнотипными данными. Под формированием инфраструктуры пространственных данных подразумевается разработка механизма их обмена и накопления (доступность, стоимость, система стандартов на данные и обмен ими, мета данные), а также определение единой - базовой - пространственной информации, к которой, в первую очередь, следует отнести геодезическую основу, рельеф, гидрографию, транспортную сеть, административные границы. Преимущество геоинформационных методов заключается в возможности оценить пригодность данных для совместного использования и осуществить их интеграцию на основе выполнения пространственного анализа с помощью ГИС-технологий. Однако основное правило при ин-теграции информации таково: качество данных должно быть определено скорее во время получения данных, чем при попытке применить эти данные. Тогда указанные технологии могут существенно облегчить их корректировку для поставленной задачи. Основные проблемы, возникающие при совместном использовании разнотипных данных: отображение положения границ в разных цифровых источниках, временные параметры данных и способ отражения структуры геосистем. Хорошим технологическим приемом интеграции разнотипных данных произвольных источников может стать создание специализированных экспертных систем. Их задача - выполнение оценок качества и пригодности таких данных, опирающееся на три базовых составляющих системы: метаданные, логические процедуры, учитывающие характер проявления основных источников возможных ошибок в цифровых пространственных данных, ГИС-технологии, реализующие традиционные и современные приемы совмещения информации для создания БД.