AstronetSAIShort

Сервисно-Ориентированная Архитектура Современной Астрономии

Олег Бартунов, научный сотрудник, ГАИШ МГУ

Гранты РФФИ: 96-07-89395-в, 99-07-90069-в, 02-07-90222-в, 05-07-90225-в

Проект посвящен анализу проблем в информационной инфраструктуре современной науки и поиску путей их преодоления.

Повсеместное распространение интернет, ускорение и унификация доступа к информации и т.п. привело к формулированию концепции киберобщества (информационного общества) как реалистичного сценария постиндустриального общества - новой исторической фазы развития цивилизации, в которой главными продуктами производства являются информация и знания.

Составной частью информационного общества является так называемая e-Science - синтез науки и информатики, наступающий когда роль информации и ее обработки в научных исследованиях становится превалирующей. Переход на e-стадию (информационную стадию) развития - реальная ситуация, затронувшая на сегодняшний день ряд естественных наук, оперирующих огромными объемами информации: физика (в первую очередь исследование элементарных частиц и физика высоких энергий), геофизика и геология, астрономия, биология, экономика, медицина.

Причины "информационного взрыва" в астрономии обусловлены следующими факторами:

  • Астрономия стала всеволновой. Начиная с 70-х годов прошлого века наблюдения астрономических объектов ведутся не только в видимом свете, как раньше, а во всем диапазоне электромагнитного спектра, также регистрируются другие виды частиц и сигналов.
  • Астрономические данные хранятся бесконечно долго. Так как данные астрономических наблюдений привязываются к конкретным объектам, то их необходимо хранить пока эти объекты существуют. Времена эволюции астрономических объектов очень велики, в обыденном смысле с хорошей точностью могут считаться бесконечными.
  • Астрономия снова стала широкопольной. До конца XIX века наблюдения велись визуальным способом и давали информацию об отдельных объектах: одно наблюдение - один объект. Ситуация изменилась с появлением фотографии, на фотопластинках одновременно фиксировалось большое количество объектов. Ценность этой информации была ясна с самого начала, астрономические фотопластинки, заснятые с последней четверти XIX до конца XX века хранятся в так называемых "стеклянных библиотеках". Во второй половине прошлого века широкопольную астрофотографию потеснили гораздо более точные электронные методы фотометрии в которых, однако, одновременно можно было наблюдать только один объект (или небольшое количество объектов). Возвращение к "широкопольности" произошло после появления ПЗС-матриц большого размера. Сегодня одно наблюдение, длящееся от нескольких секунд до нескольких минут, дает от нескольких мегабайт до нескольких гигабайт информации.
  • Политика доступа к информации. Данные всех космических и наземных экспериментов NASA, ESA и частично ESO становятся публично доступными спустя 1 год после их получения. Последние 10 лет КТБТ (Комитет по Тематике Больших Телескопов - занимается распределением наблюдательного времени на крупнейших оптических инструментах России) требует открытия данных через 2 года после их получения.
  • Этому же способствует так называемая "Early Science"("Быстрая наука"): необходимость исследовать и публиковать полученные данные в строго определенный срок для того, чтобы успеть подготовить и подать успешную заявку на следующий цикл исследований. Это приводит к предельной интенсификации изучения полученных данных, но, одновременно, делает его существенно более поверхностным.

Доступ к информации осложнен тем, что результаты наблюдений хранятся в неоднородных распределенных архивах. Разнородность архивов определяется тем, что они создавались независимо и были ориентированы на различные эксперименты со своими целями. Распределенность информации связана со следующими причинами:

  • На сегодняшний день нет (а скорее всего, не будет и в будущем) технических возможностей содержать всю астрономическую информацию в одном хранилище из-за слишком больших объемов информации.
  • Создание нескольких копий информации в различных местах повышает надежность хранения информации.
  • Распределенное хранение и наличие копий снижает нагрузку на сеть и повышает скорость доступа к информации.
  • Необходимость обработки данных определенного эксперимента требует их локализации на достаточно длинный срок для быстрого доступа.
  • В некоторых случаях распределенное хранение информации возникает по "физическим" причинам: Например, в эксперименте SNAP (орбитальный телескоп) большой поток информации и отсутствие существенных объемов памяти на борту обсерватории приводит к построению распределенной системы центров по приему и дальнейшему хранению данных

Кроме того, астрономы стали работать с бОльшим количеством объектов, что делает интерактивную работу с хранилищами данных крайне неэффективной. Необходимость взаимодействия со многими хранилищами данных (географически удаленные центры данных, разные каталоги) делает интерактивную работу практически невозможной.

Таким образом, на примере астрономии видна необходимость новых методов научных исследований и новой информационной инфраструктуры, способной обеспечить унифицированный доступ к разнородным и распределенным очень большим хранилищам слабо-структурированной информации. При этом, на первый план выступают методы, основанные на программном, неинтерактивном доступе к информации, способные перерабатывать огромные её объемы.

Одним из наиболее перспективных направлений развития информационной инфраструктуры науки на данном этапе считается переход к сервисно-ориентированной архитектуре, которая обеспечивает доступ к информационным системам стандартными и унифицированными средствами.

В астрономии сервисно-ориентированная архитектура получила название Виртуальной Обсерватории. Международный Альянс Национальных Виртуальных Обсерваторий (http://www.ivoa.net) координирует деятельность национальных ВО и занимается разработкой стандартов и протоколов, специфических для астрономии. Основной задачей Виртуальной Обсерватории является обеспечение астронома данными независимо от способа и места их хранения, а также инструментами для поиска закономерностей и анализа данных. Таким образом, Виртуальная Обсерватория предоставит астроному уникальное средство исследования космоса - Всемирный Телескоп, который будет доставлять данные независимо от погодных условий !

Для российской астрономии задача интеграции в мировое астрономическое сообщество жизненно важна, так как практически все существующие центры данных ориентируются на новую технологию, а новые проекты полностью ориентированы на новые стандарты описания, хранения и доступа к данным. Поэтому доступ к данным очень скоро превратится в то узкое место, которое будет мешать научным исследованиям. При этом проблема будет не в качестве каналов связи, не в доступности архивов, а в совместимости информационной инфраструктуры российской науки и международного сообщества. Новые российские проекты необходимо с самого начала ориентировать на такую совместимость.

Проект "Астронет (http://www.astronet.ru) ГАИШ МГУ при поддержке РФФИ ( гранты 96-07-89395-в, 99-07-90069-в, 02-07-90222-в, 05-07-90225-в ) с самого начала ставил задачи, нацеленные на исследование и применение информационных технологий в науке (астрономия), рассматривая практическое применение результатов, полученных в ходе исследований, как важнейший фактор успешности проекта. Информационные системы в естественных науках не являются частью этих наук, они представляют собой очень удобные (а сегодня уже незаменимые) инструменты исследования, однако они являются научной инфраструктурой, без которой эффективное развитие науки сегодня уже невозможно. Вопросы научно-информационного обмена неотделимы от всего процесса развития науки в целом, они возникли и развиваются вместе с ней. Многовековая практика развития науки показала необходимость сбалансированного развития всех доступных методов научных коммуникаций, от личного общения специалистов, занимающихся одной и той же задачей, специальных семинаров, конференций и симпозиумов, включающих значительно более широкий круг специалистов, зачастую представляющих несколько смежных наук, и до таких, ориентированных на значительно более широкую аудиторию, форм, как написание учебников и научно-популярных книг с статей ведущими специалистами. К этим "классическим" методам обмена информацией современная информатика и, в первую очередь, интернет добавили очень и очень много. За время существования нашего проекта произошли уже описанные изменения в науке, изменились возможности интернета (бОльшие скорости, бОльшая доступность), рос наш опыт (мы многому научились, на проекте выросло поколение молодых специалистов, активно занимающихся сейчас научными и смежными вопросами). Соответственно, проект прошел несколько стадий.

1). Вначала было создано хранилище информации институтского уровня с передовыми на тот момент средствами доступа: ftp- и web-серверами, с продуманной структурой и интересным (до сих пор) содержанием.

2). Затем оно превратилось в цифровую библиотеку - в связи с появлением в сети большого количества научной информации, которую требовалось уметь хранить, организовывать поиск информации.

3). Немного позже, когда в проект были введены средства для создания собственных электронных публикаций и ряд полезных интерактивных приложений (системы on-line расчетов фиксированных событий, новостные ленты, поисковая система по российским астрономическим ресурсам и пр.) проект развился в Отраслевой Астрономический Портал (который с момента его появления и по настоящее время остается самым популярным русскоязычным астрономическим ресурсом). Портал является технологическим средством, позволяющим максимально эффективно, оперативно и квалифицированно доносить современную научную информацию до всех заинтересованных в ней читателях - ученых, инженеров, аспирантов, студентов. Его важность для астрономии определяется большим количеством новых открытий в современной астрономии, которые невозможно охватить традиционными печатными изданиями, все более узкой специализацией астрономов-профессионалов, для которых портал дает возможность ознакомиться с новостями в смежных областях.

4). И, наконец, в последние годы в рамках проекта появилась и стала интенсивно развиваться Виртуальная Обсерватория - сервисно-ориентированный источник астрономической информации, содержащий самые современные данные и каталоги и работающий по стандартам, разработанным Международным Альянсом Виртуальных Обсерваторий, в который входит и Россия. Сервер проекта http://vo.astronet.ru является крупнейшим в России и Европе центром астрономических данных, работающим по стандартам Виртуальной Обсерватории. Он входит в консорциум Российская Виртуальная Обсерватория. Проект состоит из многотерабайтного хранилища астрономических каталогов, а также ряда веб-сервисов, предоставляющих доступ к хранилищу и реализующие основные астрономические запросы. Отметим, что многие из этих каталогов существуют в единственном экземпляре в России, так как организация подобного хранилища является серьезной инженерной задачей и требует значительного финансирования и наличия квалифицированных специалистов. Поэтому организация свободного доступа к таким каталогам является очень важным для российских астрономов и первоочередной задачей нашего проекта. Кроме того, мы предоставляем полнотекстовый поиск по электронным архивам препринтов с распознаванием астрономической терминологии и номенклатуры названий астрономических объектов и службу уточнения координат объектов на астрономических изображениях.

Сайт проекта "Астронет" входит в топ-400 всех российских сайтов (из примерно 100,000 сайтов) и в топ-20 всех научных сайтов по независимой оценке рейтинга Yandex. По результатам голосованиям астрономического сообщества сайт ежегодно занимает первые места по номинациям "Лучший астрономический сайт" и "Лучший образовательный астрономический сайт". Ежемесячно сайт проекта посещают около 130-180 тысяч уникальных посетителей, которые читают 2-3 миллиона страниц (запросы от поисковых роботов в статистике не участвуют).

Результаты работы были опубликованы в научных статьях и представлены на конференциях как на российских, так и на международных. С помощью Виртуальной Обсерватории ГАИШ в нашей Галактике были открыты два шаровых скопления с очень слабой светимостью. Разработанные технологические решения доступны и используются в других проектах.

Развитие проекта предполагает

  • дальнейшее расширение хранилища данных за счет дополнительных каталогов многоволновой астрономии,
  • предоставление гибкого программного интерфейса доступа к данным, дальнейший системный анализ существующих проблем в информационной научной инфраструктуре и выработку предложений по их преодолению.Например, необходимость соблюдения принципов ведения научных исследований в современных условиях, таких как фундаментальная основа науки - принцип воспроизводимости научных результатов, что не очевидно, когда данные могут измениться в любой момент времени. Действительно, как предоставить рецензенту возможность проверки научных результатов, если данные уже поменялись или изменились условия доступа к ним. Как обеспечить аутентичность данных в условиях, когда данные не находятся в напечатанном томе, а хранятся во многих экземплярах в разных хранилищах. Как обеспечить целостность и связность данных со сложной структурой.
  • Планируется продолжить исследования алгоритмов работы с многотерабайтными базами данных. Здесь астрономическая специфика состоит в том, что практически все данные (наблюдения) имеют сферические координаты и все запросы являются пространственными, что требует специализированных эффективных алгоритмов.
  • Помимо атрибутного поиска в базах данных, большое значение приобретает поиск по документам, так как много данных хранится в текстах и необходимо развивать алгоритмы информационного поиска с учетом астрономической специфики. За годы работы портал Астронет накопил более 30 тысяч оригинальных документов, прошедших процедуру редактирования. Этот корпус документов является идеальным материалом для задач информационного поиска, таких как автоматическая классификация документов, поиск похожих документов, построение и использование тематических тезаурусов.
  • В связи с тем, что через несколько лет войдет в строй 2.5-метровый телескоп ГАИШ под Кисловодском, большое значение приобретает организация pipeline - конвейера обработки наблюдательных данных, чтобы данные могли как можно раньше стать доступными для научных исследований. Это включает в себя алгоритмы автоматического определения координат объектов, поиска новых объектов в изображениях, хранения и доступа к данным. Многие задачи требуют эффективного и программного доступа к большим каталогам, который может быть предоставлен технологиями Виртуальной Обсерватории. Интеграция новой обсерватории во Всемирный Телескоп неминуемо требует соблюдение стандартов Виртуальной Обсерватории, что делает наши исследования востребованными в ближайшем будущем.

В заключение хочется подчеркнуть роль РФФИ в целом и 7-го отдела в частности в развитии нашего проекта и многих других, определивших тот уровень информационной инфраструктуры в российской науке, столь необходимый для современных научных исследований. Кроме того, многолетняя поддержка позволила вырастить целое поколение специалистов, которые сейчас определяют новые рубежи информационной инфраструктуры общества.