report2009summary

Краткий научный отчет за 2009 год

Nature

В 2009 году исследования по гранту проводились по нескольким направлениям - разработка новых алгоритмов информационного поиска в СУБД PostgreSQL и исследования новых подходов организации масштабируемых хранилищ сверхбольших научных баз данных. В частности, были достигнуты следующие результаты:

  • Для решения проблемы крайне неэффективного построения обратного индекса для почти упорядоченных значений (замедление в 1000x раз) было реализовано красно-черное дерево (red-black tree) в PostgreSQL, которое было использовано в GIN вместо Btree, 2009-04-03, 2009-07-27, будет доступно в версии 8.5;
  • Завершена разработка алгоритмов быстрой вставки в обобщенный обратный индекс, GinFastUpdate, 2009-03-24, уже используется в PostgreSQL 8.4;
  • Добавлена поддержка письменности Деванагари в полнотекстовый поиск,2009-02-26, уже используется в PostgreSQL 8.4 ;
  • Добавлена поддержка фильтрующих словарей в полнотекстовый поиск, реализован словарь для удаления диакритических знаков (для всех европейских языков), unaccent, уже доступна в PostgreSQL 8.4
  • Добавлена поддержка префиксов слов в словарь синонимов, 2009-03-13, уже доступна в PostgreSQL 8.4
  • Исправлены ошибки операции на тестирование перекрытия полигонов, уже доступны в PostgreSQL 8.4;
  • Тонкая настройка планировщика PostgreSQL (модуль plantuner) - plantuner, планируется для версии 8.5;
  • Расширена поддержка GiST индексов для типа данных point - [[1]]
  • Разработка и реализация прототипа сигнатурного индекса для PostgreSQL (bloom index) - bloom, планируется для 8.5
  • Разработана алгебра полнотекстового поиска в PostgreSQL и реализован рабочий прототип поиска по фразам (поиск с учетом порядка и расстояния между словами в запросе) - 2009-08-12, планируется для 8.5
  • Для построения композитных обратных индексов с использованием скалярных типов данных (например, timestamp) был разработан модуль btree_gin - btree gin, уже доступен в PostgreSQL 8.4
  • Присоединились к разработке СУБД Scidb для сверхбольших научных баз данных, организована российская команда разработчиков;
  • Для проекта Виртуальная Обсерватория было разработано многотерабайтное хранилище астрономических данных; Кроме разработки осуществлялась поддержка и исправление ошибок.

Результаты докладывались и обсуждались на конференциях, семинарах, рабочих совещаниях и в списке рассылки разработчиков PostgreSQL (http://archives.postgresql.org).

During 2009 year we worked in several directions - development of new IR algorithms in RDBMS PostgreSQL and study of new approaches for developing of scalable storage for extra large scientific databases. Main results are:

  • Implementation of red-black tree in PostgreSQL to solve problem of very inefficient inverted index creation for very skewed input data, details are in 2009-04-03, 2009-07-27, submitted for PostgreSQL 8.5;
  • Added support of Devanagari script to full-text search 2009-02-26, already available in PostgreSQL 8.4 ;
  • Added support of filtering dictionaries o full-text search, implemented dictionary for removing diacritic signs for all european languages unaccent, already available in PostgreSQL 8.4
  • Synonym dictionary now support prefixes, 2009-03-13, already available in PostgreSQL 8.4 ;
  • Fixed errors in overlap of polygons, already available in PostgreSQL 8.4 ;
  • Developed contribution module, which allows to provide hints to PostgreSQL planner, submitted for 8.5;
  • Extended support of GiST indices for point data type, [[2]], submitted for 8.5;
  • Developed prototype of new signature index (bloom index), bloom, submitted for 8.5;
  • Developed algebra for full-text search and working prototype of phrase search, 2009-08-12, planned for 8.5;
  • Added support of GIN for scalar data type, btree_gin, btree gin, already available in PostgreSQL 8.4 ;
  • Started research and development of RDBMS Scidb for extra large scientific database, joined to russian team of developers;
  • Developed multi-terabyte storage for Virtual Observatory project;

Also, during 2009 year we provide support and consulting for developers of scientific databases on PostgreSQL and fix issues.

All results were presented and discussed on conferences, seminars, workshops, and mailing list of PostgreSQL developers (http://archives.postgresql.org).

Astronet

В течении 2009 года исследования по гранту проводились по нескольким направлениям - это накопление данных, как текстовых в виде оригинальных публикаций на сайте Астронет (www.astronet.ru), так и каталожных данных в Виртуальной Обсерватории (vo.astronet.u), изучение возможностей семантических технологий для интеграции астрономической информации и анализ подходов обеспечения информационной инфраструктурой современных, и особенно, будущих больших научных экспериментов. Традиционно, в рамках проекта нами поддерживались родственные научные проекты - www.fpff.ru (фонд поддержки фундаментальной физики), www.astrotop.ru (сайт российского астрономического сообщества).

За 2009 год на сайте Астронет было опубликовано около 600 оригинальных публикаций, как популярных статей, так и научных публикаций в журнале "Variable Stars", который за последние годы стал признанным изданием в научном мире. Общее кол-во документов в базе Астронет достигло 40,000, не считая версий. При этом ценность этой коллекции заключается в строгой редакционной политике, категоризации публикаций, которая позволяет использовать ее для проведения научных исследований в области информационного поиска. Правильность такого подхода находит подтверждение в статистике использования сайта Астронет, так за весь год сайт посетили 4858057 раз и просмотрено 26025461 страниц. Отметим, что поисковые роботы были исключены из статистики. По рейтингу Яндекса, сайт Астронет в 2009 году уверенно занимает 1-е место в разделе "Астрономия" (с 2-х кратным отрывом от 2-го места), 5-е место в разделе "Естественные науки" (среди 1395 сайтов), 26-30 места – в разделе «Учеба» (среди 7739 сайтов) и 306-323 места - среди 89525 высоко цитируемых сайтов. Кроме текстовой информации нами накоплено несколько терабайтов астрономических каталогов в СУБД PostgreSQL и предоставлен программный доступ к сервисам в формате Виртуальной Обсерватории для интеграции с международными центрами данных. В следующем году мы продолжим накопление астрономических каталогов. Также, нами начата работа по доступу к данным Слоановского обзора неба (SDSS) sdss.sai.msu.ru, сделан перевод на русский язык интерфейса, который будет доступен в будущем году.

В рамках международного года астрономии нами был проведен анализ астрономического интернета в России, результаты которого были доложены и опубликованы. Для интеграции астрономических ресурсов нами был создан прототип агрегатора новостей по астрономии - Планета Астронет, который уже сейчас автоматически собирает новости с около 50 ресурсов. Начата работа по созданию единой базы данных (включая географические координаты) астрономических организаций, обсерваторий, инструментов, для поддержки службы оповещений (алертов) астрономических событий.

В 2009 году нами начато создание русско-язычного астрономического словаря тезауруса, в формате принятым IVOA (Международная Виртуальная Обсерватория), который ориентирован на программное использование. Нами создан прототип словаря, который содержит 2842 русских терминов и 2889 английских, который позволит в будущем модифицировать поисковые запросы, с учетом семантических связей, и что важно, автоматически искать на английском и русском языках, например, поиск по сайту Астронет, абстрактам статей из arxiv.org и поиск наблюдательных данных в больших астрономических каталогах. Такие словари создаются для программного поиска в реестрах астрономических ресурсов, с учетом семантической информации. Мы надеемся в следующем году закончить прототип словаря и представить его в IVOA для принятие его в качестве стандартного словаря для русскоязычных ресурсов. Также планируется создание специализированных рабочих мест для наполнения словаря. Для задач интеграции, навигации очень важным является задача построения графа близости астрономических понятий. На сайте Астронет уже многие годы ведется работа по накоплению ключевых слов, которые можно использовать для создания такого семантического графа. В настоящее время реализован граф на основе совместной встречаемости ключевых слов для всех терминов из астрономического глоссария. Мы также начали работу по использованию Википедию для построения такого графа на основе информации о входящих ссылках, которые несут семантическую нагрузку.

В ближайшие годы планируется запуск нескольких больших астрономических космических проектов, которые будут нуждаться в масштабируемом хранилище данных. Наши исследования показали необходимость построения такого хранилища, организованное как СУБД, а не традиционное файловое хранилище с метаданными в СУБД, способная хранить не только научные данные, но и "сырые данные", эффективно обрабатывать запросы на поиска закономерностей (data mining) в сверхбольших базах данных, поддерживать версионность данных для сохранения принципа воспроизводимости научных результатов, историю работы с данными. Такая СУБД должна быть свободно-доступной, чтобы доступ к научным данным не ограничивался лицензионными соображениями. На основе космического эксперимента "Лира" нами были получены основные численные характеристики ожидаемых информационных потоков, требования к такой СУБД, на основе которых был создан российский use-case для развиваемой СУБД SciDB для сверхбольших научных баз данных.

Результаты работ доступны на сайте Астронет, Виртуальной Обсерватории, докладывались на конференциях и опубликованы.

During 2009 year we worked in several directions - accumulation of the data, both, in textual form as an original publications on Astronet site (www.astronet.ru), and astronomical catalogues in Virtual Observatory, study of applicability of semantic technologies for integration of astronomical information, and analysis of various approaches to develop of information infrastructure modern, and especially future, big scientific experiments. Tradionally, in the framework of our project we supported scientific projects, like "Foundation for Fundamental Physics Support" (www.fpff.ru), site of russian astronomical community (www.astrotop.ru).

During 2009 year there were about 600 new original publications, including scientific papers, published in "Variable Stars" magazine. The total number of astronomical publications reached about 40000, not taking into account versions. Since all publications were moderated and categorized (by sections, by keywords), the collection itself has a big value for information retrieval community. We upload several terabyted of astronomical metadata into PostgreSQL database and provide programmatic access via interfaces of Virtual Observatory for better integration with international astronomical data centers. We provide local access to Sloan Digital Sky Survey as sdss.sai.msu.ru translate the whole site to russian, which will be available in the next year. Astronet site was accessed about 5 mln times, downloaded about 26 mln pages (excluding robots), it is number 1 in the Yandex catalogue in Astronomy resources, number 5 from 1395 sites in "Natural Sciences" section and number 306-323 in 89525 high cited all russian web sites.

In the framework of the International Year of Astronomy we carried out an analysis of astronomy in russian internet and presented results on the conference, as well as published. We started project "Planet Astronet" - an aggregator of news from all russian astronomical sites (currently, about 50 feeds). We started collecting of geopositions of all astronomical organizations, observatories and instruments to provide support of alerting service.

We started developing of first russian-english astronomical thesaurus in the format of IVOA (International Virtual Observatories Alliance), which oriented to programmatic usage. It will be used to improve search facilities, to integrate russian and english resources, taking into account semantic relationships between terms in search query. We plan to submit the dictionary to IVOA. We constructed semantic graphs using cooccurence of keywords, collected in Astronet site, in text collection, for any glossary terms. Also, we started to use Wikipedia to construct semantic graph, using information about inbound links, which have semantic informations.

In the closest future, there are will be started several big space projects, which will generate a vaste amount of data, so there is need of scalable storage. Our research shown, that future storage should be not traditional file-based storage, but database, optimized for scientific data, capable to scale to thousands computers and many petabytes of data. Such database needs because it's very important to store "raw data" in database, as well as scientific data, which are produces by special "cooking" procedure from "row data". Also, database should be capable to provide data versioning (since procedure of "cooking" can be vary), which is very important to reproduce scientific results. We analyzed informational flows in space experiment "Lyra" and obtained basic numbers of data flow, requirements to database, and prepared russian use-case document for database SciDB, developed by international community (mostly american and russian), specially oriented to scientific data.

All results are available on the Astronet site, Virtual Observatory, they were presented on conferences and published, as well.