Об InterSystems

Миссия GAIA: год спустя. Интервью с Уильямом О’Маллейном

«Одним из показателей производительности InterSystems Caché стала способность поддерживать скорость вставки в базу данных на протяжении нескольких дней на уровне свыше 100 000 записей в секунду. То есть Caché должна была записывать на диск сотни мегабайт в секунду. Меня это до сих пор впечатляет!»

Миссия GAIA, организованная Европейским космическим агентством, считается экспертами “…самым крупным вызовом наших дней в области обработки данных астрономических исследований”.

Задача Миссии GAIA – «…создать самую большую и чрезвычайно точную трёхмерную карту нашей Галактики, выполнив беспрецедентные по объему измерения положений и лучевых скоростей около миллиарда звёзд».

В феврале прошлого года автор этой статьи взял интервью у Уильяма О’Маллейна (William O`Mullane), руководителя Подразделения научных исследований Европейского космического агентства, и Вика Нагджи (Vik Nagjee), менеджера по продуктам Подразделения базовых технологий корпорации InterSystems, которые принимали активное участие на этапе пробной оценки скорости загрузки данных для этого проекта.

Год спустя автор статьи попросил Уильяма О’Маллейна и Хосе Рупереса (Jose Ruperez), представляющего испанский офис InterSystems, ответить на несколько вопросов о том, что произошло за прошедший период.

Прочитать это интервью можно в отраслевом блоге ODBMS по адресу: http://www.odbms.org/blog/

Ссылка на информационный ресурс:

http://www.odbms.org/blog/2013/01/the-gaia-mission-one-year-later-interview-with-william-omullane/

Проф. Роберто В. Дзикари (Roberto V. Zicari),

редактор портала ODBMS.ORG, содержащего информационные ресурсы по новым технологиям управления данными


Миссия GAIA: год спустя. Интервью с Уильямом О’Маллейном

Роберто В. Дзикари (Roberto V. Zicari). 16 января 2013 г.

«Мы проведём наблюдения за НЕ МЕНЕЕ чем 1 000 000 000 небесных объектов. Уже сегодня мы готовы решить сопутствующие проблемы, но у нас ещё есть время до сентября, когда начнётся непосредственная реализация проекта. Это переломный момент в астрономии и крайне важный конкретно для нас. Мы уже провели целый ряд крупномасштабных тестов, чтобы убедиться в нашей способности обрабатывать большие объёмы сложных данных для составления переписи звёзд. Я думаю, наша Галактика преподнесёт нам ещё немало загадок, разрешение которых невозможно без эффективной обработки получаемых данных». — William O`Mullane.

Миссия GAIA (организованная Европейским космическим агентством – прим. пер.) считается экспертами «самым крупным вызовом наших дней в области обработки данных астрономических исследований». Автор статьи напоминает о задачах и целях Миссии GAIA (источник: веб-сайт Европейского космического агентства).

ЗАДАЧИ: «Создать самую большую и чрезвычайно точную трёхмерную карту нашей Галактики, выполнив беспрецедентные по объему измерения положений и лучевых скоростей около миллиарда звёзд».

ЦЕЛЬ: «Миссия GAIA – амбициозный проект, предусматривающий составление трёхмерной карты нашей Галактики – Млечный Путь, чтобы пролить свет на ее структуру, формирование и эволюцию. GAIA обеспечит беспрецедентные по объему измерения положений и лучевых скоростей звезд с точностью, необходимой для составления стереоскопической и кинематической переписи около миллиарда звёзд нашей Галактики . Это количество составляет около 1 процента от всего звёздного населения Галактики. В сочетании с астрофизической информацией по каждому небесному телу, обеспечиваемой встроенной многоцветной фотометрией, эти данные позволят получить новую информацию об процессе образования, динамике развития, изменению химического состава и формированию звёзд Млечного Пути. В число дополнительных задач проекта входят обнаружение и определение параметров десятков тысяч внесолнечных планетных систем, а также всестороннее исследование различных небесных объектов: от малых тел Солнечной системы и до ближайших галактик, а также приблизительно 500 000 далёких квазаров. Кроме того, планируется провести ряд новых более строгих тестов по подтверждению положений общей теории относительности и исследования в области космологии».

В феврале прошлого года автор этой статьи взял интервью у Уильяма О’Маллейна (William O`Mullane), руководителя Подразделения научных исследований Европейского космического агентства, и Вика Нагджи (Vik Nagjee), менеджера по продуктам Подразделения базовых технологий корпорации InterSystems, которые принимали активное участие на этапе пробной оценки скорости загрузки данных для данного проекта.

Год спустя, автор статьи попросил Уильяма О’Маллейна и Хосе Рупереса (Jose Ruperez), представляющего испанский офис InterSystems, ответить на несколько вопросов о том, что произошло за прошедший период.

Роберто В. Дзикари

Вопрос 1: «Изначально целью Миссии GAIA являлось проведение наблюдений приблизительно 1 000 000 000 небесных объектов. Эта цифра не изменилась? Вы готовы сделать это?»

Уильям О’Маллейн: «ДА! Мы подготовим “Оценочный обзор готовности наземного сегмента” (Ground Segment Readiness Review) к следующей весне, а ближе к лету – “Оценочный обзор возможностей космического летательного аппарата” (Flight Acceptance Review). Мы проведём наблюдения за НЕ МЕНЕЕ чем 1 000 000 000 небесных объектов. Уже сегодня мы готовы решить сопутствующие проблемы, но у нас ещё есть время до сентября, когда начнётся непосредственная реализация проекта. Это переломный момент в астрономии и крайне важный конкретно для нас, но мы уже провели целый ряд крупномасштабных тестов, чтобы убедиться в нашей способности обрабатывать большие объёмы сложных данных для составления переписи звёзд. Я думаю, наша Галактика преподнесёт нам ещё немало загадок, разрешение которых невозможно без эффективной обработки получаемых данных».

Вопрос 2: «Планировалось запустить спутник GAIA в начале 2013 года. Планы не изменились?»

Уильям О’Маллейн: «На данный момент спутник планируется запустить в сентябре 2013 года».

Вопрос 3: «Изменились ли за прошлый год требования к обработке данных? Если да, то как?»

Уильям О’Маллейн: «Требования к передаче сведений с борта астрометрического спутника на Землю не изменились, поэтому мы знаем, что за пять лет в систему поступит около 100 Тб информации. Объём обрабатываемых данных зависит от того, сколько промежуточных процессов нам нужно выполнять в отношении разных локаций. Так что с прошлого года мало что изменилось».

Вопрос 4: «Огромный объём данных, который, как ожидается, будет передаваться со спутника GAIA, ставит непростую техническую задачу. Что было сделано в прошлом году, чтобы подготовиться к её решению? Что вам дала пробная оценка загрузки данных в рамках этого проекта?»

Уильям О’Маллейн: «Я думаю, что наш опыт аналогичен опыту реализации данного этапа в схожих проектах. У нас есть несколько центров обработки данных с различными потребностями, которые удовлетворяются разными системами. Мы не пытались внедрить какой-либо единый подход в отношении всех наших процессинговых центров. Национальный центр космических исследований (CNES) полностью полагается на систему Hadoop для выполнения обработки данных. Европейский центр космической астрономии (ESAC) переходит на использование СУБД InterSystems Caché. В прошлом году только астрометрическое решение Astrometric Global Iterative Solution (AGIS) работало на основе Caché. Теперь вся основная ежедневная обработка данных также базируется на Caché (см. также “Вопрос 9”). В результате значительно повысилась производительность, но нужно сказать, что в какой-то степени это было связано с внутренними проблемами нашей собственной системы, которые мы постарались решить».

Хосе Руперес: «Нам приятно знать, что год назад только комплекс AGIS работал на основе СУБД Caché, а теперь, помимо AGIS, на её основе эксплуатируются несколько других баз данных».

Уильям О’Маллейн: «Второе испытание операционной готовности в данный момент как раз подходит к концу. Оно проводилось полностью на базе Caché (первое проводилось на базе Oracle). В ходе второго испытания, конечно, было выявлено несколько небольших проблем (в частности, относящихся к нашему собственному программному обеспечению), но в целом, с точки зрения применения Caché, всё прошло успешно».

Вопрос 5: «Не могли бы вы привести некоторые цифры, связанные с производительностью? А также не могли бы вы рассказать о найденных узких местах, и как вы их обошли?»

Уильям О’Маллейн: «Мне трудно сразу привести точные цифры… В некоторых местах мы получили 10-кратное увеличение производительности в сочетании с более эффективной обработкой очередей данных и устранением некоторых узких мест в коде. Постоянно наблюдалось 10-кратное увеличение производительности в отношении “неоптимизированных” систем».

Вопрос 6: «Возможен ли технически обмен данными между системой Hadoop и Caché? Нужен ли такой обмен в рамках этого проекта?»

Хосе Руперес: Сырые данные, ежедневно получаемые по каналу со спутника, могут загружаться в любую базу данных. Европейский центр космической астрономии выбрал базу данных InterSystems Caché из-за её высокой производительности, но не только. Уильям также может подтвердить, что основными причинами выбора этой СУБД были экономическая эффективность и предоставление поддержки корпорацией InterSystems. Другие центры обработки данных могут попробовать использовать и остановить свой выбор на иных программных продуктах».

Уильям О’Маллейн: «Да, действительно: предоставление поддержки было одной из основных причин нашего выбора Caché. InterSystems работает в тесном контакте с нами и быстро откликается на наши потребности. InterSystems исповедует профессиональную культуру, ориентированную на разработчика, и это соответствует культуре, которой следует наша команда специалистов. Hadoop – это одно, HDFS (Hadoop Distributed File System – прим. пер.) – это другое… Но, конечно же, эти системы взаимосвязаны. Во многих отношениях наш инструмент DataTrain Whiteboard обеспечивает выполнение распределённых вычислений в рамках парадигмы MapReduce для некоторых усовершенствований с целью решения наших проблем. Имеются интерфейсы базы данных Hadoop, так что она может работать в связке с Caché».

Вопрос 7: «Не могли бы вы рассказать о том, что вы узнали, занимаясь этим проектом? В частности, какая роль уготована Caché теперь, когда результаты основной ежедневной обработки данных хранятся в Caché?»

Хосе Руперес: «Одним из показателей производительности InterSystems Caché явилась способность поддерживать скорость вставки в базу данных на протяжении нескольких дней на уровне свыше 100 000 записей в секунду. То есть Caché должна была записывать на диск сотни мегабайт в секунду. Меня это до сих пор впечатляет!»

Уильям О’Маллейн: «… и делать с использованием совершенно стандартной системы хранения данных NetApp Storage. Специалисты по Caché и NetApp сели вместе здесь, в Европейском центре космической астрономии, чтобы разработать конфигурацию обеих систем для получения максимальных показателей ввода-вывода (IO) для Java через Caché в NetApp. Для этого, в частности, были модифицированы настройки нескольких низкоуровневых страниц».

Вопрос 8: «Что ещё необходимо сделать?»

Уильям О’Маллейн: «Мы собрали большинство деталей, но это всё ещё не является хорошо смазанной машиной. Нам требуется больше надёжности и чуть больше автоматизации на борту».

Вопрос 9: «Высокоуровневая архитектура вашего решения год назад состояла из двух баз данных: из так называемой Главной базы данных (Main Database) и Базы данных AGIS. Предполагалось, что в Главной базе данных будут поддерживаться все данные со спутника GAIA и результаты обработки. (При этом ожидалось, что их объём в период реализации Миссии GAIA вырастет с нескольких до сотен Тб.) Базу данных AGIS планировалось использовать только для поддержания подмножества этих данных в целях проведения анализа. Не могли бы вы рассказать о развитии архитектурной концепции решения в прошлом году?»

Уильям О’Маллейн: «Архитектура решения осталась той же самой».

Вопрос 10: «Что касается Базы данных AGIS, смогли ли вы получить реалистичные данные и загрузить их в систему?»

Уильям О’Маллейн: «Мы провели крупномасштабные тесты БД AGIS с использованием 50 000 000 источников (что эквивалентно реализации 4 500 000 000 имитационных наблюдений). Мы получили весьма хорошие результаты и убедились в соответствии имеющимся требованиям. Была подтверждена способность поддерживать обработку данных при росте количества их источников с 2 до 10, а затем и до 50 миллионов. В период завершения Миссии GAIA (в конце 2018 года) потребуется обработка данных из 100 000 000 источников, поэтому мы вполне уверены в том, что сможем выполнить это требование. Имитационное моделирование проводилось на основе реалистичного распределения источников данных по размерам и координатам (т.е. с учетом неоднородности реального космоса)».

Вопрос 11: «Каких результатов вы добились в доработке и конфигурировании системы AGIS для соответствия жёстким требованиям по вставке записей в базу данных и одновременной оптимизации организации очередей данных при их передаче?»

Уильям О’Маллейн: «У нас ещё есть заторы с обновлением серверов, но 50 миллионов тестов по-прежнему отрабатывают в течение месяца на небольшом внутреннем кластере. Поэтому системное требование в 100 миллионов за 3 месяца будет соблюдено, особенно учитывая новое аппаратное обеспечение.

Вопрос 12: «Какие следующие шаги запланированы в рамках реализации Миссии GAIA? Какие основные технические проблемы потребуется решить в будущем?»

Уильям О’Маллейн: AGIS – важнейший компонент программного обеспечения для поддержки осуществления Миссии GAIA в части астрометрических измерений. Но прежде необходимо гарантировать эффективную ежедневную обработку данных. Поэтому сейчас основное внимание мы уделяем тому, что мы называем первоначальной обработкой данных (Initial Data Treatment, IDT). Решение по обеспечению IDT должно быть надёжным и бесперебойно функционировать, в частности в нештатных ситуациях. Поэтому у нас впереди несколько месяцев процесса консолидации решения, устранения ошибок и проверок операционной эффективности. Будущие проблемы, я надеюсь, будут не техническими. Скорее, когда мы увидим реальные данные, они будут не совсем такими, как мы ожидали или надеялись увидеть. Конечно, я буду приятно удивлён, если у нас вообще не будет никаких проблем. Спросите меня об этом в следующем году…».

Уильям О’Маллейн (William O`Mullane), руководитель Подразделения научных исследований Европейского космического агентства (European Space Agency, ESA).

Уильям О’Маллейн имеет степень доктора по физике и обладает знаниями в компьютерных науках. Участвует в проектах космических исследований с 1996 года, когда он оказывал содействие в реализации проекта запуска спутника Hipparcos. Тогда он также участвовал в работе специализированных структур Planck Science Ground Segment и Integral Science Ground Segment, а также в решении проблемы обработки данных в рамках Миссии GAIA. В 2000-2005 годах Уильям О’Маллейн принимал участие в создании Американской виртуальной обсерватории (US National Virtual Observatory, NVO) и проведении исследования “Sloan Digital Sky Survey” (SDSS) в Балтиморе, США. В августе 2005 года он возобновил свою работу в Европейском космическом агентстве в качестве руководителя Подразделения научных исследований в рамках Миссии GAIA. Он возглавил деятельность Европейского центра космической астрономии по разработке решения по обработке данных и их анализу для консорциума GAIAData Processing and Analysis Consortium.

Хосе Руперес (José Rupérez), старший инженер, корпорация InterSystems.

Предоставляет технические рекомендации клиентам и партнерам корпорации в Испании и Португалии в течение последних 10 лет. В частности, консультирует Европейское космическое агентство с декабря 2008 года. До прихода в InterSystems работал в подразделениях разработки и поддержки программного обеспечения в компаниях eSkye Solutions и A.T. Kearney в США. Свою профессиональную карьеру начал в 1994 году специалистом по программному обеспечению в компании Alcatel. Имеет степень бакалавра физических наук Университета Комплутенсе (Universidad Complutense), г. Мадрид, Испания, и магистра компьютерных наук университета Ball State University, штат Индиана, США. Также окончил курсы бизнес-школы MIT Sloan School of Business.

Сопутствующие публикации:

Ресурсы / источники:

Об авторе статьи

Роберто В. Дзикари (Roberto V. Zicari)

Roberto V. ZicariПрофессор Роберто В. Дзикари – редактор портала ODBMS.ORG (www.odbms.org), «самого современного и актуального в интернете собрания общедоступных материалов по технологии объектных баз данных». Этот портал был создан для широкого круга разработчиков: создателей программ с открытым исходным кодом и коммерческих приложений, а также для преподавателей и студентов образовательных учреждений и исследовательских университетов.

ODBMS.ORG позволяет удовлетворить быстро растущую потребность в доступе к ресурсам по таким темам, как “Big Data”, («Обработка больших объёмов данных»),”Analytical Data Platforms” («Аналитические платформы»), “Scalable Cloud platforms” («Масштабируемые облачные платформы»), “Object databases” («Объектные базы данных»), “Object-relational bindings” («Объектно-реляционные связи»), “NewSQL databases” («Базы данных NewSQL»), “NoSQL datastores” («Хранилища данных NoSQL», а также к информации о новых методах контроля параллельного доступа.

Роберто В. Дзикари – профессор факультета “Database and Information Systems” Франкфуртского университета и представитель консорциума Object Management Group (OMG) в Европе. До этого он работал в качестве старшего доцента университета Politecnico di Milano, Италия, приглашённого научного специалиста в исследовательском центре IBM Almaden Research Center, США, и в Калифорнийском университете (University of California), г. Беркли, США, приглашённого профессора в Федеральной политехнической школе Лозанны (EPFL), Швейцария, в Национальном университете Мехико (National University of Mexico City) и в Копенгагенской школе бизнеса (Copenhagen Business School), Дания.