SDS в науке: генетические исследования с помощью IBM GPFS

Область биологических наук охватывает многочисленные сферы жизни, в том числе сельское хозяйство, биохимию, диетологию, генетику, медицину и здравоохранение, медицинское оборудование и визуализацию, а также фармацевтические препараты. Боннский университет использует технологии IBM, в том числе кластерные серверы IBM BladeCenter, массивы IBM System Storage и IBM GPFS, чтобы поддерживать важнейшие исследования в области генетики.

Институт медицинской биометрии, информатики и эпидемиологии при Боннском университете является ведущим мировым медицинским исследовательским центром в области изучения генетики. Институт в значительной мере использует вычислительные модели и осуществляет комплексные статистические и аналитические расчеты больших наборов данных. Чтобы получить новые знания важных исследовательских тем, институт установил небольшой кластер с 14 узлами. В результате увеличения числа и объема проектов и данных, которые выросли на несколько порядков, это решение устарело. Институт искал бюджетную, но мощную вычислительную платформу, которая позволила бы выполнять более сложные задачи с более высокой скоростью.

Из-за ограниченного пространства в серверной комнате институту требовалась высокопроизводительная вычислительная система, которая занимала бы минимум физического пространства. Вторым важным требованием была высокоскоростная связь между вычислительным кластером и средой хранения данных. Наконец, институту требовалась масштабируемая файловая система, которая могла обрабатывать огромные и постоянно растущие объемы данных, которыми исследователи генетики хотели бы иметь возможность манипулировать.

«Единственная файловая система, известная рынке, которая могла масштабировать согласно требованиям, была IBM GPFS (Общая параллельная файловая система)», – говорит Вальдемар Шпиц, системный администратор Института медицинской биометрии, информатики и эпидемиологии.

Институт использовал всего 26 серверов IBM BladeCenter HS22 и 8 серверов IBM BladeCenter LS42, которые обеспечивали всего 34 узла кластера с 504 процессорными ядрами, поддерживаемых 1,8TB оперативной памяти. Два массива IBM System Storage DS3400 обеспечивают в общей сложности 40 ТБ объема хранения для кластера IBM BladeCenter, и Институт продолжает активно добавлять объемы.

Чтобы удовлетворить потребности института в сетевой и накопительной производительности, IBM рекомендовал оборудование IBM System Storage DS3400, подключенное через оптоволоконный канал к серверам IBM System x3650 М2, установленным в качестве серверов ввода/вывода Общей параллельной файловой системы IBM, которые подключены к высокопроизводительному вычислительному кластеру через соединения InfiniBand.

Сегодня исследователи двух команд используют вычислительные ресурсы, предоставленные решением IBM. Институт также предоставляет открытый доступ к ресурсам исследователям, приезжающим со всего мира. Новое исследование, запущенное с помощью кластера IBM, охватывает все аспекты генетически сложных заболеваний и популяционной генетики.

Исследователи не только извлекают выгоду от увеличения производительности в широком масштабе, но и испытывают меньше перерывов. «Новое решение с кластером IBM работает в более стабильном режиме, особенно при высокой нагрузке», – говорит Шпитц.

Кластерное решение от IBM также сделало управление гораздо проще для системных администраторов. В прошлом команда использовала индивидуальные сценарии для управления кластером. Сегодня Extreme Cloud Administration Toolkit предоставляет стандартные инструменты и методологии для администрирования кластера, тем самым повышая эффективность управления системами в Институте. Это является особенно важным преимуществом, потому что освобождает исследователей от рутинной административной работы и позволяет им сосредоточиться на науке.

Кластер IBM BladeCenter обрабатывает большие объемы данных полезных медицинских исследований, о чем свидетельствует тот факт, что институт в настоящее время расширяет свою среду хранения данных с помощью массива IBM System Storage DCS3700 и блока расширения IBM System Storage DCS3700 с 400TB чистого объема. Разработанный для приложений с требованиями высокопроизводительной обработки потоковых данных, IBM DCS3700 обеспечивает оптимальное использование пространства, низкое энергопотребление и высокую производительность. Насчитывая до 60 дисков SAS всего на 4U стоечного пространства, он может уменьшить эксплуатационные расходы для объемных приложений. Располагая до 4000 MBps постоянного считывания дисков, системы хранения данных IBM DCS3700 одинаково эффективны в предоставлении производительности на приложения с интенсивной пропускной способностью.

Использование GPFS упростит задачу расширения среды хранения данных для института, а файловая система имеет практически неограниченную масштабируемость.

Другие возможности SDS

  • Как обеспечить мгновенный доступ к файлам?

    Читать дальше
  • Как легко и просто масштабировать SDS-инфраструктуру хранения по объему и производительности?

    Читать дальше

Мнения экспертов

Вы можете узнать больше, посетив бесплатный семинар при участии специалистов IBM

Как обеспечить мгновенный доступ к файлам?
Посетить семинар
Как эффективно использовать существующую инфраструктуру хранения?
Посетить семинар
Как легко и просто масштабировать SDS-инфраструктуру хранения по объему и производительности?
Посетить семинар
Скачайте бесплатно. Единственное переводное издание книги специалистов IBM в области SDS – Лоуренса Миллера и Скотта Фаддена: «Программно-определяемое хранение для «чайников»

Вы узнаете:
  • Как обеспечить мгновенный доступ к файлам
  • Как эффективно использовать существующую инфраструктуру хранения
  • Как легко и просто масштабировать SDS инфраструктуру хранения как в объеме, так и в производительности
Хотите прочитать?