четверг, 14 апреля 2011 г.

Применение Data Mining в космических приложениях.

Выкладываю свою статью "Применение Data Mining в космических приложениях". Статья обзорная и содержит информацию взятую исключительно из открытых источников. Все ссылки ведут на полнотекстовые PDF.

Статья была опубликована в прошлом году, в сборнике трудов конференции "Интеллект и наука". Полная ссылка: В.В. Деревянко, "Применение Data Mining в космических приложениях", Интеллект и наука: труды X Международной научно-практической конференции "Интеллект и наука" (г. Железногорск, 28-29 апреля 2010 г) - Красноярск: ИПК СФУ, 2010. - 344 с (страницы 26-33).

Публикуется с любезного разрешения ИПК СФУ.

Введение

При использовании любого устройства в космических приложениях – непосредственно в космических аппаратах или в наземном оборудовании, – одной из ключевых проблем является обеспечение надежности работы устройства. Надежность работы требует тщательного контроля: контроля качества производства, контроля производительности в процессе работы, своевременной диагностики и устранения возникающих неисправностей и т.д. Подобный контроль выполняется на основе информации, поступающей с датчиков, контролирующих работу устройства. Прогресс в развитии микроэлектроники за последние 10-15 лет привел к тому, что датчики стали существенно дешевле, легче и меньше по размерам. Это привело к увеличению количества используемых датчиков и росту объемов телеметрической информации. Естественно, ручная обработка больших объемов информации слишком трудоемка – нужны средства автоматизации.

Задачи автоматизации поиска знаний решаются средствами интеллектуального анализа данных – Data Mining. Фактически, Data Mining - это набор технологий поиска скрытых закономерностей в больших, необработанных объемах данных. Data Mining является частью процесса KDD (Knowledge Discovering in databases), включающем, помимо поиска закономерностей, этапы сбора, подготовки данных и последующего анализа полученных результатов. К настоящему времени разработано множество алгоритмов и технологий Data Mining. Характерно, что универсального алгоритма для извлечения знаний из данных не существует. Каждое конкретное практическое приложение, обладающее специфическими характеристиками, требует либо адаптации существующих технологий Data Mining, либо разработки новой технологии обработки данных.

Целью настоящей статьи является обзор вариантов применения Data Mining в космических приложениях. На наш взгляд, все имеющиеся работы можно условно разделить на три категории. К первой относятся работы, посвященные поиску аномалий в телеметрических данных и мониторингу состояния технических систем. Ко второй – работы, посвященные повышению качества производства, тестирования компонентов системы и прогнозированию возникновения неисправностей в используемых системах. К третьей – использование Data Mining на борту летательных аппаратов. Настоящий обзор не является всеобъемлющим и основан исключительно на публикациях, доступных через Интернет.

Поиск аномалий.

Одним из ключевых направлений применения технологий Data Mining является автоматизация поиска аномалий. Поиск аномалий – это поиск шаблонов данных, не соответствующих ожидаемому поведению [1]. Поиск аномалий широко применяется в задачах мониторинга состояния технических систем. Для решения подобных задач используются системы ISHM (Integrated Systems Health Management). В ISHM состояние системы контролируется по показаниям датчиков. Если в работе системы возникает неисправность, в данных, поступающих с датчиков, возникают аномалии, сигнализирующие об отклонение поведения системы от нормального поведения. Типичные задачи, которые решают подобные системы мониторинга, это определение факта возникновения аномалии, локализация ее местонахождения, диагностирование возникшей неисправности и прогнозирование возникновения неисправностей.

Традиционно системы ISHM обычно используют одновременно несколько методов диагностики аномалий, в частности [2]:
  • проверку выхода значения параметра за установленные пределы;
  • экспертную систему, содержащую набор правил, описывающих нормальное поведение системы (rule-based);
  • математическую модель, описывающую требуемое поведение системы (model-based).
Общий принцип у традиционных алгоритмов примерно один и тот же. Вначале эксперты задают модель поведения системы. Модель поведения представляет собой набор правил, характеризующих поведение системы. В процессе работы системы, поступающие телеметрические данные проверяются на соответствие модели. Если поведение данных начинает отклоняться от модели, то оператору, контролирующему работу системы, поступает тревожных сигнал о возможной неисправности.

У всех традиционных алгоритмов есть общий недостаток – они требуют интенсивной работы экспертов. Эксперты задают набор правил, конструируют математическую модель, устанавливают допустимые пределы значений параметров. Возрастает количество данных – возрастает количество работы, которую необходимо проделать экспертам прежде, чем система мониторинга сможет работать.

Методы, основанные на Data Mining - data-driven методы, - от этого недостатка свободны. Data-driven методы строят модель поведения системы автоматически, на основе имеющихся данных о нормальном поведении системы. Для обучения метода обычно достаточно несколько десятков-сотен точек нормальных данных.

Data-driven методы имеют ряд преимуществ, по сравнению с традиционными:
  • не требуют априорно заданных знаний о работе системы;
  • не требуют системного анализа, чтобы определить соотношения между параметрами;
  • способны обрабатывать телеметрические данных, поступающие от работающей системы, в режиме реального времени и очень быстро реагировать на появление аномалии; модель поведения системы очень компактна и позволяет вести работу в режиме реального времени;
  • позволяют устанавливать и отслеживать взаимосвязь между большим количеством параметров;
  • способны обнаруживать коллективные и контекстные аномалии [1];
  • дают возможность автоматически обрабатывать архивы накопленных данных и извлекать из них полезную информацию;
  • позволяют легко учитывать новые данные о нормальном поведении системы и обновлять ранее построенную модель ее поведения.
Разработки data-driven методов мониторинга активно ведутся в Японии [2] и в США [3, 4]. К настоящему времени, разработано множество методов: IMS, Orca, GritBot, GMM, LDS, одно-классовый SVM и т.д. Как показано в работе [5], в общем случае разные методы находят различный набор аномалий, так что в IMHS целесообразно применять комбинации различных методов.

Одним из наиболее перспективных data-driven методов является технология IMS, разработанная в NASA [4]. IMS использует технологию кластеризации данных и вводит понятие расстояния между векторами данных. В процессе обучения IMS анализирует данные, полученные в процессе нормальной работы системы, и строит модель поведения системы – набор кластеров. Каждый кластер определяет ограничения на значения каждого параметра в каждом конкретном входящем векторе данных. Если в базе знаний нет кластера, содержащего близкие по значению данные, это означает, что система ведет себя неожиданным способом, т.е. возникла аномалия. В случае, если расстояние между текущими и нормальными данными превышает пороговое, система выдает тревожный сигнал [3].

В настоящее время IMS активно применяется в NASA. В частности, разработчики IMS проанализировали данные, полученные с шатла Колумбия во время его последнего полета. Как известно, шатл потерпел катастрофу из-за отрыва куска изоляционной обшивки, пробившей термоизоляцию на левом крыле. Отрыв произошел во время старта корабля. Однако о проблемах с термоизоляцией стало известно лишь через 17 дней, во время приземления шатла. База знаний IMS строилась на основе анализа данных предыдущих 5 полетов Колумбии. IMS выдала сигнал о возникновении неисправности в течении двух минут с момента ее возникновения.

IMS успешно используется в центре управления полетов МКС для поиска аномалий в гироскопе с управляющим моментом. IMS успешно используется для мониторинга состояния главного двигателя шатла [6]. Есть и другие успешные применения [9]. Компания iSagacity разработала на основе IMS коммерческий программный продукт Process Data Miner, способный обнаруживать в данных тренды, являющиеся ранними предвестниками начинающихся изменений в процессах или возникновения проблем в оборудовании.

Как известно, NASA собирается прекратить полеты шатлов в 2010 году. На замену шатлам приходят новые аппараты – Ares. Система диагностики Ares 1-X использует data-driven алгоритмы [7] совместно с математическими моделями и экспертными системами. Здесь необходимо отметить важный момент. По правилам NASA любые компьютерные системы, предоставляющие данные для критических решений при полетах с участием человека, должны были сертифицированы. Несертифицированные системы могут использоваться лишь в качестве «советчиков» - их результаты должны в обязательном порядке перепроверяются на сертифицированных системах. При использовании на Space Shuttle data-driven алгоритмы работали именно в режиме «советчиков». Система диагностики Ares изначально разрабатывалась с учетом требований сертификации. Разработчики системы диагностики Ares I-X рассчитывают на то, что им удастся ее сертифицировать.

Для первого полета Ares 1-X не было данных, накопленных при предыдущих полетах. Между тем, data driven алгоритмы использовались уже при первом полете (успешно состоявшемся 28.10.2009). Для обучения метода были частично задействованы данные, полученные при полетах шатлов для ускорителя с РДТТ, отклоняемого вектора тяги, а так же данные по наземной гидравлике [8].

Контроль качества.

О том, насколько для космических аппаратов важно качество используемых компонентов – говорить излишне. В наше время, Data Mining активно используется в промышленности для повышения качества производства, оптимизации тестирования и прогнозирования выхода компонентов из строя [13].

В работе [14] авторы применили Data Mining для поиска причин выхода из строя печатных плат. При сборке печатных плат, под некоторыми компонентами образуются пузырьки припоя. Подобные пузырьки могут приводить к преждевременному выходу компонента (и блока в целом) из строя. 70-80% дефектов плат связаны с пузырьками, 20-30% - с компонентами. Авторы показали, что подавляющее большинство подобных дефектов образуется под компонентами определенного вида. Полученная информация позволила разобраться в том, что может приводить к таким дефектами, и понять, каким образом следует модифицировать процесс производства.

В работе [15] предложен метод оптимизации процесса производства интегральных микросхем. Интегральные микросхемы фабрикуются на пластинах, содержащих сотни отдельных чипов. Далее каждый чип подвергается длительному и дорогостоящему тестированию. После чего пластины разрезаются и прошедшие проверку чипы объединяются в пакеты, которые вновь подвергаются тестированию. Авторы применили data mining, позволяющий снизить количество тестов отдельных чипов. В [17] использовали технологию распознавания образов для проверки качества изделий, отлитых из алюминия. Распознавание образов – это то же Data Mining.

В работе [11] технология Data Mining была применена в FMECA-анализе. FMECA-анализ – технология анализа возможности возникновения дефектов в авиационной микроэлектронике. Традиционно такой анализ проводится на основе FMECA-таблиц, который обычно составляются экспертами вручную. Авторы использовали Data Mining для автоматизации составления FMECA-таблицы. Результат – FMECA-таблица получилась более точной, более полной, а время ее создания сократилось с нескольких месяцев до пары секунд.

К выходу электроники из строя в процессе эксплуатации приводят не только дефекты производства. К настоящему моменту, производители электроники практически полностью автоматизировали процесс производства, так что характеристики производимых изделий минимально варьируются от образца к образцу. Важнейшей причиной возникновения неисправностей являются индивидуальные характеристики эксплуатации конкретного модуля. Среднее время эксплуатации и другие традиционные характеристики надежности, крайне неточны. Для более точной оценки необходимо учитывать реальную историю эксплуатации конкретного модуля.

В работе [10] предпринята попытка разработки метода точной оценки вероятности выхода из строя авиационного и аэрокосмического оборудования на основе истории его эксплуатации. Анализ данных проводился с помощью технологий Data Mining.

В работе [3] описан способ применения IMS для предсказания возникновения неисправностей в процессе предпусковой диагностики. В предпусковых тестах могут остаться незамеченными мелкие отличия, появившиеся в поведении модуля. Существующие технологии мониторинга фокусируются, в основном, на различиях в значении одного параметра. Метод IMS умеет анализировать совместное поведение множества параметров и способен определить, что хотя значения всех параметров находятся в допустимых пределах, поведение модуля в целом начало меняться и отличается от поведения, зафиксированного в ранее проведенных тестах. Такие изменения могут служить ранним сигналом о возникновении неисправности. Кроме того, результаты такого анализа помогут выявить условия снижения производительности тестируемого компонента уже после выхода компонента из строя. Наконец, результаты IMS-анализа могут являться входными данными для алгоритмов, прогнозирующих будущее поведение компонента [12].

Data Mining на борту летательного аппарата

Использование бортовых систем Data Mining [16] актуально, как минимум, по трем причинам. Во-первых, такие системы дают возможность быстро реагировать на происходящие события. Например, на космическом корабле, направляющемся к Марсу, задержка между моментом возникновения события и поступления соответствующей команды из центра управления полета может составлять 20 минут. Во-вторых, бортовые системы Data Mining могут грамотно расставлять приоритеты при передачи данных в центр управления. Произошло нетривиальное событие – информация о нем будет передана в первую очередь. В-третьих, бортовые системы Data Mining могут осуществлять черновую обработку данных и передавать на землю «выжимку» значительно меньшую по объему, чем исходные данные. В условиях удаленности системы от центра управления полета, больших объемов телеметрических данных и ограниченной ширины пропускания каналов связи, все это делает бортовые системы Data Mining весьма актуальными. В работе [18] рассмотрены три технологии Data Mining, которые планируется использовать на борту летательного аппарата, летящего на Марс.

Выводы

Можно выделить два основных направления использования технологий Data Mining в космических приложениях: для анализа архивных данных и для анализа телеметрических данных в реальном времени.

Анализ архивных данных позволяет:
  • автоматически, без участия экспертов, построить модель нормального поведения системы;
  • найти скрытые закономерности в данных, позволяющие исследователям пост-фактум проанализировать возникновение той или иной неисправности и понять какие симптомы в данных проявлялись перед ее возникновением, каковы причины неисправности, что можно сделать, чтобы исключить ее повторение.
Анализ телеметрических данных в реальном времени служит:
  • для быстрого диагностирования появления аномалии в данных;
  • для отслеживания возникновения трендов в данных;
  • для диагностирования появления тонких различий в поведении системы, являющихся ранними предвестниками возникновения проблем.
Ключевыми преимуществами технологий Data Mining, отличающих их от ручного анализа данных, являются:
  • возможность быстрой обработки больших объемов данных;
  • возможность анализа совокупности параметров системы;
  • быстрота реакции на возникновение проблемы.
В большинстве случаев, технологии Data Mining используются в качестве «советчиков» - результаты анализа используются человеком, для принятия решений. Однако прослеживается четкая тенденция к автоматизации процесса принятия решений.

Технологии Data Mining находят все более широкое применение космических приложениях. Фактически, их применение становится нормой. Это обусловлено, прежде всего, непрерывным ростом объемов архивных данных, количества систем, генерирующих телеметрические данные и объемов самих телеметрических данных. Текущие тенденции позволяют сделать вывод о том, что в дальнейшем роль технологий Data Mining в применении к космическим приложениям будет только возрастать, а круг направлений использования – активно расширяться.

Литература

  1. V. Chandola, A. Banerjee, V. Kumar, "Anomaly Detection: A Survey", ACM Computing Surveys, Vol. 41(3), Article 15, July 2009 (PDF)
  2. T. Yairi, Y. Kato, K. Hori, "Fault Detection by Mining Association Rules from House-keeping Data", Proc. of International Symposium on Artificial Intelligence, Robotics and Automation in Space, 2001. (PDF)
  3. D. L. Iverson, R. Martin, M. Schwabacher, et al., "General Purpose Data-Driven System Monitoring for Space Operations", AIAA Infotech@Aerospace Conference, 2009. (PDF)
  4. D. L. Iverson, "Inductive System Health Monitoring", Proceedings of The 2004 International Conference on Artificial Intelligence (IC-AI’04), CSREA Press, Las Vegas, NV, 2004.(PDF)
  5. R.A. Martin, M. Schwabacher, N. Oza, A. Srivastava, "Comparison of Unsupervised Anomaly Detection Methods for Systems Health Management Using Space Shuttle Main Engine Data", Proceedings of the 54th Joint Army-Navy-NASA-Air Force Propulsion, Meeting, Denver, CO, May 2007.(PDF)
  6. M. Schwabacher, N. Oza, B. Matthews, "Unsupervised Anomaly Detection for Liquid-Fueled Rocket Propulsion Health Monitoring", Proceedings of the AIAA Infotech@Aerospace Conference, AIAA, Reston, VA, 2007.(PDF)
  7. M. Schwabacher, R. Waterman, "Pre-Launch Diagnostics for Launch Vehicles", IEEE Aerospace Conference, 2008. (PDF)
  8. M. Schwabacher, R.A. Martin, R. Waterman, et al., "Ares I-X Ground Diagnostic Prototype", AIAA Infotech@Aerospace Conference, 2010 (PDF)
  9. "Inductive System Monitors Tasks", Spinoff 2008, pp. 138-139 (PDF)
  10. Skormin, V. A., Gorodetski, V. I., and Popyack, I. J., 2002, "Data Mining Technology for Failure of Prognostic of Avionics", IEEE Trans. Aerosp. Electron. Syst., 38_2_, pp. 388–403. (PDF, zip)
  11. K. S. Tso, A. T. Tai, S. N. Chau, L. Alkalai, "On Automating Failure Mode Analysis and Enhancing its Integrity", PRDC 2005: 287-294 (PDF)
  12. M. Schwabacher and K. Goebel, "A Survey of Artificial Intelligence for Prognostics", Working Notes of 2007 AAAI Fall Symposium: AI for Prognostics, 2007. (PDF)
  13. J.A. Harding, M. Shahbaz, S. Srinivas, and A. Kusiak, "Data Mining in Manufacturing: A Review", ASME Transactions: Journal of Manufacturing Science and Engineering, Vol. 128, No. 4, 2006, pp. 969-976 (PDF)
  14. A. Kusiak and C. Kurasek, "Data Mining of Printed-Circuit Board Defects", IEEE Transactions on Robotics and Automation, Vol. 17, No. 2, 2001, pp. 191-196 (PDF)
  15. T. Fountain, T. Dietterich, B. Sudyka , "Mining IC test data to optimize VLSI testing", KDD ’00: Proceedings of the sixth ACM SIGKDD international conference on Knowledge discovery and data mining, New York, NY, USA, ACM Press (2000) 18–25.(PDF)
  16. S.Tanner, C.Stein, S.J. Graves, "On-board Data Mining" in "Scientific Data Mining and Knowledge Discovery" by M.M. Gaber (Editor), Springer Verlag GmbH, 2009, pp. 345-376 (PDF)
  17. S. Hernández, D. Saez, D. Mery, "Neuro-Fuzzy Method for Automated Defect Detection in Aluminium Castings", ICIAR (2) 2004: 826-833 (PDF)
  18. R. Castano, et al. "On-board analysis of uncalibrated data for a spacecraft at Mars," in Proceedings of the Thirteenth International Conference on Knowledge Discovery and Data Mining, 2007, pp. 922–930. (PDF)

Update: буду добавлять сюда и другие интересные ссылки по теме

Mark Schwabacher's Publications

Güntürkün F. "A Comprehensive Review Of Data Mining Applications in Quality Improvement and a Case Study", a thesis, 111 pages, august 2007(PDF)

R. S. Chen, Y. C. Chen and C.C. Chen. "Using Data Mining Technology to Deign an Quality Control System for Manufacturing Industry", Proceedings of the European conference of systems, 2010, pp. 271-276, ISBN: 978-960-474-250-9 (PDF)

Al-Salim, Bashar and Abdoli, Mansour, "Data Mining for Decision Support of the Quality Improvement Process" (2005). AMCIS 2005 Proceedings. Paper 115.
(PDF)

1 комментарий: