Оценка качества данных в физике высоких энергий

Физик Денис Деркач объяснил, почему важно сохранять как можно больше данных в ходе экспериментов БАК, как устроен процесс обучения алгоритмов для проверки качества данных и какие бывают аномалии в качестве данных

Сохранить в закладки
10117
43
5 апреля 2018
Сохранить в закладки

Проверка качества данных является неотъемлемой частью работы Большого адронного коллайдера. И именно здесь искусственный интеллект и методы машинного обучения пока что не смогли отстранить человека от самых базовых операций.

Существует два режима проверки качества данных: онлайн и офлайн. Онлайн-режим — это режим, в котором оператор 24 часа в сутки и 7 дней в неделю следит за работой коллайдера непосредственно в области детектора. Офлайн-режим проверки качества данных — это режим, в котором оператор проверяет качество данных после некой предварительной обработки.

Проверка качества данных онлайн

Во время онлайн-обработки качества данных оператор следит за самыми базовыми характеристиками работы детектора. Например, идет ли подача электроэнергии на ту или иную плату или есть ли какие-то данные, которые исходят из того или иного субдетектора. В этот момент оператор принимает решение, являются ли данные, которые набираются в этот момент, хорошими или плохими. Если существуют какие-то проблемы с какой-то характеристикой, оператор должен попробовать решить эту проблему самостоятельно. Для этого можно посмотреть на то, что происходило с системой ранее, не было ли какого-нибудь изменения в условиях сбора данных. Влиять на качество данных может новое программное обеспечение или перенастройка отдельных частей детектора. И если оператор не может самостоятельно решить проблему, он должен связаться с экспертом, который находится неподалеку, и попытаться решить эту проблему вдвоем.

На Большом адронном коллайдере работают два крупных (ATLAS и CMS) и два средних (ALICE и LHCb) эксперимента, а также несколько экспериментов небольшого масштаба. У каждого эксперимента есть своя группа субдетекторов.

«Хранить данные — это довольно дорогое удовольствие. Поэтому данные, которые не проходят первичную онлайн-обработку и онлайн-тестирование, не сохраняются вообще»

Вариативность набираемых данных обычно препятствует внедрению новых продвинутых методов анализа качества данных. Обычно машинное обучение должно обучаться на достаточно постоянной выборке. Но в случае с экспериментами на БАК мы не можем точно сказать, являются ли аномалии при проведении экспериментов и получении данных каким-то сбоем или действительно результатом эксперимента.

Типичными видами сбоев для этапа онлайн-проверки качества данных является отсутствие или неправильная температура охлаждения частей детектора. Или, например, какие-то проблемы на компьютерной ферме: может зависнуть софтверный триггер. В этом случае его нужно перезагрузить, но делать это может только определенный специалист, имеющий право перезагружать компьютерную ферму.

Контрольная комната в ЦЕРН // cds.cern.ch
null
null
null

Контрольная комната в ЦЕРН // cds.cern.ch

Проблема хранения данных

Хранить данные — это довольно дорогое удовольствие. Поэтому данные, которые не проходят первичную онлайн-обработку и онлайн-тестирование, не сохраняются вообще. Если оператор решает, что какие-то данные необходимо пометить как плохие, он выставляет в специализированной базе начало и конец плохого периода, и обычно эти данные уничтожаются.

В Стандартной модели мезоны — это составные элементарные частицы, состоящие из равного числа кварков и антикварков. К мезонам относятся пионы (π-мезоны), каоны (K-мезоны) и другие.

В дальнейшем данные, которые помечены как хорошие, отправляются на дополнительное тестирование после применения разных элементов реконструкции. Можно искать какие-то треки или нестабильные частицы, замерять среднее количество пионов, каонов, протонов за несколько минут. И в дальнейшем тестирование качества происходит уже при более «физических» характеристиках — таких, на которые среагирует, например, триггер высокого уровня.

Триггеры в аналитике данных

Типичный пример аномалии, которую замечает оператор во вторичной проверке качества данных, — это сдвиг в массе известных частиц. То есть, например, если мы поймали B-мезон, который должен иметь определенную массу, а это значение сдвинуто на несколько сотен килоэлектронвольтов, это означает, что есть проблемы с калибровкой детектора. Соответственно, нужно это поправить. Высокоуровневый триггер должен принимать решения несколько тысяч раз в секунду. И естественно, что человек не может принимать решение о качестве данных с такой же скоростью. Поэтому оператору, который находится за компьютером, обычно показывают агрегированные данные, то есть данные, полученные за несколько секунд, минут или даже часов работы коллайдера. Таким образом, оператор принимает решение не на основании какого-то моментального всплеска в данных, а на основании более усредненной информации.

 

 

Проверка качества данных офлайн

Для оператора, который производит обработку качества данных офлайн, обычно отбирают небольшое количество данных — всего несколько процентов, а все остальное оставляют для дальнейшей обработки. На этом этапе также важно разметить данные на хорошие или плохие.

В плохих данных может наблюдаться неправильная частота рождения известных нам частиц либо неправильная масса простейших нестабильных частиц. Получается, что мы пытаемся спрогнозировать, как будет выглядеть весь набор данных, по очень небольшому количеству данных, которые мы выбираем из определенных мест работы коллайдера. Как правило, это происходит в начале заполнения пучка, потому что это очень характерный участок эксперимента.

Кажется, что эту часть работы очень трудно автоматизировать. Существует несколько математических характеристик, которые показывают, что полученные данные не похожи на идеальные данные, которые набирает коллайдер. У нас всегда есть какая-то вариативность. Мы не можем точно сказать, произошло ли изменение набранных данных из-за вмешательства человека или просто из-за того, что у нас сломалась установка. Поэтому необходимо сделать какой-то специализированный алгоритм, который будет принимать во внимание эту вариативность.

 

Рекомендательная система в эксперименте LHCb // M. Adinolfi et al. 2017
Рекомендательная система в эксперименте LHCb // M. Adinolfi et al. 2017

Такой алгоритм был предложен. И сейчас несколько экспериментов пробуют внедрить его либо в онлайн-, либо в офлайн-обработку. Идея алгоритма заключается в итеративном обучении для проверки качества данных. То есть оператор, который приходит и размечает первичные данные, отдает свое мнение алгоритму, обучающемуся на этих данных. После чего алгоритм сообщает следующему оператору свое мнение о том, какие данные хорошие, а какие плохие. На начальных этапах обучения алгоритм занимается предсказанием качества только относительно крайних вариантов данных, а не всего массива.

Компактный мюонный соленоид (CMS от англ. Compact Muon Solenoid) — один из двух больших универсальных детекторов элементарных частиц на Большом адронном коллайдере (БАК). Это детектор общего назначения, предназначенный для поиска бозона Хиггса и «нестандартной физики», в частности темной материи // wikimedia.org

Второй оператор в основном занимается серой зоной, то есть той зоной, в которой алгоритм не был уверен. И на следующий день алгоритм переучивается уже с учетом мнения первого и второго эксперта. И так продолжается несколько дней или недель до тех пор, пока алгоритм не научится видеть очень многие вещи, которые видят операторы, и на самом деле не улучшит качество до того, чтобы схлопнуть серую зону до очень маленького количества принятых решений. Тем не менее мы все равно считаем, что необходимо будет финальное решение эксперта по поводу тех или иных данных по причине того, что все-таки цена ошибки будет слишком велика. Поэтому, скорее всего, алгоритм превратится в какого-то типа рекомендательную систему.

Обучаясь просто на предыдущих ответах оператора, мы можем не только предсказать, хорошие это данные или плохие, но и с помощью небольшой модификации локализовать возникающие проблемы. Такой алгоритм тоже был предложен, и сейчас он проходит тестирование в эксперименте CMS. Этот алгоритм позволит не только судить о качестве данных, но и отметить, что определенные данные плохие из-за такого-то субдетектора.

 

Зачем нужно проверять качество данных

Проверка качества данных нужна для того, чтобы сохранить как можно больше данных. Мы можем ввести не только категории плохого или хорошего, но и сказать, что определенные данные «хорошие для такого-то анализа». Например, если вы ищете распад бозона Хиггса в два мюона, то вам необходимы данные, которые хорошие с точки зрения мюонных камер, но вам, скорее всего, не понадобится качество данных других субдетекторов. Поэтому вы таким образом немного выигрываете в статистике, но это может быть достаточно важным, чтобы получить какое-то открытие.

«В предыдущих экспериментах удалось после окончания работы восстановить еще несколько процентов статистики. А каждый процент статистики имеет свою буквальную стоимость — в долларах, рублях или евро»

Такой подход далеко не новость. Предыдущие эксперименты, например эксперимент Babar, смогли таким образом после окончания своей работы восстановить еще несколько процентов своей статистики. А каждый процент статистики имеет свою буквальную стоимость — в долларах, рублях или евро. Таким образом, получается, что при автоматизации оценки качества данных мы сможем автоматически набирать дополнительную статистику уже после окончания экспериментов. То есть вытаскивать данные, которые были помечены как плохие, в такую зону, в которой они могут быть использованы для некоторых типов анализов.

Babar — эксперимент, проводимый в Стэнфордской лаборатории SLAC с целью изучения нарушений CP-симметрии при распаде B-мезонов.

Сейчас системы автоматизации проверки качества данных проходят тестирование в нескольких экспериментах и даже в центральном контрольном центре ЦЕРН. И когда они будут внедрены, мы надеемся, что освободится ценное время специалистов-операторов, которые обычно являются физиками-экспериментаторами. Вместо того чтобы заниматься рутиной, они смогут больше времени уделять исследованиям.

 

 

Читайте также

Внеси свой вклад в дело просвещения!
visa
master-card
illustration