Здравствуйте, в этой статье мы постараемся ответить на вопрос: «Управление инцидентами ITIL: понятие и подходы к процессу руководства». Если у Вас нет времени на чтение или статья не полностью решает Вашу проблему, можете получить онлайн консультацию квалифицированного юриста в форме ниже.
Вообще само по себе управление инцидентами не является каким-то «ноу-хау» – чем-то таким новым, чего раньше никто не делал. Все, кто внедрял у себя ISO9001 (та самая система менеджмента качества), знают, что один из обязательных процессов, который должен быть задействован – это процесс «Корректирующие и предупреждающие действия» – об этом процессе в стандарте ISO9001 достаточно хорошо и подробно описано.
Что такое инцидент: история, определение
В ITIL существует четкое определение инцидента (IT Incident) — это незапланированное прерывание ИТ-услуги или снижение качества ее предоставления. Другими словами, инцидентом можно назвать любую ситуацию, которая снижает качество предоставления услуг конечному потребителю и мешает бесперебойной работе бизнеса.
Простые примеры инцидентов — не отвечает сервер, не работает бизнес-приложение, письма по электронной почте не отправляются, в личном кабинете ошибка авторизации. Каждый день служба сервис деск получает десятки похожих обращений от пользователей. Это сбои, которые влияют на бизнес, частично или полностью тормозят выполнение бизнес-процессов. У каждого происшествия есть причины и последствия. Управление инцидентами сосредоточено на борьбе с последствиями и скорейшем восстановлении сервиса.
В ITIL существует несколько классификаций инцидентов. За основу при классификации берут срочность и степень влияния инцидента на бизнес и на каждого пользователя. Грамотная классификация позволяет быстро подключать соответствующих технических специалистов, экономить время и ресурсы компании. Например, по срочности и степени влияния инциденты классифицируют на незначительные и серьезные, которые требуют немедленного реагирования, так как затрагивают работу критически важных служб и могут привести к серьезным сбоям в работе компании.
В крупных корпоративных сетях ИТ-команды получают огромное количество сообщений об инцидентах, происходящих одномоментно. Чтобы не возникало путаницы в работе специалистов, а потенциальный ущерб для компании был по возможности минимизирован, важно разделить заявки по срочности, а также степени значимости. Первостепенно устраняются инциденты, которые могут нанести серьезный урон бизнесу и повлиять на качество предоставляемого сервиса.
Сразу после обнаружения инцидента ИТ-группа должна предпринять необходимые меры, чтобы сохранить эффективность работы сети на нормальном уровне производительности. Все инциденты фиксируются и, если проблема повторяется, составляется план по исправлению системных ошибок, которые могут приводить к возникновению одной и той же проблемы.
Подходы к управлению инцидентами
Сегодня в работе многих компаний используются различные программные продукты, поэтому потенциальных точек отказа и возникновения инцидентов больше, чем когда-либо. Последствия крупных инцидентов могут быть масштабными и привести к серьезным убыткам. Самый распространенный подход к управлению инцидентами — структурная система поддержки с многоуровневой моделью и четко распределенными ролями и зоной ответственности:
1. Основная техническая поддержка.
Первый уровень поддержки — специалисты, которые принимают заявки и предпринимают первую попытку решить проблему. Разбираться с инцидентами в соответствии с идеологией сервисного подхода должна служба поддержки или Service Desk, в задачи которой входит:
- обработка обращений от пользователей;
- получение детальной информации об инциденте, в том числе, выявление нецелевых обращений;
- регистрация, классификация, определение приоритетности;
- контроль восстановления сервиса пользователям и соблюдения заявленных параметров.
Преимущества в управлении инцидентами ITIL с помощью Сервис Деск
Структурированный подход к управлению и работе с инцидентами ITIL с помощью Сервис Деск открывает перед компанией много возможностей:
- хранение всех известных инцидентов центральном репозитории;
- автоматизация классификации инцидентов на основании на таких параметрах, как срочность, отдел, влияние и приоритет;
- сопоставление требований SLA с заявками об инцидентах;
- назначение заявок ИТ-специалистам или группам специалистов;
- сохранение историй процесса изменений;
- поиск решений по IT Incident;
- документирование решений в базе данных по IT Incident и запросам на обслуживание;
- связь с конфигурационными единицами и взаимосвязи с другими инцидентами, запросами на обслуживание и проблемами;
- формирование интерактивных информационных панелей и отчетности для дальнейшего анализа и поиска эффективных решений для устранения IT Incident;
- функционал для уведомления ответственных о событиях при управлении инцидентами;
- возможность досрочного закрытия IT Incident;
- аналитика решений IT Incident по срокам, услугам, ответственным, типам;
- полная автоматизация всего процесса при управлении инцидентами — от подачи заявки до закрытия IT Incident.
Управление инцидентами
Основная цель процесса управления инцидентами (incident management) — восстановление нормальной работоспособности системы в максимально короткие сроки и минимизация отрицательного влияния на бизнес, пользующийся службами, работоспособность которых оказалась нарушенной 3. Под «нормальным функционированием служб» понимается функционирование, соответствующее зафиксированному в соглашении об уровне обслуживания (service level agreement,SLA).
К инцидентам не могут быть отнесены события, не касающиеся качества предоставляемых ИТ-услуг, а также те, которые, снижая это качество, не выходят за оговоренные в SLA рамки. Особое место занимают случаи, когда клиент не ощутил на себе наличия инцидента (скажем, если все необходимые меры были приняты в автоматическом режиме или обслуживающим персоналом еще до того, как качество реально снизилось). Примеры: автоматическое архивирование данных и освобождение рабочего диска при приближении к моменту его переполнения; переход на резервный сервер при сбоях основного и т.д. Тем не менее, такие случаи не могут быть исключены из списка инцидентов. Правильная организация требует отработки и таких инцидентов в соответствии с полной процедурой (т.е. с последующим отображением в отчетах и принятием необходимых мер по их предотвращению в будущем).
Всякому процессу управления инцидентами можно дать формальное краткое описание путем перечисления набора характеристик.
Эффект от внедрения процесса управления инцидентами
Перечислим наиболее важные полезные качества, которые приобретаются в результате внедрения процесса управления инцидентами. Для бизнеса в целом это:
- снижение отрицательного воздействия на бизнес со стороны инцидентов, достигаемое повышением эффективности и сокращении времени при их устранении;
- проактивное (упреждающее) определение необходимости расширения и коррекции важных для бизнеса систем;
- доступность необходимой для бизнеса управленческой информации, соотнесенной с условиями SLA.
Ряд полезных качеств приобретает и работа ИТ-подразделения:
- усовершенствованный мониторинг, позволяющий измерить производительность в соответствии с SLA;
- улучшенная информация для управления качеством обслуживания;
- более оптимальная загрузка персонала и более эффективная его работа;
- исключение потерь и некорректного учета инцидентов и запросов;
- более точное ведение базы данных единиц конфигурации CMDB;
- лучшее удовлетворение потребностей клиентов.
Работа же без системы управления инцидентами может обернуться рядом неприятностей. Отсутствие лиц, ответственных за устранение и эскалацию инцидентов, приводит к путанице при устранении сбоев и снижает качество обслуживания. Специалисты службы поддержки отвлекаются от исполнения своих обязанностей, что снижает эффективность их труда. Пользователи для устранения инцидентов и проблем вынуждены общаться друг с другом, отвлекаясь от основных обязанностей. Всякий раз приходится заново анализировать инциденты — даже те, которые происходят регулярно и должны быть известны.
Сущность происхождения конфликтов
В конфликтологии выделяют два первоначальных этапа развития конфликта:
- повод;
- инцидент.
Развитие конфликтной ситуации представляет собой переход из латентного состояния в открытую борьбу в произошедшем инциденте.
Инцидент – происшествие на базе обоснованного повода, который служит для столкновения участников.
Повод – определенное событие, которое считается отправной точкой развития конфликта.
Повод может быть:
- случайным;
- запланированным
Отличительные особенности повода от инцидента: повод не считается конфликтом, он только выступает в роли зачинщика, а инцидент является началом коллизий. Т.е. инцидент создает амбивалентную ситуацию в установках и действиях соперников. Поэтому на этом этапе важно собрать информацию о правдивых возможностях и намерениях человека. В инциденте участники еще не показывают весь свой потенциал, так как развитие конфликта имеет локальную характеристику.
Понятие развития конфликтной ситуации
Конфликтная ситуация – в конфликтологии определение обозначает накопление противоречий, которые связаны с деятельностью индивидов социального взаимодействия и объективно создают основу для действительной борьбы между оппонентами.
Процесс развития конфликтной ситуации сложен, поэтому рассмотрим его хронологию:
внешняя ситуация—понимание происходящего—конфликтная ситуация
Трактуя внешнюю ситуацию как развитие конфликта, поведение человека начинает регулироваться правилами конфликтного взаимодействия, что приводит к столкновению. При специфике такого развития действий необходимо делать акцент на две характеристики перехода:
- факторы, которые объясняют восприятие ситуации как развитие конфликта;
- способы перехода к столкновению.
Характерной чертой возникновения конфликтов является несовпадение личностных целей с оппонентом. Здесь конфликт можно рассматривать как выводы, сделанные на основе ситуации. Если происходящее воспринимается личностью как развитие коллизии, то тот начинает подбирать доказательства, которым он будет придерживаться.
Несовместимость целей сторон является важной характеристикой развития конфликта, потому что индивиды начинают чувствовать угрозу, при которой необходимо мобилизовать определенные ресурсы. Это нужно для того, чтобы:
- достичь поставленной цели (в роли активный участник);
- обеспечить максимальную защиту (в роли пассивный участник).
К выводам: в чем разница инцидентов и запросов на обслуживание
Все поступающие в службу поддержки обращения делятся на инциденты и запросы на обслуживание. Первые — это «пожары», которые тормозят работу пользователей, поэтому должны устранятся максимально оперативно. Вторые — направлены на обеспечение нормальной работы инфраструктуры и предоставление стандартных услуг. Запросы на обслуживание не несут серьезной угрозы бизнесу, поэтому такие обращения обладают меньшей срочностью, чем инциденты.
Тем не менее, сроки и условия работы с подобными типами обращений должны четко регламентироваться в соглашении SLA. А для управления лучше всего использовать систему сервис деск, которая позволяет автоматизировать классификацию обращений, определение дедлайнов, назначение ответственных исполнителей и многие другие операции при выполнении таких запросов.
Случается, что инцидент – как беда – не приходит в одиночестве, и в результате сотрудники службы ИБ вынуждены реагировать на несколько инцидентов одновременно. В такой ситуации очень важно, не теряя времени, правильно расставить приоритеты и сосредоточиться на основных угрозах – именно это позволит минимизировать потенциальный ущерб от атаки.
Мы рекомендуем определять степень важности инцидента, исходя из следующих факторов:
style="">- Сегмент сети, где находится взломанный ПК;
- Ценность данных, хранимых на взломанном компьютере;
- Тип и количество других инцидентов, затронувших тот же ПК;
- Достоверность индикатора заражения, соответствующего данному инциденту.
Действия и происшествия, влекущие за собой инцидент
Вопрос о том, что такое авария или инцидент на опасном производственном объекте, не такой запутанный сам по себе. Что действительно сложно, так это понять, почему и что привело к такому результату.
Важно! У такого происшествия, как инцидент, всегда находятся причины, почему оно возникло. К этому могут привести многие действия работника, а также различные сложившиеся ситуации, которые не зависели от человека.
Чаще всего отмечают следующие характерные ситуации:
- халатное отношение трудящегося к процессу – наиболее распространенной ситуацией является именно человеческий фактор, когда работник не в состоянии грамотно оценить риск или просто не способен относиться серьезно к проделываемым действиям. Из-за подобного отношения и происходят инциденты;
- еще одним ключевым фактором является опасность процесса. Надо понимать, что инцидент на производстве это в первую очередь нарушение техники безопасности конкретного предприятия, которую трудящиеся могу не соблюдать по самым разнообразным поводам, начиная от простого незнания ее и заканчивая нахождением в состоянии алкогольного опьянения;
- независящие от человека факторы – непригодное техническое качество выданного оборудования, плохие погодные условия, случайное стечение обстоятельств и подобные вещи. Случаются истории, когда нельзя заранее предусмотреть все исходы, и винить работника в этом нет смысла;
- некомпетентность кадров – нередки на практике моменты, когда уполномоченное лицо не справляется с должностными обязанностями, что срывает работу и приводит к различным инцидентам в компании. Данного пункта можно избежать, если проводить регулярные курсы повышения квалификации.
Комиссия, которая расследует инциденты и аварии
В том случае если на производстве случается происшествие, собирается специальная комиссия, которая определяет порядок расследования инцидентов и аварий. Комиссию назначает совет правления предприятия. В ее состав должно входить нечётное число сотрудников. Такая система существует для того, чтобы мнения членов комиссии не разделились поровну, из-за чего следствие могло бы затянуться.
Комиссия выявляет причины инцидентов. В первую очередь она устанавливает лиц, которые имели отношение к аварии или инциденту. Далее следует определить степень повреждений, а также размер нанесённого ущерба. После этого комиссия составляет план по ликвидации последствий аварии.
Стоит напомнить, что после происшествия сотрудники предприятия должны в первую очередь немедленно сообщить об инциденте или аварии соответствующим органам. Работа, проведённая по факту нарушения или инцидента, оформляется и фиксируется в специально заготовленный нормативно-правовой акт. В нём должно быть указано время, место, а также суть инцидента. План действий по ликвидации аварии также вносят в акт. Данные из акта заносят в журнал происшествий. Все процедуры по выявлению, устранению, а также оформлению инцидентов и аварий должны быть выполнены в указанный срок – десять дней с момента начала расследования.
Авария и инцидент могут привести к серьёзным последствиям, поэтому каждые полгода на предприятиях проводят проверки всех сотрудников. Оценивается уровень их профессионализма и ответственности.
Матрица RACI определяет обязанности различных участников процесса. В приведенной ниже таблице определены роли и обязанности участников процесса разрешения серьезного инцидента на всем протяжении процесса MIM.
Процесс/роли | Технические специалисты службы поддержки | Менеджер по управлению серьезными инцидентами | ГРСИ | Технический персонал | Менеджер по управлению изменениями | Менеджер по управлению проблемами | Внешние консультанты |
---|---|---|---|---|---|---|---|
Определение | |||||||
Объявление о серьезном инциденте | C | A | R | C | I | I | I |
Уведомление участников процесса | C | A | R | I | I | I | I |
Сдерживание | |||||||
Создание РГСИ | I | R/A | C | C | I | C | I |
Настройка конференц-связи | I | A | R | C | I | C | I |
Подготовка выделенного конференц-зала | I | A | R | I | I | C | I |
Создание заявки о проблеме для выявления исходных проблем | I | A | R | C | I | I | I |
Решение | |||||||
Реализация плана решения как изменения | I | I | I | R | A | C | C |
Обслуживание | |||||||
Выполнение проверки после реализации | I | C | I | R | A | C | I |
Оформление четкой документации | C | A | R | C | C | C | C |
Измерение показателей | I | A | R | I | I | I | C |
Метрики и ключевые показатели эффективности управления серьезными инцидентами
Ниже описаны некоторые из метрик и ключевых показателей эффективности, которые стоит отслеживать при MIM.
Ключевой показатель эффективности | Формула | Комментарии |
---|---|---|
Среднее время до разрешения (СВДР) | Среднее время с момента сообщения о серьезном инциденте до момента его разрешения. | Показывает, как быстро ваша служба поддержки может устранять серьезные инциденты. Низкое значение СВДР — признак эффективности и продуктивности УСИ. |
Среднее время до подтверждения (СВДП) | Среднее время до реагирования на серьезный инцидент. | Низкое значение СВДП — признак того, что ваша служба поддержки быстро реагирует на серьезные инциденты. |
Среднее время между сбоями (СВМС) | Среднее время между сбоями. Рассчитывается путем деления общего времени работоспособности на общее количество сбоев. | Указывает на качество работы вашей ИТ-инфраструктуры. Высокое значение СВМС — признак эффективной работы ИТ-инфраструктуры. |
Среднее время до обнаружения (СВДО) | Среднее время, которое требуется для обнаружения серьезных инцидентов или аномалий. | Измеряет скорость выявления серьезного инцидента. Низкое значение СВДО — признак того, что ваша служба поддержки быстро обнаруживает серьезные инциденты. |
Процентное увеличение или снижение количества серьезных инцидентов | Процентное значение увеличения количества проблем в последующие месяцы по отношению к первому месяцу. | Помогает выявить тенденции в частоте возникновения серьезных инцидентов. |
Что такое инцидент и авария на производстве, как классифицируются?
ИНЦИДЕНТ это Словарь экологических терминов и определений. 2010 Смотреть что такое «ИНЦИДЕНТ» в других словарях: инцидент — Отказ или повреждение технических устройств, применяемых на опасном производственном объекте, отклонение от режима технологического процесса, нарушение положений Федеральных законов и иных нормативных правовых актов Российской Федерации, а также… … Справочник технического переводчика ИНЦИДЕНТ — (лат.). Что такое инцидент и авария на производстве, как классифицируются? Общие положения на основании примерного перечня аварий по отраслям (направлениям) надзора (приложение 4 к Положению о порядке технического расследования причин аварий на опасных производственных объектах) и предназначены для предприятий и организаций, ведущих горные работы, подконтрольных Госгортехнадзору России, работников территориальных органов Госгортехнадзора России.
Разрушение (повреждение) деталей и узлов грузовых и грузолюдских подъемных установок, не приведшее к нарушениям технологического цикла. 17. Разрушение узлов и деталей участковых вентиляторных установок, центральных водоотливов, компрессорных установок, приведшее к их остановке. 18. Разрушение узлов и деталей экскаваторов, буровых станков, подвижного и локомотивного состава электровозной откатки, самоходного автотранспорта на подземных горных работах, драг, земснарядов, компрессоров в пределах горного отвода, основного технологического оборудования на обогатительных, агломерационных (окомковательных), дробильно-сортировочных фабриках и установках, повлекшее их временную остановку на срок более смены и не вызвавшее случаи травмирования.
Опасный производственный объект — объекты, на которых ведутся горные работы, работы по обогащению полезных ископаемых, а также работы в подземных условиях. Взрывчатые материалы промышленного назначения (ВМ) — общее наименование предназначенных к применению (использованию) в промышленных условиях взрывчатых веществ и прострелочно-взрывной аппаратуры. Утрата ВМ — общее наименование случаев хищений, разбрасывания и потерь взрывчатых материалов.
1. Разрушение стволов, тоннелей, подземных сооружений гражданского и хозяйственного назначения, горных выработок различного назначения, а также поверхностных объектов в пределах горного отвода вследствие происшедших горных ударов и геодинамических проявлений техногенного или природного характера. 2. Потопление драг, земснарядов, плавучих насосных станций. 3.
В настоящем стандарте применены термины по ГОСТ ИСО/МЭК 13335-1, ИСО/МЭК 17799, а также следующие термины с соответствующими определениями.
3.1 планирование непрерывности бизнеса (business continuity planning): Процесс обеспечения восстановления операции в случае возникновения какого-либо неожиданного или нежелательного инцидента, способного негативно воздействовать на непрерывность важных функций бизнеса и поддерживающих его элементов.
Примечание — Данный процесс должен также обеспечивать восстановление бизнеса с учетом заданных очередностей и интервалов времени и дальнейшее восстановление всех функций бизнеса в рабочее состояние. Ключевые элементы этого процесса должны обеспечивать применение и тестирование необходимых планов и средств и включение в них информации, бизнес-процессов, информационных систем и сервисов, речевой связи и передачи данных, персонала и физических устройств.
3.2 событие информационной безопасности (information security event): Идентифицированное появление определенного состояния системы, сервиса или сети, указывающего на возможное нарушение политики ИБ или отказ защитных мер, или возникновение неизвестной ранее ситуации, которая может иметь отношение к безопасности.
3.3 инцидент информационной безопасности (information security incident): Появление одного или нескольких нежелательных или неожиданных событий ИБ, с которыми связана значительная вероятность компрометации бизнес-операций и создания угрозы ИБ.
Примечание — Примеры инцидентов ИБ приведены в разделе 6.
3.4 группа реагирования на инциденты информационной безопасности (ГРИИБ) [Information Security Incident Response Team (ISIRT)]: Группа обученных и доверенных членов организации.
Примечание — Данная группа обрабатывает инциденты ИБ во время их жизненного цикла и иногда может дополняться внешними экспертами, например из общепризнанной группы реагирования на компьютерные инциденты или компьютерной группы быстрого реагирования (КГБР).