본문 바로가기

CS 라이프

[SRE Certificate] SRE 분야에도 AI가 적용될 수 있을까?

그놈의 AI, AI, AI...!

Site Reliability Engineering 분야에서도 AI를 적용할 수 있을까?

강의를 듣다보면 Montoring & Observability 부분에서 잠깐 언급이 된다. 

Observability = Better Alerting

We need to improve our “signal” to “noise” ratio so we focus alters on key issues 우리는 "신호" 대 "잡음" 비율을 개선하여 주요 문제에 대한 변경에 집중해야 합니다.

  • Generate one alert for one service (versus one metric) 하나의 서비스에 대해 하나의 경고를 생성합니다(하나의 측정항목과 비교).
  • use analytics to learn normal behavior 분석을 사용하여 정상적인 행동을 학습합니다.
  • improve alerting with multi-criteria alerting policies 다중 기준 알림 정책으로 알림 개선

We need to infer what is “normal” about a service

우리는 서비스의 "정상"이 무엇인지 추론해야 합니다.


시스템을 모니터링 하고 그 모니터링을 바탕으로 얼마나 시스템이 정상작동 하는가에 대해 판단하는 Observability에 AI가 쓰일 수 있다고 언급했던 것 같다. 그러다가 매니저랑 얘기할 때, 이런 의문이 들었다.

 

AI는 어째됐든 간에 데이터를 학습해서 그걸 예측하는 걸로 알고 있는데, 그럼 시스템이 망가지는 상황을 어떤 식으로 데이터화 하고 그런 결과값들은 어떻게 구하는 것인가?

 

라고 질문을 했는데 그 부분은 SRE에서 AI가 할 수 있는 "예측"에 해당한다고 했다. AI가 계속해서 시스템을 관찰하고 있었고 이전과 다른 패턴들이 등장했을 때, 그것이 이상 패턴이라는 것을 알람을 주고 만약에 문제가 생겼을 때 '요 부분이 최근에 이상했었다'라고 알려주는 식으로 활동을 할 수 있다는 것이다.

 

그리고 AI는 문제를 하나로 줄이는 것에도 도움을 줄 수 있다. 만약에 시스템 알람이 5,000개가 왔다고 치자. 그럼 그 때, 이 알람에 대해 정보가 없으면 5.000개를 다 엑셀에 다운 받아서 하나씩 확인해야 할 수도 있는데, 여기에 AI layer가 더해지면 5,000개가 결국엔 1개의 문제로부터 발생했다는 판단을 내려줄 수도 있다. 인간이라면 어떤 특정한 필터에 따라 여기에 속하는지, 아니면 저기에 속하는지 경험에 의존해 문제를 분류한다면, AI는 이런 빠른 판단을 도와줄 수 있다는 것이다. 아마 이 분야를 AIOps, MLOps라고도 하는 쪽이 아닐까 싶다.

 

 

Artificial Intelligence for IT Operations - Wikipedia

From Wikipedia, the free encyclopedia Machine learning term Artificial Intelligence for IT Operations (AIOps) is a term coined by Gartner in 2016 as an industry category for machine learning analytics technology that enhances IT operations analytics.[1] AI

en.wikipedia.org

 

 

Datadog + AIOps | Datadog

See metrics from all of your apps, tools & services in one place with Datadog's cloud monitoring as a service solution. Try it for free.

www.datadoghq.com

 

Datadog 사이트에 보니 오늘 배운 MTTR 개념도 있네?

역시 사람은 아는 만큼 보인다더니....

 

 

What is AIOps

AIOps is short for artificial intelligence to IT operations, that aims to simplify and accelerate IT operations management.

www.paloaltonetworks.com

여기에도 AIOps에 관한 내용이 잘 설명되어 있다. 이런거 보면 정말 내가 정말 우연치않게 들어선 길이지만 굉장히 흥미롭다! 혼자서 공부하려면 정말 거들떠도 안봤을테지만 이렇게 이왕 SRE이가 됐고 이 분야로 돈 벌어먹고 살 생각이라면 제대로 알아두는 편이 좋을 것 같다. 내년 봄 학기에 Direct Study 주제를 도대체 뭐로 할까, 난 관심있는 분야가 없는데...라고 생각하고 살았는데 또 이렇게 된거 AIOps를 좀 파고 들어보는 시간을 가져도 좋을 것 같은 생각이 든다. 일단 가을 학기부터 잘 보내는게 우선이니 틈날때마다 티스토리에 SRE 관련 글 모아두고 봄학기에 AIOps관련 앱을 만들든지 아니면 간단한 페이퍼를 쓰든지 해야겠다~