[REAL Summit 2025] Datadog AIOps : AI 기반 운영의 새로운 표준 | Datadog 조휘원 Engineer

admin | | 조회 4


[주요 목차]

Datadog가 왜 AIOps로 가는지

Datadog AI 기능으로 탐지·분석·해결까지

AIOps가 바꾸는 실제 운영 프로세스


운영팀 일 하다 보면 알림이 너무 많아서 정신이 없고, 장애가 터지면 소수 몇 명한테만 물어보게 되는 상황이 자주 생기죠. 특히 클라우드가 커지고 배포가 잦아지면서 문제 원인을 찾는 데 시간이 점점 더 오래 걸리는 게 요즘 현실이에요. 이 글에서는 Datadog AIOps가 이런 고민을 어떻게 풀어주는지, AI 기반 운영이 실제로 어떻게 달라지는지를 차근차근 알아볼게요. 영상을 보지 않아도 Datadog의 AI 기능이 어디까지 도와주고, 우리 팀이 바로 적용할 수 있는 부분은 무엇인지 구체적으로 정리했어요. 처음엔 저도 AI가 그냥 알림만 똑똑하게 보내주는 줄 알았는데, 실제로는 원인 분석부터 코드 수정 제안까지 해주더라고요. 이 글 끝까지 읽으면 Datadog AIOps가 왜 AI 기반 운영의 새로운 표준이 되고 있는지 감이 잡힐 거예요.


[REAL Summit 2025] Datadog AIOps : AI 기반 운영의 새로운 표준 | Datadog 조휘원 Engineer - 실전 화면 1 - DatadogAIOps[REAL Summit 2025] Datadog AIOps : AI 기반 운영의 새로운 표준 | Datadog 조휘원 Engineer · 실전 화면 1

Datadog가 왜 AIOps로 가는지

Datadog는 원래 인프라 모니터링으로 시작해서 APM, 로그, 보안까지 풀스택으로 확장한 SaaS 플랫폼이에요. 지금은 전 세계 3만 곳, 국내에도 1,000곳 이상이 쓰고 있죠.

처음엔 단순히 데이터를 모으는 도구였는데, 운영 환경이 너무 복잡해지면서 ‘그냥 보는 것’만으로는 한계가 명확해졌어요. 클라우드 자원이 늘어나고 배포 주기가 짧아지면서 알림이 폭발하고, 문제 원인을 찾는 데 개인 경험에 의존하는 경우가 많아졌거든요.

그래서 Datadog는 AI 옵스를 지향하기 시작했어요. AI가 정상 패턴을 학습해서 이상 징후를 먼저 찾아주고, 관련 지표까지 자동으로 연결해 주죠. 이게 중요한 이유는 단순히 알림을 줄이는 게 아니라, ‘누가 봐도 바로 이해할 수 있는 인사이트’를 주는 데 있어요.

실제로 운영팀이 가장 힘들어하는 부분이 ‘이 알림이 정말 중요한가?’를 판단하는 거거든요. Datadog AIOps는 그 판단을 AI가 대신 해주면서 팀 간 소통 비용도 크게 줄여줍니다.

[REAL Summit 2025] Datadog AIOps : AI 기반 운영의 새로운 표준 | Datadog 조휘원 Engineer - 본문 이미지 2 - DatadogAIOps[REAL Summit 2025] Datadog AIOps : AI 기반 운영의 새로운 표준 | Datadog 조휘원 Engineer · 본문 이미지 2

Datadog AI 기능으로 탐지·분석·해결까지

Datadog AI는 크게 세 단계로 나뉘어요. 먼저 이상 탐지 단계에서는 수동으로 임계치를 설정하지 않아도 AI가 평소 패턴을 학습해서 에러율 급증 같은 이상을 자동으로 잡아냅니다.

예를 들어 새 코드 배포 후 에러율이 평소보다 3배 뛰었다면, AI가 즉시 알림을 띄우고 ‘이 배포 기간 동안 에러가 집중됐다’는 인사이트까지 함께 줘요. 거기서 끝이 아니라 영향도까지 분석해 주는데, 어떤 페이지가 느려졌고, 몇 명의 사용자가 영향을 받았는지까지 자동으로 정리해줍니다.

다음은 분석 단계예요. SRE 에이전트가 알림이 오자마자 로그, 트레이스, 메트릭을 뒤져서 가설을 여러 개 세우고 검증해요. 적합하지 않은 가설은 자동으로 버리고, 가장 그럴듯한 원인을 하나로 추려서 보여주죠.

마지막 해결 단계에서는 반복되는 에러 패턴을 분석해서 코드 수정 방향까지 제안해줍니다. 실제로 어떤 파일의 어떤 함수를 어떻게 바꾸면 되는지, 왜 기존 코드보다 안전한지도 설명해 주기 때문에 개발자가 검색 시간을 크게 줄일 수 있어요.

[REAL Summit 2025] Datadog AIOps : AI 기반 운영의 새로운 표준 | Datadog 조휘원 Engineer - 현장 스냅 3 - DatadogAIOps[REAL Summit 2025] Datadog AIOps : AI 기반 운영의 새로운 표준 | Datadog 조휘원 Engineer · 현장 스냅 3

AIOps가 바꾸는 실제 운영 프로세스

이제 운영 프로세스가 어떻게 달라지는지 실전 관점에서 볼게요. 이상 징후가 발생하면 AI가 먼저 감지하고, 미리 설정된 온콜 일정에 따라 정확한 담당자에게 자동 호출이 갑니다.

담당자가 노트북을 열기도 전에 SRE 에이전트가 원인 분석을 끝내고 결과를 정리해 놓기 때문에, 사람은 분석 결과만 보고 바로 대응을 시작할 수 있어요.

장애가 심각하다고 판단되면 인시던트 페이지가 자동 생성되고, 전용 Slack 채널도 동시에 만들어집니다. 여기에는 Datadog AI도 함께 초대되어 있어서 “지금 어떤 서비스가 영향받았어?”라고 물으면 바로 답변을 줘요.

반복 작업은 워크플로우로 자동화할 수 있어요. 캐시 비우기나 서비스 재시작처럼 정해진 대응을 템플릿으로 만들어 두면, 사람이 직접 서버에 접속하지 않아도 AI가 대신 처리하죠.

장애가 끝난 후에는 타임라인, 로그, 대화 내용까지 모두 모아서 장애 보고서까지 자동 작성해줍니다. 덕분에 운영팀은 보고서 쓰는 시간 대신 더 중요한 일에 집중할 수 있게 돼요.


[자주 묻는 질문]

Datadog AIOps를 도입하면 알림이 정말 줄어들까요?

네, 기존에 수동으로 설정한 모니터 알림은 줄이고 AI가 이상 패턴을 학습해서 중요한 이슈만 알려줍니다. 대신 영향도와 원인 분석까지 함께 제공하기 때문에, 팀이 실제로 확인해야 할 알림 수가 확연히 줄어들어요. 처음 설정할 때는 2~3주 정도 정상 패턴을 학습시키는 기간이 필요하니 그 점만 미리 알아두세요.

SRE 에이전트가 제시한 원인이 틀릴 수도 있나요?

완전히 틀리는 경우는 드물지만, 가설 검증 과정에서 제외된 가설도 함께 보여주기 때문에 직접 확인할 수 있어요. 최종 결과 아래에 관련 로그와 메트릭이 함께 붙어 있어서, AI가 왜 이 결론을 내렸는지 1~2분 안에 검토 가능합니다. 중요한 장애라면 AI 결과와 기존 대시보드를 같이 보는 걸 추천해요.

코드 수정 제안 기능은 얼마나 신뢰할 수 있나요?

반복되는 에러 패턴을 분석해서 구체적인 파일명과 수정 방향까지 제시해 주기 때문에 실무에서 꽤 유용합니다. 다만 최종 적용 전에는 반드시 코드 리뷰를 거치고, AI가 추천한 함수가 기존 로직과 충돌하지 않는지 확인하는 게 안전해요. 채팅으로 “이 함수가 왜 더 안전한가요?”라고 물어보면 추가 설명도 바로 받을 수 있습니다.

목록
글쓰기
한국 서버호스팅
전체보기 →

댓글 0