2023 주니어 SRE 엔지니어 후레임

반응형

나는 지금 내 앞으로의 미래를 결정하는 기로에 서있다.
일본 회사 한 곳을 내정받았고, 다른 한 곳은 결과를 대기중인 상태다.
먼저 내정받은 곳은 일단 회사 자체는 규모는 크지 않지만 2007년 설립 후 성장해 온 비교적 안정적인 회사다.
그런데 나에게 Web 개발을 맡을지, SRE 엔지니어를 맡을지 선택할 기회를 주겠다고 한다.
(중도채용[경력직]은 입사 전부터 포지션이 보통 정해져있는데 나의 경우 둘 다 포텐셜을 인정받은 것 같다.)

 

1. 난 현재로서 후자를 택하고 싶다.


이정도 규모(800社 상대)의 인프라 보수운용의 기회는 흔치 않다.
이미 회사에는 능력을 입증했고(철저한 기업조사는 물론 버그나는 페이지 3개 이상을 찾아서 제보하니 바로 다음날 합격통보를 받았다)
남은 의문은 과연 SRE가 내 앞으로의 인생에 도움이 되냐는 것이다.

 

 

2. 먼저는 SRE 엔지니어가 뭔지부터 정리하고 가자.


비슷하면서도 다른 단어들인 DevOps나 인프라 엔지니어와 구분지어둘 필요가 있다.

 

<DevOps>

공통점
- SW개발과 운영의 결합

차이점
- DevOps : 개발↔운영팀간 협업이 메인
- SRE : SW 시스템 안정성이 메인



<인프라>

공통점
- 시스템 안정성/가용성 유지
차이점
- 인프라 : 서버/네트워크/스토리지/DB 등의 인프라 구성요소를 설계ㆍ구축ㆍ보수운용
- SRE : 위의 인프라 보수운용을 자동화하면서 서비스 장애를 해결/사전예방 하고 시스템 안정성 유지에 중점.

 

 

3. 365/24 무중단 대규모 서비스를 중시하는 네이버에서도 SRE를 도입한 사례가 있다.


https://d2.naver.com/helloworld/2047663

내용을 요약해보자면,

 

필요성


- 스케일이 커질 때마다 새로운 방법론의 요구
- 예측 불가능한 일의 발생

 

계기


- 2016년 9월 경주에서 대형지진 발생시 10분간 검색 불가능한 장애 발생(수만 대 서버 중 8대가 전체에 영향)
- 원인파악과 영향도 분석에 1시간, 사후분석(postmortem) 완료까지 48시간 소요

 

 

적용

트래픽 폭증 시 비상 대응 모드
캐시 서버 활용 극대화로 충격 완화

 

장애 위험 탐지(detection)
부하증가배수와 최대가용배수를 이용한 가용량 지표 도입, 1년 동안 문제 상황의 90% 해결

 

사후 분석(postmortem)
3개월 이상의 기간 동안 사후 분석 보고서(postmortem report)를 작성하여 이것이 얼마나 유용ㆍ중요한지 보여주는 문화 생성 => 3년 후 자연스럽게 모든 엔지니어가 자율적으로 사후 분석 보고서 작성

 

전체 시스템 한 눈에 보기
서비스별로 고유 ID를 발급하여 담당자 배정 후 한데 모인 메타정보와 지표를 볼 수 있는 대시보드 완성

 

경보 시스템 고도화
오류가 없어도 트래픽이 폭증하거나 유입이 중단되는 경우 등 다양한 지표에 여러 기준으로 경보의 고도화. 너무 적게 발생하면 중요정보를 놓치기 쉽고, 너무 많이 발생하면 불필요한 스트레스를 유발하기에 밸런스 찾기가 어려움. SRE가 경보를 받으면 자체적으로 판단하여 경보 발생 빈도 조절하도록 구현.

 

 

효과

SRE는 서비스를 직접 구현하지도, 장애서버를 직접 재구동하지도, 버그 패치를 만들지도 않음
하지만 트러블 슈팅 시 문제해결까지의 시간을 대폭 단축시켜주며 나아가서는 장애를 원천 차단

 

 

4. 유망한가?

 

당장 모듈 단위로는 코드 잘짜주는 ChatGPT에게 웹 프로그래머에 비해서는 덜 취약해보인다.
그리고 AWS를 마음껏 사용해 볼 기회가 많다.
아마 입사하면 AWS 관련 자격증 취득을 위한 서포트도 받을 수 있지 않을까?

 

 

5. 그리고 무엇보다

 

앞으로 내가 BM을 바탕으로 무언가 만들어 보고 싶다면 이런 경험도 필요하지 않을까?

반응형

이 글을 공유합시다

facebook twitter googleplus kakaoTalk kakaostory naver band