Serverless 플랫폼을 이용한 AWS 빌링 데이터 수집

OpsNow에서는 초기에 고객의 S3 버킷에서 빌링 데이터를 수집/처리하기 위해서 하나의 배치 프로그램을 구동했었습니다. 그 이후에 많은 AWS 서비스를 접하게 되면서 과연 어떻게 하면 비용도 줄이고, 성능도 최적화 할 수 있는지 많은 시도를 하게 되었습니다. 최종적으로 빌링 데이터의 수집 부분을 분리하고 이 부분에 대해서는 서버리스 (Serverless) 플랫폼을 이용하였고, 앞서 소개했던 AWS SAM으로 개발하기 글을 따라서 개발을…

Continue reading Serverless 플랫폼을 이용한 AWS 빌링 데이터 수집

스파크 작업의 병렬 처리

세상에 너무나 많은 데이터가 생성됨으로 인해서 빅데이터 시대가 열렸고, 이 시대에 스파크 (Spark)와 하둡 (Hadoop)은 각각 분산 처리와 분산 파일 시스템의 대명사 격으로 자리잡았습니다. 이들이 있었기에 대용량의 데이터를 수평적인 확장을 통해서 다룰 수 있게 되었습니다. OpsNow에서도 내부적으로 AWS 등의 빌링 데이터를 일괄 처리하기 위해서 스파크를 사용하고 있었습니다. 하지만 스파크를 전문적으로 다룰 수 있는 개발자가 없어서…

Continue reading 스파크 작업의 병렬 처리