스파크 작업의 병렬 처리

세상에 너무나 많은 데이터가 생성됨으로 인해서 빅데이터 시대가 열렸고, 이 시대에 스파크 (Spark)와 하둡 (Hadoop)은 각각 분산 처리와 분산 파일 시스템의 대명사 격으로 자리잡았습니다. 이들이 있었기에 대용량의 데이터를 수평적인 확장을 통해서 다룰 수 있게 되었습니다. OpsNow에서도 내부적으로 AWS 등의 빌링 데이터를 일괄 처리하기 위해서 스파크를 사용하고 있었습니다. 하지만 스파크를 전문적으로 다룰 수 있는 개발자가 없어서…

Continue reading 스파크 작업의 병렬 처리

OpsNow의 AWS 빌링 데이터 처리 시스템 개발기

제가 처음 OpsNow에 합류하고 받은 업무 중에 하나는 데이터 레이크 구축이었습니다. 모든 데이터를 한 곳에 모아놓고 분석할 수 있는 시스템과 그 데이터들을 종합하여 다양한 서비스를 제공하고자 하는 원대한 포부가 있었습니다. 물론 해당 프로젝트는 여전히 진행중이지만, 순차적으로 내부 시스템 개편을 위해 진행했던 세부 프로젝트중에 하나가 바로 AWS의 빌링 데이터 처리 시스템 개편이었습니다. 머나먼 과거에는… 모든 프로젝트는…

Continue reading OpsNow의 AWS 빌링 데이터 처리 시스템 개발기