데이터의 권한 관리를 단순화하는 AWS Lake Formation 사용하기

AWS에서 데이터 레이크를 구축하기 위해서는 3가지 서비스가 필요합니다. 데이터를 저장하는 S3 테이블에 대한 메타 데이터를 저장하는 Glue Data Catalog 데이터를 쿼리할 수 있는 Athena 이렇게 3가지 서비스를 이용하여 데이터 레이크를 구축하고 나면, 그 다음에 고민해야 하는 문제는 바로 사용자별 권한 관리입니다. 사용자에 따라서 접근 가능한 데이터와 그렇지 않은 데이터를 구분하고 테이블에서 데이터 삭제를 방지하는 등의…

Continue reading 데이터의 권한 관리를 단순화하는 AWS Lake Formation 사용하기

AWS Athena의 권한 관리와 클라이언트 접속

AWS에서는 특이하게도 매일 수집되는 빌링 데이터가 과거 데이터의 정합성을 보장하지 않습니다. 그래서 항상 한 달치 빌링 데이터 전체를 제공합니다. 매일 수집되는 데이터가 다르다는 가정 하에, OpsNow에서도 데이터를 누적하여 업데이트 하는 것이 아니라, 매번 수집된 데이터를 별도로 저장하고 있습니다. 수집된 OpsNow의 빌링 데이터는 EMR을 이용한 스파크 클러스터를 거쳐서 S3에 저장됩니다. 단순히 저장만 해놓게 되면 데이터를 분석/이용하기가…

Continue reading AWS Athena의 권한 관리와 클라이언트 접속

OpsNow의 AWS 빌링 데이터 처리 시스템 개발기

제가 처음 OpsNow에 합류하고 받은 업무 중에 하나는 데이터 레이크 구축이었습니다. 모든 데이터를 한 곳에 모아놓고 분석할 수 있는 시스템과 그 데이터들을 종합하여 다양한 서비스를 제공하고자 하는 원대한 포부가 있었습니다. 물론 해당 프로젝트는 여전히 진행중이지만, 순차적으로 내부 시스템 개편을 위해 진행했던 세부 프로젝트중에 하나가 바로 AWS의 빌링 데이터 처리 시스템 개편이었습니다. 머나먼 과거에는… 모든 프로젝트는…

Continue reading OpsNow의 AWS 빌링 데이터 처리 시스템 개발기