데이터의 권한 관리를 단순화하는 AWS Lake Formation 사용하기

AWS에서 데이터 레이크를 구축하기 위해서는 3가지 서비스가 필요합니다. 데이터를 저장하는 S3 테이블에 대한 메타 데이터를 저장하는 Glue Data Catalog 데이터를 쿼리할 수 있는 Athena 이렇게 3가지 서비스를 이용하여 데이터 레이크를 구축하고 나면, 그 다음에 고민해야 하는 문제는 바로 사용자별 권한 관리입니다. 사용자에 따라서 접근 가능한 데이터와 그렇지 않은 데이터를 구분하고 테이블에서 데이터 삭제를 방지하는 등의…

Continue reading 데이터의 권한 관리를 단순화하는 AWS Lake Formation 사용하기

AWS Athena의 권한 관리와 클라이언트 접속

AWS에서는 특이하게도 매일 수집되는 빌링 데이터가 과거 데이터의 정합성을 보장하지 않습니다. 그래서 항상 한 달치 빌링 데이터 전체를 제공합니다. 매일 수집되는 데이터가 다르다는 가정 하에, OpsNow에서도 데이터를 누적하여 업데이트 하는 것이 아니라, 매번 수집된 데이터를 별도로 저장하고 있습니다. 수집된 OpsNow의 빌링 데이터는 EMR을 이용한 스파크 클러스터를 거쳐서 S3에 저장됩니다. 단순히 저장만 해놓게 되면 데이터를 분석/이용하기가…

Continue reading AWS Athena의 권한 관리와 클라이언트 접속