Snowflake 소개
2014년 클라우드 기반 데이터웨어하우스로 시작됨
현재는데이터 클라우드라고 부를 정도로 발전
글로벌 클라우드위에서 모두 동작
데이터 판매를 통한 매출을 가능하게 해주는 Data Sharing/Marketplace 제공
ETL과 다양한 데이터 통합 기능 제공
Snowflake 특징
특징 1.
스토리지와 컴퓨팅 인프라가 별도로 설정되는 가변 비용 모델
- Redshift 고정비용처럼 노드 수를 조정할 필요가 없고 distkey등의 최적화 불필요
SQL 기반으로 빅데이터 저장, 처리, 분석을 가능하게 해줌
- 비구조화된 데이터 처리와 머신러닝 기능도 제공
배치 데이터 중심이지만 실시간 데이터 처리 지원
TIme Travel: 과거 데이터 쿼리 기능으로 트렌드를 분석하기 쉽게 해줌
특징2.
웹 콘솔 이외에도 python Api를 통한 관리/제어 가능
-ODBC/JDBC 연결 지원
자체 스토리지 이외에도 클라우드 스토리지를 외부 테이블로 사용 가능
특징3.
대표고객 : Siemens, Flexport, Iterable, Affirm, PepsiCo.
멀티클라우드와 다른 지역에 있는 데이터 공유 기능 지원 (Cross-Region Replication)
snowflake의 계정 구성도: Organization (큰 기업)-> 1+Account (중소기업) -> 1+Databases
Organizations
- 한 고객이 사용하는 모든 Snowflake 자원들을 통합하는 최상위 레벨 컨테이너
- 하나 혹은 그 이상의 Account 들로 구성되며 이 모든 Account들의 접근권한, 사용트래킹, 비용들을 관리하는데 사용
Accounts
- 하나의 Account는 자체 사용자, 데이터, 접근권한을 독립적으로 가짐
-한 Accountsms 하나 혹은 그 이상의 Database로 구성됨
Databases
- 하나의 Database는 한 Account에 속한 데이터를 다루는 논리적인 컨테이너
- 한 Database는 다수의 스키마와 거기에 속한 테이블과 뷰등으로 구성되어 있음
- 하나의 Database는 PB 단위까지 스케일 가능하고 독립적인 컴퓨팅 리소스를 갖게 됨
-> 컴퓨팅 리소스를 Warehouse 라고 부름. Warehouse와 Databases는 일대일 관계가 아님
특징4.
Data Marketplace 데이터 메시 용어가 생기기 전부터 '데이터 마켓플레이스'라는 서비스 제공
Data Sharing ('Share, Don't move') : 데이터 셋을 사내 혹은 파트너에게 스토리지 레벨에서 공유하는 방식
'DA' 카테고리의 다른 글
Snowflake 실습 - AWS S3에 Bucket, IAM 생성 | Snowflake에서 DB, Schema, Table 생성 | COPY 하기 (0) | 2024.01.26 |
---|---|
ETL 실습: Redshift에 연동하고, ETL에 필요한 함수 정의해 테이블에 적재하기 feat.transaction (0) | 2024.01.25 |
데이퍼 파이프라인이란 | 데이터 파이프 라인 만들 때 고려할 점 (0) | 2024.01.23 |
데이터레이크|데이터웨어하우스|Airflow|ETL,ELT (2) | 2024.01.22 |
[TIL] INNER JOIN | LEFT, RIGHT JOIN | Subquery (1) | 2023.12.05 |