분류 전체보기 66

[프로그래머스] 멸종위기의 대장균 찾기(재귀함수), 잡은 물고기 중 가장 큰 물고기의 길이 구하기(concat), 노선별 평균 역 사이 거리 조회하기 (order by)

문제 - 멸종위기의 대장균 찾기각 세대별 자식이 없는 개체의 수(COUNT)와 세대(GENERATION)를 출력하는 SQL문을 작성해주세요. 이때 결과는 세대에 대해 오름차순 정렬해주세요. 단, 모든 세대에는 자식이 없는 개체가 적어도 1개체는 존재합니다.WITH RECURSIVE GEN AS ( SELECT ID, PARENT_ID, 1 AS GENERATION FROM ECOLI_DATA WHERE PARENT_ID IS NULL UNION ALL SELECT E.ID, E.PARENT_ID, 1+ G.GENERATION AS GENERATION FROM GEN AS G..

SQL 2025.06.07

[프로그래머스]대장균 크기에 따라 분류하기2 (PERCENT_RANK), 특정 조건을 만족하는 물고기별 수와 최대 길이 구하기

문제 - 대장균 크기에 따라 분류하기2대장균 개체의 크기를 내름차순으로 정렬했을 때 상위 0% ~ 25% 를 'CRITICAL', 26% ~ 50% 를 'HIGH', 51% ~ 75% 를 'MEDIUM', 76% ~ 100% 를 'LOW' 라고 분류합니다. 대장균 개체의 ID(ID) 와 분류된 이름(COLONY_NAME)을 출력하는 SQL 문을 작성해주세요. 이때 결과는 개체의 ID 에 대해 오름차순 정렬해주세요 . 단, 총 데이터의 수는 4의 배수이며 같은 사이즈의 대장균 개체가 서로 다른 이름으로 분류되는 경우는 없습니다.WITH RANKED_ECOLI AS ( SELECT ID, PERCENT_RANK() OVER (ORDER BY SIZE_OF_COLONY DES..

SQL 2025.06.05

[ETL]AWS Glue와 Airflow 이해하기 | S3, Parquet | CGP BigQuery

1. AWS Glue vs Airflow ? RDS DB를 클라우드 DW에 이관하려고 한다. 어떤게 더 적합할까? (1) 특성별로 비교항목 AWS GlueAirflow주요 역할ETL 수행 도구 (Extract–Transform–Load)워크플로우 오케스트레이션 도구ETL 수행 여부직접 수행 (Spark 기반)Python 등 외부 코드 통해 수행기술 기반Serverless Spark + Python ShellPython 기반 DAG (Directed Acyclic Graph)주요 기능데이터 추출, 정제, 변환, 적재, 크롤러, Job 관리DAG 기반 작업 스케줄링, 재시도, 병렬처리, 조건 분기사용 편의성콘솔 UI에서 GUI 또는 코딩 가능Python 코드 기반, 셋업은 복잡하나 유연함운영/모니터링Clou..

카테고리 없음 2025.04.04

[SQL]ISNULL-식품창고 목록 출력하기 | 이름이 없는 동물의 아이디

문제1. 경기도에 위치한 식품창고 목록 출력하기 (programmers) FOOD_WAREHOUSE 테이블에서 경기도에 위치한 창고의 ID, 이름, 주소, 냉동시설 여부를 조회하는 SQL문을 작성해주세요. 이때 냉동시설 여부가 NULL인 경우, 'N'으로 출력시켜 주시고 결과는 창고 ID를 기준으로 오름차순 정렬해주세요. 문제 풀이 IFNULL('컬럼명', '대체값' ) 사용하기 선택한 컬럼이 NULL값이면 다른 값으로 대체 해주는 것!! SELECT WAREHOUSE_ID, WAREHOUSE_NAME, ADDRESS,IFNULL(FREEZER_YN,'N') FROM FOOD_WAREHOUSE WHERE ADDRESS LIKE '경기도%' ORDER BY WAREHOUSE_ID WAREHOUSE_IDWA..

카테고리 없음 2024.02.01

[Kaggle] 의료비 예측하기(2)-학습, 평가 데이터 분리하기 | 스케일링-standardscaler, MinMaxScaler | 모델 학습 및 평가 - MSE, 잔차

학습 및 평가 데이터 분리 from sklearn.model_selection import train_test_split #출력 데이터 = 의료비,입력데이터 = 그 외 변수 y_column = ['charges'] X = insurance_encoded.drop(y_column, axis=1) y = insurance_encoded[y_column] # x,y의 0.2 정도를 평가 데이터로 학습 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) 특성 스케일링 (권장사항) 서로 다른 수치형 데이터 특성 사이의 값 범위를 비슷하게 맞춰주는 과정 효과: 경사 하강법 사용하는 과정에서 수렴 속도를 높일..

ML 2024.02.01

[Kaggle] 선형회귀모델학습-의료 보험료 예측하기 |EDA-매트릭스 시각화, 원핫인코딩, 범주형을 수치형으로 변환하기

선형 회귀 모델 실습 Medical Cost Personal Datasets (kaggle.com) Medical Cost Personal Datasets Insurance Forecast by using Linear Regression www.kaggle.com 풀어야 하는 문제 주어진 건강 및 인구통계학적 정보를 바탕으로 개인의 연간 의료 보험료를 예측 입력: 독립 변수들 출력: 개인 의료비 예측값 1. EDA (Exploratory Data Analysis) 탐색적 데이터 분석 데이터 분석의 초기 단계에서 진행하는과정 데이터를 여러 각도에서 살피며 데이터의 특징, 구조, 패턴, 이상치, 변수 간의 관계 등을 이해 기초 통계 분석 : 평균, 중앙값, 표준편차, 최소/최대 값 시각화: 데이터 패턴, 이..

ML 2024.02.01

[ML] 다중공선성 | SVD-OLS | Over fitting | 랏쏘회귀, 릿지회귀

다중공선성(Multicollinearity) 입력 데이터가 갖고 있는 특징값들 사이에 상관 관계가 존재할 때 발생하는 문제 상황 -> 이 상황에서는 머신 러닝 모델이 작은 데이터 변화에도 민감하게 반응 -> 안정성과 해석력 저하시킴 정규 방정식으로 해를 구하는 상황에서 치명적인 문제 발생. 이를 해결하기 위해 SVD-OLS 라는 회피 방법이 존재 SVD-OLS란 SVD를 사용해 선형 회귀 모델의 해를 구하는 방법 학습 데이터를 모아둔 행렬 X에 SVD를 적용해 특이값 분해 -> X에 OLS 방식의 풀이 적용 대신 SVD 계산으로 인한 시간 소요가 늘어남. Scikit-learn 패키지 안의 선형 회귀 알고리즘은 SVD 류의 방식으로 구현되어 있음 # 서로 상관 관계가 깊은 두 독립변수 x1과 x2를 생성..

ML 2024.02.01

[ML]선형의 의미 | 다중공선성 | 선형 회귀 | 비용 함수 - 정규방정식, 경사 하강법

선형이란? 1200원 과자, 1000원 우유를 산다고 했을 때 총 비용은? Cost = nx1200 + mx1000 (n: 과자의 수량, m:우유의 수량) 독립변수가 파라미터 (1200,1000) 값 만큼 일정한 비율로 종속변수에 영향을 미치는 관계 파라미터들이 어떠한 실수(혹은 벡터)와 가중합( 곱하기, 더하기)로 표현된 것을 선형 결합이라고 함 독립변수 x 의 각각 파라미터를 찾아내야함. y=aX1^2 (제곱)+ bX2 +cX3 => 선형일까 비선형일까? 관점에 따라 다름 파라미터 a가 종속 변수에 미치는 영향을 볼 때 x제곱을 x4로 치환한다면 선형 모델로 볼 수 있음 다른 관점으로, 변수 x1입장에서 본다면 비선형 모델로 볼 수 있음 모델 서칭 단게에서는 치환을 해야될지,지수 연산이 사용될지, e..

ML 2024.02.01

[GROUP BY] 입양 시간 구하기 | 진료과별 총 예약 횟수 출력하기

문제: 프로그래머스 - 입양 시각 구하기 (1) 보호소에서는 몇 시에 입양이 가장 활발하게 일어나는지 알아보려 합니다. 09:00부터 19:59까지, 각 시간대별로 입양이 몇 건이나 발생했는지 조회하는 SQL문을 작성해주세요. 이때 결과는 시간대 순으로 정렬해야 합니다 접근 방법 처음에는 CASE를 사용해서 시간대별로 분류를 해줘야 하나 생각했다.. ex. CASE WHEN 9 = COUNT해주기 -- 코드를 입력하세요 SELECT MCDP_CD AS 진료과코드, COUNT(1) AS 5월예약건수 FROM APPOINTMENT WHERE APNT_YMD LIKE '2022-05%' GROUP BY MCDP_CD ORDER BY 2, MCDP_CD

SQL 2024.01.30

Snowflake 운영과 관리

목표: Snowflake Role로 권한 설정 해보고 Snowflake가 제공해주는 보안 관련 기능 알아보기 Redshift는 snowflake보다 오래된 기술이라 안전성이 높지만 트렌드를 따라가지 못하는 단점이 있음. Snowflake는 Group을 지원하지 않음. Redshift는 사용자 그룹 지원, 그 위에 Role 추가. Group과 Role은 흡사하지만 Role은 계승구조 지원. 가장 Base line이 되는 권한 생성하면 그 위에 새로운 Role 만들 수 있음. => 관리가 쉽고 반복을 안해도 되는 장점 Role과 User 생성 --Role과 User 생성 --3개의 Role 생성. 아직 누구에게도 부여하지 않음. CREATE ROLE analytics_users; CREATE ROLE ana..

DA 2024.01.30