DA

[TIL]Gen AI란?|Gen AI를 활용한 데이터분석 실습

ha_data 2023. 11. 23. 14:22

Gen AI 

뉴스, 위키피디 등 자연스러운 언어 문장을 학습하여서 새로운 문장을 출력

이미지, 오디오, 텍스트 등을 학습해 새로운 컨텐츠를 출력하는 딥러닝 기술

프롬프트를 바탕으로 대답을 예측하는 등 새로운 컨텐츠 생성 

딥러닝, Gen AI, LLM의 관계

딥러닝의 안에 LLM(Large Language Model), Gen AI가 속해 있음

LLM은 Gen AI의 일부

 

딥러닝의 모델 타입 

Discriminative 

분류/예측을 하는 것으로 레이블이 존재하는 데이터에 적용

피처들과 레이블들간의 관계를 학습

*피처-학습데이터 레이블-테스트데이터

ex. 개 혹은 고양이 분류

 

Generative

훈련된 데이터와 비슷하지만 새로운 데이터생성, 훈련된 데이터의 통계적 특성을 이해 

비지도 학습에 해당 -> 정답이 없기 때문

ex. 개 이미지 생성

 

Gen AI 모델과 일반 ML 모델의 동작방식

 y= f(x)
y-출력, f-모델, (x) - 입력

일반 ML 모델에서 y는 숫자, 카테고리, 확률 

Gen AI 모델에서 y는 자연어 문장, 이미지, 오디오 

 

Gen AI 파운데이션 모델

광범위한 데이터셋을 바탕으로 학습시킨 모델로 이미 일반적인 지식이 학습되어 있음 (Pre-trained)

Unsupervised Learning (혹은 Self Supervised Learning)

대용량 데이터로 학습하기에 엄청난 시간과 돈과 인력 필요

트랜스포머 모델 아키텍처를 사용함 (Attention is All You Need)

하나의 트랜스 포머에는 Encoder -> Decorder 로 구성, 트랜스 포머를 많이 사용할 수록 학습하는데 시간과 비용 증가

 파운데이션 모델을 파인튜닝을 통해 내가 원하는 쪽으로 동작할 수 있도록 특정 지식 학습 시킴

 

Gen AI 실습: Chat GPT로 데이터 분석하기

1) csv 파일 입력하고 어떤 데이터 분석이 가능한지 질문하기

2) 국가별 삶의 기대 수명과 GDP 증가율 간의 상관관계 알아보기

import pandas as pd
import matplotlib.pyplot as plt

# 주어진 데이터셋을 DataFrame으로 변환
data = pd.read_csv('gapminder.csv')
df = pd.DataFrame(data)

# 삶의 기대 수명과 GDP 증가율 간의 상관 관계 계산
correlation = data[['life_exp', 'gdp_cap']].corr().iloc[0, 1]

# 산점도 그래프 그리기
plt.figure(figsize=(8, 6))
plt.scatter(data['gdp_cap'], data['life_exp'], alpha=0.5)
plt.title('Correlation between Life Expectancy and GDP per Capita')
plt.xlabel('GDP per Capita')
plt.ylabel('Life Expectancy')
plt.grid(True)
plt.show()

print(f"삶의 기대 수명과 GDP 증가율 간의 상관 계수: {correlation}")
 
 

 

3) 결과값 출력