본문 바로가기
Data Science/Machine Learning

Scikit-Learn을 이용한 머신러닝

by 엔딴 2020. 10. 21.
반응형

sklearn.datasets

더미 데이터 : make_ ~~

연습용 데이터 : load_ ~~ (소규모), fetch_ ~~ (대규모)

 

함수 : 이름에 '_' (언더바) 존재 -> 이름/인자
객체 : 이름에 대문자 존재 (단어의 첫글자가 대문자) - 이름().함수()  (. 사용)

 

sklearn의 연습용 데이터는 공통의 키를 가짐

  • 'data' -> X ->2D array
  • 'target' -> Y -> 1D array -> 정수(범주형), 실수(연속형)
  • 'target_names' -> 분류 데이터에만 존재하는 키 (0->악성, 1->양성)
  • 'DESCR' -> 데이터 설명문 (print 함수를 이용) 
  • 'feature_names' -> 'data의 컬럼명

 


Scikit-Learn을 이용한 머신러닝 순서

1. X, Y 데이터 준비 (file read, 전처리) 

 

2. 학습용 데이터와 평가용 데이터로 분할 -> train_test_split( ) 함수를 주로 이용

  • train_test_slit( ) 함수는 데이터를 분할해주 함수
  • x, y -> 2개의 변수를 넣어주면 각 변수마다 train, test로 분할 (75:25)
  • train_test_split(test_size =0.3) -> 70:30
  • x_train, x_test, y_train, y_test -> 이름 부여 (순서에 유의)

3. 모델 생성

  • from 모델 위치 import 모델명
  • 모델변수이름 = 모델명(파라미터)

4. 모델 학습

  • 모델변수이름.fit(x, y) -> 지도학습
  • 모델변수이름.fit(x) -> 비지도학습

5. 모델 평가 -> 모델 학습과정 평가, 모델 성능 평가 

  • 모델변수이름.score(x, y) -> 모델 예측을 선행
  • 분류모델 (정확도), 회귀 모델 (R^2) -> 0~1 사이의 값, 높을수록 좋음

6. 모델 예측

  • 모델변수이름.predict(x)
반응형

'Data Science > Machine Learning' 카테고리의 다른 글

머신러닝 (Machine Learning)  (0) 2023.05.21
[3주차]  (0) 2021.05.27
[2주차] Multiple Regression  (0) 2021.05.27
[1주차] Coursera Machine Learning : Regression  (0) 2021.05.27
머신러닝 기본  (0) 2020.08.04