티스토리 뷰

머신러닝

머신러닝 원핫 인코딩

삼전동해커 2022. 9. 30. 11:06

단어 집합

단어 집합은 서로 다른 단어들의 집합이다. book과 books는 비슷해보이지만 단어 집합의 의미에선 다른 단어이다. 이렇게 중복을 허용하지 않고 모든 단어를 모아 놓은 것을 단어 집합이라고 한다.

 

이 단어들을 가지고 숫자(사실은 벡터)로 바꾸는 방법을 배운다.

 

원핫 인코딩을 하기 전에 먼저 단어 집합을 만들어야 한다. 중복 없이 다른 단어 500개가 모여서 문장을 만들면 크기가 500인 단어 집합이 만들어진다. 이 집합에 1부터 500까지의 인덱스를 부여한다. 고유한 인덱스를 가진 단어들을 벡터로 바꿔야한다.

 

이렇게 만들어진 벡터 중 표현하고 싶은 단어의 인덱스에 1을 부여하고, 다른 인덱스는 0을 부여한다.

 

케라스에서 지원하는 to_categorical을 이용해 원핫인코딩을 사용할 수 있다. 먼저 정수 인코딩 과정이다.

from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

text = "오늘 점심은 찜닭 점심은 안동 찜닭보단 내찜닭이 더 맛난 찜닭"

tokenizer = Tokenizer()
tokenizer.fit_on_texts([text])
print(tokenizer.word_index)

각 단어들의 빈도 수 별로 정수 인코딩이 되었다.

 

이제 위 단어 집합 중 일부만 들어간 문장을 작성해 정수 시퀀스로 변환한다.

위 단어 중 점심은(1), 찜닭(2), 오늘(3), 더(7), 맛난(8)만 들어간 문장을 만들고, texts_to_sequences를 사용해 정수 시퀀스로 변환한다.

from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

text = "오늘 점심은 찜닭 점심은 안동 찜닭보단 내찜닭이 더 맛난 찜닭"

tokenizer = Tokenizer()
tokenizer.fit_on_texts([text])
print(tokenizer.word_index)

sub_text = "그래도 점심은 찜닭 아니면 오늘 햄버거가 더 맛난 햄버거"
encoded = tokenizer.texts_to_sequences([sub_text])[0]
print(encoded)

sub_text 중 겹치는 단어들만으로 시퀀스를 구성했다.

이제 이것을 가지고 원핫 인코딩을 수행한다.

from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

text = "오늘 점심은 찜닭 점심은 안동 찜닭보단 내찜닭이 더 맛난 찜닭"

tokenizer = Tokenizer()
tokenizer.fit_on_texts([text])
print(tokenizer.word_index)

sub_text = "그래도 점심은 찜닭 아니면 오늘 햄버거가 더 맛난 햄버거"
encoded = tokenizer.texts_to_sequences([sub_text])[0]
print(encoded)

one_hot = to_categorical(encoded)
print(one_hot)

 

'머신러닝' 카테고리의 다른 글

머신러닝/분류 - KNN 알고리즘  (0) 2023.01.10
머신러닝 파라미터와 하이퍼 파라미터  (0) 2022.10.03
머신러닝 get_dummies()  (0) 2022.09.24
교차검증  (1) 2022.09.23
머신러닝 / SVM(Support Vector Machine)  (1) 2022.09.22
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/04   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
글 보관함