티스토리 뷰
단어 집합
단어 집합은 서로 다른 단어들의 집합이다. book과 books는 비슷해보이지만 단어 집합의 의미에선 다른 단어이다. 이렇게 중복을 허용하지 않고 모든 단어를 모아 놓은 것을 단어 집합이라고 한다.
이 단어들을 가지고 숫자(사실은 벡터)로 바꾸는 방법을 배운다.
원핫 인코딩을 하기 전에 먼저 단어 집합을 만들어야 한다. 중복 없이 다른 단어 500개가 모여서 문장을 만들면 크기가 500인 단어 집합이 만들어진다. 이 집합에 1부터 500까지의 인덱스를 부여한다. 고유한 인덱스를 가진 단어들을 벡터로 바꿔야한다.
이렇게 만들어진 벡터 중 표현하고 싶은 단어의 인덱스에 1을 부여하고, 다른 인덱스는 0을 부여한다.
케라스에서 지원하는 to_categorical을 이용해 원핫인코딩을 사용할 수 있다. 먼저 정수 인코딩 과정이다.
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical
text = "오늘 점심은 찜닭 점심은 안동 찜닭보단 내찜닭이 더 맛난 찜닭"
tokenizer = Tokenizer()
tokenizer.fit_on_texts([text])
print(tokenizer.word_index)
각 단어들의 빈도 수 별로 정수 인코딩이 되었다.
이제 위 단어 집합 중 일부만 들어간 문장을 작성해 정수 시퀀스로 변환한다.
위 단어 중 점심은(1), 찜닭(2), 오늘(3), 더(7), 맛난(8)만 들어간 문장을 만들고, texts_to_sequences를 사용해 정수 시퀀스로 변환한다.
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical
text = "오늘 점심은 찜닭 점심은 안동 찜닭보단 내찜닭이 더 맛난 찜닭"
tokenizer = Tokenizer()
tokenizer.fit_on_texts([text])
print(tokenizer.word_index)
sub_text = "그래도 점심은 찜닭 아니면 오늘 햄버거가 더 맛난 햄버거"
encoded = tokenizer.texts_to_sequences([sub_text])[0]
print(encoded)
sub_text 중 겹치는 단어들만으로 시퀀스를 구성했다.
이제 이것을 가지고 원핫 인코딩을 수행한다.
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical
text = "오늘 점심은 찜닭 점심은 안동 찜닭보단 내찜닭이 더 맛난 찜닭"
tokenizer = Tokenizer()
tokenizer.fit_on_texts([text])
print(tokenizer.word_index)
sub_text = "그래도 점심은 찜닭 아니면 오늘 햄버거가 더 맛난 햄버거"
encoded = tokenizer.texts_to_sequences([sub_text])[0]
print(encoded)
one_hot = to_categorical(encoded)
print(one_hot)
'머신러닝' 카테고리의 다른 글
머신러닝/분류 - KNN 알고리즘 (0) | 2023.01.10 |
---|---|
머신러닝 파라미터와 하이퍼 파라미터 (0) | 2022.10.03 |
머신러닝 get_dummies() (0) | 2022.09.24 |
교차검증 (1) | 2022.09.23 |
머신러닝 / SVM(Support Vector Machine) (1) | 2022.09.22 |
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- AVB
- porks
- json2html
- 머신러닝
- automotive ethernet
- Ethernet
- 딥러닝
- PCA
- 차량용 이더넷
- 크로스 엔트로피
- SVM
- 차량 네트워크
- 회귀
- SOME/IP
- 논문 잘 쓰는법
- automotive
- cuckoo
- many-to-many
- AE
- 케라스
- problem statement
- one-to-many
- 이상탐지
- 단순선형회귀
- Python
- HTML
- many-to-one
- CAN-FD
- AVTP
- 로지스틱회귀
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
글 보관함