티스토리 뷰

머신러닝/딥러닝

AI / Multi-modal에 관하여 (1)

삼전동해커 2025. 2. 19. 16:27

지금까지의 머신러닝과 딥러닝 모델은 한가지의 정보만을 이용하여 학습했다. 

하지만 사람이 정보를 받아들일 때는 소리, 시야, 후각 등 다양한 정보를 통합하여 판단하지 하나만 사용하지 않는다.

AI 또한 다양한 정보를 통합해 판단할 필요가 있다.

 

Modality란?

modality: (인체의 감각적) 양상, 시각 및 청각적 양상

신체의 다양항 감각을 통해 정보를 받아들이는 양상을 의미하는 modality를 AI분야에 접합시켜 다양한 형태의 데이터를 동시에 처리하고 이해할 수 있는 모델멀티-모달이라고 한다.

 

멀티-모달의 사용처

감정 분석

- 사람의 얼굴을 통해 감정을 분석할 수 있지만, 표정과 그에 걸맞는 대사를 결합하면 더욱 감정전달이 확실해 질 수 있다.

 

이미지 캡션 생성

- 이미지의 시각적 특징을 이해하고 설명을 생성하는 모델을 만들 수 있다.

 

자율주행

- 카메라가 촬영한 이미지 데이터와 LiDAR와 radar의 센서 데이터를 통합하여 자율주행 모듈에 사용한다.

 

멀티-모달의 종류

 

멀티-모달 모델을 만드는 방법은 크게 3가지로 나뉜다.

 

Early Fusion

다양한 modality를 입력 단계에서 결합하는 방식이다. 여러 유형의 데이터를 하나의 통합된 특성 벡터로 변환하고 모델에 입력하는 방식이다. Early Fusion은 다양한 데이터 간의 상호 작용을 모델이 더 쉽게 학습할 수 있게 해주지만, 각 데이터의 고유한 feature는 잃어버릴 수 있다.

 

Late Fusion

Late Fusion은 각 모델의 출력 단계의 결과를 결합하여 최종결정을 내리는 방식이다. 이를 통해 각 모델을 독립적으로 중요한 특성을 학습할 수 있지만, 모델이 데이터 간의 복잡한 상호작용을 학습하는 데 어려움이 있다.

 

Joint Fusion

Joint Fusion은 모델의 중간 단계에서 각 모델의 정보를 결합한다. 각 데이터의 중요한 특성을 유지하면서 하나의 input으로 결합하는 것이 joint fusion의 목적이다. 이를 위해 각 모델에 특화된 encoder를 사용하여 특징을 유지하고, 공통 공간에서 통합될 수 있도록 차원을 통일시켜준다. 단순히 데이터를 합치는 Concatenation 방법과 데이터 셋의 중요도에 따라 학습하는 Attention-based 방식, 쌍별 곱셈을 통해 모달 간의 관계를 학습하는 Bilinear fusion이 있다.

 

 

'머신러닝 > 딥러닝' 카테고리의 다른 글

Keras / RNN (Recurrent Neural Network)  (0) 2024.03.17
머신러닝, 딥러닝 / 이상탐지(Anomaly Detection)  (0) 2023.03.13
MLP로 텍스트 분류  (0) 2022.09.20
케라스 훑어보기  (1) 2022.09.16
과적합을 막는 방법  (0) 2022.09.16
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/02   »
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28
글 보관함