728x90

희소벡터(Sparse Vector)와 희소행렬(Sparse Matrix): 효율적인 고차원 데이터 표현 기법

희소벡터와 희소행렬의 개념
주요 발생 상황 및 활용 영역
희소 데이터 저장 방식
희소 데이터 연산의 효율성
- 1. 메모리 효율성
- 2. 연산 효율성
프로그래밍 라이브러리에서의 구현
실전 응용 사례
희소 데이터의 한계와 대응 방안
- 1. 주요 한계점
- 2. 대응 방안
딥러닝에서의 희소 데이터 처리
결론
Keywords

희소벡터와 희소행렬의 개념

희소벡터(Sparse Vector): 벡터의 대부분 요소가 0인 벡터 구조
희소행렬(Sparse Matrix): 행렬 내 대부분의 원소가 0인 행렬 구조
비희소(Dense) 구조와 대비되는 개념으로, 0이 아닌 값(non-zero value)이 극히 일부인 데이터 표현 방식
주로 고차원 데이터에서 발생하며, 메모리와 계산 효율성 측면에서 중요한 의미를 가짐

주요 발생 상황 및 활용 영역

1. 자연어 처리(NLP)

문서-단어 행렬(Document-Term Matrix, DTM): 문서 집합에서 각 문서를 단어 출현 빈도로 표현
TF-IDF(Term Frequency-Inverse Document Frequency): 단어의 중요도를 계산하는 통계적 방법
예시: 영어 어휘가 100,000개인 말뭉치에서 한 문서는 보통 100~200개 단어만 사용(99.8% 이상이 0)

2. 원-핫 인코딩(One-Hot Encoding)

범주형 변수를 이진 벡터로 변환하는 기법
n개 범주가 있을 때 n차원 벡터에서 하나의 값만 1, 나머지는 0으로 표현
예시: [남성, 여성] → [1,0] 또는 [0,1]

3. 추천 시스템

사용자-아이템 평점 행렬에서 대부분 사용자는 일부 아이템만 평가함
예시: 넷플릭스 사용자-영화 평점 행렬(99% 이상이 빈 값)

4. 그래프 및 네트워크 분석

인접 행렬(Adjacency Matrix)에서 노드 간 연결이 희소할 경우
예시: 소셜 네트워크에서 한 사용자는 전체 사용자 중 극히 일부와만 연결됨

희소 데이터 저장 방식

1. COO(Coordinate Format)

0이 아닌 값과 해당 값의 인덱스(좌표)만 저장
형식: (row_idx, col_idx, value)
간단하고 직관적이나 검색 효율성은 낮음

graph LR
    A[희소행렬] --> B[값의 행 인덱스]
    A --> C[값의 열 인덱스]
    A --> D[0이 아닌 값]

2. CSR(Compressed Sparse Row)

행 포인터, 열 인덱스, 값 배열을 사용
행 방향 순회에 효율적
SciPy와 같은 과학 계산 라이브러리에서 주로 사용

graph LR
    A[희소행렬] --> B[행 포인터 배열]
    A --> C[열 인덱스 배열]
    A --> D[값 배열]

3. CSC(Compressed Sparse Column)

CSR과 유사하나 열 기준으로 압축
열 방향 순회에 효율적

4. 딕셔너리 기반 표현

해시맵을 사용해 (row, col) → value 매핑
파이썬 같은 고수준 언어에서 구현이 간단

sparse_dict = {(0, 1): 5, (1, 3): 7, (4, 2): 9}  # (행, 열): 값

희소 데이터 연산의 효율성

1. 메모리 효율성

일반 행렬: m×n 행렬에 m×n 메모리 공간 필요
희소 행렬: 0이 아닌 원소 개수(nnz)에 비례한 메모리 사용
효율성 계산: 밀도가 p인 m×n 행렬의 경우
- 일반 표현: m×n×sizeof(value) 바이트
- 희소 표현: nnz×(sizeof(value) + sizeof(index)) 바이트
- 일반적으로 p < 0.5일 때 희소 표현이 더 효율적

2. 연산 효율성

덧셈/뺄셈: O(nnz) 시간 복잡도 (밀집 표현 대비 효율적)
곱셈: 특수한 알고리즘 사용 시 O(nnz) ~ O(nnz²) 가능
전치(Transpose): 저장 형식에 따라 효율성 차이 있음

graph TB
    A[희소행렬 연산] --> B[덧셈/뺄셈]
    A --> C[곱셈]
    A --> D[전치]

    B --> B1[시간복잡도: O(nnz)]
    C --> C1[시간복잡도: O(nnz) ~ O(nnz²)]
    D --> D1[저장 형식에 따른 효율성 차이]

프로그래밍 라이브러리에서의 구현

1. Python - SciPy

from scipy import sparse

# 희소행렬 생성
row = [0, 1, 2, 0]
col = [0, 1, 2, 2]
data = [1, 2, 3, 4]
sparse_matrix = sparse.csr_matrix((data, (row, col)), shape=(3, 3))

# 희소행렬 연산
result = sparse_matrix.dot(sparse_matrix.T)

2. R - Matrix 패키지

library(Matrix)
# 희소행렬 생성
sparse_matrix <- sparseMatrix(i = c(1,2,3), j = c(1,2,3), x = c(1,2,3))

3. MATLAB의 희소행렬

% 희소행렬 생성
i = [1, 2, 3]; j = [1, 2, 3]; s = [1, 2, 3];
sparse_matrix = sparse(i, j, s, 100, 100);

실전 응용 사례

1. 텍스트 분석과 정보 검색

검색 엔진의 역색인(Inverted Index): 문서-단어 매핑을 희소행렬로 구현
문서 클러스터링: 유사 문서 그룹화에 희소 표현 활용
예시: 구글 검색 엔진은 수조 개의 웹페이지에서 수백만 단어를 희소행렬로 처리

2. 추천 시스템 구현

협업 필터링(Collaborative Filtering): 사용자-아이템 희소행렬 기반
행렬 분해(Matrix Factorization): 희소행렬을 저차원 밀집행렬로 분해
예시: 넷플릭스 추천 알고리즘은 수억 명 사용자 × 수만 개 콘텐츠의 희소행렬 처리

graph LR
    A[사용자-아이템 희소행렬] --> B[행렬 분해]
    B --> C[사용자 잠재 요인]
    B --> D[아이템 잠재 요인]
    C -- 내적 --> E[예측 평점]
    D -- 내적 --> E

3. 빅데이터 분석

특징 추출(Feature Extraction): 고차원 희소 특징 벡터 생성
차원 축소: 희소 데이터의 효율적 표현을 위한 기법
예시: 소셜 미디어 데이터에서 해시태그 분석 (수백만 해시태그 중 소수만 사용)

희소 데이터의 한계와 대응 방안

1. 주요 한계점

희소성의 저주(Curse of Sparsity): 데이터가 너무 희소하면 패턴 학습 어려움
차원의 저주(Curse of Dimensionality): 고차원에서의 데이터 희소성 문제
연산 복잡성: 일부 행렬 연산에서 희소 표현이 오히려 비효율적일 수 있음

2. 대응 방안

차원 축소 기법:
- SVD(Singular Value Decomposition): 희소행렬을 저차원 밀집행렬로 근사
- PCA(Principal Component Analysis): 주성분 기반 차원 축소
- t-SNE: 비선형 차원 축소로 시각화에 활용
정규화(Regularization): 과적합 방지 및 일반화 성능 향상
임베딩(Embedding): 고차원 희소 벡터를 저차원 밀집 벡터로 변환

flowchart TD
    A[고차원 희소 데이터] --> B[차원 축소]
    A --> C[정규화]
    A --> D[임베딩 학습]

    B --> E[저차원 밀집 표현]
    C --> F[일반화 성능 향상]
    D --> E

    E --> G[모델링 및 분석]
    F --> G

딥러닝에서의 희소 데이터 처리

1. 단어 임베딩

Word2Vec, GloVe, FastText: 희소한 원-핫 벡터를 밀집 임베딩으로 변환
예: "apple"의 원-핫 벡터(10만 차원) → 밀집 임베딩(300차원)

2. 희소 표현 처리 기법

Dropout: 무작위로 뉴런을 0으로 만들어 희소성 유도
ReLU 활성화 함수: 음수 입력을 0으로 만들어 희소 활성화 생성
Attention 메커니즘: 관련 요소만 집중하여 희소 가중치 생성

3. 그래프 신경망(GNN)

희소 그래프 구조에서 노드 표현 학습
메시지 전달(Message Passing) 알고리즘으로 희소 연결 활용

결론

희소벡터와 희소행렬은 고차원 데이터의 효율적 처리를 위한 핵심 개념
메모리 사용량 감소와 연산 속도 향상에 크게 기여
자연어 처리, 추천 시스템, 그래프 분석 등 다양한 분야에서 활용
희소성의 장점을 최대화하고 단점을 보완하는 알고리즘 발전이 지속적으로 이루어지는 중
빅데이터와 인공지능 시대에 더욱 중요해지는 데이터 표현 기법

Keywords

Sparse Vector, Sparse Matrix, 희소벡터, 희소행렬, One-Hot Encoding, Document-Term Matrix, CSR, Dimensionality Reduction, 차원 축소, 행렬 압축

728x90

'IT Professional Engineering > AI.ML' 카테고리의 다른 글

Text Preprocessing Tools for Korean Text: 한국어 자연어 처리의 필수 요소 (0)	2025.04.21
Splitting Data: 머신러닝 성능 향상을 위한 데이터 분할 전략 (0)	2025.04.21
One-Hot Encoding: 범주형 데이터의 벡터 표현 기법 (2)	2025.04.16
Padding: 병렬 처리를 위한 데이터 크기 일관성 확보 기법 (0)	2025.04.16
Integer Encoding: 텍스트 데이터를 머신러닝 알고리즘이 이해할 수 있는 숫자로 변환하는 기법 (0)	2025.04.16

GilliLab - TechLog

희소벡터(Sparse Vector)와 희소행렬(Sparse Matrix): 효율적인 고차원 데이터 표현 기법

희소벡터(Sparse Vector)와 희소행렬(Sparse Matrix): 효율적인 고차원 데이터 표현 기법

희소벡터와 희소행렬의 개념

주요 발생 상황 및 활용 영역

1. 자연어 처리(NLP)

2. 원-핫 인코딩(One-Hot Encoding)

3. 추천 시스템

4. 그래프 및 네트워크 분석

희소 데이터 저장 방식

1. COO(Coordinate Format)

2. CSR(Compressed Sparse Row)

3. CSC(Compressed Sparse Column)

4. 딕셔너리 기반 표현

희소 데이터 연산의 효율성

1. 메모리 효율성

2. 연산 효율성

프로그래밍 라이브러리에서의 구현

1. Python - SciPy

2. R - Matrix 패키지

3. MATLAB의 희소행렬

실전 응용 사례

1. 텍스트 분석과 정보 검색

2. 추천 시스템 구현

3. 빅데이터 분석

희소 데이터의 한계와 대응 방안

1. 주요 한계점

2. 대응 방안

딥러닝에서의 희소 데이터 처리

1. 단어 임베딩

2. 희소 표현 처리 기법

3. 그래프 신경망(GNN)

결론

Keywords

'IT Professional Engineering > AI.ML' 카테고리의 다른 글

+ Recent posts

티스토리툴바