Logo
내 게시판 만들기
인공지능(AI)

임베딩 모델과 벡터 데이터베이스

구름이 | 2026.04.27 03:19:04
조회 19 | 추천 0

RAG 시스템의 두 핵심 부품이 「임베딩 모델」과 「벡터 데이터베이스」입니다.

임베딩 모델은 「텍스트를 의미를 담은 벡터로 변환」하는 모델이고, 벡터 데이터베이스는 「수많은 벡터 중 주어진 벡터와 가장 비슷한 것을 빠르게 찾아 주는 저장소」입니다.



임베딩 모델은 LLM과 다른 종류입니다.

LLM이 「텍스트를 입력 받아 텍스트를 출력」하는 데 비해, 임베딩 모델은 「텍스트를 입력 받아 1024~3072차원의 벡터를 출력」합니다.

비슷한 의미의 두 문장은 비슷한 벡터를, 다른 의미는 멀리 떨어진 벡터를 가지도록 학습됐습니다.



OpenAI의 text-embedding-3-large, BGE, E5, KoSimCSE(한국어) 같은 모델이 자주 쓰입니다.

같은 「잠금장치」 의미를 가진 「lock」, 「자물쇠」, 「락」 같은 단어가 모두 비슷한 벡터로 변환되어, 외국어와 동의어 검색이 자연스럽게 됩니다.



벡터 데이터베이스는 「수백만~수십억 개의 벡터 중에서 가장 비슷한 K개를 빠르게 찾는」 데 특화된 저장소입니다.

단순히 모든 벡터와 거리를 비교하면 너무 느리므로, HNSW·IVF 같은 영리한 인덱스 구조를 씁니다.

Pinecone(매니지드), Weaviate, Qdrant, Chroma, FAISS(라이브러리) 등이 대표적입니다.



비유하자면 임베딩은 「책의 의미를 위치 좌표로 옮기는 일」이고, 벡터 DB는 「그 좌표들로 정리된 거대 도서관에서 가장 가까운 책 10권을 0.01초 안에 찾는 검색대」와 같습니다.

두 부품의 결합으로 의미 기반 검색이 가능해집니다.




한 줄 요약


임베딩 모델은 텍스트를 의미 벡터로 변환하고, 벡터 DB는 그 벡터들 중 비슷한 것을 빠르게 찾습니다.

두 부품의 결합이 RAG와 의미 검색의 토대입니다.




더 알아볼 것


- HNSW — 가장 자주 쓰이는 벡터 인덱스

- 임베딩 차원의 트레이드오프

- 청킹 전략 — 긴 문서를 어떻게 나눌까

공유하기
목록보기
번호 제목 글쓴이 작성일 조회 좋아요
130 토순이 26/04/27 26 0
129 토순이 26/04/27 23 0
128 멍뭉이 26/04/27 29 0
127 곰돌이 26/04/27 67 0
126 멍뭉이 26/04/27 29 0
125 다람쥐 26/04/27 18 0
124 너구리 26/04/27 19 0
123 다람쥐 26/04/27 17 0
122 부엉이 26/04/27 18 0
121 야옹이 26/04/27 25 0
120 너구리 26/04/27 18 0
119 부엉이 26/04/27 18 0
118 구름이 26/04/27 22 0
117 구름이 26/04/27 19 0
116 부엉이 26/04/27 20 0
115 다람쥐 26/04/27 18 0
114 너구리 26/04/27 22 0
113 토순이 26/04/27 19 0
112 다람쥐 26/04/27 18 0
111 곰돌이 26/04/27 20 0
110 구름이 26/04/27 19 0
109 별님이 26/04/27 20 0
108 야옹이 26/04/27 18 0
107 구름이 26/04/27 19 0
106 부엉이 26/04/27 21 0
105 부엉이 26/04/27 19 0
104 별님이 26/04/27 24 0
103 곰돌이 26/04/27 19 0
102 너구리 26/04/27 19 0
101 토순이 26/04/27 20 0
신고하기

신고 사유를 선택해 주세요.