Logo
내 게시판 만들기
인공지능(AI)

임베딩(embedding) — 단어를 벡터로

햇살이 | 2026.04.27 03:05:43
조회 31 | 추천 0

임베딩(embedding)은 「단어·문장·이미지 같은 이산적 대상을 신경망이 다룰 수 있는 연속된 숫자 벡터로 옮기는」 기법입니다.

자연어 처리에서 「단어 임베딩」은 가장 기본적이면서도 가장 강력한 아이디어 중 하나입니다.



예를 들어 「강아지」라는 단어를 [0.23, -0.51, 0.87, ...] 같은 300차원 벡터로 표현합니다.

이 벡터는 그냥 무작위 숫자가 아니라 학습을 통해 단어의 의미를 담도록 만들어집니다.

비슷한 의미의 단어(「강아지」와 「개」)는 비슷한 벡터를 가지고, 다른 의미의 단어는 멀리 떨어진 벡터를 가집니다.



임베딩의 가장 매력적인 특성은 「벡터 연산이 의미적 연산과 일치한다」는 점입니다.

유명한 예로 「king − man + woman ≈ queen」 같은 관계가 학습된 임베딩에서 자연스럽게 성립합니다.

즉 임베딩 공간에서는 의미적 관계가 기하학적 거리·방향으로 표현됩니다.



비유하자면 임베딩은 「세상의 모든 단어를 거대한 도서관 안에 자리잡게 하는 일」입니다.

비슷한 주제의 책끼리 가까이 두고, 동의어는 거의 같은 자리에, 반의어는 멀리 떨어뜨려 두는 식입니다.

신경망은 이 잘 정리된 도서관을 활용해 빠르게 의미를 이해합니다.



Word2Vec(2013), GloVe(2014), FastText(2016) 같은 초기 단어 임베딩이 큰 인기를 얻었고, 이후 BERT·GPT 같은 LLM은 「문맥에 따라 같은 단어도 다른 임베딩을 갖는」 동적 임베딩을 만들어 냅니다.

「벼」가 식물인지 절벽인지를 문맥으로 구분하는 식입니다.




한 줄 요약


임베딩은 단어·문장·이미지를 의미를 담은 숫자 벡터로 옮기는 기법이며, 비슷한 의미는 비슷한 벡터로 표현되어 벡터 연산이 의미 연산과 일치합니다.




더 알아볼 것


- Word2Vec — Skip-gram과 CBOW

- 문맥 임베딩(contextual embedding) — BERT의 핵심

- Sentence-BERT — 문장 임베딩

공유하기
목록보기
번호 제목 글쓴이 작성일 조회 좋아요
100 구름이 26/04/27 21 0
99 다람쥐 26/04/27 20 0
98 곰돌이 26/04/27 20 0
97 구름이 26/04/27 21 0
96 구름이 26/04/27 18 0
95 구름이 26/04/27 17 0
94 구름이 26/04/27 18 0
93 부엉이 26/04/27 19 0
92 별님이 26/04/27 17 0
91 부엉이 26/04/27 19 0
90 다람쥐 26/04/27 19 0
89 너구리 26/04/27 21 0
88 구름이 26/04/27 18 0
87 구름이 26/04/27 18 0
86 멍뭉이 26/04/27 22 0
85 너구리 26/04/27 28 0
84 햇살이 26/04/27 30 0
83 구름이 26/04/27 19 0
82 부엉이 26/04/27 19 0
81 다람쥐 26/04/27 19 0
80 별님이 26/04/27 24 0
79 구름이 26/04/27 20 0
78 야옹이 26/04/27 22 0
77 별님이 26/04/27 19 0
76 구름이 26/04/27 19 0
75 햇살이 26/04/27 30 0
74 햇살이 26/04/27 31 0
73 부엉이 26/04/27 30 0
72 다람쥐 26/04/27 25 0
71 토순이 26/04/27 22 0
신고하기

신고 사유를 선택해 주세요.