일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 논문리뷰
- Tacotron2
- TTS
- Dilated convolution
- Ai
- SGNS
- BOJ
- ALS
- Recommender System
- Implicit feedback
- ANNOY
- CV
- FastSpeech2
- matrix factorization
- Neural Collaborative Filtering
- Tacotron
- CF
- Collaborative Filtering
- FastSpeech
- wavenet
- NEG
- Item2Vec
- 백준
- 부스트캠프 AI Tech
- RecSys
- 추천시스템
- Skip-gram
- word2vec
- Negative Sampling
- Noise Contrastive Estimation
- Today
- Total
목록Skip-gram (3)
devmoon
ABSTRACT 당시 NLP분야에서 Neural embedding algorithm을 통해 단어를 잠재 벡터로 표현하는 방법에 대한 뛰어난 성과가 발표되었다. 그 방법 중 하나로 word2vec 이라고도 알려진 Skip-gram with Negative Sampling (SGNS)가 특히 좋은 성능을 보여주었다. 여기에 영감을 받아 저자들은 추천 시스템의 아이템 기반 협업 필터링(IBCF)에 word2vec을 적용시킨 item2vec을 발표한다. INTRODUCTION AND RELATED WORK 당시 추천 시스템의 핵심은 아이템 간 유사도를 구하는 것이었다. 저자는 많은 추천 시스템들이 유저와 아이템의 저차원 입베딩을 학습하는데 초점을 맞추고 있지만, 아이템 유사도 자체를 구하는 것이 중요하다고 한다..
ABSTRACT 최근에 발표되었던 Skip-gram 모델은 단어의 문법적, 의미적인 유사도를 잘 표현하는 벡터를 학습하는 효과적인 모델이었다. 이번 논문에서는 벡터 표현력의 품질과 학습 속도를 향상할 수 있는 몇 가지 방법에 대해 소개한다. 그 예로, 자주 등장하는 단어들을 subsampling 하여 큰 속도 향상과 기존보다 균형 잡힌 단어 표현력을 학습시킬 수 있었다고 한다. 또한 기존에 사용하던 Hierarchical softmax를 대체하는 negative sampling에 대해 소개한다. 기존 모델로 얻어낸 벡터의 한계는 구(Phrase)를 잘 해석하지 못한다는 점이었다. 예를 들어, Canada와 Air를 더하였을 때, Air Canada의 정보를 잘 구해내지 못하였다. 따라서 저자는 이런 문제..
ABSTRACT 저자들은 이번 논문에서 단어들을 벡터 공간에 효과적으로 표현하는 2개의 새로운 모델을 소개한다. 각각의 모델들은 단어의 유사도를 기준으로 평가되었으며, 기존에 존재하던 신경망 기반의 모델들과 어떤 성능적 차이가 있는지 보여준다. 결과로 기존의 신경망 모델보다 더 적은 계산량을 가지고 훨씬 좋은 성능을 보임을 증명하였을 뿐만 아니라, 구문론적 그리고 의미론적 관점에서 단어의 유사도를 측정하는 성능이 저자들이 가진 데이터셋에 대해 SOTA에 해당하는 성능을 보였다. INTRODUCTION 많은 NLP의 모델들 그리고 여러 기술들에서 단어를 가장 작은 단위로 다루게 된다. 단어를 기본 단위로 두게 되면 여러 장점들을 가져올 수 있는데 대표적으로 일단 단순하고 강건(Robust)하며 많은 데이터..