일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- grid
- 수학
- 포토샵
- 알고리즘
- skt membership
- pandas
- margin
- c
- spring
- 통신사할인
- c++
- align-items
- 에라토스테네스의 체
- Flexbox
- SK바이오사이언스
- dataframe
- Prefix Sums
- CSS
- Gap
- stl
- series
- Design Pattern
- 강화학습
- 백준
- 상태
- Codility
- 확률
- Photoshop
- Javascript
- 소수
- Today
- Total
목록CS/NLP (6)
sliver__

[Understanding NLP] NLP 는 여러 분야의 공통에서 사용할 수 있다. NLP 는 아래와 같은 분야에서 사용되고 있다. Luminance: 법률 문서 분석을 목표로 하는 법률 기술 스타트업 NetBase: 실시간 소셜 미디어 피드 분석 Agolo: 대규모 텍스트 요약 Idibon: 비정형 데이터를 정형 데이터로 변환 이 분야도 대기업의 스타트업 인수(삼성은 Kngine 인수, Reliance Communications는 챗봇 스타트업 Haptik 인수 등)로 활발한 인수 활동을 목격하고 있습니다. 낮은 진입장벽과 쉽게 접근할 수 있는 오픈소스 기술을 고려할 때 이러한 추세는 계속될 것으로 예상됩니다.

[오토인코더 & GAN] 지도 없이도 latent representation 또는 coding, 입력 데이터의 밀집을 표현하는 인공 신경망 입력보다 훨씬 낮은 차원을 가지므로 차원 축소 및 시각화에 유용하다. Generative model은 훈련 데이터와 매우 비슷한 새로운 데이터를 생성한다. GAN은 이미지 편집, 초해상도, 데이터 증식 등에 사용된다. 오토인코더는 데이터를 효율적으로 표현하는 방법을 배우게 한다. GAN은 생성자/판별자로 구성된다. Adversarial traning [인코더 & 디코더] 인코더 ( Encoder ) 입력을 내부 표현으로 바꾼다 디코더 ( Decoder ) 내부 표현을 출력으로 바꾸는 디코더 ( 또는 generative model ) 오토인코더가 입력을 재구성하기 때문..

[word2vec 개선 1] CBOW 모델은 단어 2개를 맥락으로 사용해 타깃을 추측한다. 100만 개의 단어를 학습시킬 때는 문제가 발생한다. 입력층의 원핫 벡터와 가중치 행렬($W_{in}$)의 계산 -> Embedding 계층 도입 은닉층과 가중치 행렬($W_{out}$)의 계산 -> negative sampling [Embedding 계층] 어휘가 100만개, 은닉층 뉴런이 100개일 경우의 모델 원핫 벡터와 가중치 행렬곱은 가중치 행렬의 특정 행만 추출하는 행위 => 필요없는 짓 Embedding 계층은 단어 ID에 해당하는 행을 추출하는 계층 [Embedding 계층 구현] 가중치 W에서 전달받은 idx로 특정 행만 return class Embedding: def __init__(self, ..

[통계 기반 기법의 문제점] 많은 수의 단어를 처리하려면 메모리 사이즈가 ( 단어 수 * 단어 수 ) 만큼 필요하다. SVD를 n*n 행렬에 적용하는데는 $O(n^3)$ 의 비용이 든다. 학습 데이터를 한꺼번에 처리한다. [추론 기반 기법 개요] 주변 단어들을 맥락으로 사용해 알고싶은 위치의 단어를 추론한다. 모델이 등장. 모델을 신경망으로 사용하며 맥락 정보를 입력받아 각 단어의 확률을 출력한다. [신경망에서의 단어 처리] 단어를 고정 길이의 벡터 'One-hot vector'로 표기한다. 원핫벡터를 입력으로 신경망에 넣어 신경망에서 유추되는 단어의 값을 출력한다. [단순한 word2vec] CBOW(continous bag of words), skip-gram은 word2vec에서 사용되는 신경망이다..
[자연어 처리란] NLP(Natural Language Processing) : 자연어를 처리하는 분야 우리의 말을 컴퓨터에게 이해시키기 위한 기술 [시소러스] 뜻이 같은 단어(동의어), 뜻이 비슷한 단어(유의어) [WordNet] NTLK(Natural Language Toolkit) 라이브러리 사용 품사 태깅, 구문 분석, 정보 추출, 의미 분석 등 자연어 처리에 편리한 기능 제공 예제 import nltk from nltk.corpus import wordnet nltk.download('wordnet') nltk.download('omw-1.4') print(wordnet.synsets('car')) car = wordnet.synset('car.n.01') #car.n.01 / 단어 이름. 속성..
[벡터와 행렬] 벡터 크기와 방향을 가진 양 숫자가 일렬로 늘어선 집합 행렬 숫자가 2차원 형태로 늘어선 것 가로줄을 행(row), 세로줄을 열(col) 텐서 벡터와 행렬을 확장하여 숫자 집합을 N차원으로 표현한 것 스칼라 값 단일 원소로 이루어진 값 [행렬의 원소별 연산] +, * 연산자를 실행하면 피연산자인 행렬의 각 원소들을 독립적으로 더하거나 곱한다 import numpy as np W = np.array([[1,2,3],[4,5,6]]) X = np.array([[0,1,2],[3,4,5]]) print(W+X) print(W*X) ########## 결과 ############# [[ 1 3 5] [ 7 9 11]] [[ 0 2 6] [12 20 30]] #####################..