02 Ago 2019

gensim 예제

Gensim은 Word2Vec 모델로 작업할 수 있는 Word2Vec 클래스를 제공합니다. 우리는 젠심의 다양한 기능에 대한 많은 근거를 다루고 텍스트와 함께 작업하고 조작하는 방법에 대한 좋은 이해를 얻을 수 있습니다. 위의 예제는 다양한 NLP 작업을 시작하고 빌드하는 데 좋은 템플릿으로 제공되어야 합니다. NLP 프로젝트에서 gensim을 더 자주 사용하는 것이 도움이 되고 편안하게 느껴지길 바랍니다. Google은 약 20,000개의 구문 및 의미 테스트 예제의 테스트 세트를 발표했으며, "A는 C가 D로 B에"라는 작업을 수행했습니다: https://raw.githubusercontent.com/RaRe-Technologies/gensim/develop/gensim/test/test_data/questions-words.txt. Gensim은 정확히 동일한 형식으로 동일한 평가 집합을 지원합니다. 아마도 Gensim은 기존 벡터를 업데이트 할 수 있지만, 나는 보았거나 미안해, 그렇게하려고하지 않았습니다. 예를 들어, 입력이 디스크의 여러 파일에 걸쳐 한 줄로 흩어져 있는 경우, 모든 것을 메모리 내 목록에 로드하는 대신 파일별로 입력 파일을 한 줄씩 처리할 수 있습니다. . 나는 알려진 포함에 대한 GloVe 6b를 활용한 다음 Vocab 토큰 에서 내 자신의 `확장`또는 훈련을 할 수있는 솔루션 / 예제를 찾지 못했습니다 (이들은 비 언어 단어 또는 기계가 생성되는 경향이 있음). 나는 우리가 입력 단어 또는 단어의 주파수의 하나의 뜨거운 표현과 출력으로 우리가 얻을 수있는 것과 방법을 전달해야 할 것과 같은 예와 함께 word2vec의 내부 작업을 알고 싶어? 이제 데이터 집합의 피크를 몰래 얻었으니 Word2Vec 모델에 전달할 수 있도록 목록으로 읽을 수 있습니다. 아래 코드에서 압축 된 파일을 직접 읽고 있음을 알 수 있습니다.

나는 또한 gensim.utils.simple_preprocess (라인)를 사용하여 리뷰의 가벼운 전처리를하고 있습니다. 이렇게 하면 토큰화, 하위 캐스칭 등과 같은 몇 가지 기본적인 사전 처리가 수행되고 토큰(단어) 목록이 반환됩니다. 이 전처리 방법에 대한 설명서는 공식 Gensim 문서 사이트에서 확인할 수 있습니다. 자신의 코퍼스를 배우려면 응용 프로그램에 필요한 방식으로 텍스트를 토큰화하고 위의 Gensim 코드를 사용합니다. 핑백: 젠심워드2Vec-젠심은 자연어 처리를 위한 오픈 소스 파이썬 라이브러리로, 주제 모델링에 중점을 두고 있다. 그러나 25 by 4 Vector가 무엇을 나타내는지 또는 플롯을 어떻게 읽어야 하는지 확실하지 않은 예제를 실행했습니다. 젠심의 구문 모델로는 매우 쉽고 효율적입니다. 생성된 구문 모델은 인덱싱을 허용하므로 원래 텍스트(목록)를 빌드된 구 모델으로 전달하여 큰 램을 형성합니다. 예는 다음과 같습니다 : 모델로 코퍼스를 훈련하여. TfidfModel()을 입력합니다. 그런 다음 숙련된 tfidf 모델의 대괄호 내에 코퍼스를 적용합니다. 아래 예제를 참조하십시오.

좋은 소식은 Gensim을 사용하면 전체 텍스트 파일을 시스템 메모리에 로드하지 않고도 텍스트를 읽고 한 번에 한 줄의 사전을 업데이트할 수 있습니다. 다음 2 섹션에서 이 작업을 수행하는 방법을 살펴보겠습니다. Gensim은 반복할 때 입력이 순차적으로 문장을 제공해야 만 합니다. RAM에 모든 것을 유지할 필요가 없습니다 : 우리는 하나의 문장을 제공하고, 처리하고, 잊어 버리고, 다른 문장을로드 할 수 있습니다 ... 태그:빅람스, 코퍼스, Doc2Vec, 패스트 텍스트, 젠심, LDA, LSI, 프레서, 소프트 코신 유사성, 요약, 태그 문서, TFIDF, Word2Vec 의 주요 구성 요소 분석 또는 PCA와 예를 살펴 보자.