Paroski (파이썬 기반 자연어 처리 도구)

Paroski 는 사용자가 텍스트를 분석하고 처리하는 데 도움이 되는 파이썬 기반 자연어 처리 도구입니다. 품사 마크업, 구문 분석, 명명된 엔티티 인식 등 많은 자연어 처리 작업을 지원합니다. Paroski 는 소스 코드와 문서를 GitHub 에서 찾을 수 있는 오픈 소스 프로젝트입니다.

파로스키를 설치하다.

Paroski 를 사용하려면 먼저 설치해야 합니다. Paroski 설치는 간단합니다. pip 명령만 사용하면 됩니다. 터미널에 다음 명령을 입력합니다.

``````````````````````

Pipi 설치-unltk

``````````````````````

Nltk 를 설치한 후 Paroski 의 패킷을 다운로드해야 합니다. 파이썬에 다음 명령을 입력합니다.

``````````````````````

Importnltk

Nltk.download('punkt')

Nltk.download ('averaged _ perceptron _ tagger')

Nltk.download ('maxent _ ne _ chunker')

Nltk.download('words')

``````````````````````

이러한 명령은 Paroski 가 제대로 작동할 수 있도록 필요한 패킷을 다운로드합니다.

Paroski 의 품사성 치수를 사용합니다.

품사 표기는 각 단어를 품사와 일치시키는 과정이다. Paroski 는 우리가 단어를 표기하여 텍스트를 더 잘 이해할 수 있도록 도와준다. 여기 간단한 예가 있습니다.

``````````````````````

Importnltk

Fromn ltk.tokenize import word _ tokenize

Text = "iamlinengnaturalguangprocessingwithpython"

토큰 = word _ tokenize (텍스트)

Tagged=nltk.pos_tag (토큰)

인쇄 (레이블 포함)

``````````````````````

이 코드는 다음 결과를 출력합니다.

``````````````````````

[('나',' PRP'), ('am',' VBP'), ('학습',' VBG'), ('자연',' JJ')

``````````````````````

이곳의 각 단어는 품사와 일치한다. 예를 들어' 나' 의 어성은' PRP' 로 인칭 대명사를 의미한다. "am" 의 어류는 "VBP" 로 동사를 의미한다.

Paroski 의 명명된 엔티티 id 를 사용합니다.

명명된 엔티티 인식은 텍스트에서 명명된 엔티티를 식별하는 프로세스입니다. Paroski 는 명명된 엔티티를 식별하여 텍스트를 더 잘 이해할 수 있도록 도와줍니다. 여기 간단한 예가 있습니다.

``````````````````````

Importnltk

Fromn ltk.tokenize import word _ tokenize

Fromnltk.chunkimportne_chunk

Text = "barackobamawasborninhawaii"

토큰 = word _ tokenize (텍스트)

Tagged=nltk.pos_tag (토큰)

명명된 엔티티 =ne_chunk (표시)

인쇄 (명명된 엔티티)

``````````````````````

이 코드는 다음 결과를 출력합니다.

``````````````````````

"인사 바락 /NNP"

(PERSONObama/NNP)

/VBD 로 사용

출생 /VBN

에/에

(GPEHawaii/NNP))

``````````````````````

여기에 있는 텍스트에는' 바락 오바마' 와' 하와이' 라는 두 개의 명명된 엔티티가 포함되어 있습니다. 파로스키는 그들을 "사람" 과 "GPE" 로 표기하여 각각 인명과 지명을 대표한다.

구문 분석을 위해 Paroski 를 사용합니다.

구문 분석은 문장 구조를 분석하는 과정이다. 파로스키는 우리가 본문을 더 잘 이해할 수 있도록 구문 분석을 하는 데 도움을 줄 수 있다. 여기 간단한 예가 있습니다.

``````````````````````

Importnltk

Fromn ltk.tokenize import word _ tokenize

FromnltkimportTree

Text = "isawthemanwiththetelescope"

토큰 = word _ tokenize (텍스트)

Tagged=nltk.pos_tag (토큰)

Grammar="NP:{? *} "

Parser=nltk 입니다. RegexpParser (구문)

Tree=parser.parse (레이블 포함)

Forsubtreeintree.subtrees ():

Ifsubtree.label()=='NP = =' NP':

인쇄 (하위 트리)

``````````````````````

이 코드는 다음 결과를 출력합니다.

``````````````````````

(NPI/PRP)

(NPthe/DTman/NN)

(NPthe/DTtelescope/NN)

``````````````````````

여기 텍스트에는' 나',' theman',' thetelescope' 라는 세 가지 명사구가 포함되어 있다. 파로스키는 그것들을 각각' NP' 로 표기하여 명사구를 표시했다.

上篇: 농구 훈련 프로그램 모범문 정선 下篇: 꿈에서 천둥 번개가 치는 것을 보았는데, 폭우의 징조는 무엇입니까? 무슨 뜻이에요?