파로스키를 설치하다.
Paroski 를 사용하려면 먼저 설치해야 합니다. Paroski 설치는 간단합니다. pip 명령만 사용하면 됩니다. 터미널에 다음 명령을 입력합니다.
``````````````````````
Pipi 설치-unltk
``````````````````````
Nltk 를 설치한 후 Paroski 의 패킷을 다운로드해야 합니다. 파이썬에 다음 명령을 입력합니다.
``````````````````````
Importnltk
Nltk.download('punkt')
Nltk.download ('averaged _ perceptron _ tagger')
Nltk.download ('maxent _ ne _ chunker')
Nltk.download('words')
``````````````````````
이러한 명령은 Paroski 가 제대로 작동할 수 있도록 필요한 패킷을 다운로드합니다.
Paroski 의 품사성 치수를 사용합니다.
품사 표기는 각 단어를 품사와 일치시키는 과정이다. Paroski 는 우리가 단어를 표기하여 텍스트를 더 잘 이해할 수 있도록 도와준다. 여기 간단한 예가 있습니다.
``````````````````````
Importnltk
Fromn ltk.tokenize import word _ tokenize
Text = "iamlinengnaturalguangprocessingwithpython"
토큰 = word _ tokenize (텍스트)
Tagged=nltk.pos_tag (토큰)
인쇄 (레이블 포함)
``````````````````````
이 코드는 다음 결과를 출력합니다.
``````````````````````
[('나',' PRP'), ('am',' VBP'), ('학습',' VBG'), ('자연',' JJ')
``````````````````````
이곳의 각 단어는 품사와 일치한다. 예를 들어' 나' 의 어성은' PRP' 로 인칭 대명사를 의미한다. "am" 의 어류는 "VBP" 로 동사를 의미한다.
Paroski 의 명명된 엔티티 id 를 사용합니다.
명명된 엔티티 인식은 텍스트에서 명명된 엔티티를 식별하는 프로세스입니다. Paroski 는 명명된 엔티티를 식별하여 텍스트를 더 잘 이해할 수 있도록 도와줍니다. 여기 간단한 예가 있습니다.
``````````````````````
Importnltk
Fromn ltk.tokenize import word _ tokenize
Fromnltk.chunkimportne_chunk
Text = "barackobamawasborninhawaii"
토큰 = word _ tokenize (텍스트)
Tagged=nltk.pos_tag (토큰)
명명된 엔티티 =ne_chunk (표시)
인쇄 (명명된 엔티티)
``````````````````````
이 코드는 다음 결과를 출력합니다.
``````````````````````
(s
"인사 바락 /NNP"
(PERSONObama/NNP)
/VBD 로 사용
출생 /VBN
에/에
(GPEHawaii/NNP))
``````````````````````
여기에 있는 텍스트에는' 바락 오바마' 와' 하와이' 라는 두 개의 명명된 엔티티가 포함되어 있습니다. 파로스키는 그들을 "사람" 과 "GPE" 로 표기하여 각각 인명과 지명을 대표한다.
구문 분석을 위해 Paroski 를 사용합니다.
구문 분석은 문장 구조를 분석하는 과정이다. 파로스키는 우리가 본문을 더 잘 이해할 수 있도록 구문 분석을 하는 데 도움을 줄 수 있다. 여기 간단한 예가 있습니다.
``````````````````````
Importnltk
Fromn ltk.tokenize import word _ tokenize
FromnltkimportTree
Text = "isawthemanwiththetelescope"
토큰 = word _ tokenize (텍스트)
Tagged=nltk.pos_tag (토큰)
Grammar="NP:{? *} "
Parser=nltk 입니다. RegexpParser (구문)
Tree=parser.parse (레이블 포함)
Forsubtreeintree.subtrees ():
Ifsubtree.label()=='NP = =' NP':
인쇄 (하위 트리)
``````````````````````
이 코드는 다음 결과를 출력합니다.
``````````````````````
(NPI/PRP)
(NPthe/DTman/NN)
(NPthe/DTtelescope/NN)
``````````````````````
여기 텍스트에는' 나',' theman',' thetelescope' 라는 세 가지 명사구가 포함되어 있다. 파로스키는 그것들을 각각' NP' 로 표기하여 명사구를 표시했다.