国产睡熟迷奷白丝护士系列精品,中文色字幕网站,免费h网站在线观看的,亚洲开心激情在线

      <sup id="hb9fh"></sup>
          1. 千鋒教育-做有情懷、有良心、有品質的職業(yè)教育機構

            手機站
            千鋒教育

            千鋒學習站 | 隨時隨地免費學

            千鋒教育

            掃一掃進入千鋒手機站

            領取全套視頻
            千鋒教育

            關注千鋒學習站小程序
            隨時隨地免費學習課程

            當前位置:首頁  >  技術干貨  > python如何提取文本信息?

            python如何提取文本信息?

            來源:千鋒教育
            發(fā)布人:xqq
            時間: 2023-11-13 15:00:52 1699858852

            python如何提取文本信息?

            1、信息提取

            先用句子分段器將文檔的原始文本分成句子,再用記號賦值器將每個句子進一步分成單詞。其次,給每一個句子做詞性標記。以nltk中的默認工具為例,將句子分段器、分詞器、詞性標記器連接。

            defie_preprocess(document):

            #nltk默認的句子分段器

            sentences=nltk.sent_tokenize(document)

            #nltk默認分詞器

            sentences=[nltk.word_tokenize(sent)forsentinsentences]

            #nltk默認詞性標記

            sentences=[nltk.pos_tag(sent)forsentinsentences]

            2、詞塊劃分

            詞塊劃分是實體識別的基礎技術,對多個詞的順序進行劃分和標記。

            如NounPhraseChunking(名詞短語詞塊劃分)

            使用正則表達式來定義一個語法,來進行名詞短語詞塊的劃分

            3、開發(fā)和評估詞塊劃分器

            分區(qū)器可以用evaluate()方法評價分區(qū)器的性能好壞。

            以下是使用一元標記來建立單詞塊分割器的學習。但是,不是確定每個單詞的正確單詞性標記,而是根據每個單詞的單詞性標記,確定正確的單詞塊標記。

            #使用一元標注器建立一個詞塊劃分器。根據每個詞的詞性標記,嘗試確定正確的詞塊標記。

            classUnigramChunker(nltk.ChunkParserI):

            #constructor

            def__init__(self,train_sents):

            #將訓練數據轉換成適合訓練標注器的形式。tree2conlltags()方法將每個詞塊樹映射到一個三元組(word,tag,chunk)的列表

            train_data=[[(t,c)forw,t,cinnltk.chunk.tree2conlltags(sent)]

            forsentintrain_sents]

            #訓練一元分塊器

            #self.tagger=nltk.UnigramTagger(train_data)

            #訓練二元分塊器

            self.tagger=nltk.BigramTagger(train_data)

            #sentence為一個已標注的句子

            defparse(self,sentence):

            #提取詞性標記

            pos_tags=[posfor(word,pos)insentence]

            #使用標注器為詞性標記標注IOB詞塊

            tagged_pos_tags=self.tagger.tag(pos_tags)

            #提取詞塊標記

            chunktags=[chunktagfor(pos,chunktag)intagged_pos_tags]

            #將詞塊標記與原句組合

            conlltags=[(word,pos,chunktag)for((word,pos),chunktag)

            inzip(sentence,chunktags)]

            #轉換成詞塊樹

            returnnltk.chunk.conlltags2tree(conlltags)

            以上就是python提取文本信息的方法,希望能對大家有所幫助,更多Python學習教程請關注IT培訓機構:千鋒教育。

            tags: python培訓
            聲明:本站稿件版權均屬千鋒教育所有,未經許可不得擅自轉載。
            10年以上業(yè)內強師集結,手把手帶你蛻變精英
            請您保持通訊暢通,專屬學習老師24小時內將與您1V1溝通
            免費領取
            今日已有369人領取成功
            劉同學 138****2860 剛剛成功領取
            王同學 131****2015 剛剛成功領取
            張同學 133****4652 剛剛成功領取
            李同學 135****8607 剛剛成功領取
            楊同學 132****5667 剛剛成功領取
            岳同學 134****6652 剛剛成功領取
            梁同學 157****2950 剛剛成功領取
            劉同學 189****1015 剛剛成功領取
            張同學 155****4678 剛剛成功領取
            鄒同學 139****2907 剛剛成功領取
            董同學 138****2867 剛剛成功領取
            周同學 136****3602 剛剛成功領取
            相關推薦HOT