国产睡熟迷奷白丝护士系列精品,中文色字幕网站,免费h网站在线观看的,亚洲开心激情在线

      <sup id="hb9fh"></sup>
          1. 千鋒教育-做有情懷、有良心、有品質(zhì)的職業(yè)教育機(jī)構(gòu)

            手機(jī)站
            千鋒教育

            千鋒學(xué)習(xí)站 | 隨時(shí)隨地免費(fèi)學(xué)

            千鋒教育

            掃一掃進(jìn)入千鋒手機(jī)站

            領(lǐng)取全套視頻
            千鋒教育

            關(guān)注千鋒學(xué)習(xí)站小程序
            隨時(shí)隨地免費(fèi)學(xué)習(xí)課程

            當(dāng)前位置:首頁  >  技術(shù)干貨  > Python實(shí)現(xiàn)文章自動(dòng)生成

            Python實(shí)現(xiàn)文章自動(dòng)生成

            來源:千鋒教育
            發(fā)布人:xqq
            時(shí)間: 2023-11-06 23:13:31 1699283611

            下面的Python程序?qū)崿F(xiàn)了通過從網(wǎng)頁抓取一篇文章,然后根據(jù)這篇文章來生成新的文章,這其中的原理就是基于概率統(tǒng)計(jì)的文本分析。

            過程大概就是網(wǎng)頁抓取數(shù)據(jù)->統(tǒng)計(jì)分析->生成新文章。網(wǎng)頁抓取數(shù)據(jù)是通過BeautifulSoup庫來抓取網(wǎng)頁上的文本內(nèi)容。統(tǒng)計(jì)分析這個(gè)首先需要使用ngram模型來把文章進(jìn)行分詞并統(tǒng)計(jì)頻率。因?yàn)槲恼律芍饕罁?jù)馬爾可夫模型,所以使用了2-gram,這樣可以統(tǒng)計(jì)出一個(gè)單詞出現(xiàn)在另一個(gè)單詞后的概率。生成新文章是基于分析大量隨機(jī)事件的馬爾可夫模型。隨機(jī)事件的特點(diǎn)是在一個(gè)離散事件發(fā)生之后,另一個(gè)離散事件將在前一個(gè)事件的條件下以一定的概率發(fā)生。

            fromurllib.requestimporturlopen

            fromrandomimportrandint

            frombs4importBeautifulSoup

            importre

            defwordListSum(wordList):

            sum=0

            forword,valueinwordList.items():

            sum=sum+value

            returnsum

            defretrieveRandomWord(wordList):

            randomIndex=randint(1,wordListSum(wordList))

            forword,valueinwordList.items():

            randomIndex-=value

            ifrandomIndex<=0:

            returnword

            defbuildWordDict(text):

            text=re.sub('(\n|\r|\t)+',"",text)

            text=re.sub('\"',"",text)

            punctuation=[',','.',';',':']

            forsymbolinpunctuation:

            text=text.replace(symbol,""+symbol+"")

            words=text.split('')

            words=[wordforwordinwordsifword!=""]

            wordDict={}

            foriinrange(1,len(words)):

            ifwords[i-1]notinwordDict:

            wordDict[words[i-1]]={}

            ifwords[i]notinwordDict[words[i-1]]:

            wordDict[words[i-1]][words[i]]=0

            wordDict[words[i-1]][words[i]]=wordDict[words[i-1]][words[i]]+1

            returnwordDict

            defrandomFirstWord(wordDict):

            randomIndex=randint(0,len(wordDict))

            returnlist(wordDict.keys())[randomIndex]

            html=urlopen("http://www.guancha.cn/america/2017_01_21_390488_s.shtml")

            bsObj=BeautifulSoup(html,"lxml")

            ps=bsObj.find("div",{"id":"cmtdiv3523349"}).find_next_siblings("p");

            content=""

            forpinps:

            content=content+p.get_text()

            text=bytes(content,"UTF-8")

            text=text.decode("ascii","ignore")

            wordDict=buildWordDict(text)

            length=100

            chain=""

            currentWord=randomFirstWord(wordDict)

            foriinrange(0,length):

            chain+=currentWord+""

            currentWord=retrieveRandomWord(wordDict[currentWord])

            print(chain)

            buildWordDict(text)函數(shù)接收文本內(nèi)容,生成的內(nèi)容如下

            {‘itself’:{‘,’:1},‘night’:{‘sky’:1},‘You’:{‘came’:1,‘will’:1},‘railways’:{‘a(chǎn)ll’:1},‘government’:{‘while’:1,‘,’:1,‘is’:1},‘you’:{‘now’:1,‘open’:1,‘down’:1,‘with’:1,‘.’:6,‘,’:1,‘that’:1},

            主要就是生成一個(gè)字典,鍵是文章中所有出現(xiàn)的詞語,值其實(shí)也是一個(gè)字典,這個(gè)字典是所有直接出現(xiàn)在鍵后邊的詞語及其出現(xiàn)的頻率。這個(gè)函數(shù)就是ngram模型思想的運(yùn)用。

            retrieveRandomWord(wordList)函數(shù)的wordList代表的是出現(xiàn)在上一個(gè)詞語后的詞語列表及其頻率組成的字典,然后根據(jù)統(tǒng)計(jì)的概率隨機(jī)生成一個(gè)詞。這個(gè)函數(shù)是馬爾可夫模型的思想運(yùn)用。

            然后運(yùn)行這個(gè)程序會(huì)生成一個(gè)長度為100的文章,如下面所示

            fail.Wewillstirourselves,butwewillneverbefore.Donotshareoneheartandpleasantitbackourjobs.Weareinfusedwiththeorderlyandrailwaysallofthegangsandrobbedourjobsfortheirsuccesswilldeterminethecivilizedworld.Wewilltheirsuccesswillbeagreatmenandhighwaysandmillionstoallbleedtheworld.Itbelongstogreatnationalefforttodefendourproducts,constantlycomplaining,D.Wewillbeignoredagain.ItbelongstoharnesstheexpenseofAmerica.

            生成的文章看起來語法混亂,這也難怪,因?yàn)橹皇亲ト》治鼋y(tǒng)計(jì)了一篇的文章。我想如果可以抓取足夠多的英文文章,數(shù)據(jù)集足夠大那么語法準(zhǔn)確度會(huì)大大提高。

            以上內(nèi)容為大家介紹了Python實(shí)現(xiàn)文章自動(dòng)生成,希望對(duì)大家有所幫助,如果想要了解更多Python相關(guān)知識(shí),請(qǐng)關(guān)注IT培訓(xùn)機(jī)構(gòu):千鋒教育。http://www.parentadvocate.org/

            聲明:本站稿件版權(quán)均屬千鋒教育所有,未經(jīng)許可不得擅自轉(zhuǎn)載。
            10年以上業(yè)內(nèi)強(qiáng)師集結(jié),手把手帶你蛻變精英
            請(qǐng)您保持通訊暢通,專屬學(xué)習(xí)老師24小時(shí)內(nèi)將與您1V1溝通
            免費(fèi)領(lǐng)取
            今日已有369人領(lǐng)取成功
            劉同學(xué) 138****2860 剛剛成功領(lǐng)取
            王同學(xué) 131****2015 剛剛成功領(lǐng)取
            張同學(xué) 133****4652 剛剛成功領(lǐng)取
            李同學(xué) 135****8607 剛剛成功領(lǐng)取
            楊同學(xué) 132****5667 剛剛成功領(lǐng)取
            岳同學(xué) 134****6652 剛剛成功領(lǐng)取
            梁同學(xué) 157****2950 剛剛成功領(lǐng)取
            劉同學(xué) 189****1015 剛剛成功領(lǐng)取
            張同學(xué) 155****4678 剛剛成功領(lǐng)取
            鄒同學(xué) 139****2907 剛剛成功領(lǐng)取
            董同學(xué) 138****2867 剛剛成功領(lǐng)取
            周同學(xué) 136****3602 剛剛成功領(lǐng)取
            相關(guān)推薦HOT