国产睡熟迷奷白丝护士系列精品,中文色字幕网站,免费h网站在线观看的,亚洲开心激情在线

      <sup id="hb9fh"></sup>
          1. 千鋒教育-做有情懷、有良心、有品質(zhì)的職業(yè)教育機(jī)構(gòu)

            手機(jī)站
            千鋒教育

            千鋒學(xué)習(xí)站 | 隨時隨地免費(fèi)學(xué)

            千鋒教育

            掃一掃進(jìn)入千鋒手機(jī)站

            領(lǐng)取全套視頻
            千鋒教育

            關(guān)注千鋒學(xué)習(xí)站小程序
            隨時隨地免費(fèi)學(xué)習(xí)課程

            當(dāng)前位置:首頁  >  技術(shù)干貨  > 湯普森采樣的全面解析

            湯普森采樣的全面解析

            來源:千鋒教育
            發(fā)布人:xqq
            時間: 2023-11-20 19:51:01 1700481061

            一、湯普森采樣推薦

            湯普森采樣是一種概率分布采樣方法,可以用于從一組已知的概率分布中生成一個隨機(jī)變量,湯普森采樣的方法在生成離散和連續(xù)的概率分布時都非常有效,常用于生成文本和音頻數(shù)據(jù)等。另外,該方法還能應(yīng)用于深度學(xué)習(xí)模型的權(quán)重參數(shù)隨機(jī)初始化。

            import numpy as np
            
            def thompson_sampling(probabilities):
                """
                使用湯普森采樣算法從一個子集中選擇一個項
                :param probabilities: [N] 概率分布
                :return: int32 隨機(jī)選擇的項
                """
                N = probabilities.shape[0]
                sample = np.zeros([N])
                for i in range(N):
                    sample[i] = np.random.beta(1+probabilities[i], 1+sum(probabilities)-probabilities[i])
                return np.argmax(sample)
            

            二、湯普森采樣的定義

            湯普森采樣即 Thompson Sampling,是一種用于解決多臂賭博機(jī)問題的隨機(jī)策略,最初是由它的名字命名的 (Thompson, 1933)。在多背景的情況下,每個背景被視為一臺老虎機(jī) ( multi-armed bandit(MAB) ) ,它的目標(biāo)是通過選擇最好的臂來最大化回報 (例如,最大化利潤或最小化損失)。大部分時間里, MAB 問題是無法精確地解決的,因為環(huán)境會引入噪聲或者隨機(jī)事件,而這樣的噪聲或者隨機(jī)事件可能會使我們選擇錯誤的臂。湯普森采樣法解決這個問題的做法十分簡單:在每一次要取樣時使用當(dāng)前的信仰(Belief)的隨機(jī)樣本挑選臂,然后觀察選擇的這個臂的獎勵。

            三、湯普森采樣 d2d

            湯普森采樣的 d2d (dueling to dueling) 策略在解決多臂賭博機(jī)問題時非常有用。他對經(jīng)驗回放和步長(learning rate)自適應(yīng)有非常好的效果,使模型更快地逼近最優(yōu)解。而在實(shí)踐中,其還具有非常好的收斂速度。

            def generate_action(self, state):
                """
                生成一個新的動作,并把它添加到接口的隊列中。
                @param state: 當(dāng)前狀態(tài)
                return: 選擇的動作,或者空列表,如果沒有動作選擇的話.
                """
                # 我們使用極度社交學(xué)習(xí)算法, 湯普森采樣
                # 用經(jīng)驗回放增強(qiáng)策略.
                self.epsilon = self.options.init_epsilon
                if np.random.uniform() < self.epsilon:
                    return self.env.action_space.sample()
                # 獲取當(dāng)前狀態(tài)的初始化
                state = np.atleast_2d(state)
                h = self.bh_net.predict(state)
                p = self.bp_net.predict(h)
                # 隨機(jī)選擇一個合法的動作.
                action = thompson_sampling(p[0])
                return action
            

            四、湯普森采樣應(yīng)用

            湯普森采樣在解決多臂賭博機(jī)問題以及適用于哪些分布是常見問題,在如何使用該算法方面,需要有經(jīng)驗或者閱讀相關(guān)文獻(xiàn)。

            五、湯普森采樣結(jié)合遺傳算法

            遺傳算法 (Genetic Algorithm, GA) 是對進(jìn)化論理論模型的應(yīng)用,用于解決搜索和優(yōu)化問題。通常情況下,它涉及一個族群(population) 的可行解, 然后找到它們中最適宜的個體群。在每一個新的進(jìn)化 (每代) 的過程中,遺傳算法使用種群中的個體產(chǎn)生新的,歐足聯(lián)的后代,遺傳算法在重復(fù)執(zhí)行過程中逐漸逼近最優(yōu)解。與湯普森采樣結(jié)合起來,我們可以兼顧全局搜索和局部尋優(yōu),加速收斂速度。

            from numpy.random import seed
            from numpy.random import rand
            from numpy.random import randint
            
            # 梅森旋轉(zhuǎn)素數(shù)種子, 用于自動生成隨機(jī)數(shù)
            seed(1)
            
            # 初始化測試的母體族群
            # 母體種群大小.
            pop_size = 100
            
            # 每個個體基因個數(shù)
            num_parents = 2
            
            # 基因長度
            num_gen = 10
            
            # 獲取一個隨機(jī)個體
            def init_pop(population_size, n_genes):
                """
                初始化種群
                :param population_size: 種群大小
                :param n_genes: 每個個體的基因個數(shù)
                :return: 種群數(shù)據(jù)
                """
                return rand(population_size, n_genes)
            
            # 湯普森采樣算法的配套函數(shù)
            def roulette_wheel_selection(population, fitness):
                """
                    選擇最優(yōu)的個體群.
                    @param population: 種群。
                    @param fitness: 評價函數(shù)。
                    @return: 最優(yōu)個體。
                """
                total_fitness = np.sum(fitness)
                rel_fitness = fitness / total_fitness
                # 生成一個輪盤
                wheel = np.zeros(rel_fitness.shape)
                wheel[0] = rel_fitness[0]
                for i in range(1, rel_fitness.shape[0]):
                    wheel[i] = wheel[i-1] + rel_fitness[i]
                # 用輪盤選擇父母
                parents = np.zeros([2, population.shape[1]])
                for i in range(2):
                    rand_val = np.random.rand()
                    for j in range(wheel.shape[0]):
                        if rand_val < wheel[j]:
                            parents[i, :] = population[j, :]
                            break
                return parents
            

            六、湯普森采樣打標(biāo)

            在語音識別、自然語言處理等領(lǐng)域,我們通常需要為一些大規(guī)模語料庫建立標(biāo)簽。湯普森采樣可以用于在大規(guī)模數(shù)據(jù)上快速生成標(biāo)簽。具體地,可對數(shù)據(jù)進(jìn)行隨機(jī)采樣,然后依據(jù)所選數(shù)據(jù)類別的分布,使用湯普森采樣來生成標(biāo)簽。而對于那些被人工標(biāo)記過的數(shù)據(jù),可以將它們放在湯普森采樣的一個子集中,這樣我們可以放心地使用湯普森采樣算法生成標(biāo)簽。

            七、湯普森采樣 冷啟動

            新產(chǎn)品上線,往往需要大量的數(shù)據(jù)來滿足其訓(xùn)練需求,這時候,我們不可能從現(xiàn)有的平穩(wěn)數(shù)據(jù)中進(jìn)行采集。湯普森采樣可以用于快速生成樣本,解決新產(chǎn)品冷啟動問題。新產(chǎn)品啟動過程中,我們可以從探索平臺上隨機(jī)抽取樣本,然后依據(jù)所選樣本類別分布,使用湯普森采樣算法來生成新樣本。這樣可以大大加快新產(chǎn)品上線的時效性和成功率。

            八、湯普森采樣算法

            湯普森采樣算法是一種隨機(jī)策略,通過估計每個動作的價值,找到每一條能夠使獎勵最大化的選擇路徑。具體采取貝葉斯方法估計每個動作的期望獎勵,然后采用此期望獎勵來做出決策。該算法在像廣告推薦、自然語言處理和計算機(jī)視覺等領(lǐng)域的應(yīng)用方面非常有效。

            九、湯普森采樣 神經(jīng)網(wǎng)絡(luò)

            湯普森采樣 神經(jīng)網(wǎng)絡(luò)算法是一種將深度學(xué)習(xí)和湯普森采樣技術(shù)結(jié)合起來的算法,能夠讓深度學(xué)習(xí)模型更快地學(xué)習(xí)訓(xùn)練數(shù)據(jù)。它使用的基本思想是,在模型訓(xùn)練過程中對參數(shù)使用湯普森采樣,這些采樣樣本用于表示參數(shù)梯度的先知信息。當(dāng)使用這個算法的時候,我們需要仔細(xì)地調(diào)節(jié)模型的超參數(shù),才能使之取得最優(yōu)的訓(xùn)練結(jié)果。

            十、湯普森采樣算法 推薦

            在實(shí)際工作中,如何合理地評估與選取最佳的推薦策略是非常重要的。湯普森采樣可以讓我們充分利用已經(jīng)有的數(shù)據(jù),發(fā)現(xiàn)最佳的推薦策略。湯普森采樣算法的真正本質(zhì)是使我們從可能性分布中得到一些概率值,在這個基礎(chǔ)上做出決策。

            聲明:本站稿件版權(quán)均屬千鋒教育所有,未經(jīng)許可不得擅自轉(zhuǎn)載。
            10年以上業(yè)內(nèi)強(qiáng)師集結(jié),手把手帶你蛻變精英
            請您保持通訊暢通,專屬學(xué)習(xí)老師24小時內(nèi)將與您1V1溝通
            免費(fèi)領(lǐng)取
            今日已有369人領(lǐng)取成功
            劉同學(xué) 138****2860 剛剛成功領(lǐng)取
            王同學(xué) 131****2015 剛剛成功領(lǐng)取
            張同學(xué) 133****4652 剛剛成功領(lǐng)取
            李同學(xué) 135****8607 剛剛成功領(lǐng)取
            楊同學(xué) 132****5667 剛剛成功領(lǐng)取
            岳同學(xué) 134****6652 剛剛成功領(lǐng)取
            梁同學(xué) 157****2950 剛剛成功領(lǐng)取
            劉同學(xué) 189****1015 剛剛成功領(lǐng)取
            張同學(xué) 155****4678 剛剛成功領(lǐng)取
            鄒同學(xué) 139****2907 剛剛成功領(lǐng)取
            董同學(xué) 138****2867 剛剛成功領(lǐng)取
            周同學(xué) 136****3602 剛剛成功領(lǐng)取
            相關(guān)推薦HOT