国产睡熟迷奷白丝护士系列精品,中文色字幕网站,免费h网站在线观看的,亚洲开心激情在线

      <sup id="hb9fh"></sup>
          1. 千鋒教育-做有情懷、有良心、有品質(zhì)的職業(yè)教育機構

            手機站
            千鋒教育

            千鋒學習站 | 隨時隨地免費學

            千鋒教育

            掃一掃進入千鋒手機站

            領取全套視頻
            千鋒教育

            關注千鋒學習站小程序
            隨時隨地免費學習課程

            當前位置:首頁  >  技術干貨  > k-Nearest Neighbor在海量數(shù)據(jù)的情況下用什么數(shù)據(jù)結構比較好?

            k-Nearest Neighbor在海量數(shù)據(jù)的情況下用什么數(shù)據(jù)結構比較好?

            來源:千鋒教育
            發(fā)布人:xqq
            時間: 2023-10-11 04:15:46 1696968946

            一、k-Nearest Neighbor在海量數(shù)據(jù)的情況下用什么數(shù)據(jù)結構比較好

            k-Nearest Neighbor在海量數(shù)據(jù)的情況下,寫一條數(shù)據(jù)到flat file,A_id, B_id,就這么存。針對不同的應用場景,可以做不同的優(yōu)化。要實時找到有明確距離度量,甚至可以通過分塊劃區(qū)降低待選點的數(shù)量級的應用場景。

            同時要支持待選點的實時添加和去除。

            那我覺得這種情況只有系統(tǒng)運維需要考慮“海量”,光從KNN來說,按層次分塊劃區(qū)以后,直接算都可以。

            那運維那邊的“海量”,更是有一大堆可做的優(yōu)化。比如以一個固定點代表來自一塊區(qū)域的請求。全上海幾千萬人一起請求最近出租車,我內(nèi)部只要算幾萬個請求來源就行了。KNN也沒必要非得是最近的,我在一定區(qū)域內(nèi)隨機挑,期望平均距離和最小平均距離差多少是完全可控的。

            KNN算法穩(wěn)定性好、準確率高、簡單易用,針對大數(shù)據(jù)的分類問題,它存在著如下缺點:a)對每一個待分類的文本都要計算它到全體已知樣本的距離,才能求得它的K個最近鄰點,而大數(shù)據(jù)的典型特點就是數(shù)據(jù)信息海量、價值密度低,這就顯然出現(xiàn)了很大的無效計算量,在決定測試樣本的類別時,該算法只計算最近鄰的樣本【neighbor-weighted K-nearest neighbor for unbalanced text corpus】,而大數(shù)據(jù)的另一個顯著特點是涉及領域繁多、類別界限不明顯,對于此類文本容易使判決結果產(chǎn)生偏差;c)隨著信息爆炸時代的到來,各種新的事物層出不窮,出現(xiàn)新的類別的概率極大,而KNN算法的鄰居都是已知的類別樣本,也就導致了對新樣本的無知或者誤判。

            延伸閱讀:

            二、改進的KNN算法—差分多層KNN (DM-KNN)算法

            針對大數(shù)據(jù)的自身特點以及KNN算法的缺點,算法主要在以下幾個方而進行了改進:a)構建樹狀分層結構,針對KNN算法計算量比較大的缺點,本文改進后的算法采用構建樹狀分層結構首先對高層進行比較,然后依據(jù)高層比較結果的不同,再依次對下一層次進行比較,相比直接對所有文本進行距離計算,計算量明顯減少,同時提高了運算速度;b)差分比較,由于大數(shù)據(jù)具有類域交叉性的特點,該算法不是在權重比較結束后直接進行判斷,而是又針對大數(shù)據(jù)的類域交叉性進行了一次差分比較,可以有效地防止最近鄰和次近鄰誤判的情況;c)動態(tài)增加類別,由于大數(shù)據(jù)中信息的不可預知性,該算法針對最終比較結果不能判斷隸屬于哪個類別的情況,在算法最后可以動態(tài)增加新類別。

            聲明:本站稿件版權均屬千鋒教育所有,未經(jīng)許可不得擅自轉載。
            10年以上業(yè)內(nèi)強師集結,手把手帶你蛻變精英
            請您保持通訊暢通,專屬學習老師24小時內(nèi)將與您1V1溝通
            免費領取
            今日已有369人領取成功
            劉同學 138****2860 剛剛成功領取
            王同學 131****2015 剛剛成功領取
            張同學 133****4652 剛剛成功領取
            李同學 135****8607 剛剛成功領取
            楊同學 132****5667 剛剛成功領取
            岳同學 134****6652 剛剛成功領取
            梁同學 157****2950 剛剛成功領取
            劉同學 189****1015 剛剛成功領取
            張同學 155****4678 剛剛成功領取
            鄒同學 139****2907 剛剛成功領取
            董同學 138****2867 剛剛成功領取
            周同學 136****3602 剛剛成功領取
            相關推薦HOT
            功能安全開發(fā)與ASPICE和CMMI之間有什么樣的聯(lián)系?

            一、功能安全開發(fā)與ASPICE和CMMI之間的聯(lián)系CMMI是產(chǎn)品和系統(tǒng)開發(fā)的通用模型,ASPICE是針對車這個垂直領域,(軟件)產(chǎn)品和系統(tǒng)開發(fā)的標準。ASPI...詳情>>

            2023-10-11 05:59:32
            在C語言下數(shù)組array與鏈表linklist各自的優(yōu)點和缺陷是什么?

            一、在C語言下數(shù)組array與鏈表linklist各自的優(yōu)點和缺陷數(shù)組可以通過下標訪問,隨機訪問效率高,鏈表需要通過指針遍歷,訪問效率低。數(shù)組在分配...詳情>>

            2023-10-11 05:43:25
            oa系統(tǒng)一般有哪些模塊?

            一、組織架構模塊組織架構模塊記錄了企業(yè)的組織結構、人員信息、部門職責、工作流程等基本信息,實現(xiàn)了組織架構的可視化和管理。該模塊主要包括...詳情>>

            2023-10-11 05:33:42
            為什么python沒有大頂堆?

            一、python沒有大頂堆的原因Python沒有內(nèi)置大頂堆,是因為在實際使用中,大頂堆并不是那么常用。相比之下,小頂堆和普通的堆操作更具有廣泛的應...詳情>>

            2023-10-11 05:30:39
            什么是crm管理?

            一、crm管理概念 CRM管理也叫客戶管理,亦即客戶關系管理(Customer Relationship Management)的簡稱。CRM管理的主要含義就是通過對客戶詳細資...詳情>>

            2023-10-11 05:28:00