国产睡熟迷奷白丝护士系列精品,中文色字幕网站,免费h网站在线观看的,亚洲开心激情在线

      <sup id="hb9fh"></sup>
          1. 千鋒教育-做有情懷、有良心、有品質的職業(yè)教育機構

            手機站
            千鋒教育

            千鋒學習站 | 隨時隨地免費學

            千鋒教育

            掃一掃進入千鋒手機站

            領取全套視頻
            千鋒教育

            關注千鋒學習站小程序
            隨時隨地免費學習課程

            當前位置:首頁  >  技術干貨  > 大數(shù)據面試題:經典面試題答疑(三)

            大數(shù)據面試題:經典面試題答疑(三)

            來源:千鋒教育
            發(fā)布人:syq
            時間: 2022-06-08 16:27:00 1654676820

              大數(shù)據經典面試題答疑---經常問的原理問題總結(系列文章,持續(xù)更新),幫你解決大數(shù)據開發(fā)中的困擾。

              1. hive+MapReduce

              答案區(qū):

              1. hive+MapReduce

              Hive不支持行級數(shù)據的插入、更新和刪除,也不支持事務操作;

              1.1. MapReduce的join過程

            wpsovWTMc

              (1):利用DistributedCache將小表分發(fā)到各個節(jié)點上,在Map過程的setup()函數(shù)里,讀取緩存里的文件,只將小表的連接鍵存儲在hashSet中。

              (2):在map()函數(shù)執(zhí)行時,對每一條數(shù)據進行判斷(包含小表數(shù)據),如果這條數(shù)據的連接鍵為空或者在hashSet里不存在,那么則認為這條數(shù)據無效,這條數(shù)據也不參與reduce的過程。

              1.2. hive的SQL解析過程

            01

              詞法、語法解析: Antlr 定義 SQL 的語法規(guī)則,完成 SQL 詞法,語法解析,將 SQL 轉化為抽象語法樹 AST Tree;

              語義解析: 遍歷 AST Tree(抽象語法樹,抽象語法結構的樹狀),抽象出查詢的基本組成單元 QueryBlock;

              生成邏輯執(zhí)行計劃: 遍歷 QueryBlock,翻譯為執(zhí)行操作樹 OperatorTree;

              優(yōu)化邏輯執(zhí)行計劃: 邏輯層優(yōu)化器進行 OperatorTree 變換,合并 Operator,達到減少 MapReduce Job,減少數(shù)據傳輸及 shuffle 數(shù)據量;

              生成物理執(zhí)行計劃: 遍歷 OperatorTree,翻譯為 MapReduce 任務;

              優(yōu)化物理執(zhí)行計劃: 物理層優(yōu)化器進行 MapReduce 任務的變換,生成最終的執(zhí)行計劃。

              1.3. hive數(shù)據導入

              load data inpath '/hadoop/guozy/data/user.txt' into table external_table;

              此處是移動(非復制),移動數(shù)據非???,不會對數(shù)據是否符合定義的Schema做校驗,這個工作通常在讀取的時候進行(即Schema on Read)

              1.4. 內部表與外部表的不同

              1.創(chuàng)建外部表需要添加 external 字段。而內部表不需要。

              2.刪除外部表時,HDFS中的數(shù)據文件不會一起被刪除。而刪除內部表時,表數(shù)據及HDFS中的數(shù)據文件都會被刪除。

              3.內部表與外部表如果不指定location,默認使用hive.metastore.warehouse.dir指定的路徑

              1.5. 分區(qū)和分桶

              1.5.1. 分區(qū)

              指的就是將數(shù)據按照表中的某一個字段進行統(tǒng)一歸類,并存儲在表中的不同的位置,也就是說,一個分區(qū)就是一類,這一類的數(shù)據對應到hdfs存儲上就是對應一個目錄。

              1.5.1.1. 靜態(tài)分區(qū)

              數(shù)據已經按某些字段分完區(qū)放在一塊,建表時直接指定分區(qū)即可。

              create table enter_country_people(id int,name string,cardNum string)

              partitioned by (enter_date string,country string);

              注意,這里的分區(qū)字段不能包含在表定義字段中,因為在向表中l(wèi)oad數(shù)據的時候,需要手動指定該字段的值.

              數(shù)據加載(指定分區(qū)):

              load data inpath '/hadoop/guozy/data/enter__china_people' into table enter_country_people partition (enter_date='2019-01-02',country='china');

              此處自動創(chuàng)建分區(qū)目錄;

              創(chuàng)建完后目錄結構:

            wpsdJ7hIU

              其他創(chuàng)建分區(qū)目錄的方法:

              1.alter table enter_country_people add if not exists partition (enter_date='2019-01-03',country='US');

              2.在相應的表目錄下創(chuàng)建分區(qū)目錄后,執(zhí)行 msck repair table table_name;

              1.5.1.2. 動態(tài)分區(qū)

              建表相同,主要是加載數(shù)據方式不同,動態(tài)分區(qū)是將大雜燴數(shù)據自動加載到不同分區(qū)目錄。

              1.開啟非嚴格模式

              2.需要從另一張hive表查詢

              set hive.exec.dynamic.partition.mode=nonstrict;

              insert into table enter_country_people(user string,age int) partition(enter_date,country) select user,age,enter_date,country from enter_country_people_bak;

              1.5.2. 分桶表

              如果兩個表根據相同的字段進行分桶,則在對這兩個表進行關聯(lián)的時候可以使用map-side關聯(lián)高效實現(xiàn)。

              create table user_bucket(id int comment 'ID',name string comment '姓名',age int comment '年齡') comment '測試分桶' clustered by (id) sorted by (id) into 4 buckets row format delimited fields terminated by '\t';

              指定根據id字段進行分桶,并且分為4個桶,并且每個桶內按照id字段升序排序,如果不加sorted by,則桶內不經過排序的,上述語句中為id,根據id進行hash之后在對分桶數(shù)量4進行取余來決定該數(shù)據存放在哪個桶中,因此每個桶都是整體數(shù)據的隨機抽樣。

              數(shù)據載入:

              我們需要借助一個中間表,先將數(shù)據load到中間表中,然后通過insert的方式來向分桶表中載入數(shù)據。

              create table tmp_table (id int comment 'ID',name string comment '名字',age int comment '年齡') comment '測試分桶中間表' ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ;

              load data inpath '/hadoop/guoxb/data/user.txt' into table tmp_table;

              insert into user_bucket select * from tmp_table;

              上述的語句中,最終會在hdfs上生成四個文件,而不是四個目錄,如果當在次向該分桶表中insert數(shù)據后,會又增加4個文件,而不是在原來的文件上進行追加。

              1.5.3. 區(qū)別

              1.hdfs目錄結構不同,分區(qū)是生成目錄,分桶是生成文件

              2.分區(qū)表在加載數(shù)據的時候可以指定加載某一部分數(shù)據,有利于查詢

              3.分桶在map-side join(另一種 reduce-side join)查詢時,可以直接從bucket(兩表分桶成倍數(shù)即可)中提取數(shù)據進行關聯(lián)操作,查詢高效。

              1.6. Sort By、Order By、Cluster By,Distribute By,group by

              order by:會對輸入做全局排序,因此***\*只有一個reducer\****(多個reducer無法保證全局有序)。只有一個reducer,會導致當輸入規(guī)模較大時,需要較長的計算時間。

              distribute by:按照指定的字段對數(shù)據進行劃分輸出到不同的reduce中(單純的分散數(shù)據)。

              sort by:局部排序,sort by只是確保每個reduce上面輸出的數(shù)據有序,當只有一個reduce時,也變成全局排序。

            wpsq0kGDl

              cluster by:當distribute by 和 sort by 所指定的字段相同時,即可以使用cluster by

              group By Key算子的功能固定,只能輸出相同key值的序列,reduceByKey適用于分組排序過程中有數(shù)據聚合操作(sum)的情形,在其他場景下可能不適用。

            wpsnkIWGq

              受限于reduce數(shù)量,設置reduce參數(shù)mapred.reduce.tasks 輸出文件個數(shù)與reduce數(shù)相同,文件大小與reduce處理的數(shù)據量有關,網絡負載過重 數(shù)據傾斜,優(yōu)化參數(shù)hive.groupby.skewindata為true,會啟動一個優(yōu)化程序,避免數(shù)據傾斜

              1.7. SQL

              1.7.1. 開窗函數(shù)

            wpsgOGnKY

              1.8. 數(shù)據傾斜怎么解決

              1.key 盡量打亂;提高reduce任務數(shù)

              2.關聯(lián)查詢時,利用分桶和map-side提高查詢效率

              1.9. 星型模型和雪花模型介紹

              星型模型:所有的維表直接連接到事實表:

            02

              雪花模型:

              當有一個或多個維表沒有直接連接到事實表上,而是通過其他維表連接到事實表上時,是星型模型的拓展。

            03

              更多關于大數(shù)據培訓的問題,歡迎咨詢千鋒教育在線名師。千鋒教育擁有多年IT培訓服務經驗,采用全程面授高品質、高體驗培養(yǎng)模式,擁有國內一體化教學管理及學員服務,助力更多學員實現(xiàn)高薪夢想。

            tags:
            聲明:本站稿件版權均屬千鋒教育所有,未經許可不得擅自轉載。
            10年以上業(yè)內強師集結,手把手帶你蛻變精英
            請您保持通訊暢通,專屬學習老師24小時內將與您1V1溝通
            免費領取
            今日已有369人領取成功
            劉同學 138****2860 剛剛成功領取
            王同學 131****2015 剛剛成功領取
            張同學 133****4652 剛剛成功領取
            李同學 135****8607 剛剛成功領取
            楊同學 132****5667 剛剛成功領取
            岳同學 134****6652 剛剛成功領取
            梁同學 157****2950 剛剛成功領取
            劉同學 189****1015 剛剛成功領取
            張同學 155****4678 剛剛成功領取
            鄒同學 139****2907 剛剛成功領取
            董同學 138****2867 剛剛成功領取
            周同學 136****3602 剛剛成功領取
            相關推薦HOT