大战熟女丰满人妻av-荡女精品导航-岛国aaaa级午夜福利片-岛国av动作片在线观看-岛国av无码免费无禁网站-岛国大片激情做爰视频

專注Java教育14年 全國咨詢/投訴熱線:400-8080-105
動力節點LOGO圖
始于2009,口口相傳的Java黃埔軍校
首頁 學習攻略 Java學習 基礎面試題,Java校招筆試題目

基礎面試題,Java校招筆試題目

更新時間:2020-05-09 13:47:58 來源:動力節點 瀏覽2459次

   1.hive表關聯查詢,如何解決數據傾斜的問題?

    傾斜原因:

    map輸出數據按keyHash的分配到reduce中,由于key分布不均勻、業務數據本身的特、建表時考慮不周、等原因造成的reduce上的數據量差異過大。

    1)、key分布不均勻;

    2)、業務數據本身的特性;

    3)、建表時考慮不周;

    4)、某些SQL語句本身就有數據傾斜;

    如何避免:對于key為空產生的數據傾斜,可以對其賦予一個隨機值。

    解決方案

    1>.參數調節:

    hive.map.aggr=true

    hive.groupby.skewindata=true

    有數據傾斜的時候進行負載均衡,當選項設定位true,生成的查詢計劃會有兩個MRJob。第一個MRJob中,Map的輸出結果集合會隨機分布到Reduce中,每個Reduce做部分聚合操作,并輸出結果,這樣處理的結果是相同的GroupByKey有可能被分發到不同的Reduce中,從而達到負載均衡的目的;第二個MRJob再根據預處理的數據結果按照GroupByKey分布到Reduce中(這個過程可以保證相同的GroupByKey被分布到同一個Reduce中),最后完成最終的聚合操作。

    2>.SQL語句調節:

    1)、選用joinkey分布最均勻的表作為驅動表。做好列裁剪和filter操作,以達到兩表做join的時候,數據量相對變小的效果。

    2)、大小表Join:

    使用mapjoin讓小的維度表(1000條以下的記錄條數)先進內存。在map端完成reduce.

    4)、大表Join大表:

    把空值的key變成一個字符串加上隨機數,把傾斜的數據分到不同的reduce上,由于null值關聯不上,處理后并不影響最終結果。

    5)、countdistinct大量相同特殊值:

    countdistinct時,將值為空的情況單獨處理,如果是計算countdistinct,可以不用處理,直接過濾,在最后結果中加1。如果還有其他計算,需要進行groupby,可以先將值為空的記錄單獨處理,再和其他計算結果進行union。

    2.請談一下hive的特點是什么?hive和RDBMS有什么異同?

    hive是基于Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張數據庫表,并提供完整的sql查詢功能,可以將sql語句轉換為MapReduce任務進行運行。其優點是學習成本低,可以通過類SQL語句快速實現簡單的MapReduce統計,不必開發專門的MapReduce應用,十分適合數據倉庫的統計分析。

    hive存儲的數據量比較大,適合海量數據,適合存儲軌跡類歷史數據,適合用來做離線分析、數據挖掘運算,事務性較差,實時性較差

    rdbms一般數據量相對來說不會太大,適合事務性計算,實時性較好,更加接近上層業務

    hive的計算引擎是hadoop的mapreduce,存儲是hadoop的hdfs文件系統

    rdbms的引擎由數據庫自己設計實現例如mysql的innoDB,存儲用的是數據庫服務器本地的文件系統

    hive由于基于hadoop所以存儲和計算的擴展能力都很好,

    rdbms在這方面比較弱,比如orcale的分表和擴容就很頭疼

    hive表格沒有主鍵、沒有索引、不支持對具體某一行的操作,適合對批量數據的操作,不支持對數據的update操作,更新的話一般是先刪除表然后重新落數據

    rdbms事務性強,有主鍵、索引,支持對具體某一行的增刪改查等操作

    hive的SQL為HQL,與標準的RDBMS的SQL存在有不少的區別,相對來說功能有限

    rdbms的SQL為標準SQL,功能較為強大。

    3.Multi-groupby是hive的一個非常好的特性,請舉例說明?

    fromA

    insertoverwritetableB

    selectA.a,count(distinctA.b)groupbyA.a

    insertoverwritetableC

    selectA.c,count(distinctA.b)groupbyA.c

    4.請說明hive中SortBy,OrderBy,ClusterBy,DistrbuteBy各代表什么意思

    orderby:會對輸入做全局排序,因此只有一個reducer(多個reducer無法保證全局有序)。只有一個reducer,會導致當輸入規模較大時,需要較長的計算時間。

    sortby:不是全局排序,其在數據進入reducer前完成排序。

    distributeby:按照指定的字段對數據進行劃分輸出到不同的reduce中。

    clusterby:除了具有distributeby的功能外還兼具sortby的功能。

    5.簡要描述數據庫中的null,說出null在hive底層如何存儲,并解釋selecta.*fromt1aleftouterjoint2bona.id=b.idwhereb.idisnull;語句的含義

    null與任何值運算的結果都是null,可以使用isnull、isnotnull函數指定在其值為null情況下的取值。

    null在hive底層默認是用'\N'來存儲的,可以通過altertabletestSETSERDEPROPERTIES('serialization.null.format'='a');來修改。

    這段語句目的是查詢出t1表中與t2表中id相等的所有信息。

    6.寫出hive中split、coalesce及collect_list函數的用法(可舉例)

    split將字符串轉化為數組。

    split('a,b,c,d',',')==>["a","b","c","d"]

    COALESCE(Tv1,Tv2,…)返回參數中的第一個非空值;如果所有值都為NULL,那么返回NULL。

    collect_list列出該字段所有的值,不去重selectcollect_list(id)fromtable;

    7.寫出將text.txt文件放入hive中test表‘2016-10-10’分區的語句,test的分區字段是l_date。

    LOADDATALOCALINPATH'/your/path/test.txt'OVERWRITEINTOTABLEtestPARTITION(l_date='2016-10-10')

    8.請把下一語句用hive方式實現?

    SELECTa.key,a.value

    FROMa

    WHEREa.keynotin(SELECTb.keyFROMb)

    selecta.key,a.valuefromawherea.keynotexists(selectb.keyfromb)

基礎面試題,Java校招筆試題目

 以上就是動力節點java培訓機構的小編針對“基礎面試題,Java校招筆試題目”的內容進行的回答,希望對大家有所幫助,如有疑問,請在線咨詢,有專業老師隨時為你服務。

提交申請后,顧問老師會電話與您溝通安排學習

免費課程推薦 >>
技術文檔推薦 >>
主站蜘蛛池模板: 91成人影院未满十八勿入 | 四虎成人免费网站在线 | 国产精品免费观看视频 | 国产 日韩 欧美 亚洲 | 久久久久激情免费观看 | 国产在线观看精品香蕉v区 国产在线观看美女福利精 国产在线观看午夜不卡 | 欧美成人亚洲欧美成人 | 国产在线视频不卡 | 日韩在线a视频免费播放 | 日韩一级黄色影片 | 久久精品国产久精国产80cm | 日本a∨在线 | 欧美国产日产精品免费视频 | 国产综合成人亚洲区 | 国产性生活视频 | 九九精品免视频国产成人 | 在线播放性xxx欧美 在线播放亚洲 | 欧美网站黄 | 99精品视频在线成人精彩视频 | 欧洲亚洲一区 | 午夜在线观看免费影院 | 欧美午夜影院 | 九九久久九九久久 | 一级片在线免费观看 | 手机看片福利盒子久久 | 好吊妞欧美视频免费 | 国产你懂得 | 四虎影视在线影院在线观看观看 | 福利姬视频在线观看 | 久久毛片免费看一区二区三区 | 国产精品一级片 | 国产黄色一级大片 | 另类色综合 | 99这里都是精品 | 亚洲网站免费 | 成人在线不卡 | 91久久国产综合精品女同国语 | 波多野结衣久久高清免费 | 黄a毛片 | 一级黄色录像免费看 | 欧美一级毛片片免费 |