導航:首頁 > 數據處理 > 數據公司面試有哪些思維題

數據公司面試有哪些思維題

發布時間:2022-11-28 05:25:43

數據分析師面試題目和答案:動手題

【導讀】眾所周知,隨著社會的發展,數據分析師成為了炙手可熱的熱門執業,一方面是其高薪待遇另一方面就是其未來廣闊的發展前景。一般情況下用人單位會給問答題和動手題來檢測應聘者的真實實力,可以說面試筆試是非常重要的一個環節。它可以直接測驗你對數據分析具體理論的掌握程度和動手操作的能力。為此小編就以此為例和大家說說2020年數據分析面試解答技巧:動手題,希望對大家有所幫助。

動手題

1. 我給你一組數據,如果要你做數據清洗,你會怎麼做?

實際上,這一道題中,面試官考核的是基本的數據清洗的准則,數據清洗是數據分析必不可少的重要環節。你可能看到這個數據存在 2 個問題:典韋出現了 2
次,張飛的數學成績缺失。

針對重復行,你需要刪掉其中的一行。針對數據缺失,你可以將張飛的數學成績補足。

2. 豆瓣電影數據集關聯規則挖掘

在數據分析領域,有一個很經典的案例,那就是「啤酒 +
尿布」的故事。它實際上體現的就是數據分析中的關聯規則挖掘。不少公司會對這一演算法進行不同花樣的考察,但萬變不離其宗。

如果讓你用 Apriori 演算法,分析電影數據集中的導演和演員信息,從而發現兩者之間的頻繁項集及關聯規則,你會怎麼做?

以上就是小編今天給大家整理發送的關於「數據分析師面試題目和答案:動手題」的相關內容,希望對大家有所幫助。想了解更多關於數據分析及人工智慧就業崗位分析,關注小編持續更新。

大數據面試題及答案誰能分享一下

大數據時代才剛剛開始。隨著越來越多的公司傾向於大數據運營,人才需求達到歷史最高水平。這對你意味著什麼?如果您想在任何大數據崗位上工作,它只能轉化為更好的機會。您可以選擇成為數據分析師,數據科學家,資料庫管理員,大數據工程師,Hadoop大數據工程師等。在本文中,慧都網將介紹與大數據相關的前10大數據面試問題。

以下是最重要的大數據面試問題以及具體問題的詳細解答。對於更廣泛的問題,答案取決於您的經驗,我們將分享一些如何回答它們的提示。

10個大數據面試入門級問題

無論何時進行大數據采訪,采訪者都可能會詢問一些基本問題。無論您是大數據領域的新手還是經驗豐富,都需要基礎知識。因此,讓我們來介紹一些常見的基本大數據面試問題以及破解大數據面試的答案。

1.您對「大數據」一詞有何了解?

答:大數據是與復雜和大型數據集相關的術語。關系資料庫無法處理大數據,這就是使用特殊工具和方法對大量數據執行操作的原因。大數據使公司能夠更好地了解其業務,並幫助他們從定期收集的非結構化和原始數據中獲取有意義的信息。大數據還允許公司採取數據支持的更好的業務決策。

2.大數據的五個V是什麼?

答:大數據的五個V如下:

❸ 十大經典思維面試題 十大經典思維面試問題有哪些

1、「請你自我介紹一下」思路:這是面試的必考題目。介紹內容要與個人簡歷相一致。表述方式上盡量口語化。要切中要害,不談無關、無用的內容。條理要清晰,層次要分明。事先最好以文字的形式寫好背熟。

2、「談談你的家庭情況」思路:況對於了解應聘者的性格、觀念、心態等有一定的作用,這是招聘單位問該問題的主要原因。簡單地羅列家庭人口。宜強調溫馨和睦的家庭氛圍。宜強調父母對自己教育的重視。宜強調各位家庭成員的良好狀況。宜強調家庭成員對自己工作的支持。宜強調自己對家庭的責任感。

3、「你有什麼業余愛好?」思路:業余愛好能在一定程度上反映應聘者的性格、觀念、心態,這是招聘單位問該問題的主要原因。最好不要說自己沒有業余愛好。不要說自己有那些庸俗的、令人感覺不好的愛好。最好不要說自己僅限於讀書、聽音樂、上網,否則可能令面試官懷疑應聘者性格孤僻。最好能有一些戶外的業余愛好來「點綴」你的形象。

4、「你最崇拜誰?」思路:最崇拜的人能在一定程度上反映應聘者的性格、觀念、心態,這是面試官問該問題的主要原

因。不宜說自己誰都不崇拜。不宜說崇拜自己。不宜說崇拜一個虛幻的、或是不知名的人。不宜說崇拜一個明顯具有負面形象的人。所崇拜的人人最好與自己所應聘的工作能「搭」上關系。最好說出自己所崇拜的人的哪些品質、哪些思想感染著自己、鼓舞著自己。

5、「你的座右銘是什麼?」思路:座右銘能在一定程度上反映應聘者的性格、觀念、心態,這是面試官問這個問題的`主要原

因。不宜說那些醫引起不好聯想的座右銘。不宜說那些太抽象的座右銘。不宜說太長的座右銘。座右銘最好能反映出自己某種優秀品質。參考答案——「只為成功找方法,不為失敗找借口」

6、「談談你的缺點」思路:不宜說自己沒缺點。不宜把那些明顯的優點說成缺點。不宜說出嚴重影響所應聘工作的缺點。不宜說出令人不放心、不舒服的缺點。可以說出一些對於所應聘工作「無關緊要」的缺點,甚至是一些表面上看是缺點,從工作的角度看卻是優點的缺點。

7、「談一談你的一次失敗經歷」思路:不宜說自己沒有失敗的經歷。不宜把那些明顯的成功說成是失敗。不宜說出嚴重影響所應聘工作的失敗經歷,所談經歷的結果應是失敗的。宜說明失敗之前自己曾信心白倍、盡心盡力。說明僅僅是由於外在客觀原因導致失敗。失敗後自己很快振作起來,以更加飽滿的熱情面對以後的工作。

8、「你為什麼選擇我們公司?」思路:面試官試圖從中了解你求職的動機、願望以及對此項工作的態度。建議從行業、企業和崗位這三個角度來回答。參考答案——「我十分看好貴公司所在的行業,我認為貴公司十分重視人才,而且這項工作很適合我,相信自己一定能做好。」

9、「對這項工作,你有哪些可預見的困難?」思路:不宜直接說出具體的困難,否則可能令對方懷疑應聘者不行。可以嘗試迂迴戰術,說出應聘者對困難所持有的態度——「工作中出現一些困難是正常的,

也是難免的,但是只要有堅忍不拔的毅力、良好的合作精神以及事前周密而充分的准備,任何困難都是可以克服的。」

10、「如果我錄用你,你將怎樣開展工作」思路:如果應聘者對於應聘的職位缺乏足夠的了解,最好不要直接說出自己開展工作的具體辦法。可以嘗試採用迂迴戰術來回答,如「首先聽取領導的指示和要求,然後就有關情況進行了解和熟悉,接下來制定一份近期的工作計劃並報領導批准,最後根據計劃開展工作。」

❹ 大數據面試題以及答案整理(一)

一、Map端的shuffle

Map端會處理輸入數據並產生中間結果,這個中間結果會寫到本地磁碟,而不是HDFS。每個Map的輸出會先寫到內存緩沖區中,當寫入的數據達到設定的閾值時,系統將會啟動一個線程將緩沖區的數據寫到磁碟,這個過程叫做spill。

在spill寫入之前,會先進行二次排序,首先根據數據所屬的partition進行排序,然後每個partition中的數據再按key來排序。partition的目的是將記錄劃分到不同的Recer上去,以期望能夠達到負載均衡,以後的Recer就會根據partition來讀取自己對應的數據。接著運行combiner(如果設置了的話),combiner的本質也是一個Recer,其目的是對將要寫入到磁碟上的文件先進行一次處理,這樣,寫入到磁碟的數據量就會減少。最後將數據寫到本地磁碟產生spill文件(spill文件保存在{mapred.local.dir}指定的目錄中,Map任務結束後就會被刪除)。

最後,每個Map任務可能產生多個spill文件,在每個Map任務完成前,會通過多路歸並演算法將這些spill文件歸並成一個文件。至此,Map的shuffle過程就結束了。

二、Rece端的shuffle

Rece端的shuffle主要包括三個階段,、sort(merge)和rece。

首先要將Map端產生的輸出文件拷貝到Rece端,但每個Recer如何知道自己應該處理哪些數據呢?因為Map端進行partition的時候,實際上就相當於指定了每個Recer要處理的數據(partition就對應了Recer),所以Recer在拷貝數據的時候只需拷貝與自己對應的partition中的數據即可。每個Recer會處理一個或者多個partition,但需要先將自己對應的partition中的數據從每個Map的輸出結果中拷貝過來。

接下來就是sort階段,也稱為merge階段,因為這個階段的主要工作是執行了歸並排序。從Map端拷貝到Rece端的數據都是有序的,所以很適合歸並排序。最終在Rece端生成一個較大的文件作為Rece的輸入。

最後就是Rece過程了,在這個過程中產生了最終的輸出結果,並將其寫到HDFS上。

 讀:

1、跟namenode通信查詢元數據,找到文件塊所在的datanode伺服器

2、挑選一台datanode(就近原則,然後隨機)伺服器,請求建立socket流

3、datanode開始發送數據(從磁碟裡面讀取數據放入流,以packet為單位來做校驗)

4、客戶端以packet為單位接收,現在本地緩存,然後寫入目標文件

  寫:

1、與namenode通信請求上傳文件,namenode檢查目標文件是否已存在,父目錄是否存在

2、namenode返回是否可以上傳

3、client請求第一個 block該傳輸到哪些datanode伺服器上

4、namenode返回3個datanode伺服器ABC

5、client請求3台dn中的一台A上傳數據(本質上是一個RPC調用,建立pipeline),A收到請求會繼續調用B,然後B調用C,將真個pipeline建立完成,逐級返回客戶端

6、client開始往A上傳第一個block(先從磁碟讀取數據放到一個本地內存緩存),以packet為單位,A收到一個packet就會傳給B,B傳給C;A每傳一個packet會放入一個應答隊列等待應答

7、當一個block傳輸完成之後,client再次請求namenode上傳第二個block的伺服器

❺ 大公司筆試面試有哪些經典演算法題目

大公司的筆試面試一般是針對你所面試的崗位進行一些專業知識的考核,不會出現想考公員裡面的行測似得,當然也有哪些逆向思維的計算題。

❻ 數據分析師常見的7道面試題及答案

1、海量日誌數據,提取出某日訪問網路次數最多的那個IP。

首先是這一天,並且是訪問網路的日誌中的IP取出來,逐個寫入到一個大文件中。注意到IP是32位的,最多有個2^32個IP。同樣可以採用映射的方法,比如模1000,把整個大文件映射為1000個小文件,再找出每個小文中出現頻率最大的IP(可以採用hash_map進行頻率統計,然後再找出頻率最大的幾個)及相應的頻率。然後再在這1000個最大的IP中,找出那個頻率最大的IP,即為所求。

或者如下闡述:

演算法思想:分而治之+Hash

1.IP地址最多有2^32=4G種取值情況,所以不能完全載入到內存中處理;

2.可以考慮採用「分而治之」的思想,按照IP地址的Hash(IP)24值,把海量IP日誌分別存儲到1024個小文件中。這樣,每個小文件最多包含4MB個IP地址;

3.對於每一個小文件,可以構建一個IP為key,出現次數為value的Hashmap,同時記錄當前出現次數最多的那個IP地址;

4.可以得到1024個小文件中的出現次數最多的IP,再依據常規的排序演算法得到總體上出現次數最多的IP;

2、搜索引擎會通過日誌文件把用戶每次檢索使用的所有檢索串都記錄下來,每個查詢串的長度為1-255位元組。

假設目前有一千萬個記錄(這些查詢串的重復度比較高,雖然總數是1千萬,但如果除去重復後,不超過3百萬個。一個查詢串的重復度越高,說明查詢它的用戶越多,也就是越熱門。),請你統計最熱門的10個查詢串,要求使用的內存不能超過1G。

典型的TopK演算法,還是在這篇文章里頭有所闡述,

文中,給出的最終演算法是:

第一步、先對這批海量數據預處理,在O(N)的時間內用Hash表完成統計(之前寫成了排序,特此訂正。July、2011.04.27);

第二步、藉助堆這個數據結構,找出TopK,時間復雜度為N『logK。

即,藉助堆結構,我們可以在log量級的時間內查找和調整/移動。因此,維護一個K(該題目中是10)大小的小根堆,然後遍歷300萬的Query,分別和根元素進行對比所以,我們最終的時間復雜度是:O(N)+N』*O(logK),(N為1000萬,N』為300萬)。ok,更多,詳情,請參考原文。

或者:採用trie樹,關鍵字域存該查詢串出現的次數,沒有出現為0。最後用10個元素的最小推來對出現頻率進行排序。

3、有一個1G大小的一個文件,裡面每一行是一個詞,詞的大小不超過16位元組,內存限制大小是1M。返回頻數最高的100個詞。

方案:順序讀文件中,對於每個詞x,取hash(x)P00,然後按照該值存到5000個小文件(記為x0,x1,…x4999)中。這樣每個文件大概是200k左右。

如果其中的有的文件超過了1M大小,還可以按照類似的方法繼續往下分,直到分解得到的小文件的大小都不超過1M。

對每個小文件,統計每個文件中出現的詞以及相應的頻率(可以採用trie樹/hash_map等),並取出出現頻率最大的100個詞(可以用含100個結點的最小堆),並把100個詞及相應的頻率存入文件,這樣又得到了5000個文件。下一步就是把這5000個文件進行歸並(類似與歸並排序)的過程了。

4、有10個文件,每個文件1G,每個文件的每一行存放的都是用戶的query,每個文件的query都可能重復。要求你按照query的頻度排序。

還是典型的TOPK演算法,解決方案如下:

方案1:

順序讀取10個文件,按照hash(query)的結果將query寫入到另外10個文件(記為)中。這樣新生成的文件每個的大小大約也1G(假設hash函數是隨機的)。

找一台內存在2G左右的機器,依次對用hash_map(query,query_count)來統計每個query出現的次數。利用快速/堆/歸並排序按照出現次數進行排序。將排序好的query和對應的query_cout輸出到文件中。這樣得到了10個排好序的文件(記為)。

對這10個文件進行歸並排序(內排序與外排序相結合)。

方案2:

一般query的總量是有限的,只是重復的次數比較多而已,可能對於所有的query,一次性就可以加入到內存了。這樣,我們就可以採用trie樹/hash_map等直接來統計每個query出現的次數,然後按出現次數做快速/堆/歸並排序就可以了。

方案3:

與方案1類似,但在做完hash,分成多個文件後,可以交給多個文件來處理,採用分布式的架構來處理(比如MapRece),最後再進行合並。

5、給定a、b兩個文件,各存放50億個url,每個url各佔64位元組,內存限制是4G,讓你找出a、b文件共同的url?

方案1:可以估計每個文件安的大小為5G×64=320G,遠遠大於內存限制的4G。所以不可能將其完全載入到內存中處理。考慮採取分而治之的方法。

遍歷文件a,對每個url求取hash(url)00,然後根據所取得的值將url分別存儲到1000個小文件(記為a0,a1,…,a999)中。這樣每個小文件的大約為300M。

遍歷文件b,採取和a相同的方式將url分別存儲到1000小文件(記為b0,b1,…,b999)。這樣處理後,所有可能相同的url都在對應的小文件(a0vsb0,a1vsb1,…,a999vsb999)中,不對應的小文件不可能有相同的url。然後我們只要求出1000對小文件中相同的url即可。

求每對小文件中相同的url時,可以把其中一個小文件的url存儲到hash_set中。然後遍歷另一個小文件的每個url,看其是否在剛才構建的hash_set中,如果是,那麼就是共同的url,存到文件裡面就可以了。

方案2:如果允許有一定的錯誤率,可以使用Bloomfilter,4G內存大概可以表示340億bit。將其中一個文件中的url使用Bloomfilter映射為這340億bit,然後挨個讀取另外一個文件的url,檢查是否與Bloomfilter,如果是,那麼該url應該是共同的url(注意會有一定的錯誤率)。

Bloomfilter日後會在本BLOG內詳細闡述。

6、在2.5億個整數中找出不重復的整數,注,內存不足以容納這2.5億個整數。

方案1:採用2-Bitmap(每個數分配2bit,00表示不存在,01表示出現一次,10表示多次,11無意義)進行,共需內存2^32*2bit=1GB內存,還可以接受。然後掃描這2.5億個整數,查看Bitmap中相對應位,如果是00變01,01變10,10保持不變。所描完事後,查看bitmap,把對應位是01的整數輸出即可。

方案2:也可採用與第1題類似的方法,進行劃分小文件的方法。然後在小文件中找出不重復的整數,並排序。然後再進行歸並,注意去除重復的元素。

7、騰訊面試題:給40億個不重復的unsignedint的整數,沒排過序的,然後再給一個數,如何快速判斷這個數是否在那40億個數當中?

與上第6題類似,我的第一反應時快速排序+二分查找。以下是其它更好的方法:

方案1:oo,申請512M的內存,一個bit位代表一個unsignedint值。讀入40億個數,設置相應的bit位,讀入要查詢的數,查看相應bit位是否為1,為1表示存在,為0表示不存在。

方案2:這個問題在《編程珠璣》里有很好的描述,大家可以參考下面的思路,探討一下:

又因為2^32為40億多,所以給定一個數可能在,也可能不在其中;

這里我們把40億個數中的每一個用32位的二進制來表示

假設這40億個數開始放在一個文件中。

❼ 大數據分析面試問什麼

  1. 基本工具

包括規定動作和自選動作兩類。

1.1 規定動作

SQL查詢:JOIN ON、DISTINCT、GROUP BY、ORDER BY等等。從資料庫中提取數據是數據分析的第一步。

1.2 自選動作

根據簡歷來問,簡歷上寫什麼就問什麼,會問得比較深入。簡歷作為敲門磚,撰寫也是非常重要的,切不可寫的過於誇張和造假,奉勸各位不要作死,畢竟不作死都有可能會死。Python、Stata、R、SPSS、SAS、EViews都算比較常見的數據分析工具。

2.邏輯思維

主要分為兩方面,對業務邏輯的理解能力和行文的邏輯水平。

2.1業務邏輯

雖然一個業務看似流程簡單清晰,但產生數據的復雜程度往往超過大多數人的想像。對業務邏輯的考察主要通過相關項目經歷。

2.2行文邏輯

畢竟最終產出是一份份報告,可能是HTML郵件也能是PDF。

3.理論儲備

也分為規定動作和可選動作。

3.1 規定動作

主要是基礎的統計學理論,如方差、協方差、算數平均數、幾何平均數、中位數、眾數、分位值、雙峰數據、長尾數據、假設檢驗、期望迭代法則、貝葉斯原理等。

3.2 自選動作

根據簡歷來問,簡歷上寫什麼hr一定會問什麼。

4.對細節的敏感度

作為數據分析師,每天要關注大量數據指標。對細節的敏感度是非常必要的。這主要分為兩方面,對統計口徑的敏感度和對數據的敏感度。

4.1 統計口徑

統計口徑一致是確保數據可比性的基礎,這非常考驗數據分析師的敏感度和行業經驗。

4.2 數據

面試者對數據異常波動、離群值、平均數沒有代表意義等情況的迅速識別能力。比如已知然壽司套餐單價1,500,酒水單價300,平均客單價2,500,能不能馬上想到這可能是雙峰數據或者長尾數據,抑或既雙峰又長尾的數據?

5.學習能力

互聯網行業瞬息萬變,光數據的存儲就有Oracle、MySQL、Hadoop、Spark、Hive、Impala、谷哥哥三駕馬車等一大堆奇奇怪怪的東西。互聯網行業的從業者經常要面對新需求、新工具、新方法。能否迅速掌握新知識,解決新問題面試者必須證明給hr看。主要考察的方式是了解過往項目經歷,或者出作業題(比如Sci-Hub)。

6.排版和簡單UI設計

數據分析報告必須簡潔、清晰、重點突出。主要考察方式是出作業題讓面試者限時交一份slides(就是PPT啦)出來。

7.價值觀

主要看工作熱情、態度、道德水平等等,這方面的問題比較隨機。

❽ 招聘數據分析師時一般會出哪些面試題

下面給你整理了一部分應聘數據分析師會遇到的問題:

1、你處理過的最大的數據量?你是如何處理他們的?處理的結果。

2、告訴我二個分析或者計算機科學相關項目?你是如何對其結果進行衡量的?

3、什麼是:提升值、關鍵績效指標、強壯性、模型按合度、實驗設計、2/8原則?

4、什麼是:協同過濾、n-grams, map rece、餘弦距離?

5、如何讓一個網路爬蟲速度更快、抽取更好的信息以及更好總結數據從而得到一干凈的資料庫?

6、如何設計一個解決抄襲的方案?

7、如何檢驗一個個人支付賬戶都多個人使用?

8、點擊流數據應該是實時處理?為什麼?哪部分應該實時處理?

9、你認為哪個更好:是好的數據還是好模型?同時你是如何定義「好」?存在所有情況下通用的模型嗎?有你沒有知道一些模型的定義並不是那麼好?

10、什麼是概率合並(AKA模糊融合)?使用SQL處理還是其它語言方便?對於處理半結構化的數據你會選擇使用哪種語言?

11、你是如何處理缺少數據的?你推薦使用什麼樣的處理技術?

12、你最喜歡的編程語言是什麼?為什麼?

閱讀全文

與數據公司面試有哪些思維題相關的資料

熱點內容
市場上什麼醋好 瀏覽:765
數學怎麼做小程序 瀏覽:881
股票交易顯示60m灰色怎麼回事 瀏覽:248
備份程序被刪除怎麼恢復 瀏覽:303
資質代理有哪些崗位 瀏覽:199
哪裡找市場資料 瀏覽:915
抖音作品數據分析如何打開 瀏覽:477
液晶屏幕驅動板如何燒錄程序 瀏覽:980
股票量化交易需要多少資金量 瀏覽:467
如何查看櫥窗代貨數據 瀏覽:756
交易機制為什麼要完善兩個層面 瀏覽:328
火箭理財產品是什麼 瀏覽:393
如何做好宏觀交易模式 瀏覽:858
銀行代理費怎麼收費 瀏覽:601
寶德智能數據碎片怎麼用 瀏覽:188
高中選修生物都有什麼技術 瀏覽:741
程序員在長沙哪裡找工作 瀏覽:875
塑身衣商標申請代理費是多少 瀏覽:797
兒童市場攤位取什麼名字好 瀏覽:382
什麼是全權委託代理合同 瀏覽:606