當(dāng)前位置：首頁(yè) > 科技 > 軟件

場(chǎng)景題：海量數(shù)據(jù)如何判重？

來(lái)源：責(zé)編：時(shí)間：2023-09-18 21:40:03 377觀(guān)看

導(dǎo)讀在海量數(shù)據(jù)如何確定一個(gè)值是否存在？這是一道非常經(jīng)典的面試場(chǎng)景題。那怎么回答這個(gè)問(wèn)題呢？接下來(lái)咱們就詳細(xì)的聊一聊。參考答案判斷一個(gè)值是否存在？通常有以下兩種解決方案：使用哈希表：可以將數(shù)據(jù)進(jìn)行哈希操作，將數(shù)據(jù)存儲(chǔ)在

在海量數(shù)據(jù)如何確定一個(gè)值是否存在？這是一道非常經(jīng)典的面試場(chǎng)景題。

那怎么回答這個(gè)問(wèn)題呢？接下來(lái)咱們就詳細(xì)的聊一聊。

參考答案

判斷一個(gè)值是否存在？通常有以下兩種解決方案：

使用哈希表：可以將數(shù)據(jù)進(jìn)行哈希操作，將數(shù)據(jù)存儲(chǔ)在相應(yīng)的桶中。查詢(xún)時(shí)，根據(jù)哈希值定位到對(duì)應(yīng)的桶，然后在桶內(nèi)進(jìn)行查找。這種方法的時(shí)間復(fù)雜度為 O(1)，但需要額外的存儲(chǔ)空間來(lái)存儲(chǔ)哈希表。如果桶中存在數(shù)據(jù)，則說(shuō)明此值已存在，否則說(shuō)明未存在。
使用布隆過(guò)濾器：布隆過(guò)濾器是一種概率型數(shù)據(jù)結(jié)構(gòu)，用于判斷一個(gè)元素是否在集合中。它利用多個(gè)哈希函數(shù)映射數(shù)據(jù)到一個(gè)位數(shù)組，并將對(duì)應(yīng)位置置為 1。查詢(xún)時(shí)，只需要對(duì)待查詢(xún)的數(shù)據(jù)進(jìn)行哈希，并判斷對(duì)應(yīng)的位是否都為 1。如果都為 1，則該數(shù)據(jù)可能存在；如果有一個(gè)位不為 1，則該數(shù)據(jù)一定不存在。布隆過(guò)濾器的查詢(xún)時(shí)間復(fù)雜度為 O(k)，其中 k 為哈希函數(shù)的個(gè)數(shù)。

相同點(diǎn)和不同點(diǎn)

它們兩的相同點(diǎn)是：它們都存在誤判的情況。例如，使用哈希表時(shí)，不同元素的哈希值可能相同，所以這樣就產(chǎn)生誤判了；而布隆過(guò)濾器的特征是，當(dāng)布隆過(guò)濾器說(shuō)，某個(gè)數(shù)據(jù)存在時(shí)，這個(gè)數(shù)據(jù)可能不存在；當(dāng)布隆過(guò)濾器說(shuō)，某個(gè)數(shù)據(jù)不存在時(shí)，那么這個(gè)數(shù)據(jù)一定不存在。

它們兩的區(qū)別主要有以下幾點(diǎn)：

存儲(chǔ)機(jī)制：哈希表使用一個(gè)數(shù)組來(lái)存儲(chǔ)鍵值對(duì)，通過(guò)哈希函數(shù)將鍵映射到數(shù)組的索引位置，然后將值存儲(chǔ)在對(duì)應(yīng)的位置上。而布隆過(guò)濾器則使用一個(gè)位數(shù)組（或位向量），通過(guò)多個(gè)哈希函數(shù)將元素映射到位數(shù)組的多個(gè)位上。
查詢(xún)操作：哈希表在進(jìn)行查詢(xún)時(shí)，通過(guò)計(jì)算哈希值來(lái)定位鍵值對(duì)的存儲(chǔ)位置，然后直接獲取對(duì)應(yīng)的值。查詢(xún)時(shí)間復(fù)雜度通常為 O(1)。布隆過(guò)濾器在進(jìn)行查詢(xún)時(shí)，也通過(guò)多個(gè)哈希函數(shù)計(jì)算多個(gè)位，然后判斷對(duì)應(yīng)的位是否都為 1 來(lái)確定元素是否存在。查詢(xún)時(shí)間復(fù)雜度為 O(k)，其中 k 為哈希函數(shù)的個(gè)數(shù)。
內(nèi)存占用：哈希表需要根據(jù)數(shù)據(jù)規(guī)模來(lái)動(dòng)態(tài)調(diào)整數(shù)組的大小，以保證存儲(chǔ)效率。而布隆過(guò)濾器在預(yù)先設(shè)置位數(shù)組的大小后，不會(huì)隨數(shù)據(jù)規(guī)模的增加而增長(zhǎng)。因此布隆過(guò)濾器更適用于海量數(shù)據(jù)。

結(jié)論

哈希表和布隆過(guò)濾器都能實(shí)現(xiàn)判重，但它們都會(huì)存在誤判的情況，但布隆過(guò)濾器存儲(chǔ)占用的空間更小，更適合海量數(shù)據(jù)的判重。

布隆過(guò)濾器實(shí)現(xiàn)原理

布隆過(guò)濾器的實(shí)現(xiàn)，主要依靠的是它數(shù)據(jù)結(jié)構(gòu)中的一個(gè)位數(shù)組，每次存儲(chǔ)鍵值的時(shí)候，不是直接把數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)結(jié)構(gòu)中，因?yàn)檫@樣太占空間了，它是利用幾個(gè)不同的無(wú)偏哈希函數(shù)，把此元素的 hash 值均勻的存儲(chǔ)在位數(shù)組中，也就是說(shuō)，每次添加時(shí)會(huì)通過(guò)幾個(gè)無(wú)偏哈希函數(shù)算出它的位置，把這些位置設(shè)置成 1 就完成了添加操作。

當(dāng)進(jìn)行元素判斷時(shí)，查詢(xún)此元素的幾個(gè)哈希位置上的值是否為 1，如果全部為 1，則表示此值存在，如果有一個(gè)值為 0，則表示不存在。因?yàn)榇宋恢檬峭ㄟ^(guò) hash 計(jì)算得來(lái)的，所以即使這個(gè)位置是 1，并不能確定是那個(gè)元素把它標(biāo)識(shí)為 1 的，因此布隆過(guò)濾器查詢(xún)此值存在時(shí)，此值不一定存在，但查詢(xún)此值不存在時(shí)，此值一定不存在。

并且當(dāng)位數(shù)組存儲(chǔ)值比較稀疏的時(shí)候，查詢(xún)的準(zhǔn)確率越高，而當(dāng)位數(shù)組存儲(chǔ)的值越來(lái)越多時(shí)，誤差也會(huì)增大。

位數(shù)組和 key 之間的關(guān)系，如下圖所示：

如何實(shí)現(xiàn)布隆過(guò)濾器？

布隆過(guò)濾器的實(shí)現(xiàn)通常有以下兩種方案：

通過(guò)程序?qū)崿F(xiàn)（內(nèi)存級(jí)別方案）：使用 Google Guava 庫(kù)和 Apache Commons 庫(kù)實(shí)現(xiàn)布隆過(guò)濾器。
通過(guò)中間件實(shí)現(xiàn)（支持?jǐn)?shù)據(jù)持久化）：使用 Redis 4.0 之后提供的布隆過(guò)濾插件來(lái)實(shí)現(xiàn)，它的好處是支持持久化，數(shù)據(jù)不會(huì)丟失。

Guava 實(shí)現(xiàn)布隆過(guò)濾器

使用 Google Guava 庫(kù)實(shí)現(xiàn)布隆過(guò)濾器總共分為以下兩步：

引入 Guava 依賴(lài)
使用 Guava API 操作布隆過(guò)濾器

具體實(shí)現(xiàn)如下。

① 引入 Guava 依賴(lài)

<dependency>    <groupId>com.google.guava</groupId>    <artifactId>guava</artifactId></dependency>

② 使用 Guava API

import com.google.common.hash.BloomFilter;import com.google.common.hash.Funnels;public class BloomFilterExample {    public static void main(String[] args) {        // 創(chuàng)建一個(gè)布隆過(guò)濾器，設(shè)置期望插入的數(shù)據(jù)量為10000，期望的誤判率為0.01        BloomFilter<String> bloomFilter = BloomFilter.create(Funnels.unencodedCharsFunnel(), 10000, 0.01);        // 向布隆過(guò)濾器中插入數(shù)據(jù)        bloomFilter.put("data1");        bloomFilter.put("data2");        bloomFilter.put("data3");        // 查詢(xún)?cè)厥欠翊嬖谟诓悸∵^(guò)濾器中        System.out.println(bloomFilter.mightContain("data1")); // true        System.out.println(bloomFilter.mightContain("data4")); // false    }}

在上述示例中，我們通過(guò) BloomFilter.create() 方法創(chuàng)建一個(gè)布隆過(guò)濾器，指定了元素序列化方式、期望插入的數(shù)據(jù)量和期望的誤判率。然后，我們可以使用 put() 方法向布隆過(guò)濾器中插入數(shù)據(jù)，使用 mightContain() 方法來(lái)判斷元素是否存在于布隆過(guò)濾器中。

小結(jié)

在海量數(shù)據(jù)如何確定一個(gè)值是否存在？通常有兩種解決方案：哈希表和布隆過(guò)濾器，而它們兩都存在誤判的情況，但布隆過(guò)濾器更適合海量數(shù)據(jù)的判斷，因?yàn)樗加玫臄?shù)據(jù)空間更小。布隆過(guò)濾器的特征是：當(dāng)布隆過(guò)濾器說(shuō)，某個(gè)數(shù)據(jù)存在時(shí)，這個(gè)數(shù)據(jù)可能不存在；當(dāng)布隆過(guò)濾器說(shuō)，某個(gè)數(shù)據(jù)不存在時(shí)，那么這個(gè)數(shù)據(jù)一定不存在。

本文鏈接：http://m.www897cc.com/showinfo-26-10404-0.html場(chǎng)景題：海量數(shù)據(jù)如何判重？

聲明：本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí)，若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。郵件：2376512515@qq.com

上一篇： IDC下調(diào)中國(guó)政務(wù)云整體市場(chǎng)5年復(fù)合增長(zhǎng)率至16.14%

下一篇：性能測(cè)試的需求分析

標(biāo)簽：

熱門(mén)焦點(diǎn)

Redmi Pad評(píng)測(cè)：紅米充滿(mǎn)野心的一次嘗試

從Note系列到K系列，從藍(lán)牙耳機(jī)到筆記本電腦，紅米不知不覺(jué)之間也已經(jīng)形成了自己頗有競(jìng)爭(zhēng)力的產(chǎn)品體系，在中端和次旗艦市場(chǎng)上甚至要比小米新機(jī)的表現(xiàn)來(lái)得更好，正所謂“大丈夫生居
一文掌握 Golang 模糊測(cè)試（Fuzz Testing）

模糊測(cè)試（Fuzz Testing）模糊測(cè)試（Fuzz Testing）是通過(guò)向目標(biāo)系統(tǒng)提供非預(yù)期的輸入并監(jiān)視異常結(jié)果來(lái)發(fā)現(xiàn)軟件漏洞的方法。可以用來(lái)發(fā)現(xiàn)應(yīng)用程序、操作系統(tǒng)和網(wǎng)絡(luò)協(xié)議等中的漏洞或
年輕人的“職場(chǎng)羞恥感”，無(wú)處不在

作者：馮曉亭陶淘李欣張琳馬舒葉來(lái)源：燃次元“人在職場(chǎng)，應(yīng)該選擇什么樣的著裝？”近日，在網(wǎng)絡(luò)上，一個(gè)與著裝相關(guān)的帖子引發(fā)關(guān)注，在該帖子里，一位在高級(jí)寫(xiě)字樓亞洲金
AI芯片初創(chuàng)公司Tenstorrent獲三星和現(xiàn)代1億美元投資

Tenstorrent是一家由芯片行業(yè)資深人士Jim Keller領(lǐng)導(dǎo)的加拿大初創(chuàng)公司，專(zhuān)注于開(kāi)發(fā)人工智能芯片，該公司周三表示，已經(jīng)從現(xiàn)代汽車(chē)集團(tuán)和三星投資基金等
三星電子Q2營(yíng)收60萬(wàn)億韓元存儲(chǔ)業(yè)務(wù)營(yíng)收同比仍下滑超過(guò)50%

7月27日消息，據(jù)外媒報(bào)道，從三星電子所發(fā)布的財(cái)報(bào)來(lái)看，他們主要利潤(rùn)來(lái)源的存儲(chǔ)芯片業(yè)務(wù)在今年二季度仍不樂(lè)觀(guān)，營(yíng)收同比仍在大幅下滑，所在的設(shè)備解決方案
自研Exynos回歸！三星Galaxy S24系列將提供Exynos和驍龍雙版本

年初，全新的三星Galaxy S23系列發(fā)布，包含Galaxy S23、Galaxy S23+和Galaxy S23 Ultra三個(gè)版本，全系搭載超頻版驍龍8 Gen 2，雖同樣采用臺(tái)積電4nm工藝制
回歸OPPO兩年，一加贏了銷(xiāo)量，輸了品牌

成為OPPO旗下主打性能的先鋒品牌后，一加屢創(chuàng)佳績(jī)。今年618期間，一加手機(jī)全渠道銷(xiāo)量同比增長(zhǎng)362%，憑借一加 11、一加 Ace 2、一加 Ace 2V三款爆品，一加
OPPO K11搭載高性能石墨散熱系統(tǒng)：旗艦同款性能涼爽釋放

日前OPPO官方宣布，將于7月25日14:30舉辦新品發(fā)布會(huì)，屆時(shí)全新的OPPO K11將正式與大家見(jiàn)面，將主打旗艦影像，和同檔位競(jìng)品相比，其最大的賣(mài)點(diǎn)就是將配備索尼
中關(guān)村論壇11月25日開(kāi)幕，15位諾獎(jiǎng)級(jí)大咖將發(fā)表演講

11月18日，記者從2022中關(guān)村論壇新聞發(fā)布會(huì)上獲悉，中關(guān)村論壇將于11月25至30日在京舉行。本屆中關(guān)村論壇由科學(xué)技術(shù)部、國(guó)家發(fā)展改革委、工業(yè)和信息化部、國(guó)務(wù)

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

場(chǎng)景題：海量數(shù)據(jù)如何判重？

參考答案

相同點(diǎn)和不同點(diǎn)

結(jié)論

布隆過(guò)濾器實(shí)現(xiàn)原理

如何實(shí)現(xiàn)布隆過(guò)濾器？

Guava 實(shí)現(xiàn)布隆過(guò)濾器

① 引入 Guava 依賴(lài)

② 使用 Guava API

小結(jié)

Redmi Pad評(píng)測(cè)：紅米充滿(mǎn)野心的一次嘗試

一文掌握 Golang 模糊測(cè)試（Fuzz Testing）

年輕人的“職場(chǎng)羞恥感”，無(wú)處不在

AI芯片初創(chuàng)公司Tenstorrent獲三星和現(xiàn)代1億美元投資

三星電子Q2營(yíng)收60萬(wàn)億韓元存儲(chǔ)業(yè)務(wù)營(yíng)收同比仍下滑超過(guò)50%

自研Exynos回歸！三星Galaxy S24系列將提供Exynos和驍龍雙版本

回歸OPPO兩年，一加贏了銷(xiāo)量，輸了品牌

OPPO K11搭載高性能石墨散熱系統(tǒng)：旗艦同款性能涼爽釋放

中關(guān)村論壇11月25日開(kāi)幕，15位諾獎(jiǎng)級(jí)大咖將發(fā)表演講

最新推薦

猜你喜歡

熱門(mén)推薦

相關(guān)資訊