當(dāng)前位置：首頁 > 科技 > 軟件

我們一起深入理解Flink State

來源：責(zé)編：時間：2024-03-28 09:26:21 238觀看

導(dǎo)讀寫在前面State是指流計(jì)算過程中計(jì)算節(jié)點(diǎn)的中間計(jì)算結(jié)果或元數(shù)據(jù)屬性，比如在aggregation過程中要在state中記錄中間聚合結(jié)果，比如 Apache Kafka 作為數(shù)據(jù)源時候，我們也要記錄已經(jīng)讀取記錄的offset，這些State數(shù)據(jù)在計(jì)算過

寫在前面

State是指流計(jì)算過程中計(jì)算節(jié)點(diǎn)的中間計(jì)算結(jié)果或元數(shù)據(jù)屬性，比如在aggregation過程中要在state中記錄中間聚合結(jié)果，比如 Apache Kafka 作為數(shù)據(jù)源時候，我們也要記錄已經(jīng)讀取記錄的offset，這些State數(shù)據(jù)在計(jì)算過程中會進(jìn)行持久化(插入或更新)。本文將詳細(xì)介紹一下Flink State，通過本文，你可以了解到：

State分類
什么是狀態(tài)后端(state backend)
State對擴(kuò)縮容的處理

感謝關(guān)注，希望本文對你有所幫助。

State分類

Flink 中的狀態(tài)分為兩種主要類型：Keyed State 和 Operator State。

Keyed State

概念：Keyed State 是和鍵（key）相關(guān)聯(lián)的狀態(tài)。在 Flink 的 Keyed Streams 上進(jìn)行有狀態(tài)操作時（例如在使用 keyBy 方法后），每個 key 都會有自己的狀態(tài)實(shí)例，這個狀態(tài)是獨(dú)立的，即每個 key 的狀態(tài)對于其他 keys 不可見。
用法：Keyed State 常用于需要按 key 進(jìn)行分區(qū)處理的情況，如聚合計(jì)算（sum、min、max）、窗口操作和其他需要按 key 維護(hù)和更新狀態(tài)的計(jì)算。在 SQL 語句中，Keyed State 對應(yīng)的就是通過 GroupBy 或 PartitionBy 所定義的字段分組。
數(shù)據(jù)結(jié)構(gòu)：Keyed State 底層通常是基于哈希表的實(shí)現(xiàn)，確保每個 key 都能快速地找到對應(yīng)的狀態(tài)。這種狀態(tài)通常存儲在 Keyed State 后端中，可以是內(nèi)存中，也可以是 RocksDB 這種本地存儲。

Operator State

概念：Operator State 與特定的操作符實(shí)例（Task）相關(guān)聯(lián)，而不是和特定的 key 關(guān)聯(lián)。每個操作符實(shí)例維護(hù)自己的狀態(tài)，所有的 Operator State 實(shí)例對于同一操作符是可見的。
用法：Operator State 通常用于記錄源（Source）和接收器（Sink）的相關(guān)狀態(tài)，或者用于需要操作符級別聚合的場合。例如，一個 Source Connector 可能會使用 Operator State 來記錄已經(jīng)讀取的數(shù)據(jù)源的 offset。
實(shí)現(xiàn)：Flink 提供了幾種不同的 Operator State 類型，包括列表狀態(tài)（ListState）、聯(lián)合列表狀態(tài)（UnionListState）、廣播狀態(tài)（BroadcastState）等。這些狀態(tài)通常存儲在 Operator State 后端中，可以是內(nèi)存中，也可以是持久化存儲。

值得注意的是：

在 Flink 的 Table API 或 SQL API 中，對于內(nèi)部的 GroupBy/PartitionBy 操作，F(xiàn)link 會自動管理 Keyed State。而對于 Source Connector 記錄 offset 這樣的操作，通常是在底層的 DataStream API 中實(shí)現(xiàn)的，可能直接使用 Operator State 來管理。例如，F(xiàn)link Kafka Consumer 會使用 Operator State 來存儲 Kafka 主題的分區(qū) offset，以便在發(fā)生故障時能夠從上次成功的檢查點(diǎn)恢復(fù)。

什么是狀態(tài)后端(state backend)

State的具體存儲、訪問和維護(hù)是由**狀態(tài)后端(state backend)**決定的。狀態(tài)后端主要負(fù)責(zé)兩件事情：

本地狀態(tài)管理
將狀態(tài)以checkpoint的形式寫入遠(yuǎn)程存儲

Flink提供了三種狀態(tài)后端：

MemoryStateBackend（內(nèi)存狀態(tài)后端）

存儲：狀態(tài)存儲在 TaskManager 的 JVM 堆內(nèi)存上。生成checkpoint時，*MemoryStateBackend會將狀態(tài)發(fā)送至JobManager并保存到它的堆內(nèi)存中。
使用場景：適用于小規(guī)模狀態(tài)或本地測試，因?yàn)樗鼘⑺袪顟B(tài)作為序列化數(shù)據(jù)保存在 JVM 堆上。如果 TaskManager 發(fā)生故障，狀態(tài)會丟失。
性能：由于狀態(tài)是直接存儲在內(nèi)存中的，所以訪問速度很快。
限制：狀態(tài)大小受限于 TaskManager 可用內(nèi)存。大規(guī)模狀態(tài)可能導(dǎo)致內(nèi)存溢出錯誤。

FsStateBackend（文件系統(tǒng)狀態(tài)后端）

存儲：狀態(tài)存儲在 TaskManager 的 JVM 堆內(nèi)存中（作為緩存），但在檢查點(diǎn)（checkpoint）時，會持久化到配置的文件系統(tǒng)（如 HDFS）中。
使用場景：適用于需要持久化狀態(tài)以避免數(shù)據(jù)丟失的場景。在發(fā)生故障時，F(xiàn)link 作業(yè)可以從文件系統(tǒng)中的檢查點(diǎn)恢復(fù)狀態(tài)。
性能：由于狀態(tài)在內(nèi)存中進(jìn)行操作，并在檢查點(diǎn)時異步寫入文件系統(tǒng)，因此可以提供較快的狀態(tài)訪問速度，但可能受文件系統(tǒng)性能的限制。
限制：內(nèi)存中的狀態(tài)大小仍然受限于 TaskManager 可用內(nèi)存，但由于檢查點(diǎn)數(shù)據(jù)被寫入到更穩(wěn)定的文件系統(tǒng)，因此可以支持更大的狀態(tài)。

RocksDBStateBackend（RocksDB 狀態(tài)后端）

RocksDB是一個嵌入式鍵值存儲(key-value store)，它可以將數(shù)據(jù)保存到本地磁盤上，為了從RocksDB中讀寫數(shù)據(jù)，系統(tǒng)需要對數(shù)據(jù)進(jìn)行序列化和反序列化。

存儲：狀態(tài)存儲在本地磁盤上的 RocksDB 數(shù)據(jù)庫中，檢查點(diǎn)數(shù)據(jù)會持久化到配置的文件系統(tǒng)中。
使用場景：適用于大規(guī)模狀態(tài)管理的場景。由于 RocksDB 是一個優(yōu)化的鍵值存儲，因此可以有效地管理大量狀態(tài)數(shù)據(jù)。
性能：狀態(tài)訪問速度可能比內(nèi)存狀態(tài)后端慢(磁盤讀寫以及序列化和反序列化對象的開銷)，但 RocksDB 提供了針對大量狀態(tài)數(shù)據(jù)的優(yōu)化。
限制：對本地磁盤空間有需求，但由于狀態(tài)是在本地磁盤上操作，因此可以支持非常大的狀態(tài)。

在選擇狀態(tài)后端時，需要考慮應(yīng)用的狀態(tài)大小、恢復(fù)速度、持久性和部署環(huán)境。對于生產(chǎn)環(huán)境，通常推薦使用 RocksDBStateBackend，因?yàn)樗軌蛱峁┝己玫臄U(kuò)展性和容錯性。

State對擴(kuò)縮容的處理

Operator State 的擴(kuò)容處理

在 Apache Flink 中，對于有狀態(tài)的流處理作業(yè)，當(dāng)作業(yè)進(jìn)行擴(kuò)容（scaling out）或縮容（scaling in）時，即增加或減少并行子任務(wù)的數(shù)量時，F(xiàn)link 需要重新分配 OperatorState。這個過程稱為狀態(tài)重分配（state redistribution）。

對于 Operator State 的擴(kuò)容處理，F(xiàn)link 提供了不同的重分配模式來處理狀態(tài)：

ListState

對于 ListState 類型的 Operator State，如果流任務(wù)的并行度從 N 增加到 M，F(xiàn)link 會將每個并行實(shí)例的狀態(tài)分成 M 份，然后將這些分片分配給新的并行實(shí)例。如果并行度減少，則相反，狀態(tài)將會聚合起來。

圖片

擴(kuò)容時：

假設(shè)原來有 2 個并行實(shí)例，每個實(shí)例有自己的 ListState。
擴(kuò)容到 3 個并行實(shí)例。
Flink 會將每個原來的 ListState 平均分成 3 份。
新的 3 個并行實(shí)例每個都會接收一份來自每個原始 ListState 的數(shù)據(jù)。

縮容時：

假設(shè)原來有 3個并行實(shí)例。
縮容到 1 個并行實(shí)例。
現(xiàn)有的狀態(tài)將會被聚合，確保新的 1 個實(shí)例完整地包含原始狀態(tài)的全部數(shù)據(jù)。

BroadcastState

BroadcastState 的數(shù)據(jù)在擴(kuò)容或縮容時會被復(fù)制到所有的并行實(shí)例中。由于 BroadcastState 是以廣播的方式存儲數(shù)據(jù)，所有并行實(shí)例的狀態(tài)都是相同的。

圖片

UnionListState

對于 UnionListState 類型的 Operator State，在擴(kuò)容或縮容時，狀態(tài)的每個元素將保持不變，原始狀態(tài)的所有元素將被統(tǒng)一地分發(fā)到新的并行實(shí)例中。這意味著每個元素僅分配給一個并行實(shí)例，但所有并行實(shí)例的狀態(tài)的并集會包括所有原始狀態(tài)的元素。隨后由任務(wù)自己決定哪些條目該保留，哪些該丟棄。

圖片

思考：Source的擴(kuò)容（并發(fā)數(shù)）是否可以超過Source物理存儲的partition數(shù)量呢？

在使用像 Apache Kafka 這樣的消息隊(duì)列作為數(shù)據(jù)源（Source）時，消息隊(duì)列中的數(shù)據(jù)被劃分為多個分區(qū)（partitions）。這種設(shè)計(jì)主要是為了支持?jǐn)?shù)據(jù)的并行處理以及提高吞吐量。在使用 Flink 或類似的流處理框架時，一個常見的做法是將每個分區(qū)分配給一個并行的 Source 實(shí)例（也稱為 Source Task 或 Source Operator）進(jìn)行處理。

如果嘗試將 Source 的并行度（并發(fā)數(shù)）設(shè)置得比物理存儲（比如 Kafka 主題）的分區(qū)數(shù)量還要高，那么將會有一些并行實(shí)例分配不到任何分區(qū)，因?yàn)榉謪^(qū)的數(shù)量是固定的，且每個分區(qū)只能被一個并行實(shí)例消費(fèi)（至少在 Flink 的默認(rèn)設(shè)置下是這樣）。這會導(dǎo)致資源浪費(fèi)，因?yàn)槌龇謪^(qū)數(shù)量的那部分并行實(shí)例不會做任何實(shí)際的數(shù)據(jù)處理工作，但仍然占用系統(tǒng)資源。

因此，在設(shè)置 Source 的并行度時，通常的最佳實(shí)踐是：

確保 Source 的并行度不超過其對應(yīng)物理存儲（如 Kafka 主題）的分區(qū)數(shù)量。

如果需要增加并行度以提高處理能力，相應(yīng)地也需要增加物理存儲的分區(qū)數(shù)量。對于 Kafka 來說，可以通過修改主題的分區(qū)配置來實(shí)現(xiàn)。
對于 Apache Flink，如果使用的是 Flink Kafka Connector，并且嘗試將并行度設(shè)置得比 Kafka 主題的分區(qū)數(shù)量還要高，F(xiàn)link 會在作業(yè)啟動時進(jìn)行檢查。如果發(fā)現(xiàn)這種配置不匹配的情況，F(xiàn)link 會拋出異常并終止作業(yè)啟動，以避免資源浪費(fèi)和潛在的配置錯誤。這種設(shè)計(jì)選擇確保了資源的有效利用和處理能力的合理分配，同時也避免了由于配置錯誤而導(dǎo)致的潛在問題。

KeyedState對擴(kuò)容的處理

什么是Key-Groups

KeyedState的算子在擴(kuò)容時會根據(jù)新的任務(wù)數(shù)量對key進(jìn)行重分區(qū)，為了降低狀態(tài)在不同任務(wù)之間遷移的成本，F(xiàn)link不會單獨(dú)對key進(jìn)行在分配，而是會把所有的鍵值分別存到不同的key-group中，每個key-group都包含了部分鍵值對。一個key-group是State分配的原子單位。

什么決定Key-Groups的個數(shù)

key-group的數(shù)量在job啟動前必須是確定的且運(yùn)行中不能改變。由于key-group是state分配的原子單位，而每個operator并行實(shí)例至少包含一個key-group，因此operator的最大并行度不能超過設(shè)定的key-group的個數(shù)，那么在Flink的內(nèi)部實(shí)現(xiàn)上key-group的數(shù)量就是最大并行度的值。

如何決定key屬于哪個Key-Group

為了決定一個key屬于哪個Key-Group，通常會采用一種叫做一致性哈希（Consistent Hashing）的算法。一致性哈希算法的基本思想是將所有的Key和所有的Key-Group都映射到同一個哈希環(huán)上。對每個Key進(jìn)行哈希運(yùn)算得到一個哈希值，然后在哈希環(huán)上找到一個順時針方向最近的Key-Group，這個Key就屬于這個Key-Group。即：Key到指定的key-group的邏輯是利用key的hashCode和maxParallelism取余操作的來分配的。

如下圖當(dāng)parallelism=2,maxParallelism=10的情況下流上key與key-group的對應(yīng)關(guān)系如下圖所示：

圖片

如上圖key(a)的hashCode是97，與最大并發(fā)10取余后是7，被分配到了KG-7中，流上每個event都會分配到KG-0至KG-9其中一個Key-Group中。

上面的Stateful Operation節(jié)點(diǎn)的最大并行度maxParallelism的值是10，也就是我們一共有10個Key-Group，當(dāng)我們并發(fā)是2的時候和并發(fā)是3的時候分配的情況如下圖：

圖片

先計(jì)算每個Operator實(shí)例至少分配的Key-Group個數(shù)，將不能整除的部分N個，平均分給前N個實(shí)例。最終每個Operator實(shí)例管理的Key-Groups會在GroupRange中表示，本質(zhì)是一個區(qū)間值。比如上圖是2->3擴(kuò)容，那每個task的key-group的數(shù)量是：10/3≈3，也即是每個task先分3個key-group，然后把剩余的1個key-group分配給第一task。

值得注意的是：

Key-Group機(jī)制的特點(diǎn)就是每個具體的key(event)不關(guān)心落到具體的哪個task來處理，只關(guān)心會落到哪個Key-Group中：

首先一個job運(yùn)行之后，如果要復(fù)用state，不允許在修改maxParallelism。
key 值的hash code決定落到哪個KG中，key本身不關(guān)系被哪個task處理，也就是說相同的KG在擴(kuò)容前后可能被不同的task處理。

總結(jié)

State是Flink流計(jì)算的關(guān)鍵部分。Flink 中的狀態(tài)分為兩種主要類型：Keyed State 和 Operator State。Flink提供了三種狀態(tài)后端：MemoryStateBackend、FsStateBackend、RocksDBStateBackend。對于Keyed State 和 Operator State應(yīng)對擴(kuò)縮容時有不同的分配方式。

本文鏈接：http://m.www897cc.com/showinfo-26-79982-0.html我們一起深入理解Flink State

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：聊一聊Python中Getattr和Getattribute的調(diào)用

下一篇：大廠喜歡問的TreeShaking到底是啥？好在哪呢？五分鐘弄懂！

標(biāo)簽：

熱門焦點(diǎn)

三言兩語說透柯里化和反柯里化

JavaScript中的柯里化(Currying)和反柯里化(Uncurrying)是兩種很有用的技術(shù)，可以幫助我們寫出更加優(yōu)雅、泛用的函數(shù)。本文將首先介紹柯里化和反柯里化的概念、實(shí)現(xiàn)原理和應(yīng)用
JavaScript學(xué)習(xí) -AES加密算法

引言在當(dāng)今數(shù)字化時代，前端應(yīng)用程序扮演著重要角色，用戶的敏感數(shù)據(jù)經(jīng)常在前端進(jìn)行加密和解密操作。然而，這樣的操作在網(wǎng)絡(luò)傳輸和存儲中可能會受到惡意攻擊的威脅。為了確保數(shù)據(jù)
只需五步，使用start.spring.io快速入門Spring編程

步驟1打開https://start.spring.io/，按照屏幕截圖中的內(nèi)容創(chuàng)建項(xiàng)目，添加 Spring Web 依賴項(xiàng)，并單擊“生成”按鈕下載 .zip 文件，為下一步做準(zhǔn)備。請?jiān)谶M(jìn)入步驟2之前進(jìn)行解壓。圖
WebRTC.Net庫開發(fā)進(jìn)階，教你實(shí)現(xiàn)屏幕共享和多路復(fù)用！

WebRTC.Net庫：讓你的應(yīng)用更親民友好，實(shí)現(xiàn)視頻通話無痛接入！除了基本用法外，還有一些進(jìn)階用法可以更好地利用該庫。自定義 STUN/TURN 服務(wù)器配置WebRTC.Net 默認(rèn)使用 Google 的
零售大模型“干中學(xué)”，攀爬數(shù)字化珠峰

文/侯煜編輯/cc來源/華爾街科技眼對于絕大多數(shù)登山愛好者而言，攀爬珠穆朗瑪峰可謂終極目標(biāo)。攀登珠峰的商業(yè)路線有兩條，一是尼泊爾境內(nèi)的南坡路線，一是中國境內(nèi)的北坡路線。相
消費(fèi)結(jié)構(gòu)調(diào)整丨巨頭低價(jià)博弈，拼多多還卷得動嗎？

來源：征探財(cái)經(jīng)作者：陳香羽隨著流量紅利的退潮，電商的存量博弈越來越明顯。曾經(jīng)主攻中高端與品質(zhì)的淘寶天貓、京東重拾“低價(jià)”口號。而過去與他們錯位競爭的拼多多，靠
三星顯示已開始為AR設(shè)備研發(fā)硅基LED微顯示屏

7月18日消息，據(jù)外媒報(bào)道，隨著蘋果首款頭顯產(chǎn)品Vision Pro在6月份正式推出，AR/VR/MR等頭顯產(chǎn)品也就將成為各大公司下一個重要的競爭領(lǐng)域，對顯示屏這一關(guān)
支持aptX Lossless無損傳輸 iQOO TWS 1賽道版發(fā)布限時優(yōu)惠價(jià)369元

2023年7月4日，“無損音質(zhì)，聲動人心”iQOO TWS 1正式發(fā)布，支持aptX Lossless無損傳輸，限時優(yōu)惠價(jià)369元。iQOO TWS 1耳機(jī)率先支持端到端aptX Lossless無
2022爆款：ROG魔霸6 冰川散熱系統(tǒng)持續(xù)護(hù)航

喜逢開學(xué)季，各大商家開始推出自己的新產(chǎn)品，進(jìn)行打折促銷活動。對于忠實(shí)的端游愛好者來說，能夠擁有一款夢寐以求的筆記本電腦是一件十分開心的事。但是現(xiàn)在的

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

我們一起深入理解Flink State

寫在前面

State分類

Keyed State

Operator State

什么是狀態(tài)后端(state backend)

MemoryStateBackend（內(nèi)存狀態(tài)后端）

FsStateBackend（文件系統(tǒng)狀態(tài)后端）

RocksDBStateBackend（RocksDB 狀態(tài)后端）

State對擴(kuò)縮容的處理

Operator State 的擴(kuò)容處理

ListState

BroadcastState

UnionListState

KeyedState對擴(kuò)容的處理

總結(jié)

三言兩語說透柯里化和反柯里化

JavaScript學(xué)習(xí) -AES加密算法

只需五步，使用start.spring.io快速入門Spring編程

WebRTC.Net庫開發(fā)進(jìn)階，教你實(shí)現(xiàn)屏幕共享和多路復(fù)用！

零售大模型“干中學(xué)”，攀爬數(shù)字化珠峰

消費(fèi)結(jié)構(gòu)調(diào)整丨巨頭低價(jià)博弈，拼多多還卷得動嗎？

三星顯示已開始為AR設(shè)備研發(fā)硅基LED微顯示屏

支持aptX Lossless無損傳輸 iQOO TWS 1賽道版發(fā)布限時優(yōu)惠價(jià)369元

2022爆款：ROG魔霸6 冰川散熱系統(tǒng)持續(xù)護(hù)航

最新推薦

猜你喜歡

熱門推薦

相關(guān)資訊