Linux文件系統(tǒng)與持久性內(nèi)存舉例分析

本篇內(nèi)容主要講解“Linux文件系統(tǒng)與持久性內(nèi)存舉例分析”,感興趣的朋友不妨來看看。本文介紹的方法操作簡(jiǎn)單快捷,實(shí)用性強(qiáng)。下面就讓小編來帶大家學(xué)習(xí)“Linux文件系統(tǒng)與持久性內(nèi)存舉例分析”吧!

“專業(yè)、務(wù)實(shí)、高效、創(chuàng)新、把客戶的事當(dāng)成自己的事”是我們每一個(gè)人一直以來堅(jiān)持追求的企業(yè)文化。 成都創(chuàng)新互聯(lián)公司是您可以信賴的網(wǎng)站建設(shè)服務(wù)商、專業(yè)的互聯(lián)網(wǎng)服務(wù)提供商! 專注于網(wǎng)站制作、成都網(wǎng)站設(shè)計(jì)、軟件開發(fā)、設(shè)計(jì)服務(wù)業(yè)務(wù)。我們始終堅(jiān)持以客戶需求為導(dǎo)向,結(jié)合用戶體驗(yàn)與視覺傳達(dá),提供有針對(duì)性的項(xiàng)目解決方案,提供專業(yè)性的建議,創(chuàng)新互聯(lián)建站將不斷地超越自我,追逐市場(chǎng),引領(lǐng)市場(chǎng)!

在 Linux 系統(tǒng)中一切皆文件,除了通常所說的狹義的文件以外,目錄、設(shè)備、套接字和管道等都是文件。

文件系統(tǒng)在不同的上下文中有不同的含義:

在存儲(chǔ)設(shè)備上組織文件的方法,包括數(shù)據(jù)結(jié)構(gòu)和訪問方法,到存儲(chǔ)設(shè)備。

按照某種文件系統(tǒng)類型格式化的一塊存儲(chǔ)介質(zhì)。我們常說在某個(gè)目錄下掛載或卸載文件系統(tǒng), 這里的文件系統(tǒng)就是這種意思。

內(nèi)核中負(fù)責(zé)管理和存儲(chǔ)文件的模塊,即文件系統(tǒng)模塊。

Linux文件系統(tǒng)的架構(gòu)如下圖所示,分為用戶空間、內(nèi)核空間和硬件3個(gè)層面:

Linux文件系統(tǒng)與持久性內(nèi)存舉例分析

注意:上圖中方塊對(duì)齊關(guān)系,很多時(shí)候我們分不清內(nèi)核文件系統(tǒng)中 "cache" 和 "buffer" 的區(qū)別,畢竟兩者都可以翻譯為 "緩存區(qū)",但是從圖中,就可以很清晰的看出所謂的 "cache" 其實(shí)指的就是圖中的 "頁緩存" 它是針對(duì)文件來說的,除了 "DAX"(直接訪問方式的設(shè)備)它不使用 "緩存",其他的閃存類,塊設(shè)備類設(shè)備都會(huì)使用到 "頁緩存" 也就是 "cache",而 "buffer" 其實(shí)指的就是圖中的 "塊緩存" 它是針對(duì)塊設(shè)備的。

Linux文件系統(tǒng)與持久性內(nèi)存舉例分析

1.1、硬件層面

外部存儲(chǔ)設(shè)備分為塊設(shè)備、閃存和 NVDIMM 設(shè)備 3 類,塊設(shè)備主要有以下兩種:

機(jī)械硬盤:機(jī)械硬盤的讀寫單位是扇區(qū)。訪問機(jī)械硬盤的時(shí)候,需要首先沿著半徑 方向移動(dòng)磁頭尋找磁道,然后轉(zhuǎn)動(dòng)盤片找到扇區(qū)。

閃存類塊設(shè)備:使用閃存作為存儲(chǔ)介質(zhì),里面的控制器運(yùn)行固化的驅(qū)動(dòng)程序,驅(qū)動(dòng) 程序的功能之一是閃存轉(zhuǎn)換層(Flash Translation Layer,F(xiàn)TL),把閃存轉(zhuǎn)換為塊設(shè)備, 外表現(xiàn)為塊設(shè)備。常見的閃存類塊設(shè)備是在個(gè)人計(jì)算機(jī)和筆記本電腦上使用的固態(tài)硬盤 splid State Drives,SSD),以及在手機(jī)和平板電腦上使用的嵌入式多媒體存儲(chǔ)卡(embedded Multi Media Card,eMMc)和通用閃存存儲(chǔ)(Universal Flash Storage,UFS)。閃存類塊設(shè)備相對(duì)機(jī)械硬盤的優(yōu)勢(shì)是:訪問速度快,因?yàn)闆]有機(jī)械操作:抗振性很高, 便于攜帶。

閃存(Flash Memory)的主要特點(diǎn)如下:

在寫入數(shù)據(jù)之前需要擦除一個(gè)擦除塊,因?yàn)橄蜷W存寫數(shù)據(jù)只能把一個(gè)位從 1 變成 0,不能從 0 變成 1,擦除的目的是把擦除塊的所有位設(shè)置為 1

一個(gè)擦除塊的最大擦除次數(shù)有限,NOR閃存的擦除塊的最大擦除次數(shù)是 10^4~10^3, NAND 閃存的擦除塊的最大擦除次數(shù)是 10^3~10^6。

閃存按存儲(chǔ)結(jié)構(gòu)分為 NAND 閃存和 NOR 閃存,兩者的區(qū)別如下:

NOR閃存的容量小,NAND 閃存的容量大。

NOR 閃存支持按字節(jié)尋址,支持芯片內(nèi)執(zhí)行(eXecute In Place,XIP),可以直接 在閃存內(nèi)執(zhí)行程序,不需要把程序讀到內(nèi)存中; NAND 閃存的最小讀寫單位是頁或子頁, 一個(gè)擦除塊分為多個(gè)頁,有的 NAND 閃存把頁劃分為多個(gè)子頁。

NOR 閃存讀的速度比 NAND 閃存塊,寫的速度和擦除的速度都比 NAND 閃存慢

NOR 閃存沒有壞塊;NAND 閃存存在壞塊,主要是因?yàn)橄龎膲K的成本太高 NOR 閃存適合存儲(chǔ)程序,一般用來存儲(chǔ)引導(dǎo)程序比如 uboot 程序;NAND 閃存適 合存儲(chǔ)數(shù)據(jù)。

為什么要針對(duì)閃存專門設(shè)計(jì)文件系統(tǒng)?主要原因如下:

NAND 閃存存在壞塊,軟件需要識(shí)別并且跳過壞塊。

需要實(shí)現(xiàn)損耗均衡( wear leveling),損耗均衡就是使所有擦除塊的擦除次數(shù)均衡, 避免一部分擦除塊先損壞。

機(jī)械硬盤和 NAND 閃存的主要區(qū)別如下:

機(jī)械硬盤的最小讀寫單位是扇區(qū),扇區(qū)的大小一般是 512 字節(jié):NAND 閃存的最 小讀寫單位是頁或子頁。

機(jī)械硬盤可以直接寫入數(shù)據(jù):NAND 閃存在寫入數(shù)據(jù)之前需要擦除一個(gè)擦除塊。

機(jī)械硬盤的使用壽命比 NAND 閃存長(zhǎng):機(jī)械硬盤的扇區(qū)的寫入次數(shù)沒有限制:NAND 閃存的擦除塊的擦除次數(shù)有限。

機(jī)械硬盤隱藏壞的扇區(qū),軟件不需要處理壞的扇區(qū):NAND 閃存的壞塊對(duì)軟件可 見,軟件需要處理壞塊。

NVDIMM(Nonn-Volatile DIMM,非易失性內(nèi)存:DIMM 是 Dual-Inline-Memory-Modules 的縮寫,表示雙列直插式存儲(chǔ)模塊,是內(nèi)存的一種規(guī)格)設(shè)備把 NAND 閃存、內(nèi)存和超級(jí)電容集成到一起,訪問速度和內(nèi)存一樣快,并且斷電以后數(shù)據(jù)不會(huì)丟失。在斷電的瞬間, 超級(jí)電容提供電力,把內(nèi)存中的數(shù)據(jù)轉(zhuǎn)移到 NAND 閃存。

1.2、內(nèi)核空間層面

在內(nèi)核的目錄 fs 下可以看到,內(nèi)核支持多種文件系統(tǒng)類型。為了對(duì)用戶程序提供統(tǒng)一的 文件操作接口,為了使不同的文件系統(tǒng)實(shí)現(xiàn)能夠共存,內(nèi)核實(shí)現(xiàn)了一個(gè)抽象層,稱為虛擬文件系統(tǒng)(Virtual File System,VFS),也稱為虛擬文件系統(tǒng)切換(Virtual Filesystem Switch,VFS) 文件系統(tǒng)分為以下幾種。

塊設(shè)備文件系統(tǒng),存儲(chǔ)設(shè)備是機(jī)械硬盤和固態(tài)硬盤等塊設(shè)備,常用的塊設(shè)備文件 系統(tǒng)是 EXT 和 btrfs。EXT 文件系統(tǒng)是 Linux 原創(chuàng)的文件系統(tǒng),目前有 3 個(gè) 成版本:EXT[2-4]。

閃存文件系統(tǒng),存儲(chǔ)設(shè)備是 NAND 閃存和 NOR 閃存,常用的閃存文件系統(tǒng)是 JFFS2 ,(日志型閃存文件系統(tǒng)版本2, Journalling Flash File System version2)和 UBIFS(無序區(qū)塊鏡像文件系統(tǒng), Unsorted Block Image File System)。內(nèi)存文件系統(tǒng)的文件在內(nèi)存中,斷電以后文件丟失,常用的內(nèi)存文件系統(tǒng)是 tmpfs, 用來創(chuàng)建臨時(shí)文件。

偽文件系統(tǒng),是假的文件系統(tǒng),只是為了使用虛擬文件系統(tǒng)的編程接口,常用的 偽文件系統(tǒng)如下所示:

sockfs,這種文件系統(tǒng)使得套接字(socket)可以使用讀文件的接口 read 接收?qǐng)?bào)文, 使用寫文件的接口 write 發(fā)送報(bào)文。

proc 文件系統(tǒng),最初開發(fā) proc 文件系統(tǒng)的目的是把內(nèi)核中的進(jìn)程信息導(dǎo)出到用戶空間, 后來擴(kuò)展到把內(nèi)核中的任何信息導(dǎo)出到用戶空間,通常把 proc 文件系統(tǒng)掛載在目錄 "proc" 下。

sysfs,用來把內(nèi)核的設(shè)備信息導(dǎo)出到用戶空間,通常把 sysfs 文件系統(tǒng)掛載在目錄 "/sys"下。

hugetlbfs,用來實(shí)現(xiàn)標(biāo)準(zhǔn)巨型頁。

cgroup 文件系統(tǒng),控制組(control group cgroup)用來控制一組進(jìn)程的資源, cgroup 文件系統(tǒng)使管理員可以使用寫文件的方式配置 cgroup。

cgroup2 文件系統(tǒng), cgroup2 是 cgroup 的第二個(gè)版本, cgroup2 文件系統(tǒng)使管理員可 以使用寫文件的方式配置 cgroup2。

這些文件系統(tǒng)又各自有著相關(guān)的特性:

頁緩存:訪問外部存儲(chǔ)設(shè)備的速度很慢,為了避免每次讀寫文件時(shí)訪問外部存儲(chǔ)設(shè)備,文件系統(tǒng)模塊為每個(gè)文件在內(nèi)存中創(chuàng)建了一個(gè)緩存,因?yàn)榫彺娴膯挝皇琼?,所以稱為頁緩存。

塊設(shè)備層:塊設(shè)備的訪問單位是塊,塊大小是扇區(qū)大小的整數(shù)倍。內(nèi)核為所有塊設(shè)備實(shí)現(xiàn)了統(tǒng)一 的塊設(shè)備層。

塊緩存:為了避免每次讀寫都需要訪問塊設(shè)備,內(nèi)核實(shí)現(xiàn)了塊緩存,為每個(gè)塊設(shè)備在內(nèi)存中創(chuàng) 建一個(gè)塊緩存。緩存的單位是塊,塊緩存是基于頁緩存實(shí)現(xiàn)的。

IO 調(diào)度器:訪問機(jī)械硬盤時(shí),移動(dòng)磁頭尋找磁道和扇區(qū)很耗時(shí),如果把讀寫請(qǐng)求按照扇區(qū)號(hào)排序, 可以減少磁頭的移動(dòng),提高吞吐量。IO 調(diào)度器用來決定讀寫請(qǐng)求的提交順序,針對(duì)不同的 使用場(chǎng)景提供了多種調(diào)度算法:NOOP(No Operation)、CFQ(完全公平排隊(duì), Complete Fair Queuing)和 deadline(限期)。NOOP 調(diào)度算法適合閃存類塊設(shè)備,CFQ 和 deadline調(diào)度算 法適合機(jī)械硬盤。

塊設(shè)備驅(qū)動(dòng)程序:每種塊設(shè)備需要實(shí)現(xiàn)自己的驅(qū)動(dòng)程序。

內(nèi)核把閃存稱為存儲(chǔ)技術(shù)設(shè)備( Memory Technology Device,MTD),為所有閃存實(shí)現(xiàn) 了統(tǒng)一的 MTD 層,每種閃存需要實(shí)現(xiàn)自己的驅(qū)動(dòng)程序。針對(duì) NVDIMM 設(shè)備,文件系統(tǒng)需要實(shí)現(xiàn) DAX(Direct Access直接訪問:X 代表 eXciting,沒有意義,只是為了讓名字看起來酷),繞過頁緩存和塊設(shè)備層,把 NVDIMM 設(shè)備里面的內(nèi)存直接映射到進(jìn)程或內(nèi)核的虛擬地址空間。

libnvdimm 子系統(tǒng)提供對(duì) 3 種 NVDIMM 設(shè)備的支持:持久內(nèi)存(persistent memory,PMEM) 模式的 NVDIMM 設(shè)備,塊設(shè)備(block,BLK)模式的 NVDIMM 設(shè)備,以及同時(shí)支持PMEM 和 BLK 兩種訪問模式的 NVDIMM 設(shè)備。PMEM 訪問模式是把 NVDIMM 設(shè)備當(dāng)作內(nèi)存,BLK 訪問模式是把 NVDIMM 設(shè)備當(dāng)作塊設(shè)備。每種 NVDIMM 設(shè)備需要實(shí)現(xiàn)自己的驅(qū)動(dòng)程序。

2、下一代存儲(chǔ)技術(shù)NVIDMM

NVDIMM (Non-Volatile Dual In-line Memory Module) 是一種可以隨機(jī)訪問的, 非易失性內(nèi)存。非易失性內(nèi)存指的是即使在不通電的情況下, 數(shù)據(jù)也不會(huì)消失。因此可以在計(jì)算機(jī)掉電 (unexpected power loss), 系統(tǒng)崩潰和正常關(guān)機(jī)的情況下, 依然保持?jǐn)?shù)據(jù)。NVDIMM 同時(shí)表明它使用的是 DIMM 封裝, 與標(biāo)準(zhǔn)DIMM 插槽兼容, 并且通過標(biāo)準(zhǔn)的 DDR總線進(jìn)行通信??紤]到它的非易失性, 并且兼容傳統(tǒng)DRAM接口, 又被稱作Persistent Memory。

2.1、種類

目前, 根據(jù) JEDEC 標(biāo)準(zhǔn)化組織的定義, 有三種NVDIMM 的實(shí)現(xiàn)。分別是:

NVDIMM-N

指在一個(gè)模塊上同時(shí)放入傳統(tǒng) DRAM 和 flash 閃存,計(jì)算機(jī)可以直接訪問傳統(tǒng) DRAM。支持按字節(jié)尋址,也支持塊尋址。通過使用一個(gè)小的后備電源,為在掉電時(shí)數(shù)據(jù)從 DRAM 拷貝到閃存中提供足夠的電能;當(dāng)電力恢復(fù)時(shí)再重新加載到 DRAM 中。

Linux文件系統(tǒng)與持久性內(nèi)存舉例分析

NVDIMM-N示意圖

NVDIMM-N 的主要工作方式其實(shí)和傳統(tǒng) DRAM是一樣的。因此它的延遲也在10的1次方納秒級(jí)。而且它的容量,受限于體積,相比傳統(tǒng)的 DRAM 也不會(huì)有什么提升。

同時(shí)它的工作方式?jīng)Q定了它的 flash 部分是不可尋址的,而且同時(shí)使用兩種介質(zhì)的作法使成本急劇增加,但是 NVDIMM-N 為業(yè)界提供了持久性內(nèi)存的新概念。目前市面上已經(jīng)有很多基于NVIMM-N的產(chǎn)品。

NVDIMM-F

指使用了 DRAM 的DDR3或者 DDR4 總線的flash閃存。我們知道由 NAND flash 作為介質(zhì)的 SSD,一般使用SATA,SAS 或者PCIe 總線。使用 DDR 總線可以提高最大帶寬,一定程度上減少協(xié)議帶來的延遲和開銷,不過只支持塊尋址。

NVDIMM-F 的主要工作方式本質(zhì)上和SSD是一樣的,因此它的延遲在 10的1次方微秒級(jí)。它的容量也可以輕松達(dá)到 TB 以上。

NVDIMM-P

這是一個(gè)目前還沒有發(fā)布的標(biāo)準(zhǔn) (Under Development),預(yù)計(jì)將與 DDR5 標(biāo)準(zhǔn)一同發(fā)布。按照計(jì)劃,DDR5將比DDR4提供雙倍的帶寬,并提高信道效率。這些改進(jìn),以及服務(wù)器和客戶端平臺(tái)的用戶友好界面,將在各種應(yīng)用程序中支持高性能和改進(jìn)的電源管理。

NVDIMM-P 實(shí)際上是真正 DRAM 和 flash 的混合。它既支持塊尋址, 也支持類似傳統(tǒng) DRAM 的按字節(jié)尋址。它既可以在容量上達(dá)到類似 NAND flash 的TB以上, 又能把延遲保持在10的2次方納秒級(jí)。

通過將數(shù)據(jù)介質(zhì)直接連接至內(nèi)存總線,CPU 可以直接訪問數(shù)據(jù),無需任何驅(qū)動(dòng)程序或 PCIe 開銷。而且由于內(nèi)存訪問是通過64 字節(jié)的 cache line,CPU 只需要訪問它需要的數(shù)據(jù),而不是像普通塊設(shè)備那樣每次要按塊訪問。

Intel 公司在2018年5月發(fā)布了基于3D XPoint™ 技術(shù)的Intel® Optane™ DC Persistent Memory??梢哉J(rèn)為是NVDIMM-P 的一種實(shí)現(xiàn)。

Linux文件系統(tǒng)與持久性內(nèi)存舉例分析

Intel® Optane™ DC Persistent Memory

2.2、硬件支持

應(yīng)用程序可以直接訪問NVDIMM-P, 就像對(duì)于傳統(tǒng) DRAM那樣。這也消除了在傳統(tǒng)塊設(shè)備和內(nèi)存之間頁交換的需要。但是向持久性內(nèi)存里寫數(shù)據(jù)是和向普通DRAM里寫數(shù)據(jù)共享計(jì)算機(jī)資源的。包括處理器緩沖區(qū), L1/L2緩存等。

需要注意的是, 要使數(shù)據(jù)持久, 一定要保證數(shù)據(jù)寫入了持久性內(nèi)存設(shè)備, 或者寫入了帶有掉電保護(hù)的buffer。軟件如果要充分利用持久性內(nèi)存的特性, 指令集架構(gòu)上至少需要以下支持:

寫的原子性

表示對(duì)于持久性內(nèi)存里任意大小的寫都要保證是原子性的, 以防系統(tǒng)崩潰或者突然掉電。IA-32 和 IA-64 處理器保證了對(duì)緩存數(shù)據(jù)最大64位的數(shù)據(jù)訪問 (對(duì)齊或者非對(duì)齊) 的寫原子性。因此, 軟件可以安全地在持久性內(nèi)存上更新數(shù)據(jù)。這樣也帶來了性能上的提升, 因?yàn)橄薱opy-on-write 或者 write-ahead-logging 這種保證寫原子性的開銷。

高效的緩存刷新(flushing)

出于性能的考慮, 持久性內(nèi)存的數(shù)據(jù)也要先放入處理器的緩存(cache)才能被訪問。經(jīng)過優(yōu)化的緩存刷新指令減少了由于刷新 (CLFLUSH) 造成的性能影響。

a. CLFLUSHOPT 提供了更加高效的緩存刷新指令

b. CLWB (Cache Line Write Back) 指令把cache line上改變的數(shù)據(jù)寫回內(nèi)存 (類似CLFLUSHOPT),但是無需讓這條 cache line 轉(zhuǎn)變成無效狀態(tài)(invalid, MESI protocol),而是轉(zhuǎn)換成未改變的獨(dú)占狀態(tài)(Exclusive)。CLWB 指令實(shí)際上是在試圖減少由于某條cache line刷新所造成的下次訪問必然的cache miss。

提交至持久性內(nèi)存(Committing to Persistence)

在現(xiàn)代計(jì)算機(jī)架構(gòu)下,緩存刷新的完成表明修改的數(shù)據(jù)已經(jīng)被回寫至內(nèi)存子系統(tǒng)的寫緩沖區(qū)。但是此時(shí)數(shù)據(jù)并不具有持久性。為了確保數(shù)據(jù)寫入持久性內(nèi)存,軟件需要刷新易失性的寫緩沖區(qū)或者在內(nèi)存子系統(tǒng)的其他緩存。新的用于持久性寫的提交指令 PCOMMIT 可以把內(nèi)存子系統(tǒng)寫隊(duì)列中的數(shù)據(jù)提交至持久性內(nèi)存。

非暫時(shí)store操作的優(yōu)化(Non-temporal Store Optimization)

當(dāng)軟件需要拷貝大量數(shù)據(jù)從普通內(nèi)存到持久性內(nèi)存中時(shí)(或在持久性內(nèi)存之間拷貝), 可以使用弱順序, 非暫時(shí)的store操作 (比如使用MOVNTI 指令)。因?yàn)镹on-temporal store指令可以隱式地使要回寫的那條cache line 失效, 軟件就不需要明確地flush cache line了(see Section 10.4.6.2. of Intel® 64 and IA-32 Architectures Software Developer's Manual, Volume 1)。

小結(jié)

上面介紹了NVDIMM 的幾種實(shí)現(xiàn)方式,以及為了發(fā)揮NVDIMM-P 的性能所做的硬件上的優(yōu)化和支持。下面會(huì)繼續(xù)介紹軟件方面的支持,包括編程模型、編程庫、SPDK方面的支持等。

在上篇的 NVDIMM介紹中,我們講解了NVDIMM幾種硬件上的實(shí)現(xiàn)方式,以及為了支持和優(yōu)化性能所做的硬件上的改變。接下來讓我們來討論一下為了充分發(fā)揮NVDIMM的性能,軟件方面做了哪些支持。有些人可能會(huì)有疑問, 為什么用起來這么麻煩?既然是持久性內(nèi)存,不是應(yīng)該關(guān)機(jī)什么樣, 開機(jī)什么樣, 就可以了嗎?其實(shí)目前來看, 這種想法還不會(huì)變?yōu)楝F(xiàn)實(shí)。因?yàn)槌薉RAM是易失性的,比如 cache,寄存器這種也是易失性的。僅僅把內(nèi)存做成持久性的也不能達(dá)成這樣的目的。另一個(gè)問題是, memory leak。如果發(fā)生了內(nèi)存泄漏,重啟一下就好了。那如果是持久性內(nèi)存的泄漏呢?這也是一個(gè)很棘手的問題。Pmem有些方面類似于內(nèi)存,也有些方面類似于存儲(chǔ)。但是,通常上我們不會(huì)認(rèn)為Pmem能夠替代內(nèi)存或存儲(chǔ)。其實(shí),可以把它看作是一種補(bǔ)充,填補(bǔ)了內(nèi)存和存儲(chǔ)之間巨大的差異。

SPDK 在 17.10 中開始引入對(duì)于Pmem的支持。Pmem在SPDK的bdev層暴露為一個(gè)塊設(shè)備,使用快設(shè)備接口和上層進(jìn)行通信。如下圖所示。

Linux文件系統(tǒng)與持久性內(nèi)存舉例分析

從圖中我們可以看到libpmemblk 把塊操作轉(zhuǎn)換成了字節(jié)操作。它是怎么做到的呢?在介紹libpmemblk 和 它背后的PMDK之前, 我們了解一下基礎(chǔ)知識(shí)。

mmap和DAX

首先,我們來看傳統(tǒng)的I/O方式, 即緩存I/O (Buffered I/O). 大多數(shù)操作系統(tǒng)默認(rèn)的IO操作方式都是緩存IO。該機(jī)制使IO數(shù)據(jù)緩存在操作系統(tǒng)的page cache 中, 也就是說, 數(shù)據(jù)會(huì)被先拷貝到操作系統(tǒng)的內(nèi)核空間的緩沖區(qū)中,然后才會(huì)從內(nèi)核空間的緩沖區(qū)拷貝到指定的用戶地址空間。

Linux文件系統(tǒng)與持久性內(nèi)存舉例分析

在Linux 中, 這種訪問文件的方式就是通過read/write 系統(tǒng)調(diào)用來實(shí)現(xiàn),如上圖。接下來, 我們比較一下內(nèi)存映射IO mmap()。

接下來, 我們比較一下內(nèi)存映射IO mmap()。

Linux文件系統(tǒng)與持久性內(nèi)存舉例分析

通過mmap獲得了對(duì)應(yīng)文件的一個(gè)指針,然后就像操作內(nèi)存一樣進(jìn)行賦值或者做memcpy/strcpy. 這種我們稱之為load/store操作(這種操作一般需要msync、fsync來落盤)。

mmap因?yàn)榻⒘宋募接脩艨臻g的映射關(guān)系,可以看作是把文件直接拷貝到用戶空間,減少了一次數(shù)據(jù)拷貝。但是mmap依然需要依靠page cache。

Linux文件系統(tǒng)與持久性內(nèi)存舉例分析

講完了mmap,那么DAX是什么呢?DAX即direct access,這個(gè)特性是基于mmap的。而DAX的區(qū)別在于完全不需要page cache,直接對(duì)存儲(chǔ)設(shè)備訪問,所以它就是為了NVDIMM而生的。應(yīng)用對(duì)于mmap的文件操作,是直接同步到NVDIMM上的。DAX目前在XFS, EXT4, Windows的 NTFS 上都已經(jīng)支持。需要注意的是, 使用這個(gè)模式,要對(duì)應(yīng)用程序或者文件系統(tǒng)進(jìn)行修改。

Linux文件系統(tǒng)與持久性內(nèi)存舉例分析

2.3、NVM Programming Model

NVM Programming Model 大致定義了三種使用方式。

2.3.1 最左邊Management 主要是通過driver提供的API對(duì)NVDIMM進(jìn)行管理, 比如查看容量信息、健康狀態(tài)、固件版本、固件升級(jí)、模式配置等等。

2.3.2 中間, 作為存儲(chǔ)快設(shè)備使用, 使用支持NVDIMM driver 的文件系統(tǒng)和內(nèi)核, 應(yīng)用程序不用做任何修改,通過標(biāo)準(zhǔn)文件接口訪問NVDIMM。

2.3.3 第三種, 基于文件系統(tǒng)的DAX特性,通過load/store操作,不需要page cache,同步落盤,沒有系統(tǒng)調(diào)用, 沒有中斷。這也是NVM Programming Model 的核心, 能夠充分釋放NVDIMM的性能優(yōu)勢(shì)。但它的缺點(diǎn)在于,應(yīng)用程序可能需要做一下改變。

PMDK

libpmemblk 實(shí)現(xiàn)了一個(gè)駐留在pmem中的同樣大小的塊的數(shù)組。里面每個(gè)塊對(duì)于突然掉電,程序崩潰等情況依然保持原子事務(wù)性。libpmemblk是基于libpmem庫的,libpmem是PMDK中提供的一個(gè)更底層的庫, 尤其是對(duì)于flush的支持。它能夠追蹤每次對(duì)pmem的store操作,并保證數(shù)據(jù)落盤為持久性數(shù)據(jù)。

除此以外, PMDK 還提供了其他編程庫, 比如 libpmemobj,libpmemlog,libvmmalloc 等。感興趣可以訪問其主頁獲取更多信息。

結(jié)語

至此,對(duì)于NVDIMM硬件和軟件上的不同, 大家都有了一個(gè)大致的認(rèn)識(shí)。Intel 在2018年5月發(fā)布了基于3D XPoint™ 技術(shù)的Intel® Optane™ DC Persistent Memory,引發(fā)了NVDIMM爆點(diǎn)。

2.4、上述內(nèi)容可做如下的概述

NVIDMM分類

NVIDMM-N:memory mapped DRAM,提供字符訪問接口,在三種產(chǎn)品中性能最好,容量最小

NVDIMM-F:memory mapped Flush,只提供塊設(shè)備接口。Nand Flush直接鏈接到Memory controller channel。

NVIDMM-P:Under Development,提供塊設(shè)備和字符設(shè)備訪問接口。

特性

NVDIMM-N:NVDIMM-N既可以用作緩存,又可以作為塊存儲(chǔ)設(shè)備來用。典型代表是類似intel 的AEP。

NVIDMM-F:不同于NVIDMM-N主要用作緩存,NVIDMM-F主要用作存儲(chǔ)??梢杂脕砜焖贅?gòu)建高密度的內(nèi)存池存儲(chǔ)池。

2.4.1 構(gòu)建基于NVDMM的文件系統(tǒng)

門為PMEM設(shè)計(jì)的文件系統(tǒng)是NOVA Filesystem,感興趣的讀者可以參考NOVA的github。

ZUFS作為來自于NetApp的一個(gè)項(xiàng)目,ZUFS的全稱是Zero-copy User Filesystem。聲稱是實(shí)現(xiàn)了完全的zero-copy,甚至文件系統(tǒng)的metadata都是zero-copy的。ZUFS主要是為了PMEM設(shè)計(jì),但是也可以支持傳統(tǒng)的磁盤設(shè)備,相當(dāng)于是FUSE的zero-copy版本,是對(duì)FUSE的性能的提升。

在用作DRAM的模式下:

2.4.2.1 支持全系統(tǒng)掉電保護(hù), 不少場(chǎng)景下為了防止異常掉電丟數(shù)據(jù)的commit and flush 的兩階段提交方法,可以省略成一階段的commit on write 的方法

2.4.2.2 為DRAM和SSD物理之間提供了一個(gè)新的存儲(chǔ)層

2.4.2.3 由于用作DRAM的時(shí)候,其訪問速度比SSD可能有1~3個(gè)數(shù)量級(jí)的提升,在一些文件系統(tǒng)中可以去掉對(duì)page cach的依賴,這樣反而更能控制上層業(yè)務(wù)的平均延時(shí)和服務(wù)穩(wěn)定性。

DAX:顧名思義,DAX就是Direct Access, bypass page cache。讀寫直接操作PMEM上的數(shù)據(jù),文件系統(tǒng)需要在mount 的時(shí)候,加入 "-o dax"參數(shù)。DAX極大地提高了文件系統(tǒng)在PMEM設(shè)備上的性能,但是還有一些問題沒有解決,比如:

文件系統(tǒng)的metadata還是需要使用page cache或buffer cache。

"-o dax" mount option是對(duì)整個(gè)文件系統(tǒng)的,不能做更細(xì)粒度的控制。

2.4.3 沒有一個(gè)API來告訴應(yīng)用訪問的文件是不是可以DAX訪問的。

3、NVDIMM在Linux下的實(shí)現(xiàn)

持久內(nèi)存是一種新型的計(jì)算機(jī)儲(chǔ)存,其速度接近動(dòng)態(tài) RAM (DRAM),但同時(shí)具備 RAM 的按字節(jié)尋址能力以及固態(tài)硬盤 (SSD) 的性能;與傳統(tǒng)的 RAM 一樣,持久內(nèi)存直接安裝在主板上的內(nèi)存插槽中。因此,它的物理外形規(guī)格與 RAM 相同,以 DIMM 的形式提供。這些內(nèi)存稱為 NVDIMM:非易失性雙列直插式內(nèi)存模塊。

不過與 RAM 不同,持久內(nèi)存在多個(gè)方面類似于基于閃存的 SSD。后兩者采用固態(tài)內(nèi)存電路的形式,但除此之外,兩者都提供非易失性儲(chǔ)存:系統(tǒng)斷電或者重啟動(dòng)后,內(nèi)存中的內(nèi)容會(huì)得到保留。使用這兩種媒體時(shí),寫入數(shù)據(jù)的速度比讀取數(shù)據(jù)要慢;兩者都支持有限的重新寫入周期數(shù)。最后,與 SSD 一樣,如果在特定的應(yīng)用方案中更適合對(duì)持久內(nèi)存進(jìn)行扇區(qū)級(jí)別的訪問,則也可以這樣做。

不同的型號(hào)使用不同形式的電子儲(chǔ)存媒體,例如 Intel 3D XPoint,或者將 NAND 閃存與 DRAM 結(jié)合使用。另外,行業(yè)正在開發(fā)新形式的非易失性 RAM。這意味著,不同的供應(yīng)商和 NVDIMM 型號(hào)會(huì)提供不同的性能和持久性特征。

由于涉及的儲(chǔ)存技術(shù)處于早期開發(fā)階段,不同供應(yīng)商的硬件可能會(huì)施加不同的限制。因此,以下敘述適用于一般性的場(chǎng)合。

持久內(nèi)存的速度最多比 DRAM 要慢 10 倍,但比閃存要快大約 1000 倍??稍谄渲邪醋止?jié)重新寫入數(shù)據(jù),而不像在閃存中一樣,需要擦除整個(gè)扇區(qū),然后重新寫入數(shù)據(jù)。盡管重新寫入周期數(shù)有限,但大部分形式的持久內(nèi)存可以應(yīng)對(duì)數(shù)百萬次重新寫入,相比之下,閃存只能應(yīng)對(duì)數(shù)千個(gè)周期。

這會(huì)產(chǎn)生兩種重要后果:使用最新的技術(shù)無法運(yùn)行僅包含持久內(nèi)存的系統(tǒng),因此無法實(shí)現(xiàn)完全非易失性的主內(nèi)存,必須混合使用傳統(tǒng)的 RAM 和 NVDIMM。操作系統(tǒng)和應(yīng)用程序?qū)⒃趥鹘y(tǒng)的 RAM 中執(zhí)行,而 NVDIMM 可提供極速的補(bǔ)充性儲(chǔ)存。

由于不同供應(yīng)商的持久內(nèi)存的性能特征不同,程序員可能需要考慮到特定服務(wù)器中 NVDIMM 的硬件規(guī)格,包括 NVDIMM 的數(shù)量,以及它們可以裝入到哪些內(nèi)存插槽。顯然,這會(huì)對(duì)超級(jí)管理程序的使用、不同主機(jī)之間的軟件遷移等造成影響。

ACPI 標(biāo)準(zhǔn)版本 6 中定義了此新型儲(chǔ)存子系統(tǒng)。但是 libnvdimm 支持該標(biāo)準(zhǔn)頒布之前的 NVDIMM,可以相同的方式使用這些內(nèi)存。

3.1、持久內(nèi)存 (PMEM)

與 RAM 一樣,PMEM 儲(chǔ)存提供字節(jié)級(jí)別的訪問。使用 PMEM 時(shí),單個(gè)名稱空間可以包含多個(gè)交錯(cuò)式的 NVDIMM,使這些 NVDIMM 都可用作單個(gè)設(shè)備??赏ㄟ^兩種方式來配置 PMEM 名稱空間。

將 PMEM 與 DAX 搭配使用

為 Direct Access (DAX) 配置 PMEM 名稱空間后,訪問內(nèi)存時(shí)會(huì)繞過內(nèi)核的頁面超速緩存,并直接進(jìn)入媒體。軟件可以單獨(dú)直接讀取或?qū)懭朐撁Q空間的每個(gè)字節(jié)。

將 PMEM 與 BTT 搭配使用

與在傳統(tǒng)的磁盤驅(qū)動(dòng)器中一樣,將按扇區(qū)訪問配置為以 BTT 模式運(yùn)行的 PMEM 名稱空間,而不是像在 RAM 中一樣采用按字節(jié)尋址的模式。某個(gè)轉(zhuǎn)換表機(jī)制會(huì)將訪問活動(dòng)批處理成扇區(qū)大小的單元。

BTT 的優(yōu)點(diǎn)在于,儲(chǔ)存子系統(tǒng)會(huì)確保將每個(gè)扇區(qū)完全寫入到基礎(chǔ)媒體,如果某項(xiàng)寫入操作出于某種原因而失敗,則會(huì)取消注冊(cè)該操作。因此,無法在給定的扇區(qū)中進(jìn)行部分寫入。此外,對(duì) BTT 名稱空間的訪問會(huì)由內(nèi)核超速緩存。缺點(diǎn)在于BTT 名稱空間不支持 DAX。

3.2、用于管理持久內(nèi)存的工具

要管理持久內(nèi)存,必須安裝 ndctl 包。安裝此包也會(huì)安裝 libndctl 包,后者提供一組用戶空間庫用于配置 NVDIMM。這些工具通過 libnvdimm 庫運(yùn)行。該庫支持三種類型的 NVDIMM:

PMEM

BLK

同步 PMEM 和 BLK。

ndctl 實(shí)用程序提供一系列有用的手冊(cè)頁,可使用以下命令訪問這些:

ndctl help subcommand

要查看可用子命令的列表請(qǐng)使用:

ndctl --list-cmds

可用的子命令包括:

  •  version:顯示 NVDIMM 支持工具的當(dāng)前版本。

  •  enable-namespace:使指定的名稱空間可供使用。

  •  disable-namespace:阻止使用指定的名稱空間。

  •  create-namespace:從指定的儲(chǔ)存設(shè)備創(chuàng)建新的名稱空間。

  •  destroy-namespace:去除指定的名稱空間。

  •  enable-region:使指定的區(qū)域可供使用。

  •  disable-region:阻止使用指定的區(qū)域。

  •  zero-labels:擦除設(shè)備中的元數(shù)據(jù)。

  •  read-labels:檢索指定設(shè)備的元數(shù)據(jù)。

  •  list:顯示可用的設(shè)備。

  •  help:顯示有關(guān)工具用法的信息。

3.3、設(shè)置持久內(nèi)存

3.3.1 查看可用的 NVDIMM 儲(chǔ)存

可以使用 ndctl list 命令列出系統(tǒng)中所有可用的 NVDIMM。在以下示例中,系統(tǒng)包含三個(gè) NVDIMM,這些 NVDIMM 位于單個(gè)三通道交錯(cuò)集內(nèi)。

ndctl list --dimms  [   {    "dev":"nmem2",    "id":"8089-00-0000-12325476"   },   {    "dev":"nmem1",    "id":"8089-00-0000-11325476"   },   {    "dev":"nmem0",    "id":"8089-00-0000-10325476"   }  ]

如果結(jié)合不同的參數(shù),ndctl list 還可以列出可用的區(qū)域。

注意:區(qū)域可能不會(huì)按數(shù)字順序顯示。

請(qǐng)注意,盡管只有三個(gè) NVDIMM,但它們卻顯示為四個(gè)區(qū)域。

ndctl list --regions  [   {    "dev":"region1",    "size":68182605824,    "available_size":68182605824,    "type":"blk"   },   {    "dev":"region3",    "size":202937204736,    "available_size":202937204736,    "type":"pmem",    "iset_id":5903239628671731251    },    {     "dev":"region0",     "size":68182605824,     "available_size":68182605824,     "type":"blk"    },    {     "dev":"region2",    "size":68182605824,     "available_size":68182605824,     "type":"blk"    }  ]

空間以兩種不同的形式顯示:三個(gè) BLK 類型的獨(dú)立 64 GB 區(qū)域,或者一個(gè) PMEM 類型的合并 189 GB 區(qū)域,后者將三個(gè)交錯(cuò)式 NVDIMM 中的所有空間表示為單個(gè)卷。

請(qǐng)注意,available_size 的顯示值與 size 的顯示值相同。這意味著尚未分配任何空間。

3.3.2 將儲(chǔ)存配置為使用 DAX 的單個(gè) PMEM 名稱空間

第一個(gè)示例將三個(gè) NVDIMM 配置成使用 Direct Access (DAX) 的單個(gè) PMEM 名稱空間。第一個(gè)步驟是創(chuàng)建新的名稱空間。

ndctl create-namespace --type=pmem --mode=fsdax --map=memory  {   "dev":"namespace3.0",   "mode":"memory",   "size":199764213760,   "uuid":"dc8ebb84-c564-4248-9e8d-e18543c39b69",   "blockdev":"pmem3"  }

這會(huì)創(chuàng)建支持 DAX 的塊設(shè)備 /dev/pmem3。設(shè)備名稱中的 3 繼承自父區(qū)域編號(hào)(在本例中為 region3)。

--map=memory 選項(xiàng)從 NVDIMM 中設(shè)置出一部分 PMEM 儲(chǔ)存空間,以便可以使用這些空間來分配稱作結(jié)構(gòu)頁面的內(nèi)部?jī)?nèi)核數(shù)據(jù)結(jié)構(gòu)。這樣,便可以將新的 PMEM 名稱空間與 O_DIRECT I/O 和 RDMA 等功能搭配使用。

最終 PMEM 名稱空間的容量之所以小于父 PMEM 區(qū)域,是因?yàn)橛幸徊糠殖志脙?nèi)存預(yù)留給了內(nèi)核數(shù)據(jù)結(jié)構(gòu)。

接下來,我們校驗(yàn)新的塊設(shè)備是否可用于操作系統(tǒng):

fdisk -l /dev/pmem3  Disk /dev/pmem3: 186 GiB, 199764213760 bytes, 390164480 sectors  Units: sectors of 1 * 512512 = 512 bytes  Sector size (logical/physical): 512 bytes / 4096 bytes  I/O size (minimum/optimal): 4096 bytes / 4096 bytes

與其他任何驅(qū)動(dòng)器一樣,在使用該設(shè)備之前,必須先將其格式化。在本示例中,我們使用 XFS 將其格式化:

mkfs.xfs /dev/pmem3

...

接下來,可將新的驅(qū)動(dòng)器裝入到某個(gè)目錄:

mount -o dax /dev/pmem3 /mnt/pmem3

然后,可以校驗(yàn)是否獲得了一個(gè)支持 DAX 的設(shè)備:

mount | grep dax  /dev/pmem3 on /mnt/pmem3 type xfs (rw,relatime,attr2,dax,inode64,noquota)

結(jié)果是,我們已獲得一個(gè)使用 XFS 文件系統(tǒng)格式化的,且裝有 DAX 的 PMEM 名稱空間。

對(duì)該文件系統(tǒng)中的文件進(jìn)行任何 mmap() 調(diào)用都會(huì)返回直接映射到 NVDIMM 上的持久內(nèi)存的虛擬地址,并且會(huì)完全繞過頁面超速緩存。對(duì)該文件系統(tǒng)中的文件進(jìn)行任何 fsync 或 msync 調(diào)用仍可確保將修改后的數(shù)據(jù)完全寫入到 NVDIMM。這些調(diào)用會(huì)刷新通過 mmap 映射在用戶空間中修改的任何頁面的關(guān)聯(lián)處理器超速緩存行。

3.3.2.1 去除名稱空間

在創(chuàng)建使用相同儲(chǔ)存的其他任何類型的卷之前,我們必須卸載此 PMEM 卷,然后將其去除。

首先卸載該卷:

umount /mnt/pmem3

然后禁用名稱空間:

ndctl disable-namespace namespace3.0  disabled 1 namespace

然后刪除該卷:

ndctl destroy-namespace namespace3.0  destroyed 1 namespace

3.3.3 創(chuàng)建使用 BTT 的 PMEM 名稱空間

在下一個(gè)示例中,我們將創(chuàng)建使用 BTT 的 PMEM 名稱空間。

ndctl create-namespace --type=pmem --mode=sector  {   "dev":"namespace3.0",   "mode":"sector",   "uuid":"51ab652d-7f20-44ea-b51d-5670454f8b9b",   "sector_size":4096,   "blockdev":"pmem3s"  }

接下來,校驗(yàn)新設(shè)備是否存在:

fdisk -l /dev/pmem3s  Disk /dev/pmem3s: 188.8 GiB, 202738135040 bytes, 49496615 sectors  Units: sectors of 1 * 40964096 = 4096 bytes  Sector size (logical/physical): 4096 bytes / 4096 bytes I/O size (minimum/optimal): 4096 bytes / 4096 bytes

與前面配置的支持 DAX 的 PMEM 名稱空間一樣,這個(gè)支持 BTT 的 PMEM 名稱空間也會(huì)占用 NVDIMM 中的所有可用儲(chǔ)存。

注意:設(shè)備名稱 (/dev/pmem3s) 中的尾部 s 表示扇區(qū) (sector),可用于輕松辨別配置為使用 BTT 的名稱空間。

可按前一示例中所述格式化和裝入卷。

此處顯示的 PMEM 名稱空間不能使用 DAX,它會(huì)使用 BTT 來提供扇區(qū)寫入原子性。每次通過 PMEM 塊驅(qū)動(dòng)程序進(jìn)行扇區(qū)寫入時(shí),BTT 都會(huì)分配一個(gè)新的扇區(qū)來接收新數(shù)據(jù)。完全寫入新數(shù)據(jù)后,BTT 將以原子方式更新其內(nèi)部映射結(jié)構(gòu),使新寫入的數(shù)據(jù)可供應(yīng)用程序使用。如果在此過程中的任意時(shí)間點(diǎn)發(fā)生電源故障,則寫入內(nèi)容將會(huì)完全丟失,在這種情況下,應(yīng)用程序可以訪問其舊數(shù)據(jù),而這些數(shù)據(jù)仍舊保持不變。這可以防止出現(xiàn)所謂"扇區(qū)撕裂"的情況。

與其他任何標(biāo)準(zhǔn)塊設(shè)備一樣,可以使用某個(gè)文件系統(tǒng)格式化這個(gè)支持 BTT 的 PMEM 名稱空間,并在該文件系統(tǒng)中使用它。無法將該名稱空間與 DAX 搭配使用。但是,此塊設(shè)備中的文件的 mmap 映射將使用頁面超速緩存。

3.4、使用內(nèi)存(DRAM)模擬持久化內(nèi)存(Persistent Memory)

3.4.1 精簡(jiǎn)版:一般內(nèi)核只需要兩步即可進(jìn)行持久性內(nèi)存模擬

1)配置 grub:

vim /etc/default/grub

在里面加入如下語句,前一個(gè)為要模擬的大小,后一個(gè)為模擬的持久性內(nèi)存在內(nèi)存中開始的位置。也就是從內(nèi)存4G開始,劃分32G來模擬持久性內(nèi)存。

GRUB_CMDLINE_LINUX="memmap=32G!4G"

2)更新 grub

update-grub && reboot

3.4.2 深入分析

現(xiàn)在真實(shí)的持久化內(nèi)存對(duì)于普通用戶來說還不可用,在進(jìn)行實(shí)驗(yàn)和測(cè)試的時(shí)候可能需要模擬持久化內(nèi)存來進(jìn)行使用,現(xiàn)在在一臺(tái)主機(jī)上測(cè)試劃分一塊內(nèi)存區(qū)域來進(jìn)行持久化內(nèi)存的模擬。

環(huán)境:Ubuntu 18.04,一臺(tái)普通的Dell臺(tái)式機(jī),運(yùn)行內(nèi)存 8G。

從Linux 4.0以來,Linux內(nèi)核就具備了對(duì)持久性內(nèi)存設(shè)備和仿真的支持,但為了便于配置,建議使用比4.2更新的內(nèi)核。在內(nèi)核中,使用對(duì)文件系統(tǒng)的DAX擴(kuò)展創(chuàng)建了一個(gè)支持PMEM的環(huán)境。某些發(fā)行版(如Fedora 24及更高版本)內(nèi)置了DAX/PMEM支持。

要了解內(nèi)核是否支持DAX和PMEM,可以使用以下命令:

# egrep '(DAX|PMEM)' /boot/config-`uname –r`

如果內(nèi)置了支持就會(huì)輸出類似如下的內(nèi)容:

CONFIG_X86_PMEM_LEGACY_DEVICE=y    CONFIG_X86_PMEM_LEGACY=y    CONFIG_BLK_DEV_RAM_DAX=y    CONFIG_BLK_DEV_PMEM=m    CONFIG_FS_DAX=y    CONFIG_FS_DAX_PMD=y    CONFIG_ARCH_HAS_PMEM_API=y

但是很遺憾,我們的Ubuntu 18.04沒有內(nèi)置對(duì)DAX/PMEM的支持,所以輸入上述命令什么輸出都沒有。接下來就在Ubuntu 18.04上模擬持久化內(nèi)存。由于在Ubuntu 18.04上默認(rèn)沒有支持DAX和PMEM,所以需要我們重新編譯內(nèi)核,并在編譯內(nèi)核的配置選項(xiàng)中加入相關(guān)設(shè)置。

在這里重新編譯內(nèi)核,選擇的版本是Linux-4.15。

首先輸入命令:

make nconfig

進(jìn)入到如下的配置界面,配置PMEM和DAX

Device Drivers      NVDIMM Support          <M>PMEM;          <M>BLK;          <*>BTT          <*>NVDIMM DAX

配置PMEM

先進(jìn)入到Device Drivers中,在Device Drivers中找到NVDIMM Support,需要將菜單欄向下翻,里面的內(nèi)容并不只是我們看到的第一頁,NVDIMM Support 不在第一頁上。

進(jìn)入到NVDIMM Support 中,將里面的內(nèi)容都選中:

<M>PMEM;  <M>BLK;  <*>BTT  <*>NVDIMM DAX

配置文件系統(tǒng)DAX

使用esc回到make nconfig的初始頁面

File System      <*>Direct Access support

處理器特性設(shè)置

使用esc回到make nconfig的初始頁面

Processor type and features      <*>Support non-standard NVDIMMs and ADR protected memory

其實(shí)上述所有過程,在Linux-4.15中默認(rèn)都已經(jīng)做了,也就是我只要 make nconfig就可以了。

所有這些配置好之后就開始編譯以及安裝內(nèi)核:

# make -j9  # make modules_install install

然后進(jìn)入到新編譯的內(nèi)核Linux-4.15中

使用下面的命令打印出e820表:

dmesg | grep e820

得到如下的內(nèi)容:

[0.000000] e820: BIOS-provided physical RAM map:    [0.000000] BIOS-e820: [mem 0x0000000000000000-0x000000000009d7ff] usable    [0.000000] BIOS-e820: [mem 0x000000000009d800-0x000000000009ffff] reserved  .

上述的usable就是我們可以使用的,從中可以劃分部分區(qū)域來作為我們的持久化內(nèi)存,在這里建議選?。?/p>

[0.000000] BIOS-e820: [mem 0x0000000100000000-0x000000021f5fffff] usable

其中0x0000000100000000就是4G,需要配置grub來設(shè)置:

vim /etc/default/grub

我在里面直接配置4G的空間來模擬持久化內(nèi)存,在grub中添加如下語句,表示空間大小為4G,從4G內(nèi)存開始的內(nèi)存空間用來模擬持久化內(nèi)存:

GRUB_CMDLINE_LINUX="memmap=4G!4G"

配置好后,更新grub:update-grub

使用下面的命令查看是否成功:

dmesg | grep user

可以看到,這塊區(qū)域已經(jīng)被模擬為了持久化內(nèi)存,然后我們?cè)谥鳈C(jī) /dev目錄下可以看到pmem0的設(shè)備,至此就可以對(duì)模擬的持久化內(nèi)存進(jìn)行使用了。

使用方式--建立DAX文件系統(tǒng)

以ext4文件系統(tǒng)為例

mkdir /mnt/pmemdir  mkfs.ext4 /dev/pmem0  mount -o dax /dev/pmem0 /mnt/pmemdir

這樣就將目錄 /mnt/pmem掛載到了持久化內(nèi)存上,這個(gè)目錄在之后的使用過程中就會(huì)用到。

參考來源:如何在英特爾&reg; 架構(gòu)服務(wù)器上仿真持久性內(nèi)存

3.4.3 使用memmap內(nèi)核選項(xiàng)

pmem驅(qū)動(dòng)程序允許用戶基于直接訪問文件系統(tǒng)(DAX)來使用EXT4和XFS。添加了一個(gè)新的memmap選項(xiàng),該選項(xiàng)支持保留一個(gè)或多個(gè)范圍的未分配內(nèi)存以用于模擬的持久內(nèi)存。memmap參數(shù)文檔在Linux內(nèi)核的相關(guān)頁面上。這個(gè)特性是在v4.0內(nèi)核中向上擴(kuò)展的。kernelv4.15引入了性能改進(jìn),推薦用于生產(chǎn)環(huán)境。

memmap選項(xiàng)使用memmap=nn[KMG]!ss[KMG]格式;其中nn是要保留的區(qū)域的大小,ss是起始偏移量,[KMG]指定大小(以千字節(jié)、兆字節(jié)或千兆字節(jié)為單位)。配置選項(xiàng)通過GRUB傳遞給內(nèi)核,更改GRUB菜單項(xiàng)和內(nèi)核參數(shù)在Linux發(fā)行版本之間有所不同,下面是一些常見Linux發(fā)行版的說明。有關(guān)更多信息,請(qǐng)參閱正在使用的Linux發(fā)行版和版本的文檔。

內(nèi)存區(qū)域?qū)?biāo)記為e820類型12(0xc),這在引導(dǎo)時(shí)可見,使用dmesg命令查看這些消息。

$ dmesg | grep e820

GRUB配置中的'memmap=4G!12G':保留4GB內(nèi)存,從12GB到16GB。有關(guān)詳細(xì)信息,請(qǐng)參閱如何為系統(tǒng)選擇正確的memmap選項(xiàng)。每個(gè)Linux發(fā)行版都有不同的方法來修改GRUB配置,按照發(fā)行版的文檔進(jìn)行操作即可,下面提供了一些常見的發(fā)行版以供快速參考。

1)、Ubuntu

$ sudo vim /etc/default/grub  GRUB_CMDLINE_LINUX="memmap=4G!12G"

更新完成grub后重啟機(jī)器

$ sudo update-grub2

2)、RHEL

$ sudo vi /etc/default/grub  GRUB_CMDLINE_LINUX="memmap=4G!12G"

正式開始更新grub配置

On BIOS-based machines:

$ sudo grub2-mkconfig -o /boot/grub2/grub.cfg

On UEFI-based machines:

$ sudo grub2-mkconfig -o /boot/efi/EFI/centos/grub.cfg

可以使用多個(gè)配置,下面建立了兩個(gè)2G大小的名稱空間

"memmap=2G!12G memmap=2G!14G" will create two 2GB namespaces, one in the 12GB-14GB memory address offsets, the other at 14GB-16GB.

主機(jī)重新啟動(dòng)后,應(yīng)該存在一個(gè)新的/dev/pmem{N}設(shè)備,在GRUB配置中指定的每個(gè)memmap區(qū)域都有一個(gè)。這些可以使用ls/dev/pmem*顯示,命名約定從/dev/pmem0開始,并為每個(gè)設(shè)備遞增。/dev/pmem{N}設(shè)備可用于創(chuàng)建DAX文件系統(tǒng)。

使用/dev/pmem設(shè)備創(chuàng)建并裝載文件系統(tǒng),然后驗(yàn)證是否為裝入點(diǎn)設(shè)置了dax標(biāo)志,以確認(rèn)啟用了dax功能。下面展示了如何創(chuàng)建和掛載EXT4或XFS文件系統(tǒng)。

1)、XFS

mkfs.xfs /dev/pmem0  mkdir /pmem && mount -o dax /dev/pmem0 /pmem  mount -v | grep /pmem  /dev/pmem0 on /pmem type xfs (rw,relatime,seclabel,attr2,dax,inode64,noquota)

2)、EXT4

mkfs.ext4 /dev/pmem0  mkdir /pmem && mount -o dax /dev/pmem0 /pmem  mount -v | grep /pmem  /dev/pmem0 on /pmem type ext4 (rw,relatime,seclabel,dax,data=ordered)

如何為系統(tǒng)選擇正確的memmap選項(xiàng)

為memmap內(nèi)核參數(shù)選擇值時(shí),必須考慮起始地址和結(jié)束地址代表可用的RAM。使用或與保留內(nèi)存重疊可能導(dǎo)致?lián)p壞或未定義的行為,此信息可通過dmesg在e820表中輕松獲得。

下面的示例服務(wù)器具有16GiB內(nèi)存,"可用"內(nèi)存介于4GiB(0x100000000)和~16GiB(0x3ffffffff)之間:

$ dmesg | grep BIOS-e820  [0.000000] BIOS-e820: [mem 0x0000000000000000-0x000000000009fbff] usable  [0.000000] BIOS-e820: [mem 0x000000000009fc00-0x000000000009ffff] reserved  [0.000000] BIOS-e820: [mem 0x00000000000f0000-0x00000000000fffff] reserved [0.000000] BIOS-e820: [mem 0x0000000000100000-0x00000000bffdffff] usable  [0.000000] BIOS-e820: [mem 0x00000000bffe0000-0x00000000bfffffff] reserved  [0.000000] BIOS-e820: [mem 0x00000000feffc000-0x00000000feffffff] reserved  [0.000000] BIOS-e820: [mem 0x00000000fffc0000-0x00000000ffffffff] reserved  [0.000000] BIOS-e820: [mem 0x0000000100000000-0x00000003ffffffff] usable

要保留4GiB和16GiB之間的12GiB可用空間作為模擬持久內(nèi)存,語法如下:

memmap=12G!4G

重新啟動(dòng)后一個(gè)新的用戶定義的e820表項(xiàng)顯示范圍現(xiàn)在是"persistent(type12)":

$ dmesg | grep user:  [0.000000] user: [mem 0x0000000000000000-0x000000000009fbff] usable  [0.000000] user: [mem 0x000000000009fc00-0x000000000009ffff] reserved  [0.000000] user: [mem 0x00000000000f0000-0x00000000000fffff] reserved  [0.000000] user: [mem 0x0000000000100000-0x00000000bffdffff] usable  [0.000000] user: [mem 0x00000000bffe0000-0x00000000bfffffff] reserved  [0.000000] user: [mem 0x00000000feffc000-0x00000000feffffff] reserved  [0.000000] user: [mem 0x00000000fffc0000-0x00000000ffffffff] reserved  [0.000000] user: [mem 0x0000000100000000-0x00000003ffffffff] persistent (type 12)

fdisk或lsblk程序可用于顯示容量,例如:

# fdisk -l /dev/pmem0  Disk /dev/pmem0: 12 GiB,  12884901888 bytes, 25165824 sectors  Units: sectors of 1 * 512512 = 512 bytes  Sector size (logical/physical): 512 bytes / 4096 bytes  I/O size (minimum/optimal): 4096 bytes / 4096 bytes
# lsblk /dev/pmem0  NAME  MAJ:MIN RM SIZE RO TYPE MOUNTPOINT  pmem0 259:0    0  12G  0 disk /pmem

注意:大多數(shù)Linux發(fā)行版都啟用了內(nèi)核地址空間布局隨機(jī)化(KASLR),這是由CONFIG_RANDOMIZE_BASE定義的。啟用后,內(nèi)核可能會(huì)在沒有警告的情況下使用先前為持久內(nèi)存保留的內(nèi)存,從而導(dǎo)致?lián)p壞或未定義的行為,因此建議在16GiB或更低的系統(tǒng)上禁用KASLR。有關(guān)詳細(xì)信息,請(qǐng)參閱對(duì)應(yīng)的Linux發(fā)行版文檔,因?yàn)槊總€(gè)發(fā)行版各不相同。

到此,相信大家對(duì)“Linux文件系統(tǒng)與持久性內(nèi)存舉例分析”有了更深的了解,不妨來實(shí)際操作一番吧!這里是創(chuàng)新互聯(lián)網(wǎng)站,更多相關(guān)內(nèi)容可以進(jìn)入相關(guān)頻道進(jìn)行查詢,關(guān)注我們,繼續(xù)學(xué)習(xí)!

文章名稱:Linux文件系統(tǒng)與持久性內(nèi)存舉例分析
標(biāo)題來源:http://muchs.cn/article44/pipoee.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供全網(wǎng)營(yíng)銷推廣、網(wǎng)站建設(shè)App開發(fā)、網(wǎng)站設(shè)計(jì)、App設(shè)計(jì)、企業(yè)建站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

外貿(mào)網(wǎng)站建設(shè)