MySQL索引為什么能讓查詢效率提高這么多

本篇內(nèi)容介紹了“MySQL索引為什么能讓查詢效率提高這么多”的有關(guān)知識(shí),在實(shí)際案例的操作過程中,不少人都會(huì)遇到這樣的困境,接下來就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!

十年的東麗網(wǎng)站建設(shè)經(jīng)驗(yàn),針對(duì)設(shè)計(jì)、前端、開發(fā)、售后、文案、推廣等六對(duì)一服務(wù),響應(yīng)快,48小時(shí)及時(shí)工作處理。網(wǎng)絡(luò)營銷推廣的優(yōu)勢(shì)是能夠根據(jù)用戶設(shè)備顯示端的尺寸不同,自動(dòng)調(diào)整東麗建站的顯示方式,使網(wǎng)站能夠適用不同顯示終端,在瀏覽器中調(diào)整網(wǎng)站的寬度,無論在任何一種瀏覽器上瀏覽網(wǎng)站,都能展現(xiàn)優(yōu)雅布局與設(shè)計(jì),從而大程度地提升瀏覽體驗(yàn)。創(chuàng)新互聯(lián)從事“東麗網(wǎng)站設(shè)計(jì)”,“東麗網(wǎng)站推廣”以來,每個(gè)客戶項(xiàng)目都認(rèn)真落實(shí)執(zhí)行。

背景

我相信大家在數(shù)據(jù)庫優(yōu)化的時(shí)候都會(huì)說到索引,我也不例外,大家也基本上能對(duì)數(shù)據(jù)結(jié)構(gòu)的優(yōu)化回答個(gè)一二三,以及頁緩存之類的都能扯上幾句,但是有一次阿里P9的一個(gè)面試問我:你能從計(jì)算機(jī)層面開始說一下一個(gè)索引數(shù)據(jù)加載的流程么?(就是想讓我聊IO)

我當(dāng)場就去世了....因?yàn)橛?jì)算機(jī)網(wǎng)絡(luò)和操作系統(tǒng)的基礎(chǔ)知識(shí)真的是我的盲區(qū),不過后面我惡補(bǔ)了,廢話不多說,我們就從計(jì)算機(jī)加載數(shù)據(jù)聊起,講一下?lián)Q個(gè)角度聊索引。

正文

MySQL的索引本質(zhì)上是一種數(shù)據(jù)結(jié)構(gòu)

讓我們先來了解一下計(jì)算機(jī)的數(shù)據(jù)加載。

磁盤IO和預(yù)讀:

MySQL索引為什么能讓查詢效率提高這么多

先說一下磁盤IO,磁盤讀取數(shù)據(jù)靠的是機(jī)械運(yùn)動(dòng),每一次讀取數(shù)據(jù)需要尋道、尋點(diǎn)、拷貝到內(nèi)存三步操作。

尋道時(shí)間是磁臂移動(dòng)到指定磁道所需要的時(shí)間,一般在5ms以下;

尋點(diǎn)是從磁道中找到數(shù)據(jù)存在的那個(gè)點(diǎn),平均時(shí)間是半圈時(shí)間,如果是一個(gè)7200轉(zhuǎn)/min的磁盤,尋點(diǎn)時(shí)間平均是600000/7200/2=4.17ms;

拷貝到內(nèi)存的時(shí)間很快,和前面兩個(gè)時(shí)間比起來可以忽略不計(jì),所以一次IO的時(shí)間平均是在9ms左右。聽起來很快,但數(shù)據(jù)庫百萬級(jí)別的數(shù)據(jù)過一遍就達(dá)到了9000s,顯然就是災(zāi)難級(jí)別的了。

MySQL索引為什么能讓查詢效率提高這么多

MySQL索引為什么能讓查詢效率提高這么多

考慮到磁盤IO是非常高昂的操作,計(jì)算機(jī)操作系統(tǒng)做了預(yù)讀的優(yōu)化,當(dāng)一次IO時(shí),不光把當(dāng)前磁盤地址的數(shù)據(jù),而是把相鄰的數(shù)據(jù)也都讀取到內(nèi)存緩沖區(qū)內(nèi),因?yàn)楫?dāng)計(jì)算機(jī)訪問一個(gè)地址的數(shù)據(jù)的時(shí)候,與其相鄰的數(shù)據(jù)也會(huì)很快被訪問到。

每一次IO讀取的數(shù)據(jù)我們稱之為一頁(page),具體一頁有多大數(shù)據(jù)跟操作系統(tǒng)有關(guān),一般為4k或8k,也就是我們讀取一頁內(nèi)的數(shù)據(jù)時(shí)候,實(shí)際上才發(fā)生了一次IO。

(突然想到個(gè)我剛畢業(yè)被問過的問題,在64位的操作系統(tǒng)中,Java中的int類型占幾個(gè)字節(jié)?最大是多少?為什么?)

那我們想要優(yōu)化數(shù)據(jù)庫查詢,就要盡量減少磁盤的IO操作,所以就出現(xiàn)了索引。

索引是什么?

MySQL官方對(duì)索引的定義為:索引(Index)是幫助MySQL高效獲取數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)。

MySQL中常用的索引在物理上分兩類,B-樹索引和哈希索引。

本次主要講BTree索引。

BTree索引

BTree又叫多路平衡查找樹,一顆m叉的BTree特性如下:

  • 樹中每個(gè)節(jié)點(diǎn)最多包含m個(gè)孩子。

  • 除根節(jié)點(diǎn)與葉子節(jié)點(diǎn)外,每個(gè)節(jié)點(diǎn)至少有[ceil(m/2)]個(gè)孩子(ceil()為向上取整)。

  • 若根節(jié)點(diǎn)不是葉子節(jié)點(diǎn),則至少有兩個(gè)孩子。

  • 所有的葉子節(jié)點(diǎn)都在同一層。

  • 每個(gè)非葉子節(jié)點(diǎn)由n個(gè)key與n+1個(gè)指針組成,其中[ceil(m/2)-1] <= n <= m-1 。


MySQL索引為什么能讓查詢效率提高這么多

這是一個(gè)3叉(只是舉例,真實(shí)會(huì)有很多叉)的BTree結(jié)構(gòu)圖,每一個(gè)方框塊我們稱之為一個(gè)磁盤塊或者叫做一個(gè)block塊,這是操作系統(tǒng)一次IO往內(nèi)存中讀的內(nèi)容,一個(gè)塊對(duì)應(yīng)四個(gè)扇區(qū),紫色代表的是磁盤塊中的數(shù)據(jù)key,黃色代表的是數(shù)據(jù)data,藍(lán)色代表的是指針p,指向下一個(gè)磁盤塊的位置。

來模擬下查找key為29的data的過程:

1、根據(jù)根結(jié)點(diǎn)指針讀取文件目錄的根磁盤塊1?!敬疟PIO操作1次】

2、磁盤塊1存儲(chǔ)17,35和三個(gè)指針數(shù)據(jù)。我們發(fā)現(xiàn)17<29<35,因此我們找到指針p2。

3、根據(jù)p2指針,我們定位并讀取磁盤塊3?!敬疟PIO操作2次】

4、磁盤塊3存儲(chǔ)26,30和三個(gè)指針數(shù)據(jù)。我們發(fā)現(xiàn)26<29<30,因此我們找到指針p2。

5、根據(jù)p2指針,我們定位并讀取磁盤塊8。【磁盤IO操作3次】

6、磁盤塊8中存儲(chǔ)28,29。我們找到29,獲取29所對(duì)應(yīng)的數(shù)據(jù)data。

由此可見,BTree索引使每次磁盤I/O取到內(nèi)存的數(shù)據(jù)都發(fā)揮了作用,從而提高了查詢效率。

但是有沒有什么可優(yōu)化的地方呢?

我們從圖上可以看到,每個(gè)節(jié)點(diǎn)中不僅包含數(shù)據(jù)的key值,還有data值。而每一個(gè)頁的存儲(chǔ)空間是有限的,如果data數(shù)據(jù)較大時(shí)將會(huì)導(dǎo)致每個(gè)節(jié)點(diǎn)(即一個(gè)頁)能存儲(chǔ)的key的數(shù)量很小,當(dāng)存儲(chǔ)的數(shù)據(jù)量很大時(shí)同樣會(huì)導(dǎo)致B-Tree的深度較大,增大查詢時(shí)的磁盤I/O次數(shù),進(jìn)而影響查詢效率。

B+Tree索引

B+Tree是在B-Tree基礎(chǔ)上的一種優(yōu)化,使其更適合實(shí)現(xiàn)外存儲(chǔ)索引結(jié)構(gòu)。在B+Tree中,所有數(shù)據(jù)記錄節(jié)點(diǎn)都是按照鍵值大小順序存放在同一層的葉子節(jié)點(diǎn)上,而非葉子節(jié)點(diǎn)上只存儲(chǔ)key值信息,這樣可以大大加大每個(gè)節(jié)點(diǎn)存儲(chǔ)的key值數(shù)量,降低B+Tree的高度。

MySQL索引為什么能讓查詢效率提高這么多

B+Tree相對(duì)于B-Tree有幾點(diǎn)不同:

非葉子節(jié)點(diǎn)只存儲(chǔ)鍵值信息, 數(shù)據(jù)記錄都存放在葉子節(jié)點(diǎn)中,  將上一節(jié)中的B-Tree優(yōu)化,由于B+Tree的非葉子節(jié)點(diǎn)只存儲(chǔ)鍵值信息,所以B+Tree的高度可以被壓縮到特別的低。

具體的數(shù)據(jù)如下:

InnoDB存儲(chǔ)引擎中頁的大小為16KB,一般表的主鍵類型為INT(占用4個(gè)字節(jié))或BIGINT(占用8個(gè)字節(jié)),指針類型也一般為4或8個(gè)字節(jié),也就是說一個(gè)頁(B+Tree中的一個(gè)節(jié)點(diǎn))中大概存儲(chǔ)16KB/(8B+8B)=1K個(gè)鍵值(因?yàn)槭枪乐担瑸榉奖阌?jì)算,這里的K取值為〖10〗^3)。

也就是說一個(gè)深度為3的B+Tree索引可以維護(hù)10^3 * 10^3 * 10^3 = 10億  條記錄。(這種計(jì)算方式存在誤差,而且沒有計(jì)算葉子節(jié)點(diǎn),如果計(jì)算葉子節(jié)點(diǎn)其實(shí)是深度為4了)

我們只需要進(jìn)行三次的IO操作就可以從10億條數(shù)據(jù)中找到我們想要的數(shù)據(jù),比起最開始的百萬數(shù)據(jù)9000秒不知道好了多少個(gè)華萊士了。

而且在B+Tree上通常有兩個(gè)頭指針,一個(gè)指向根節(jié)點(diǎn),另一個(gè)指向關(guān)鍵字最小的葉子節(jié)點(diǎn),而且所有葉子節(jié)點(diǎn)(即數(shù)據(jù)節(jié)點(diǎn))之間是一種鏈?zhǔn)江h(huán)結(jié)構(gòu)。所以我們除了可以對(duì)B+Tree進(jìn)行主鍵的范圍查找和分頁查找,還可以從根節(jié)點(diǎn)開始,進(jìn)行隨機(jī)查找。

數(shù)據(jù)庫中的B+Tree索引可以分為聚集索引(clustered index)和輔助索引(secondary index)。

上面的B+Tree示例圖在數(shù)據(jù)庫中的實(shí)現(xiàn)即為聚集索引,聚集索引的B+Tree中的葉子節(jié)點(diǎn)存放的是整張表的行記錄數(shù)據(jù),輔助索引與聚集索引的區(qū)別在于輔助索引的葉子節(jié)點(diǎn)并不包含行記錄的全部數(shù)據(jù),而是存儲(chǔ)相應(yīng)行數(shù)據(jù)的聚集索引鍵,即主鍵。

當(dāng)通過輔助索引來查詢數(shù)據(jù)時(shí),InnoDB存儲(chǔ)引擎會(huì)遍歷輔助索引找到主鍵,然后再通過主鍵在聚集索引中找到完整的行記錄數(shù)據(jù)。

MySQL索引為什么能讓查詢效率提高這么多

不過,雖然索引可以加快查詢速度,提高 MySQL 的處理性能,但是過多地使用索引也會(huì)造成以下弊端:

  • 創(chuàng)建索引和維護(hù)索引要耗費(fèi)時(shí)間,這種時(shí)間隨著數(shù)據(jù)量的增加而增加。

  • 除了數(shù)據(jù)表占數(shù)據(jù)空間之外,每一個(gè)索引還要占一定的物理空間。如果要建立聚簇索引,那么需要的空間就會(huì)更大。

  • 當(dāng)對(duì)表中的數(shù)據(jù)進(jìn)行增加、刪除和修改的時(shí)候,索引也要?jiǎng)討B(tài)地維護(hù),這樣就降低了數(shù)據(jù)的維護(hù)速度。

注意:索引可以在一些情況下加速查詢,但是在某些情況下,會(huì)降低效率。

索引只是提高效率的一個(gè)因素,因此在建立索引的時(shí)候應(yīng)該遵循以下原則:

  • 在經(jīng)常需要搜索的列上建立索引,可以加快搜索的速度。

  • 在作為主鍵的列上創(chuàng)建索引,強(qiáng)制該列的唯一性,并組織表中數(shù)據(jù)的排列結(jié)構(gòu)。

  • 在經(jīng)常使用表連接的列上創(chuàng)建索引,這些列主要是一些外鍵,可以加快表連接的速度。

  • 在經(jīng)常需要根據(jù)范圍進(jìn)行搜索的列上創(chuàng)建索引,因?yàn)樗饕呀?jīng)排序,所以其指定的范圍是連續(xù)的。

  • 在經(jīng)常需要排序的列上創(chuàng)建索引,因?yàn)樗饕呀?jīng)排序,所以查詢時(shí)可以利用索引的排序,加快排序查詢。

  • 在經(jīng)常使用 WHERE 子句的列上創(chuàng)建索引,加快條件的判斷速度。

現(xiàn)在大家知道索引為啥能這么快了吧,其實(shí)就是一句話,通過索引的結(jié)構(gòu)最大化的減少數(shù)據(jù)庫的IO次數(shù),畢竟,一次IO的時(shí)間真的是太久了。。。

“MySQL索引為什么能讓查詢效率提高這么多”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí)可以關(guān)注創(chuàng)新互聯(lián)網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實(shí)用文章!

分享文章:MySQL索引為什么能讓查詢效率提高這么多
網(wǎng)站地址:http://muchs.cn/article18/gedjgp.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供虛擬主機(jī)商城網(wǎng)站、Google、搜索引擎優(yōu)化、自適應(yīng)網(wǎng)站、網(wǎng)站導(dǎo)航

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

營銷型網(wǎng)站建設(shè)