怎樣將MySQL中兩千萬數(shù)據(jù)進行優(yōu)化與遷移

來源：懂視網(wǎng) 責編：小采時間：2020-11-09 09:03:42

怎樣將MySQL中兩千萬數(shù)據(jù)進行優(yōu)化與遷移

怎樣將MySQL中兩千萬數(shù)據(jù)進行優(yōu)化與遷移:最近有一張2000W條記錄的數(shù)據(jù)表需要優(yōu)化和遷移。2000W數(shù)據(jù)對于http://www.gxlcms.com/wiki/1160.html target=_blank

推薦度：

點擊下載本文 文檔為doc格式

導讀怎樣將MySQL中兩千萬數(shù)據(jù)進行優(yōu)化與遷移:最近有一張2000W條記錄的數(shù)據(jù)表需要優(yōu)化和遷移。2000W數(shù)據(jù)對于http://www.gxlcms.com/wiki/1160.html target=_blank

最近有一張2000W條記錄的數(shù)據(jù)表需要優(yōu)化和遷移。2000W數(shù)據(jù)對于http://www.gxlcms.com/wiki/1160.html" target="_blank">MySQL來說很尷尬，因為合理的創(chuàng)建索引速度還是挺快的，再怎么優(yōu)化速度也得不到多大提升。不過這些數(shù)據(jù)有大量的冗余字段和錯誤信息，極不方便做統(tǒng)計和分析。所以我需要創(chuàng)建一張新表，把舊表中的數(shù)據(jù)一條一條取出來優(yōu)化后放回新表；

一. 清除冗余數(shù)據(jù)，優(yōu)化字段結(jié)構(gòu)

2000W數(shù)據(jù)中，能作為查詢條件的字段我們是預知的。所以將這部分數(shù)據(jù)單獨創(chuàng)建新的字段，對于有規(guī)則的數(shù)據(jù)合理改變字段結(jié)構(gòu)，比如身份證就是varchar(18)。對于不重要的數(shù)據(jù)我們合并后存在一個結(jié)構(gòu)為text的字段。

對于一些有關(guān)聯(lián)的數(shù)據(jù)我們需要計算，常見的比如身份證種能獲取到準確的性別，出生地、生日、年齡。

二. 數(shù)據(jù)遷移

我們從數(shù)據(jù)庫中取出一條舊數(shù)據(jù)，再通過計算處理后得到想要的新數(shù)據(jù)，最后將新數(shù)據(jù)插入新表。不過在獲取新數(shù)據(jù)時遇到如下問題。

數(shù)據(jù)量太大，無法一次獲?。?000W數(shù)據(jù)扔到內(nèi)存挺可怕的）；
我們可以通過MySQL的limit語法分批獲取。比如每次獲取50000，SQL語句如下：
```
select * from table_name limit 15000000,50000;
```
通過這種方法能解決數(shù)據(jù)量太大的問題，但是隨著limit的第一個參數(shù)越來越大，查詢速度會慢的嚇人（上面這條SQL執(zhí)行會花35秒）。時間就是生命，于是我們開始優(yōu)化SQL語句，優(yōu)化后變成下面這樣：
```
select * from table_name order by id desc limit 5000000,50000;
```
可通過二分法拆分2000W數(shù)據(jù)，當執(zhí)行到1000W數(shù)據(jù)時，將數(shù)據(jù)倒序。優(yōu)化后SQL執(zhí)行效率顯著提升，從35秒降到9秒；
不過還是很慢，時間就是生命……還好我們有自增ID（創(chuàng)建數(shù)據(jù)表第一條定律，一定要有自增字段），優(yōu)化后的SQl如下：
```
1. select * from table_name where id>15000000 and id<15050000； 2. select * from table_name where id>15000000 limit 50000;
```
為了直觀演示，我寫了兩條功能一樣的SQL。相比第一條，第二條的limit會導致SQL的索引命中變差，效率同樣也會下降。第一條SQL的執(zhí)行時間是2毫秒，第二條執(zhí)行時間5毫秒（我取的平均值）。每次數(shù)據(jù)的查詢速度直接從35秒降到2毫秒……
數(shù)據(jù)量太大并且數(shù)據(jù)無法預估，某些特殊數(shù)據(jù)會導致數(shù)據(jù)導入失??；
我們有三種方案去將新數(shù)據(jù)存入新表，分別如下：

一條一條插入數(shù)據(jù)；
開始肯定會想這種方案一定不行，因為每次插入都會有一次數(shù)據(jù)庫IO操作。但是該方案有個好處是能及時發(fā)現(xiàn)有問題的數(shù)據(jù)，修改后再繼續(xù)執(zhí)行；在Oracle中使用『綁定變量』能帶來性能提升，正好MySQL也提供了『綁定變量』的功能。于是在不改變邏輯的情況下，嘗試優(yōu)化數(shù)據(jù)存儲速度。代碼如下：
```
public function actionTest(array $data)
{
 $mysqli = new mysqli("192.168.1.106", "username", "password", "test");
 $sql = "insert into table_name(name,identity) values (?,?)";

 $stmt = $connection->prepare($sql);
 $name = "";
 $identity = "";
 //使用綁定變量
 $stmt->bind_param("si", $name, $identity);
 foreach($data as $val)
 {
 $name = $val[name];
 $identity = $val[card_id];
 //執(zhí)行
 $stmt->execute();
 }
 $stmt->close();
}
```
最后效果不怎么好，MySQL的『綁定變量』并沒帶來明顯的速度提升，不過能有效的防止SQL注入；
一次插入50000條數(shù)據(jù)；
這是我最后選中的方案，一是能及時發(fā)現(xiàn)有問題的數(shù)據(jù)，二是導入數(shù)據(jù)非常穩(wěn)定。就像支持斷點續(xù)傳一樣，每一步都能看到效果。在執(zhí)行腳本時，也能同步開始寫分析邏輯；
組裝成SQL文件，最后統(tǒng)一導入；
組裝一個大的SQL文件，最后通過MySQL自帶的工具導入也是極好的。但如果有一條SQL有問題，你可能需要重跑一次腳本。因為在9G大小的文本文件中修改一個符號是很痛苦的事情……