導航:首頁 > 數據處理 > es元數據存儲在哪個模塊

es元數據存儲在哪個模塊

發布時間：2022-09-12 14:28:03

『壹』 Elasticsearch之存儲原理

倒排索引被寫入磁碟後是不可變的，ES解決不變性和更新索引的方式是使用多個索引，利用新增的索引來反映修改，在查詢時從舊的到新的依次查詢，最後來一個結果合並。

ES底層是基於Lucene，最核心的概念就是 Segment(段) ，每個段本身就是一個倒排索引。

ES中的Index由多個段的集合和 commit point(提交點) 文件組成。

提交點文件中有一個列表存放著所有已知的段，下面是一個帶有1個提交點和3個段的Index示意圖：

Doc會先被搜集到內存中的Buffer內，這個時候還無法被搜索到，如下圖所示：

每隔一段時間，會將buffer提交，在flush磁碟後打開新段使得搜索可見，詳細過程如下：

下面展示了這個過程完成後的段和提交點的狀態：

通過這種方式，可以使得新文檔從被索引到可被搜索間的時間間隔在數分鍾，但是還不夠快。因為磁碟需要 fsync ，這個就成為性能瓶頸。我們前面提到過Doc會先被從buffer刷入段寫入文件系統緩存（很快），那麼就自然想到在這個階段就讓文檔對搜索可見，隨後再被刷入磁碟（較慢）。

Lucene支持對新段寫入和打開，可以使文檔在沒有完全刷入硬碟的狀態下就能對搜索可見，而且是一個開銷較小的操作，可以頻繁進行。

下面是一個已經將Docs刷入段，但還沒有完全提交的示意圖：

我們可以看到，新段雖然還沒有被完全提交，但是已經對搜索可見了。

引入refresh操作的目的是提高ES的實時性，使添加文檔盡可能快的被搜索到，同時又避免頻繁fsync帶來性能開銷，依靠的就是文件系統緩存OS cache里緩存的文件可以被打開(open/reopen)和讀取，而這個os cache實際是一塊內存區域，而非磁碟，所以操作是很快的，這就是ES被稱為近實時搜索的原因。

refresh默認執行的間隔是1秒，可以使用 refreshAPI 進行手動操作，但一般不建議這么做。還可以通過合理設置 refresh_interval 在近實時搜索和索引速度間做權衡。

index segment刷入到os cache後就可以打開供查詢，這個操作是有潛在風險的，因為os cache中的數據有可能在意外的故障中丟失，而此時數據必備並未刷入到os disk，此時數據丟失將是不可逆的，這個時候就需要一種機制，可以將對es的操作記錄下來，來確保當出現故障的時候，已經落地到磁碟的數據不會丟失，並在重啟的時候可以從操作記錄中將數據恢復過來。elasticsearch提供了translog來記錄這些操作，結合os cached segments數據定時落盤來實現數據可靠性保證（flush）。

文檔被添加到buffer同時追加到translog：

進行 refresh 操作，清空buffer，文檔可被搜索但尚未 flush 到磁碟。translog不會清空：

每隔一段時間（例如translog變得太大），index會被flush到磁碟，新的translog文件被創建，commit執行結束後，會發生以下事件：

下面示意圖展示了這個狀態：

translog記錄的是已經 在內存生成(segments)並存儲到os cache但是還沒寫到磁碟的那些索引操作 （注意，有一種解釋說，添加到buffer中但是沒有被存入segment中的數據沒有被記錄到translog中，這依賴於寫translog的時機，不同版本可能有變化，不影響理解），此時這些新寫入的數據可以被搜索到，但是當節點掛掉後這些未來得及落入磁碟的數據就會丟失，可以通過trangslog恢復。

當然translog本身也是磁碟文件，頻繁的寫入磁碟會帶來巨大的IO開銷，因此對translog的追加寫入操作的同樣操作的是os cache，因此也需要定時落盤（fsync）。translog落盤的時間間隔直接決定了ES的可靠性，因為宕機可能導致這個時間間隔內所有的ES操作既沒有生成segment磁碟文件，又沒有記錄到Translog磁碟文件中，導致這期間的所有操作都丟失且無法恢復。

translog的fsync是ES在後台自動執行的，默認是每5秒鍾主動進行一次translog fsync，或者當translog文件大小大於512MB主動進行一次fsync，對應的配置是 index.translog.flush_threshold_period 和 index.translog.flush_threshold_size 。

當 Elasticsearch 啟動的時候，它會從磁碟中使用最後一個提交點去恢復已知的段，並且會重放 translog 中所有在最後一次提交後發生的變更操作。

translog 也被用來提供實時 CRUD 。當你試著通過ID來RUD一個Doc，它會在從相關的段檢索之前先檢查 translog 中最新的變更。

默認 translog 是每5秒或是每次請求完成後被 fsync 到磁碟（在主分片和副本分片都會）。也就是說，如果你發起一個index, delete, update, bulk請求寫入translog並被fsync到主分片和副本分片的磁碟前不會反回200狀態。

這樣會帶來一些性能損失，可以通過設為非同步fsync，但是必須接受由此帶來的丟失少量數據的風險：

flush 就是執行commit清空、幹掉老translog的過程。默認每個分片30分鍾或者是translog過於大的時候自動flush一次。可以通過flush API手動觸發，但是只會在重啟節點或關閉某個索引的時候這樣做，因為這可以讓未來ES恢復的速度更快(translog文件更小)。

滿足下列條件之一就會觸發沖刷操作：

整體流程：

刪除一個ES文檔不會立即從磁碟上移除，它只是被標記成已刪除。因為段是不可變的，所以文檔既不能從舊的段中移除，舊的段也不能更新以反映文檔最新的版本。

ES的做法是，每一個提交點包括一個 .del 文件（還包括新段），包含了段上已經被標記為刪除狀態的文檔。所以，當一個文檔被做刪除操作，實際上只是在 .del 文件中將該文檔標記為刪除，依然會在查詢時被匹配到，只不過在最終返回結果之前會被從結果中刪除。ES將會在用戶之後添加更多索引的時候，在後台進行要刪除內容的清理。

文檔的更新操作和刪除是類似的：當一個文檔被更新，舊版本的文檔被標記為刪除，新版本的文檔在新的段中索引。
該文檔的不同版本都會匹配一個查詢，但是較舊的版本會從結果中刪除。

通過每秒自動刷新創建新的段，用不了多久段的數量就爆炸了，每個段消費大量文件句柄，內存，cpu資源。更重要的是，每次搜索請求都需要依次檢查每個段。段越多，查詢越慢。

ES通過後台合並段解決這個問題。ES利用段合並的時機來真正從文件系統刪除那些version較老或者是被標記為刪除的文檔。被刪除的文檔（或者是version較老的）不會再被合並到新的更大的段中。

可見，段合並主要有兩個目的：

ES對一個不斷有數據寫入的索引處理流程如下：

合並過程如圖：

從上圖可以看到，段合並之前，舊有的Commit和沒Commit的小段皆可被搜索。

段合並後的操作:

合並完成後新的段可被搜索，舊的段被刪除，如下圖所示：

注意：段合並過程雖然看起來很爽，但是大段的合並可能會佔用大量的IO和CPU，如果不加以控制，可能會大大降低搜索性能。段合並的optimize API 不是非常特殊的情況下千萬不要使用，默認策略已經足夠好了。不恰當的使用可能會將你機器的資源全部耗盡在段合並上，導致無法搜索、無法響應。

『貳』 ES的存儲系統

ES 內嵌式存儲系統ES (內嵌式存儲系統（embedded storage，ES）)
內嵌式存儲系統（embedded storage，ES）,就是把存儲介質內嵌在伺服器中，就好比現在PC中的硬碟。
優點是安裝簡單，維護方便。
缺點是每個伺服器所能夠連接的存儲介質很有限，同時存儲容量和存取速度都受到伺服器性能的限制。內嵌式存儲系統的一個致使缺點是所存儲信息的安全性和可用性必須依賴伺服器，如果伺服器出現故障，其所存儲的信息將不可用。
所以說，內嵌式存儲系統是一個封閉的系統。

『叄』 elasticsearch數據存儲目錄data會存哪些信息

如果是默認配置的話，就是放在ES目錄下的data文件夾下
如果是默認配置的話，就是放在ES目錄下的data文件夾下

『肆』 es是什麼

Elasticsearch是一個基於Lucene的搜索伺服器。它提供了一個分布式多用戶能力的全文搜索引擎，基於RESTful web介面。Elasticsearch是用Java語言開發的，並作為Apache許可條款下的開放源碼發布，是一種流行的企業級搜索引擎。

Elasticsearch用於雲計算中，能夠達到實時搜索，穩定，可靠，快速，安裝使用方便。官方客戶端在Java、.NET（C#）、PHP、Python、Apache Groovy、Ruby和許多其他語言中都是可用的。根據DB-Engines的排名顯示，Elasticsearch是最受歡迎的企業搜索引擎，其次是Apache Solr，也是基於Lucene。

相關信息：

Elasticsearch可以用於搜索各種文檔。它提供可擴展的搜索，具有接近實時的搜索，並支持多租戶。Elasticsearch是分布式的，這意味著索引可以被分成分片，每個分片可以有0個或多個副本。每個節點託管一個或多個分片，並充當協調器將操作委託給正確的分片。

再平衡和路由是自動完成的。相關數據通常存儲在同一個索引中，該索引由一個或多個主分片和零個或多個復制分片組成。一旦創建了索引，就不能更改主分片的數量。

『伍』 elasticsearch數據存儲目錄data會存哪些信息

如果是默認配置的話，就是放在ES目錄下的data文件夾下如果是默認配置的話，就是放在ES目錄下的d

『陸』 Es Cluster 配置詳解

elasticsearch.yml 服務配置文件

參數：

配置es的集群名稱，默認是elasticsearch，es會自動發現在同一網段下的es，如果在同一網段下有多個集群，就可以用這個屬性來區分不同的集群。

設置默認索引分片個數，默認為5片。Since elasticsearch 5.x index level settings can NOT be set on the nodes configuration like the elasticsearch.yaml, in system properties or command line arguments.In order to upgrade all indices the settings must be updated via the /${index}/_settings API. Unless all settings are dynamic all indices must be closed

in order to apply the upgradeIndices created in the future should use index templates

to set default values.

Please ensure all required values are updated on all indices by executing:

curl -XPUT ' http://localhost:9200/_all/_settings?preserve_existing=true ' -d '{

"index.number_of_replicas" : "1",

"index.number_of_shards" : "7"

}'

設置默認索引副本個數，默認為1個副本。 5.X版本以上不支持在配置文件裡面配置。

節點名，默認隨機指定一個name列表中名字，該列表在es的jar包中config文件夾里name.txt文件中，其中有很多作者添加的有趣名字。

指定該節點是否有資格被選舉成為node，默認是true，es是默認集群中的第一台機器為master，如果這台機掛了就會重新選舉master。

指定該節點是否存儲索引數據，默認為trues

禁止自動創建索引

這個設置使刪除只限於特定名稱指向的數據，而不允許通過指定_all 或通配符來刪除指定索引庫。

設置配置文件的存儲路徑，默認是es根目錄下的config文件夾。

設置索引數據的存儲路徑，默認是es根目錄下的data文件夾，可以設置多個存儲路徑，用逗號隔開，例：
path.data:/path/to/data1,/path/to/data2

設置臨時文件的存儲路徑，默認是es根目錄下的work文件夾。

設置日誌文件的存儲路徑，默認是es根目錄下的logs文件夾

設置插件的存放路徑，默認是es根目錄下的plugins文件夾

設置為true來鎖住內存。因為當jvm開始swapping時es的效率會降低，所以要保證它不swap，可以把ES_MIN_MEM和ES_MAX_MEM兩個環境變數設置成同一個值，並且保證機器有足夠的內存分配給es。同時也要允許elasticsearch的進程可以鎖住內存，Linux下可以通過 ulimit-l unlimited 命令。

設置綁定的ip地址，可以是ipv4或ipv6的，默認為0.0.0.0。

設置其它節點和該節點交互的ip地址，如果不設置它會自動判斷，值必須是個真實的ip地址。

這個參數是用來同時設置bind_host和publish_host上面兩個參數。

設置節點間交互的tcp埠，默認是9300。

設置是否壓縮tcp傳輸時的數據，默認為false，不壓縮。

設置對外服務的http埠，默認為9200。

設置內容的最大容量，默認100mb

是否使用http協議對外提供服務，默認為true，開啟。

gateway的類型，默認為local即為本地文件系統，可以設置為本地文件系統，分布式文件系統，Hadoop的HDFS，和amazon的s3伺服器，其它文件系統的設置方法下次再詳細說。

設置這個集群中節點的數量，默認為2，一旦這N個節點啟動，就會立即進行數據恢復。

預期在群集中的主節點數。一旦預期的主節點數加入集群，就會開始恢復本地分片。默認為0

預期在群集中的數據節點數。一旦預期數量的節點已加入群集，就會啟動本地分片的恢復。默認為0

如果未達到預期的節點數，則恢復過程將等待配置的時間量，然後再嘗試恢復。
設置初始化數據恢復進程的超時時間，默認是5分鍾。

如果recover_after_time 持續時間超時，只要滿足以下條件，恢復就會開始：

設置集群中N個節點啟動時進行數據恢復，默認為1。意味著至少有一個節點，該集群才可用。
只要此許多數據或主節點已加入群集，即可恢復。

只要這么多主節點已加入群集，就可以恢復。

只要這么多數據節點已加入群集，就可以恢復。

初始化數據恢復時，並發恢復線程的個數，默認為4。

添加刪除節點或負載均衡時並發恢復線程的個數，默認為4。

設置數據恢復時限制的帶寬，如入100mb，默認為0，即無限制。

設置這個參數來限制從其它分片恢復數據時最大同時打開並發流的個數，默認為5。

設置這個參數來保證集群中的節點可以知道其它N個有master資格的節點。默認為1，對於大的集群來說，可以設置大一點的值（2-4）

設置集群中自動發現其它節點時ping連接超時時間，默認為3秒，對於比較差的網路環境可以高點的值來防止自動發現時出錯。

設置是否打開多播發現節點，默認是true。

設置集群中master節點的初始列表，可以通過這些節點來自動發現新加入集群的節點

『柒』如何用elasticsearch5.2實現全文索引

一、ElasticSearch是什麼？
ElasticSearch是一個基於Lucene的搜索伺服器。它提供了一個分布式多用戶能力的全文搜索引擎，基於RESTful web介面。Elasticsearch是用Java開發的，並作為Apache許可條款下的開放源碼發布，是第二流行的企業搜索引擎。能夠達到實時搜索，穩定，可靠，快速，安裝使用方便，零配置和完全免費。
我們先說說ES的基本概念。
1、索引(Index)
ES將數據存儲於一個或多個索引中，索引是具有類似特性的文檔的集合。類比傳統的關系型資料庫領域來說，索引相當於SQL中的一個資料庫，或者一個數據存儲方案(schema)。
索引由其名稱(必須為全小寫字元)進行標識，並通過引用此名稱完成文檔的創建、搜索、更新及刪除操作。一個ES集群中可以按需創建任意數目的索引。
2、類型(Type)
類型是索引內部的邏輯分區(category/partition)，然而其意義完全取決於用戶需求。因此，一個索引內部可定義一個或多個類型(type)。一般來說，類型就是為那些擁有相同的域的文檔做的預定義。
例如，在索引中，可以定義一個用於存儲用戶數據的類型，一個存儲日誌數據的類型，以及一個存儲評論數據的類型。類比傳統的關系型資料庫領域來說，類型相當於「表」。
3、文檔(Document)
文檔是Lucene索引和搜索的原子單位，它是包含了一個或多個域的容器，基於JSON格式進行表示。
文檔由一個或多個域組成，每個域擁有一個名字及一個或多個值，有多個值的域通常稱為「多值域」。每個文檔可以存儲不同的域集，但同一類型下的文檔至應該有某種程度上的相似之處。
4、映射(Mapping)
ES中，所有的文檔在存儲之前都要首先進行分析。用戶可根據需要定義如何將文本分割成token、哪些token應該被過濾掉，以及哪些文本需要進行額外處理等。
另外，ES還提供了額外功能，例如將域中的內容按需排序。事實上，ES也能自動根據其值確定域的類型。
5、集群(Cluster)
ES集群是一個或多個節點的集合，它們共同存儲了整個數據集，並提供了聯合索引以及可跨所有節點的搜索能力。
多節點組成的集群擁有冗餘能力，它可以在一個或幾個節點出現故障時保證服務的整體可用性。
集群靠其獨有的名稱進行標識，默認名稱為「elasticsearch」。節點靠其集群名稱來決定加入哪個ES集群，一個節點只能屬一個集群。
如果不考慮冗餘能力等特性，僅有一個節點的ES集群一樣可以實現所有的存儲及搜索功能。
6、節點(Node)
運行了單個實例的ES主機稱為節點，它是集群的一個成員，可以存儲數據、參與集群索引及搜索操作。
類似於集群，節點靠其名稱進行標識，默認為啟動時自動生成的隨機Marvel字元名稱。
用戶可以按需要自定義任何希望使用的名稱，但出於管理的目的，此名稱應該盡可能有較好的識別性。
節點通過為其配置的ES集群名稱確定其所要加入的集群。
7、分片(Shard)和副本(Replica)
ES的「分片(shard)」機制可將一個索引內部的數據分布地存儲於多個節點，它通過將一個索引切分為多個底層物理的Lucene索引完成索引數據的分割存儲功能，這每一個物理的Lucene索引稱為一個分片(shard)。
每個分片其內部都是一個全功能且獨立的索引，因此可由集群中的任何主機存儲。創建索引時，用戶可指定其分片的數量，默認數量為5個。
ES集群可由多個節點組成，各Shard分布式地存儲於這些節點上。
ES可自動在節點間按需要移動shard，例如增加節點或節點故障時。簡而言之，分片實現了集群的分布式存儲，而副本實現了其分布式處理及冗餘功能。
OK，上面把ES相關的基本概念及原理大致說明了下，那麼ES到底是怎麼實現全文檢索的呢？
Elasticsearch實現全文檢索，首先要確定分詞器，ES默認有很多分詞器，可參考官方文檔。了解分詞器主要是怎麼實現的。
一般中文分詞器使用第三方的ik分詞器、mmsegf分詞器和paoding分詞器，最初可能構建於lucene，後來移植於ES。目前我們在最新版的ES中，使用的是IK分詞。
安裝ik分詞器到elasticsearch很簡單，它有個插件目錄analysis-ik，和一個配置目錄ik, 分別拷貝到plugins和conf目錄就可以了。
當你有大量的文本數據時，ES均會將其進行分詞並將這些詞語保存在索引中，當輸入關鍵詞進行查詢時，索引就會起到作用，查找對應的相同的查詢詞，從而實現全文檢索。當然這個過程是很吃內存的哦。

『捌』在es資料庫里的數據還用在關系型資料庫里再存一份嗎

不用的，es也是有文件形式存在的，而且結構不同，你也存不了…

『玖』請問手機ES文件瀏覽器打開的根目錄是哪個存儲位置

那個sdcard是內存卡那個mnt點進去以後應該會有兩個文件夾一個是機身內存一個是內存卡

『拾』 elasticsearch數據存儲目錄data會存哪些信息

elasticsearch數據存儲目錄data會存哪些信息
如果是默認配置的話,就是放在ES目錄下的data文件夾下如果是默認配置的話,就是放在ES目錄下的data文件夾下

閱讀全文

與es元數據存儲在哪個模塊相關的資料

熱點內容

我們用什麼庫做文本數據處理發布：2024-05-19 08:46:05 瀏覽：727

非交易性權益工具投資是什麼發布：2024-05-19 08:25:26 瀏覽：435

美國的產品如何發布：2024-05-19 07:55:55 瀏覽：83

xch什麼時候開放幣幣交易發布：2024-05-19 07:54:18 瀏覽：953

在哪裡學ps技術最好發布：2024-05-19 07:47:52 瀏覽：44

碳交易首批納入的是什麼行業發布：2024-05-19 07:37:41 瀏覽：760

哪個股票交易軟體有股吧發布：2024-05-19 07:36:39 瀏覽：9

市場上大種獅子鵝多少錢一斤發布：2024-05-19 07:33:01 瀏覽：576

濟南的鋼材市場在哪裡發布：2024-05-19 07:27:27 瀏覽：43

滴滴出行如何開通城市代理發布：2024-05-19 06:36:12 瀏覽：241

測繪技術工程學什麼發布：2024-05-19 06:29:56 瀏覽：919

安信證券證券交易手續費是多少發布：2024-05-19 05:47:15 瀏覽：465

市場場景從哪些方面分析發布：2024-05-19 05:45:02 瀏覽：397

兩個蘋果手機怎麼轉移數據互轉發布：2024-05-19 05:44:16 瀏覽：646

期貨交易里一手是多少發布：2024-05-19 05:06:37 瀏覽：825

網站信息怎麼刪除發布：2024-05-19 05:05:14 瀏覽：370

互聯網信息服務提供者包括哪些人發布：2024-05-19 05:04:58 瀏覽：255

如何對齊兩列相同數據發布：2024-05-19 04:21:40 瀏覽：377

市場發展趨勢具體是什麼發布：2024-05-19 04:16:46 瀏覽：799

回力鞋代理怎麼樣發布：2024-05-19 04:16:42 瀏覽：830