更新時(shí)間:2023-10-30 來源:黑馬程序員 瀏覽量:
(1)分布式的搜索引擎和數(shù)據(jù)分析引擎
搜索:百度,網(wǎng)站的站內(nèi)搜索,IT系統(tǒng)的檢索數(shù)據(jù)分析:電商網(wǎng)站,最近7天牙膏這種商品銷量排名前10的商家有哪些;新聞網(wǎng)站,最近1個(gè)月訪問量排名前3的新聞版塊是哪些分布式,搜索,數(shù)據(jù)分析
(2)全文檢索,結(jié)構(gòu)化檢索,數(shù)據(jù)分析
全文檢索:我想搜索商品名稱包含牙膏的商品,select * from products where product_name like "%牙膏%"結(jié)構(gòu)化檢索:我想搜索商品分類為日化用品的商品都有哪些,select * from products where category_id='日化用品'部分匹配、自動完成、搜索糾錯(cuò)、搜索推薦數(shù)據(jù)分析:我們分析每一個(gè)商品分類下有多少個(gè)商品,select category_id,count(*) from products group by category_id
(3)對海量數(shù)據(jù)進(jìn)行近實(shí)時(shí)的處理
分布式:ES自動可以將海量數(shù)據(jù)分散到多臺服務(wù)器上去存儲和檢索海量數(shù)據(jù)的處理:分布式以后,就可以采用大量的服務(wù)器去存儲和檢索數(shù)據(jù),自然而然就可以實(shí)現(xiàn)海量數(shù)據(jù)的。
處理了近實(shí)時(shí):檢索個(gè)數(shù)據(jù)要花費(fèi)1小時(shí)(這就不要近實(shí)時(shí),離線批處理,batch-processing);在秒級別對數(shù)據(jù)進(jìn)行搜索和分析跟分布式/海量數(shù)據(jù)相反的:lucene,單機(jī)應(yīng)用,只能在單臺服務(wù)器上使用,最多只能處理單臺服務(wù)器可以處理的數(shù)據(jù)量。
Elasticsearch 是通過 Lucene 的倒排索引技術(shù)實(shí)現(xiàn)比關(guān)系型數(shù)據(jù)庫更快的過濾。特別是它對多條件的過濾支持非常好,比如年齡在 18 和 30 之間,性別為女性這樣的組合查詢。