學術堂首頁 | 文獻求助論文范文 | 論文題目 | 參考文獻 | 開題報告 | 論文格式 | 摘要提綱 | 論文致謝 | 論文查重 | 論文答辯 | 論文發表 | 期刊雜志 | 論文寫作 | 論文PPT
學術堂專業論文學習平臺您當前的位置:學術堂 > 圖書檔案學論文 > 搜索引擎論文

關于搜索引擎的研究

時間:2018-06-30 來源:電信網技術 作者:李岳夢 本文字數:7297字
  摘要:搜索引擎的出現, 把互聯網產品的技術水平提高到了一個新的高度。本文首先介紹搜索引擎技術的發展歷程, 其次簡要介紹了搜索引擎關鍵技術和產品;隨著移動終端智能化和互聯網用戶個性化以及社交化為中心的融合趨勢下的發展, 催生了很多新型應用。結合目前管理信息系統互聯網化的發展方向, 詳細介紹了搜索引擎在管理信息系統中的一整套應用案例。
  
  關鍵詞:搜索引擎; 搜索引擎技術; 搜索引擎產品; 搜索引擎在管理信息系統中案例; 搜索引擎發展趨勢;
  
  Discussion on search engine
  
  Abstract:The emergence of search engine takes the Internet product technology to a new level. This article first introduces the development of search engine technology, then introduces search engine's key technologies and products.With the intelligent mobile terminals, services users personalized services, and social network integration as the center of the trend, a lot of new applications have emerged. Combined with the development direction of the current management MIS system, this article introduces the application case of search engine in MIS system.
  
  Keyword:search engine; search engine technology; search engine product; search engine in management information system case; search engine development trend;

搜索引擎
  
  1、引言
  
  搜索引擎的誕生源自互聯網最根本的用途之一:信息獲取。
  
  在搜索引擎出現之前, 互聯網缺少入口, 用戶往往需要自己記住有用的網站和網頁。為了滿足這種需求, 最早的“搜索引擎”, 即分類目錄瀏覽式的引擎便出現了, Yahoo就是其中的代表。最初只是采用把一些有用的網站通過分類的方式手工組織起來, 便于用戶找到有用的信息。能夠手工組織也是基于早年整個互聯網的網站數量也非常少, 可以通過人工方式實現組織。
  
  隨著互聯網的壯大, 網頁網站數量越來越多, 手工組織的方式變為不可行, 于是由機器實現的全文檢索引擎便出現了。用戶可以通過關鍵字查詢來獲取相關的網頁。又隨著網頁數量的不斷增多, 任何關鍵字查詢都會返回大量的相關網頁, 如果對網頁進行評分和排序, 返回給用戶真正有價值的網頁便成為重點。基于網頁之間的鏈接關系為網頁進行評分, 成為很多搜索引擎的網頁排序算法基礎, Google的Page Rank算法便是其中的代表者。
  
  Google也以此為基礎成為搜索引擎產品中的領先者, 為用戶提供了更好的搜索結果相關性。現代搜索引擎基本上也由此基本成型, 雖然后來的技術創新和改進很多, 但主要的思路基本上沒有變。
  
  搜索引擎發展到今天, 基礎架構和算法在技術上都已經基本成型和成熟。搜索引擎已經發展成為根據一定的策略、運用特定的計算機程序從互聯網上搜集信息, 在對信息進行組織和處理后, 為用戶提供檢索服務, 將用戶檢索相關的信息展示給用戶的系統。
  
  2、搜索引擎技術
  
  搜索引擎所涉及和涵蓋的技術范圍非常廣, 涉及到了系統架構和算法設計等許多方面。可以說由于搜索引擎的出現, 把互聯網產品的技術水平提高到了一個新的高度;搜索引擎無論是在數據和系統規模, 還是在算法技術的研究應用深度上, 都遠超之前簡單的互聯網產品。
  
  搜索引擎涉及的關鍵技術點包含:爬蟲 (Crawling) 、索引結構 (Inverted Index) 、檢索模型 (VSM&TF-IDF) 、搜索排序 (Relevance Ranking&Evaluation) 、鏈接分析 (Link Analysis) 、分類 (Document&Query Classification) 、自然語言處理 (NLP:Tokenization, Lemmatization, POS Tagging, NER, etc.) 、分布式系統 (Distributed Processing&Storage) .
  
  雖然搜索引擎涉及的技術方方面面, 但歸結起來最關鍵的幾點在于:
  
  ●系統:大規模分布式系統, 支撐大規模的數據處理容量和在線查詢負載。
  
  ●數據:數據處理和挖掘能力。
  
  ●算法:搜索相關性排序、查詢分析、分類等。
  
  由此可見搜索引擎系統是一個由許多模塊組成的復雜系統, 核心模塊通常包括爬蟲、索引、檢索和排序, 除了必需的核心模塊之外, 通常還需要一些支持輔助模塊, 常見的有鏈接分析、去重、反垃圾、查詢分析等。搜索引擎中各關鍵功能模塊功能簡介如下:
  
  (1) 爬蟲:從互聯網爬取原始網頁數據, 存儲于文檔知識庫服務器。
  
  (2) 文檔知識庫服務器:存儲原始網頁數據, 通常是分布式Key-Value數據庫, 能根據URL/UID快速獲取網頁內容。
  
  (3) 索引:讀取原始網頁數據, 解析網頁, 抽取有效字段, 生成索引數據。索引數據的生成方式通常是增量的, 分塊/分片的, 并會進行索引合并、優化和刪除。生成的索引數據通常包括:字典數據、倒排表、正排表、文檔屬性等。生成的索引存儲于索引服務器。
  
  (4) 索引服務器:存儲索引數據, 主要是倒排表, 通常是分塊、分片存儲, 并支持增量更新和刪除。數據內容量非常大時, 還根據類別、主題、時間、網頁質量劃分數據分區和分布, 更好地服務在線查詢。
  
  (5) 檢索:讀取倒排表索引, 響應前端查詢請求, 返回相關文檔列表數據。
  
  (6) 排序:對檢索器返回的文檔列表進行排序, 基于文檔和查詢的相關性、文檔的鏈接權重等屬性。
  
  (7) 鏈接分析:收集各網頁的鏈接數據和錨文本 (Anchor Text) , 以此計算各網頁鏈接評分, 最終會作為網頁屬性參與返回結果排序。
  
  (8) 網頁去重:提取各網頁的相關特征屬性, 計算相似網頁組, 提供離線索引和在線查詢的去重服務。
  
  (9) 網頁反垃圾:收集各網頁和網站歷史信息, 提取垃圾網頁特征, 從而對在線索引中的網頁進行判定, 去除垃圾網頁。
  
  (10) 查詢分析:分析用戶查詢, 生成結構化查詢請求, 指派到相應的類別、主題數據服務器進行查詢。
  
  (11) 頁面描述/摘要:為檢索和排序完成的網頁列表提供相應的描述和摘要。
  
  (12) 前端:接受用戶請求, 分發至相應服務器, 返回查詢結果。
  
  3、搜索引擎產品介紹
  
  搜索引擎產品其實包括很多種類, 并不限于我們最熟悉的全網搜索引擎。具體包含如下幾種:
  
  ●全網搜索:包括市場份額最高的幾大搜索引擎巨頭, 如Google、Yahoo、Bing.
  
  ●中文搜索:在中文搜索市場中, 百度一家獨大, 其他幾家如搜狗、搜搜、有道的市場份額相對還比較小。全網搜索和中文搜索屬于傳統的搜索引擎, 它們經過了十幾年的發展, 目前在技術和產品上都已走向逐漸穩定和成熟, 通用搜索的市場也基本進入飽和, 不像早些年一直呈現高增長率。
  
  ●垂直搜索:傳統搜索引擎穩定成熟的同時, 在各個垂直領域, 也出現了很多和產品結合得很好的垂直搜索產品, 比如淘寶的購物搜索、大眾點評的美食搜索、去哪兒和酷訊的旅游搜索等, 也都在各自領域占據了相當大的市場, 成為除了通用搜索引擎之外的重要的用戶入口。
  
  ●問答搜索:專注于為問句式提供有效的答案, 比如Ask.com;其他的如問答社區像Quora和國內的知乎, 應該也會往這方面發展。
  
  ●知識搜索:典型代表就是Wolfram Alpha, 區別于提供搜索結果列表, 它會針對查詢提供更詳細的整合信息。
  
  ●云搜索平臺:為其他產品和應用提供搜索服務托管平臺 (Saa S或是Paa S) , Amazon剛剛推出它的Cloud Search, Index Tank在被Linkedin收購之前也是做這項服務的。
  
  ●其他:比如Duck Duck Go, 主打隱私保護, 也有部分用戶買賬。
  
  各種搜索產品在各自領域都需要解決特定的技術和業務問題, 所以也可以建立相對通用搜索的優勢, 來得到自己的市場和用戶。在開源領域, 各種開源產品和解決方案也逐漸發展成熟, 通用搜索技術不再為大公司所專有, 中小企業能夠以較低的成本實現自己的搜索應用。現在搜索引擎產品之間的競爭更多的在數據、應用方式和產品形態上, 在系統架構和基本算法上區分并不大。
  
  搜索引擎在未來發展上, 一是搜索將不僅僅以獨立產品的形式出現, 更多的會作為搜索功能整合到更多的產品和應用中。在產品形態上, 基于傳統的搜索引擎, 會演化出像推薦引擎、知識引擎、決策引擎等形式的產品, 更好地滿足和服務用戶需求。而搜索引擎所涉及和發展起來的各種技術, 會更廣泛地應用到各種其他產品上, 比如自然語言處理、推薦和廣告、數據挖掘等。
  
  總之, 搜索引擎對互聯網技術和產品帶來的影響是巨大的, 未來也仍將有很大的發展和應用空間。
  
  4、搜索引擎未來發展的趨勢
  
  搜索引擎的快速發展就是近15年發生的, 這與互聯網的發展趨勢密切相關。最近幾年, 互聯網在經過了Web2.0的市場培育階段后, 迎來了以互聯網用戶的個性化和社交化為中心的趨勢。同時, 移動設備的逐漸流行及兩大趨勢的融合, 催生了很多新型應用, 為了迎接和順應這種趨勢, 對搜索引擎來說, 也產生了新的挑戰。
  
  (1) 社會化搜索
  
  隨著Facebook的流行, 社交網絡平臺和應用占據了互聯網的主流, 社交網絡平臺強調用戶之間的聯系和交互, 這對傳統的搜索技術提出了新的挑戰。
  
  傳統搜索技術強調搜索結果和用戶需求的相關性, 社會化搜索除了相關性外, 還額外增加了一個維度, 即搜索結果的可信賴性。對某個搜索結果, 傳統的結果可能成千上萬, 但如果處于用戶社交網絡內其他用戶發布的信息、點評或驗證過的信息則更容易信賴, 這是與用戶的心里密切相關的。社會化搜索為用戶提供更準確、更值得信任的搜索結果。
  
  國外的Dogpile等元搜索引擎能夠得到發展和壯大, 主要得益于國外傳統搜索過多, 并且企業實現共贏的理念, 但在國人思考的是如何把所有資源都掌握在自己手中, 百度、Google、Yahoo是不會看著自己在未來發展中落伍, 成為跟潮人, 現在這幾家都在不斷豐富自己的產品線, 并且觸及社會化搜索, 來保證自己在這個行業中的地位。
  
  (2) 實時搜索
  
  隨著微博的個人媒體平臺興起, 對搜索引擎的實時性要求日益增高, 我想這也是搜索引擎未來的一個發展方向。
  
  實時搜索最突出的特點是時效性強, 越來越多的突發事件首次發布在微博上, 實時搜索核心強調的就是“快”, 用戶發布的信息第一時間能被搜索引擎搜索到。
  
  不過在國內, 實時搜索由于各方面的原因無法普及使用, 比如Google的實時搜索是被重置的, 百度也沒有明顯的實時搜索入口。
  
  (3) 移動搜索
  
  隨著智能手機的快速發展, 基于手機的移動設備搜索日益流行, 但移動設備有很大的局限性, 比如屏幕太小, 可顯示的區域不多, 計算資源能力有限, 打開網頁速度很慢, 手機輸入繁瑣等問題都需要解決。
  
  目前, 隨著智能手機的快速普及, 移動搜索一定會更加快速的發展, 所以移動搜索的市場占有率會逐步上升, 而對于沒有移動版的網站來說, 百度也提供了“百度移動開放平臺”來彌補這個缺失。
  
  (4) 個性化搜索
  
  個性化搜索主要面臨兩個問題:如何建立用戶的個人興趣模型?在搜索引擎里如何使用這種個人興趣模型?
  
  個性化搜索的核心是根據用戶的網絡行為, 建立一套準確的個人興趣模型。而建立這樣一套模型, 就要全民收集與用戶相關的信息, 包括用戶搜索歷史、點擊記錄、瀏覽過的網頁、用戶E-mail信息、收藏夾信息、用戶發布過的信息、博客、微博等內容。比較常見的是從這些信息中提取出關鍵詞及其權重。
  
  為不同用戶提供個性化的搜索結果, 是搜索引擎總的發展趨勢, 但現有技術有很多問題, 比如個人隱私的泄露, 而且用戶的興趣會不斷變化, 太依賴歷史信息, 可能無法反映用戶的興趣變化。
  
  (5) 地理位置感知搜索
  
  目前, 很多手機已經有GPS的應用了, 這是基于地理位置感知的搜索, 而且可以通過陀螺儀等設備感知用戶的朝向, 基于這種信息, 可以為用戶提供準確的地理位置服務以及相關搜索服務。目前, 此類應用已經大行其道, 比如手機地圖APP.
  
  (6) 跨語言搜索
  
  這方面做得最好的是Google, Google目前已經能提供多種語言之間的跨語言搜索, 比如搜索“麻省理工”, 排在第一位的則是麻省理工學院的主頁。
  
  如何將中文的用戶查詢翻譯為英文查詢, 目前主流的方法有3種:機器翻譯、雙語詞典查詢和雙語語料挖掘。對于一個全球性的搜索引擎來說, 具備跨語言搜索功能是必然的發展趨勢, 而其基本的技術路線一般會采用查詢翻譯加上網頁的機器翻譯這兩種技術手段。
  
  (7) 多媒體搜索
  
  目前, 搜索引擎的查詢還是基于文字的, 即使是圖片和視頻搜索也是基于文本方式。那么未來的多媒體搜索技術則會彌補查詢這一缺失。多媒體形式除了文字, 主要包括圖片、音頻、視頻。
  
  多媒體搜索比純文本搜索要復雜許多, 一般多媒體搜索包含4個主要步驟:多媒體特征提取、多媒體數據流分割、多媒體數據分類和多媒體數據搜索引擎。
  
  例如圖片搜索, 一般的步驟為:第一步, 縮小尺寸;第二步, 簡化色彩;第三步, 計算平均值;第四步, 比較像素的灰度;第五步, 計算哈希值 (詳情可參見Google圖片搜索的原理一文) .
  
  (8) 情境搜索
  
  情境搜索是融合了多項技術的產品, 上面介紹的社會化搜索、個性化搜索、地點感知搜索等都是支持情境搜索的, 目前Google在大力提倡這一概念。
  
  所謂情境搜索, 就是能夠感知人與人所處的環境, 針對“此時此地此人”來建立模型, 試圖理解用戶查詢的目的, 根本目標還是要理解人的信息需求。比如某個用戶在蘋果專賣店附近發出“蘋果”這個搜索請求, 基于地點感知及用戶的個性化模型, 搜索引擎就有可能認為這個查詢是針對蘋果公司的產品, 而非對水果的需求。
  
  5、搜索引擎在應用系統中的應用現狀
  
  伴隨應用系統 (例如OA系統) 的規模正在不斷擴大, 在互聯網上得到了成熟穩定發展的搜索引擎技術可以大大提高應用系統的辦公使用效率。
  
  5.1 重點關注的功能需求
  
  搜索引擎在管理信息系統中的部署關注以下幾點的功能需求:
  
  ●通過整合多種數據源, 提供統一的搜索服務, 達到促進廣泛的信息交流和知識共享的目的, 實現跨系統、平臺、應用、地域之間以及互聯網信息的整合。
  
  ●提供統一、安全的信息檢索接口系統, 為所有結構化、非結構化的數據提供標準的數據源輸出接口功能。
  
  ●處理各種類型的文檔, 并實現全文檢索。
  
  ●保證信息檢索的迅速、準確, 提供高并發率的處理能力。
  
  ●系統提供關鍵的維護、管理、控制和監測功能, 采用統一的方式, 通過集中監控管理模塊與所有搜索服務進行通訊;同時, 提供圖形化的管理界面, 使系統管理員能夠對所有模塊 (或服務) 進行本地或遠程管理操作。
  
  ●系統支持負載均衡和高可用性, 支持建立分布式的內部數據索引, 并實現對搜索服務器的集群化部署, 支持水平靈活擴展。
  
  5.2 建議包含的主要功能
  
  搜索系統將提供高效率的搜索功能, 用戶通過在單一搜索界面上的操作, 可以在最短時間內, 完整、準確、及時地得到所需信息。建議主要包括以下功能:
  
  (1) 提供信息的全文檢索
  
  檢索范圍除各類文件、信息等的要素、關鍵字以外, 提供包括文件正文內容和附件內容在內的全文檢索功能, 以滿足用戶對文件檢索的要求。
  
  (2) 支持各類文件格式
  
  支持HTML、PDF、ASCIIText、XML、MS Office格式 (Word、Power Point、Excel) 、壓縮文件格式 (Zip、Gzip、Tar) 等格式的檢索。
  
  (3) 兼容各類數據源系統
  
  可以采集、處理和索引的信息系統包括:網站 (HTML、J2EE、ASP、NET、PHP) 、文件系統 (Windows、Linux、Unix) 、數據庫 (Oracle、SQL Server、DB2、Sybase、My SQL) 、公文流轉和郵件系統、門戶系統等, 以保證增加和更新的文檔能夠及時地被搜索到, 刪除的文檔及時地從索引平臺中去除。增量索引支持可調度模式。增量索引時, 應不影響搜索。
  
  (4) 減少檢索功能對各系統的影響
  
  搜索系統與各系統采用松耦合的集成方式, 選擇在非工作時間更新數據庫索引, 從而避免在文件、信息生成時同步數據各系統帶來不利影響。
  
  (5) 具備良好的系統擴展性與靈活性
  
  通過搜索系統的建立, 將對各類管理信息提供統一的檢索。同時, 能夠靈活擴展, 快速、簡便地與各類新數據源系統進行檢索集成。
  
  (6) 搜索結果集的相關性排序
  
  平臺支持將檢索結果按相關度排序后交付給用戶, 以適應不同應用。
  
  (7) 支持搜索結果的個性化定制和動態更新
  
  搜索系統可以根據用戶個人的需要進行個性化定制搜索。
  
  (8) 結合權限進行采集和搜索
  
  5.3 搜索引擎在應用平臺中的技術架構
  
  搜索引擎在應用平臺上的技術架構總體上可以劃分為門戶、數據同步、語言處理、業務處理、系統調度、搜索服務、數據反饋、統計分析、運營維護、系統管理等十大模塊, 各模塊之間在功能上相對獨立, 業務上又相互聯系相互支撐, 共同協作從而實現了搜索引擎應用平臺的整體服務架構。基于對業務需求的分析, 搜索系統的技術架構如圖1所示。
  
  門戶模塊主要涵蓋了門戶、對外接口服務、對內接口服務、第三方開發接口、API等功能。
  
  數據同步模塊支持OA數據、關系形數據、文檔形數據、網絡數據爬取、論壇數據、知識庫等多種數據形式。該模塊是搜索引擎平臺數據獲取模塊, 通過數據同步將其他業務系統中的數據作為數據源提供給搜索引擎應用平臺。
  
  語言處理模塊:主要功能包括分詞、糾錯、轉換、擴展及詞庫學習等。
  
  業務處理模塊:主要提供對搜索請求及業務數據的處理, 包括搜索任務封裝、結果過濾、數據關聯、編審支撐、缺失計算、數據排重等功能。
  
  系統調度模塊:提供了負載均衡、分布緩存、任務分配、數據分析、數據處理、數據存儲、數據備份、任務監控等功能, 主要負責將用戶的查詢任務進行分析、搜索結果進行緩存, 并監控管理整個搜索周期。
  
  搜索引擎模塊:提供數據索引的創建和管理、分布式存儲、任務處理、語義分析、數據分類、搜索、排序、監控及日志等功能。

搜索引擎技術架構圖
  
  統計分析模塊:包括熱詞統計、趨勢統計、訪問量統計、業務統計、排行榜、性能統計等。主要提供搜索應用平臺各項數據的統計分析服務。
  
  運營維護模塊:包括詞庫管理、排序管理、數據管理、同步管理、過濾管理、抓取管理等。主要提供運營業務系統的管理和配置服務。
  
  系統管理模塊:包括接口管理、權限管理、日志管理、安全管理、備份管理等。主要提供系統的基本管理及安全審計服務。
  
  6、結束語
  
  綜上所述, 搜索引擎技術在移動終端智能化和互聯網用戶個性化以及社交化為中心的融合趨勢下的發展, 催生了很多新型應用。搜索引擎技術的發展直接推動了互聯網技術的迅速發展和互聯網+應用的擴展, 伴隨著管理信息系統和業務應用系統的互聯網化, 搜索引擎技術將廣泛地應用于管理信息系統和業務應用系統中。本文結合搜索引擎在管理信息系統中的應用給大家提供了一個實用方案, 可供參考。
    李岳夢.搜索引擎淺談[J].電信網技術,2018(04):76-81.
    相近分類:
    • 成都網絡警察報警平臺
    • 公共信息安全網絡監察
    • 經營性網站備案信息
    • 不良信息舉報中心
    • 中國文明網傳播文明
    • 學術堂_誠信網站
    3的组三中奖规则