企業中文搜尋與管理解決方案的領導廠商龍捲風科技8月19日宣佈與微軟合作,發佈龍捲風MS中文搜尋系列產品,其中包含「龍捲風OCR IFilter增益集」與「龍捲風中文搜尋增益集」,可強化微軟Microsoft Office SharePoint Server(MOSS)中文字詞的搜尋能力,並針對圖檔文件進行文字或屬性的擷取,建立索引並可進一步進行檢索,同時提供符合中文搜尋特性的使用者介面。 龍捲風科技總經理賴政昌表示:『我們這次很榮幸與微軟合作,推出「龍捲風OCR IFilter增益集」與「龍捲風中文搜尋增益集」。我們都知道企業的資料,不外乎以電子資料與紙本資料這兩種類型最為常見,然而,企業在做資料搜尋時,絕大部分只能找尋到電子資料,卻遺漏了紙本資料的搜尋結果,往往只能浪費更多的人力與時間去尋找,營運效率隨而低落。再者,中文字的組合與定義,往往也會造成中文搜尋的困難。中文是有長久歷史及文化的方塊文字,在許多特性上與拉丁語系有顯著的差異,而這些特性嚴重影響了搜尋引擎的查詢效果。最後,中文字在OCR字元辨識上,由於方塊字體的複雜性,一般都只有60%左右的辨識率。因此在將紙本文件透過OCR轉換為可搜尋的數位內容時,往往會使得使用者無法搜尋到所需的資訊。而此次與微軟的合作,推出的「龍捲風OCR IFilter增益集」與「龍捲風中文搜尋增益集」,則可以大大的解決上述在中文搜尋中所遭遇的困難,提升MOSS中文搜尋的應用廣度與精準度。』 台灣微軟行銷經理盧昊表示:『我們很開心看到「龍捲風OCR IFilter增益集」與「龍捲風中文搜尋增益集」的推出,其對於紙本文件的擷取與搜尋,中文的字形、字音、字義檢索,整合為一套完善的解決方案,強化Microsoft Office SharePoint Server與Microsoft SQL Server 2005 Enterprise的中文搜尋成效。讓更多的企業用戶能夠方便迅速且精準的使用微軟產品,一直是微軟的目標與使命。微軟多家大型客戶,如趨勢科技等,已紛紛開始採用此一解決方案。因此台灣微軟很榮幸在此宣布與龍捲風科技的共同合作推出MS中文搜尋系列產品,期望可以帶給企業用戶更好的使用者經驗。』 龍捲風MS中文搜尋系列產品包含三項特色:一、強大的紙本資料辨識與搜尋:將紙本資料等圖形檔案進行文字或屬性的擷取並提供此資料以建立索引,待索引建立完畢後即可進行全文檢索,紙本資料的搜尋再也不漏失。二、精準的中文字詞搜尋:針對中文字形、音、義的特性,強化中文的檢索能力,提高中文字詞檢索與搜尋的精準度,讓搜尋效果更加倍。三、符合中文特性的人性化搜尋介面:提供符合中文搜尋特性的使用者介面,讓使用者不論是使用原本的搜尋機制與介面,或是使用龍捲風中文搜尋介面都能完整地搜尋到所需要的中文資料。欲了解更多關於「龍捲風OCR IFilter增益集」與「龍捲風中文搜尋增益集」產品資訊,請至龍捲風科技網站http://www.tornado.com.tw 。
龍捲風 OCR IFilter增益集 功能特色 ˙Tornado OCR iFilter 搜尋引擎在建立索引時,將會透過Tornado OCR IFilter對圖形檔案進行文字或屬性的擷取並提供此資料以建立索引,待索引都建立完畢後,即可用搜尋引擎進行全文檢索。因此,只要透過Tornado OCR iFilter解析圖形檔案內的文字,並建立索引,就能讓大部份的圖形檔案資料得以納入全文檢索的範圍內。 Tornado OCR iFilter在MOSS中所扮演的角色 ˙支援多種圖形檔案類型 OCR辯識支援PDF、BMP、JPEG、TIFF、GIF、PNG等六種檔案類型,Tornado OCR iFilter會擷取這些類型的檔案的文字部份,交給搜尋機制做建立索引之用。 ˙支援數種語系辨識 OCR辨識時所採用的語系,可為「繁體中文」、「簡體中文」、「英文」三種,使用者可依所需自行設定語系,但請注意同時只能採用一種語系 ˙支援三種辨識模式 進行OCR辯識時所採用的辨識模式,可為「Fast」、「Balanced」、「Full」三種,辨識速度以「Fast」最快,「Full」最慢;辨識品質以「Full」最佳,「Fast」最差。 龍捲風中文搜尋增益集 功能特色 ˙字詞搜尋彈性切換 拉丁文字由於詞與詞之間存有空白間隔,使得斷詞容易,但中文只有字而無詞的界線,因此斷詞效果的好壞往往取決於系統對詞彙的辨識能力與分析方式的精確度,相對也將影響到關鍵字所能查出的結果。龍捲風提供中文字詞彈性切換的方式,讓您在輸入字的同時也可找到詞,如:搜尋「蛙」可找到「青蛙」,此外也提供了準確的詞語搜尋能力,如:搜尋「個人電腦」不會找出「在電腦的世界中,每個人都是英雄」等意義不相關的句子。 ˙中文同音功能 中文字有許多可相互替代的詞彙或同音字。如:【台灣vs.臺灣】、【壹貳參vs.一二三】、【受信vs.授信】等等。透過龍捲風內建的「中文同音字庫」,可順利解決使用者只知發音而不確定正確字彙,或是臨時忘記字的困擾。 使用龍捲風中文搜尋增益集後,原本因輸入錯誤的「一般受信」,也可被正確地以「一般授信」找到符合的資料。 ˙中文同形容錯功能 中文字有許多看似相像但意義完全不同的字,如:【遠東 vs. 遠柬】、【掃描vs.埽描】。透過龍捲風內建的「中文同形字庫」,可順利解決使用者在透過輸入法或將傳真、紙本文件以OCR影像辨識後產生字形錯誤所帶來的困擾。 ˙文件內文的語系識別 一般來說,當文件內容包含二種以上的語系時,為文件標上語系是很困難的,但若無法標上合適的語系則易產生斷詞上的漏失,這使得使用者在輸入字詞時可能有找不到資料的困擾。因此若能增強內文語系識別的能力,將會在搜尋完整性上發揮最佳的成效。 ˙符合中文特性的人性化搜尋介面 依照中文搜尋特性與使用習性,龍捲風設計出一系列可自由置換的人性化搜尋介面,使用者可依照需求全系列使用或是自由組合搜尋介面,龍捲風提供的功能介面包括: 熱門關鍵字 將使用者所查詢的關鍵字記錄下來以統計熱門關鍵字,並可自訂熱門關鍵字的統計時間區間。 簡繁對譯 自動將使用者所輸入的關鍵字做簡體字和繁體字的轉換,供使用者再次利用轉換結果查詢。 輸入「警察」,轉換為「公安」。 輸入「光盤」,轉換為「光碟」。 建議詞 根據使用者輸入的關鍵字,提供其他建議的關鍵字。 概念延伸詞 以使用者輸入的關鍵字為基礎分別延伸出相關詞、同音詞、同義詞,並有相對頁面的呈現。 智慧型排序 通常大多數的使用者都期望看到具備自己輸入的關鍵字的搜尋結果能率先呈現。智慧型排序有別於傳統的排序方式,以使用者所輸入的關鍵字計算出每項搜尋結果的重要性依其排序。
- 新聞稿有效日期,至2008/09/24為止
聯絡人 :楊愷雯 聯絡電話:02- 2790-8831–303 電子郵件:christyyang@tornado.com.tw
上一篇:兩岸三地企業中文搜尋市場風雲再起,龍捲風科技五款系列產品連番出擊
下一篇:「2008高雄市創意設計大賽」北中南說明會 熱烈舉辦
|