TRS全文數(shù)據(jù)庫(DataBaseServer)V.ppt
《TRS全文數(shù)據(jù)庫(DataBaseServer)V.ppt》由會員分享,可在線閱讀,更多相關(guān)《TRS全文數(shù)據(jù)庫(DataBaseServer)V.ppt(82頁珍藏版)》請在裝配圖網(wǎng)上搜索。
TRS全文數(shù)據(jù)庫TRSDatabaseServer6.1北京拓爾思信息技術(shù)股份有限公司,系統(tǒng)概述(1),TRSSERVER全文數(shù)據(jù)庫系統(tǒng)是由TRS公司開發(fā)的一個體系結(jié)構(gòu)先進、功能強大的面向文本數(shù)據(jù)的數(shù)據(jù)庫管理系統(tǒng),廣泛地用于各種信息數(shù)據(jù)庫、以及信息門戶的建設(shè)。TRS全文數(shù)據(jù)庫服務(wù)器的核心技術(shù)為全文檢索,全文數(shù)據(jù)庫=全文檢索+關(guān)系數(shù)據(jù)庫的基本關(guān)系特征+Native-XML數(shù)據(jù)庫特性;它為各種格式文檔的存儲、管理和檢索提供動力。它的主要功能和性能如下:1.“零”空間膨脹率(-10%至20%)。2.基于成本優(yōu)化的查詢算法(索引分區(qū)技術(shù),多線程并行運算技術(shù),面向全文檢索的Cache技術(shù)),使得G級數(shù)據(jù)庫查詢速度達到亞秒級,并支持大量并發(fā)用戶的同時訪問。3.提供分布式檢索和負(fù)載均衡集群服務(wù)器(TRSDatabaseCluster2.0),支持?jǐn)?shù)據(jù)庫一對多的單向鏡像,提高系統(tǒng)的并發(fā)訪問性能,在保證系統(tǒng)性能可用的情況下降低總的擁有成本。4.多線程設(shè)計,支持SMP體系結(jié)構(gòu)。5.支持跨平臺計算:支持NT4.0,Linux,SunSolaris,IBMAIX,HP-UX,CompaqTrueUnix,SGIIRIX,SCOUnix。6.除了提供規(guī)范的C/C++API外,還提供COM和JavaBeans組件,可以使用符合工業(yè)標(biāo)準(zhǔn)的開發(fā)工具進行快速開發(fā)(ASP和JSP)。7.支持Unicode(WCS2)。,系統(tǒng)概述(2),8.采用開放的數(shù)據(jù)存貯管理機制,通過TRSforRDBMSGateway,可以透明地連接oracle、db2、sqlserver、sybase和informix五個主流的數(shù)據(jù)庫管理系統(tǒng)。9.領(lǐng)先的中文信息處理技術(shù):內(nèi)嵌漢語自動分詞系統(tǒng),支持按詞索引、按字索引、按關(guān)鍵詞索引、二元組索引、字詞混合索引、詞根索引語言,大大提高檢索的準(zhǔn)確性和響應(yīng)時間。10.檢索信息快、準(zhǔn)而且全:允許使用文中的任意字、詞、句和片段進行檢索,提供了基于文獻內(nèi)容而不僅僅是文獻外部特征的全文檢索手段。TRS所提供的按詞和按用戶自定義關(guān)鍵詞進行索引和檢索,以及基于知識詞典的擴展檢索功能,滿足了特殊應(yīng)用領(lǐng)域的高查準(zhǔn)率和高查全率的要求。11.檢索功能強大:全方位檢索手段,提供了多達48種檢索運算符。包括外部特征與正文內(nèi)容的各種邏輯組合檢索、位置檢索、二次檢索、漸進檢索、歷史檢索、詞根檢索、大小寫敏感檢索、概念檢索、對檢索結(jié)果按與檢索表達式的相關(guān)性和重要性程度排序等。12.安全性好:具有系統(tǒng)級、數(shù)據(jù)庫級、記錄級和字段級四級安全控制機制。13.提供功能強大的TRS管理員工具:數(shù)據(jù)庫維護、數(shù)據(jù)庫的安全性控制、數(shù)據(jù)的完整性和一致性、數(shù)據(jù)庫備份和恢復(fù)、用戶管理等功能。,TRS全文數(shù)據(jù)庫由服務(wù)器、管理工具和開發(fā)接口三部分組成,體系結(jié)構(gòu),,TRSDatabaseServer/TRSDatabaseClusterTRSAdminTRSAPI(CAPI,Javabeans,ADO,.Net),Client/Server結(jié)構(gòu):,提供分布式檢索和負(fù)載均衡服務(wù),TRS全文數(shù)據(jù)庫集群服務(wù)器:,案例,TRSDatabase典型實施的案例:-人民網(wǎng)-新華社多媒體數(shù)據(jù)庫-CCTV音像資料庫-專利信息服務(wù)平臺-某部搜索引擎-IT168行業(yè)搜索引擎-電信114號碼百事通,實例一:人民網(wǎng)檢索,實例二:國家知識產(chǎn)權(quán)局專利檢索系統(tǒng)(審查員使用),實例二:國家知識產(chǎn)權(quán)局專利檢索系統(tǒng)(普通用戶使用),,實例三:新華社多媒體數(shù)據(jù)庫,安裝目錄結(jié)構(gòu)及作用啟動和關(guān)閉,TRS數(shù)據(jù)庫服務(wù)器,運行中文版MicrosoftWindowsNTServer4.0(ServicePack3)以上版本操作系統(tǒng)的小型機、服務(wù)器、工作站、Pentium及其兼容機。內(nèi)存【修訂006】1GB以上,建議使用4GB內(nèi)存。一個可用空間在1GB以上的獨立硬盤或分區(qū)用于安裝服務(wù)器。操作系統(tǒng)可使用的對換空間最好在1GB【#】以上局域網(wǎng)連接設(shè)備管理員工具和開發(fā)接口:以上外另支持2003和XP,服務(wù)器安裝環(huán)境環(huán)境,硬件及軟件環(huán)境,Unix(Solaris2.6/7,AIX4.3/5.1,HP-UX11.0;及以上)MicrosoftWindowsNT/2000/2003Linux2.4及以上內(nèi)存:1GB以上;建議使用4GB內(nèi)存。管理員工具和開發(fā)接口:以上外另支持2003和XP,服務(wù)器安裝環(huán)境環(huán)境,硬件及軟件環(huán)境,運行安裝介質(zhì)上setup.exe產(chǎn)生目錄:\TRS\TRSHOME安裝過程中需要-輸入產(chǎn)品的key-設(shè)定服務(wù)器缺省端口號-選擇將服務(wù)器登記到WindowsNT系統(tǒng)服務(wù)中-選擇服務(wù)器啟動方式等操作,圖形界面安裝步驟,產(chǎn)品KEY,,在[序列號]中輸入產(chǎn)品鍵值。產(chǎn)品鍵值是由廠家根據(jù)您的機器號生成的,所以這時您需要與廠家聯(lián)系,將上面對話框中顯示的機器號告訴廠家以獲得相應(yīng)的產(chǎn)品鍵值。,服務(wù)器網(wǎng)絡(luò)端口號,知識詞典和示例數(shù)據(jù)庫加載完成后,安裝程序顯示如圖所示的對話框,要求你輸入服務(wù)器的網(wǎng)絡(luò)端口號。默認(rèn)為8888,此時可以修改。,,登錄NT服務(wù)及選擇啟動方式,,,DOS命令安裝步驟,進入DOS命令安裝包所在目錄.執(zhí)行tdbinstall(安裝過程中需要)-是否安裝正式版本InstallTRSServerasformalproduction?-輸入產(chǎn)品鍵值InputPRODUCTKEY-輸入安裝目錄InputatargetdirforTRSServer-輸入服務(wù)器使用的網(wǎng)絡(luò)端口Inputportnumber-安裝程序提示,選擇啟動方式.,執(zhí)行update,作用:獲取UTF-8詞典方法:dos命令,進入介質(zhì)目錄upgrade.UTF8,執(zhí)行tdbupdate命令。,TRSServer目錄結(jié)構(gòu),TRSHome目錄,bin,system,dict,ibase,temp,,,,,,,,oem,,目錄結(jié)構(gòu)相關(guān)說明,bin:存放服務(wù)器所有可執(zhí)行程序、動態(tài)連接庫及版本信息文件。system:存放數(shù)據(jù)詞典、系統(tǒng)配置及KEY文件,該目錄下的文件是服務(wù)器的核心文件,不能破壞,否則服務(wù)器將無法正常啟動和運行。除配置文件以及KEY文件外,其他文件均由服務(wù)器自動維護。ibase:服務(wù)器存放數(shù)據(jù)庫的缺省目錄,包括數(shù)據(jù)庫的全部數(shù)據(jù)和索引。TRS允許用戶設(shè)置并使用其他的目錄來存儲數(shù)據(jù)庫。dict:存放服務(wù)器缺省的知識詞典及用戶定義的詞典。oem:主要用來存放為TRS系統(tǒng)配置的OEM產(chǎn)品。用于文本過濾。temp:系統(tǒng)的臨時文件公用區(qū)。,,,tdbhostid.exe:獲得安裝機器的ID,用于產(chǎn)生服務(wù)器運行時所必須的KEY。trsserver.exe/tdbshutdown.exe:啟動/關(guān)閉服務(wù)器的程序。tdbmaster.exe:服務(wù)器管理員-list:查看當(dāng)前登錄用戶的相關(guān)信息;-password:查看系統(tǒng)管理員(system)的口令tdbservice.exe:將TRS服務(wù)器作為一個NT服務(wù)時,用于管理該服務(wù)的命令行程序。tdbconsole.exe:將TRS服務(wù)器作為一個NT服務(wù)時,用于管理改服務(wù)的圖形界面程序,即TRS控制臺。,Bin目錄下系統(tǒng)命令,服務(wù)器的啟動/關(guān)閉(1),TRS服務(wù)器啟動后,占用TCP/IP的8888端口,用戶在啟動時可指定端口號(必須大于1024)。方法1:命令行直接啟動/關(guān)閉啟動:執(zhí)行trshome/bin/trsserver.exe[端口號]關(guān)閉:執(zhí)行trshome/bin/tdbshutdown.exe[端口號],,,服務(wù)器的啟動/關(guān)閉(2),方法2:命令行啟動/關(guān)閉做為NT系統(tǒng)服務(wù)的TRS服務(wù)器啟動:執(zhí)行trshome\bin\tdbservice–start關(guān)閉:執(zhí)行trshome/bin/tdbservice-stop前提條件:一:操作系統(tǒng)必須是WindowsNT/2000;二:在操作系統(tǒng)文件‘NT目錄\system32\drivers\etc\services’中已經(jīng)加入‘trsxxxx/tcp’這個服務(wù)端口;三:TRS服務(wù)器已經(jīng)作為NT系統(tǒng)服務(wù)進行了注冊。,,服務(wù)器的啟動/關(guān)閉(3),方法3:用TRS控制臺啟動/關(guān)閉作為NT系統(tǒng)服務(wù)的TRS服務(wù)器。啟動:在TRS控制臺的菜單中選取“啟動服務(wù)”功能。關(guān)閉:在TRS控制臺的菜單中選取“關(guān)閉服務(wù)”功能。方法4:在操作系統(tǒng)啟動時自動引導(dǎo)首先登記TRS服務(wù)到NT系統(tǒng)服務(wù)中,并將啟動方式設(shè)置為“自動”。每次重新啟動時,操作系統(tǒng)將自動啟動TRS服務(wù)器。,服務(wù)器升級,要求:(1)服務(wù)器升級包中包含的文件(參見手冊)必須放在同一目錄下。(2)在進行服務(wù)器升級前,注意先備份原來的數(shù)據(jù),然后關(guān)閉服務(wù)器。再運行安裝包下tdbupdate即可完成TRS服務(wù)器系統(tǒng)文件的自動更新。(3)如果所運行的tdbupdate處在服務(wù)器的bin目錄下,則只會進行數(shù)據(jù)詞典的更新,而不會進行服務(wù)器系統(tǒng)文件的復(fù)制。,小結(jié),,,必須記住產(chǎn)品序列號,可以備份SYSTEM\KEY文件。在使用TRS信息檢索系統(tǒng)之前,必須保證先啟動TRS服務(wù)器。掌握TRS服務(wù)器的啟動和關(guān)閉方法。熟悉TRS服務(wù)器的目錄結(jié)構(gòu)。,TRS管理員,作用安裝與卸載啟動與退出基本概念:TRS對象及對象屬性使用,,,管理員工具的作用,TRS管理員是TRS信息發(fā)布檢索系統(tǒng)的客戶端管理工具,主要用于對各種TRS對象進行管理、設(shè)計和維護等,并具備完整的檢索、瀏覽和維護功能。,,,安裝與卸載,軟件需求:中文WindowsNT/2000/2003/XP;TRS數(shù)據(jù)庫服務(wù)器;安裝:執(zhí)行安裝介質(zhì)中的setup.exe卸載從菜單選擇卸載程序進行目錄結(jié)構(gòu):\TRS\TRSAdmin\bin:存放可執(zhí)行文件、動態(tài)連接庫和幫助文件等。\TRS\TRSAdmin\Navigate:存放數(shù)據(jù)庫/視圖的導(dǎo)航文件。\TRS\TRSAdmin\Temp:存放TRS管理員執(zhí)行過程中生成的臨時文件。,,,啟動與退出,[前提條件]:TRS服務(wù)器處于啟動狀態(tài)雙擊桌面上“TRS管理員工具”圖標(biāo)輸入:TRS服務(wù)器地址端口號用戶帳號名口令字第一次進入用系統(tǒng)默認(rèn)管理員帳號名(system)和口令字(manager)登錄可退出登錄并用其他用戶的身份重新登陸,,用戶組用戶數(shù)據(jù)庫(數(shù)據(jù)庫字段)視圖(視圖字段)詞典文件格式,TRS基本概念:對象,用戶組,用戶組類似關(guān)系數(shù)據(jù)庫里的角色,是有共同權(quán)限的用戶群。組內(nèi)用戶繼承用戶組的所有權(quán)限,即:組內(nèi)用戶權(quán)限>=用戶組權(quán)限。TRS系統(tǒng)可支持多達65535個用戶/用戶組。系統(tǒng)安裝時,將自動創(chuàng)建兩個用戶組/用戶:administrator/system/和guest/pub。用戶組名與用戶組名之間,以及用戶組名與用戶名之間不能重復(fù)。創(chuàng)建用戶時如果沒有給用戶指定組,則默認(rèn)放在系統(tǒng)的匿名組中。,,,用戶,TRS具有獨立于操作系統(tǒng)的用戶管理機制。要訪問TRS系統(tǒng),必須首先申請一個用戶帳號。SYSTEM:system屬于Administraor組,是系統(tǒng)的超級用戶,不能修改名稱,不能被注銷,可由自己修改口令。PUB:PUB屬于Guest組,是公共用戶,不能修改名稱,不允許設(shè)置口令,能被System注銷,擁有登錄權(quán)限(CONNECT用戶)。,,,用戶級權(quán)限,用戶級權(quán)限對應(yīng)于用戶的類型。TRS系統(tǒng)有五種類型的用戶級權(quán)限:超級用戶(SYSTEM)系統(tǒng)數(shù)據(jù)庫管理員(DBA用戶組數(shù)據(jù)庫管理員(GDA)系統(tǒng)資源用戶(RESOURCE)系統(tǒng)登錄用戶(CONNECT)超級用戶只能是SYSTEM,在建用戶時不可選。,超級用戶SYSTEM所擁有的權(quán)限,維護系統(tǒng)配置。創(chuàng)建和注銷用戶組,維護所有用戶組的屬性。創(chuàng)建和注銷用戶,維護所有用戶的屬性。創(chuàng)建數(shù)據(jù)格式,維護數(shù)據(jù)格式的屬性。蘊涵系統(tǒng)數(shù)據(jù)庫管理員的所有權(quán)限。,,系統(tǒng)數(shù)據(jù)庫管理員(DBA)所擁有的權(quán)限不經(jīng)授權(quán)就可對系統(tǒng)中的所有數(shù)據(jù)庫、視圖以及詞典對象進行所有操作。(但不能創(chuàng)建用戶、用戶組、文件格式)蘊涵用戶組數(shù)據(jù)庫管理員的所有權(quán)限。用戶組數(shù)據(jù)庫管理員(GBA)所擁有的權(quán)限不經(jīng)授權(quán)就可對系統(tǒng)中與該用戶處在同一用戶組的用戶所擁有的所有數(shù)據(jù)庫、視圖,以及詞典對象進行所有操作。蘊涵系統(tǒng)資源用戶的所有權(quán)限。,,用戶級權(quán)限(1),系統(tǒng)資源用戶(RESOURCE)所擁有的權(quán)限有權(quán)在系統(tǒng)中創(chuàng)建數(shù)據(jù)庫、視圖,以及詞典對象。蘊涵系統(tǒng)登錄用戶的所有權(quán)限。系統(tǒng)登錄用戶(CONNECT)所擁有的權(quán)限有權(quán)登錄到系統(tǒng)中。經(jīng)過授權(quán),可對系統(tǒng)中其他用戶所擁有的數(shù)據(jù)庫、視圖,以及詞典對象進行相應(yīng)的操作。,,,用戶級權(quán)限(2),數(shù)據(jù)庫對象,創(chuàng)建、修改TRS數(shù)據(jù)庫對象加載數(shù)據(jù)庫記錄,掌握記錄入庫格式檢索數(shù)據(jù)庫,掌握檢索表達式的寫法維護數(shù)據(jù)庫對象,掌握數(shù)據(jù)庫的復(fù)制、記錄的復(fù)制、數(shù)據(jù)庫優(yōu)化等,數(shù)據(jù)庫,數(shù)據(jù)庫是TRS系統(tǒng)中的主要數(shù)據(jù)對象,它物理地存儲了用戶加載到系統(tǒng)中的所有數(shù)據(jù)資料。每個TRS系統(tǒng)可管理多達數(shù)十億個數(shù)據(jù)庫。數(shù)據(jù)庫實際上是一個數(shù)據(jù)表,表的每一行是一個數(shù)據(jù)記錄,每一列則是一個數(shù)據(jù)字段,行列的交叉點即為字段值。,,,數(shù)據(jù)庫規(guī)模,數(shù)據(jù)庫的規(guī)模主要指兩個方面:能夠容納的最大記錄數(shù)和數(shù)據(jù)庫文件的最大容量。如果是64位操作系統(tǒng),則最多可容納40多億條記錄。如果采用64位文件系統(tǒng),則單個文件的容量實際上沒有限制。另外,理論上TRS允許每個記錄的最大長度為256M字節(jié),每個字段值的最大長度為16M字節(jié)(如以ALONE方式存儲字段值的長度不受此限制)。但在實際中,如果一個記錄(或字段值)太長,會引起操作系統(tǒng)忙于虛擬內(nèi)存的交換,使機器性能急劇下降,所以系統(tǒng)人為地限制一個記錄的最大長度為機器物理內(nèi)存兆字節(jié)數(shù)的64的倍數(shù)(最小為1)兆字節(jié),如物理內(nèi)存為128M,則允許的最大記錄長度為2M字節(jié)。,數(shù)據(jù)庫對象的創(chuàng)建,【說明】必須是具有Resource權(quán)限的用戶才可以創(chuàng)建數(shù)據(jù)庫。進入創(chuàng)建數(shù)據(jù)庫對話框有三種方法:方法一:選擇“文件|新建”命令,在“新建”對話框里雙擊數(shù)據(jù)庫圖標(biāo);方法二:在對象管理窗口里切換到“數(shù)據(jù)庫”標(biāo)簽,然后按工具欄上的按鈕;方法三:在對象管理窗口里切換到“數(shù)據(jù)庫”標(biāo)簽,然后在對象管理框按鼠標(biāo)右鍵,出現(xiàn)菜單后選擇新建。【注】數(shù)據(jù)庫名稱必須填寫,數(shù)據(jù)庫級權(quán)限,數(shù)據(jù)庫權(quán)限、視圖權(quán)限和詞典權(quán)限統(tǒng)稱數(shù)據(jù)庫級權(quán)限。數(shù)據(jù)庫權(quán)限共有五種:記錄檢索權(quán)(SELECT):擁有這種權(quán)限的用戶,能夠?qū)?shù)據(jù)庫進行檢索操作。數(shù)據(jù)更新權(quán)(UPDATE):擁有這種權(quán)限的用戶,能夠?qū)?shù)據(jù)庫進行數(shù)據(jù)庫加載、記錄插入和修改操作。數(shù)據(jù)索引權(quán)(INDEX):擁有這種權(quán)限的用戶,能夠?qū)?shù)據(jù)庫的索引進行創(chuàng)建、刪除和驗證操作。數(shù)據(jù)庫結(jié)構(gòu)修改權(quán)(ALTER):擁有這種權(quán)限的用戶,能夠?qū)?shù)據(jù)庫的屬性及結(jié)構(gòu)進行修改操作,包括增加和刪除字段,以及修改字段的屬性。數(shù)據(jù)庫刪除權(quán)(DROP):擁有這種權(quán)限的用戶,能夠刪除數(shù)據(jù)庫。,,,數(shù)據(jù)庫屬性,數(shù)據(jù)庫存放的路徑:必須是系統(tǒng)配置中的數(shù)據(jù)和索引路徑之一,缺省為系統(tǒng)配置中的第一個數(shù)據(jù)。存放位置:有一類應(yīng)用:TRS系統(tǒng)只管理和維護索引,而數(shù)據(jù)存儲在其它系統(tǒng)中就是通過此項設(shè)置的。此項如果不為空,內(nèi)容是存儲服務(wù)器的有關(guān)信息的字符串,如“ORACLE”,則表明實際數(shù)據(jù)集中存儲在一個數(shù)據(jù)宿主服務(wù)器中,TRS系統(tǒng)只管理和維護索引。如果為空,則表明由TRS系統(tǒng)負(fù)責(zé)管理數(shù)據(jù)庫的數(shù)據(jù)存放的位置。缺省值為空。字符集和語言:客戶端支持三種字符集。數(shù)據(jù)庫支持15種語言的切詞。詞典:數(shù)據(jù)庫所用詞典,缺省為系統(tǒng)配置中的缺省分詞及停用詞典名。,,,詞典,TRS的全文檢索不單是一種快速的字串匹配系統(tǒng),要獲得良好的檢索效果,必須使用一系列知識詞典。詞典對象是TRS系統(tǒng)中非常重要的基礎(chǔ)資源,是按詞索引和檢索技術(shù)的根本依據(jù)。按用途劃分,TRS系統(tǒng)有八種類型的詞典:分詞詞典(SEGMENT)附加分詞詞典(SEGMENTEX)停用詞典(STOP)附加停用詞典(STOPEX)稀疏詞典(SPARSE)主題詞典(THESAURUS)同義詞典(SYNONYM)反義詞典(ANTONYM)其中,分詞詞典、附加分詞詞典、停用詞典、附加停用詞典和稀疏詞典是用來建立數(shù)據(jù)庫的索引并進行查詢的詞典,統(tǒng)稱為索引詞典;主題詞典、同義詞典和反義詞典是用于智能擴展檢索的詞典,統(tǒng)稱為輔助知識詞典。,,索引類型及索引策略,索引類型TRS系統(tǒng)有兩種類型的數(shù)據(jù)庫索引:B+樹索引和倒排(INVERT)索引。這兩種類型的索引相輔相成,互為補充。(詳見手冊)索引策略對于英文數(shù)據(jù)庫,TRS系統(tǒng)采用按詞索引的固定模式。對于中文數(shù)據(jù)庫,TRS系統(tǒng)則有四種類型的索引策略:按中文詞檢索的索引策略、按中文字檢索的索引策略、按用戶自定義關(guān)鍵詞的索引策略,以及二元組索引策略。另外5.0支持字段混合索引模式和詞根索引的語種的選擇。在實際應(yīng)用中,采用何種索引策略主要取決于數(shù)據(jù)的特點、檢索的需求和系統(tǒng)的資源等。不同的索引策略,所需的索引詞典也不盡相同。(見下頁),索引策略與詞典的關(guān)系,按詞索引策略,TRS內(nèi)嵌的漢語自動分詞系統(tǒng)是TRS的領(lǐng)先技術(shù),使得TRS在國內(nèi)外同類全文檢索系統(tǒng)中獨具特色。對大多數(shù)中文全文檢索應(yīng)用來說,按詞索引是首選的索引策略。(其余策略介紹詳見手冊)其中內(nèi)嵌的分詞系統(tǒng)是采用以詞典為基礎(chǔ)的分詞算法。分詞詞典用于漢語自動分詞,由若干個漢語詞匯組成,詞典中的英文詞匯不起作用。每部分詞詞典可容納多達10萬條詞匯,每個詞匯的最大長度為20個字節(jié),即10個漢字。TRS系統(tǒng)提供的缺省分詞詞典的每個詞匯具有語法屬性,以提高分詞的準(zhǔn)確性。用戶定義的分詞詞典或增加的詞匯則沒有屬性。該分詞詞典是經(jīng)過加密處理的,用戶可以瀏覽詞典的詞匯,但不能瀏覽其屬性。,數(shù)據(jù)庫字段(1),TRS數(shù)據(jù)庫有六種類型的字段:日期型(DATE);數(shù)值型(NUMBER);字符串型(CHAR)短語型(PHRASE);全文型(DOCUMENT);二進制型(BIT)我們可以對CHAR,DATE,NUMBER進行字段級檢索,對PHRASE和DOCUMENT進行全文檢索,但對BIT字段不進行檢索,系統(tǒng)規(guī)定BIT字段始終不建索引。所有的查詢操作都是在一定的字段上進行的。每個數(shù)據(jù)庫可定義1到1023個字段。,,,◎日期型字段(DATE)日期型字段只能用來存儲“年月日時分秒”這類表示日期的數(shù)據(jù)?!驍?shù)值型字段(NUMBER)數(shù)值型字段只能用來存儲整數(shù)或?qū)崝?shù)。對于實數(shù),可以限制其小數(shù)位的長度,在數(shù)據(jù)庫加載時將忽略多余的小數(shù)位數(shù)。整數(shù)或?qū)崝?shù)不能超出機器的單精度浮點數(shù)所能表示的范圍,可以使用科學(xué)計數(shù)法表示這些數(shù)據(jù)?!蜃址妥侄?CHAR)字符串型字段可以用來存儲任何形式的字符串。最大長度不能超過255個字符。,數(shù)據(jù)庫字段(2),◎短語型字段(PHRASE)可以用來存儲任何形式、任意長度的文本數(shù)據(jù),最適合作為“標(biāo)題”這樣的字段。短語型字段與字符串型字段的最大差別在于短語型字段支持自動分詞,而字符串型字段不支持自動分詞,其字段值整體是一個索引鍵值。主要特點:沒有長度限制;沒有缺省值;沒有取值范圍;不允許多值;加載時不進行字段值的唯一性檢查;加載時允許空值;允許建立索引;支持自動分詞,倒排索引屬性固定(只有位置);字段值必須是文本數(shù)據(jù);數(shù)據(jù)集中存儲。,,,數(shù)據(jù)庫字段(3),◎全文型字段(DOCMENT)既可以用來存儲任何形式、任意長度的文本數(shù)據(jù),也可以用來存儲其它格式類型的多媒體數(shù)據(jù)。全文型字段區(qū)別于短語型字段的關(guān)鍵所在有三點:1、全文型字段的數(shù)據(jù)有多種存儲方式。系統(tǒng)通常是集中存儲短語型字段字段的數(shù)據(jù),而分類存儲全文型字段的數(shù)據(jù),這樣有助于提高大規(guī)模數(shù)據(jù)庫的檢索結(jié)果的概覽(不包括全文型字段和二進制型字段)速度。2、全文型字段的字段值可以附加一個源格式數(shù)據(jù)。3、全文型字段的倒排索引屬性可以任意指定。綜合起來,這類字段的主要特點是:沒有長度限制;沒有缺省值;沒有取值范圍;不允許多值,但允許附加一個源格式數(shù)據(jù);加載時不進行字段值的唯一性檢查;加載時允許空值;允許建立索引;支持自動分詞,倒排索引屬性可任意定義;字段值可以是多媒體數(shù)據(jù);數(shù)據(jù)有多種存儲方式。,數(shù)據(jù)庫字段(4),◎二進制型字段可以用來存儲任何格式類型的多媒體數(shù)據(jù),主要特點是:沒有長度限制沒有缺省值沒有取值范圍允許多值加載時不進行字段值的唯一性檢查加載時允許空值不建立索引字段值可以是任何多媒體數(shù)據(jù)數(shù)據(jù)有多種存儲方式,數(shù)據(jù)庫字段(5),字段的混合索引模式,注意:混合模式只對具有“按詞”索引屬性的數(shù)據(jù)庫的PHRASE和DOCUMENT字段有效。全冗余模式:將公共部分分別在“按詞”和“按字”索引中各存一份。優(yōu)點是檢索時直接取各自的索引即可;缺點是索引空間膨脹大。半冗余模式:將公共部分只存儲在“按詞”的索引中。優(yōu)點是“按詞”檢索時可直接取“按詞”的索引即可,且索引空間膨??;缺點是“按字”檢索時要取“按字”的索引和“按詞”的索引進行合并,多一次“或”運算。零冗余模式:將公共部分單獨存儲。優(yōu)點是索引空間膨??;缺點是“按字”檢索時要取“按字”的索引和“按詞”的索引進行合并,多一次“或”運算,邏輯上,“按詞”檢索也多一次“或”運算。禁止詞模式:該字段按字索引。另外:若未指明混合索引模式,則該字段索引模式取決于數(shù)據(jù)庫。,詞根語言的支持,如果數(shù)據(jù)庫指明進行詞根索引,則所有的字母文字的單詞都要進行詞根處理。詞根索引語種就是用來指定數(shù)據(jù)庫中字母文字的語種,目前支持12種語言:英語、俄語、法語、西班牙語、葡萄牙語、意大利語、德語、荷蘭語、瑞典語、挪威語、丹麥語、芬蘭語。顯然當(dāng)一個字段中有多種字母文字時,就無法進行正確的詞根處理。如果不指明詞根索引語種,則系統(tǒng)將根據(jù)字母的種類默認(rèn)一個語種:拉丁字母默認(rèn)為英語;西里爾字母默認(rèn)為俄語。,允許多值:一條記錄的某字段可存多個值。PHRASE、DOCUMENT字段不允許多值。值唯一性:使用此屬性可除去重復(fù)記錄,僅對CHAR,DATE,NUMBER字段有效。禁止空值:該字段是否允許空值。僅對DATE、NUMBER、CHAR字段有效。索引屬性:BIT字段始終不建索引。DOCUMENT和PHRASE字段可設(shè)置混合索引和詞根語言的選擇。公共檢索:選中表示所有用戶均可對本數(shù)據(jù)庫字段進行檢索。,,,字段小結(jié),字段權(quán)限,字段級權(quán)限包括數(shù)據(jù)庫字段權(quán)限和視圖字段權(quán)限。字段級權(quán)限只有一種,即:字段檢索權(quán)(SELECT),擁有這種權(quán)限的用戶,能夠在該字段上進行檢索操作。練習(xí):1、創(chuàng)建自己的數(shù)據(jù)庫,理解不同字段的屬性和數(shù)據(jù)庫級權(quán)限。2、創(chuàng)建一個帶多值的數(shù)據(jù)庫,并在相關(guān)字段上做唯一性檢查。,,,數(shù)據(jù)庫記錄加載及數(shù)據(jù)入庫格式,數(shù)據(jù)庫建好以后,就可以把數(shù)據(jù)裝庫。數(shù)據(jù)裝庫有兩種方式:聯(lián)機錄入和批量數(shù)據(jù)加載兩種方式。聯(lián)機錄入:雙擊打開數(shù)據(jù)庫點擊‘記錄’菜單項?‘添加記錄’(見演示),批量數(shù)據(jù)加載,步驟:1、選定目標(biāo)數(shù)據(jù)庫。2、準(zhǔn)備加載文件。包括數(shù)據(jù)文件:格式見下圖。其中對于多媒體文件在DOCUMENT字段和BIT字段的加載有特殊的格式。數(shù)據(jù)文件實際上是由一個或多個記錄數(shù)據(jù)組成的TRS標(biāo)記文件,統(tǒng)稱為TRS格式文件。包括:標(biāo)準(zhǔn)格式、字段內(nèi)部標(biāo)識號標(biāo)記格式、字段順序號標(biāo)記格式、無字段標(biāo)記格式和全文格式。單個TRS格式文件的大小不能超過2G字節(jié)。TRS系統(tǒng)的數(shù)據(jù)加載,除了支持以上五種TRS格式外,還支持ISO2709和XML格式文件的直接入庫。(詳見手冊)控制文件:用來控制數(shù)據(jù)的加載過程的配置文件。(一般用默認(rèn)),創(chuàng)建數(shù)據(jù)文件,,TRS標(biāo)準(zhǔn)裝庫文件格式,數(shù)據(jù)記錄文件實際上是由一個或多個記錄數(shù)據(jù)組成的TRS置標(biāo)文本文件。每個記錄都以標(biāo)記“”開始,如下(其中n=字段值1……=字段值2……=字段值n……=字段值1……=字段值2……=字段值n……可以在寫字板中或者trs管理員工具中直接編輯。,日期數(shù)據(jù)書寫格式,日期的書寫格式有四種:通用格式:2001.07.1010:10:20AM2001/07/1010:10:20AM英文格式:07,10,200110:10:20AM07-10-200110:10:20AM無分隔符格式20010710101020AM中文格式2001年7月10日10時10分20秒上午,,,日期函數(shù),系統(tǒng)支持$DATE和$TIME特殊日期的入庫$DATE()取當(dāng)前日期$TIME()取當(dāng)前時間$DATE(+7)取當(dāng)前日期往后推七天的日期$DATE(-7)取當(dāng)前日期往前推七天的日期$TIME(+60)取當(dāng)前時間往后推60秒的時間$TIME(-60)取當(dāng)前時間往前推60秒的時間,,,多媒體格式文件的加載,多媒體數(shù)據(jù)可加載到Document字段和Bit字段格式如:=@c:\temp\test.doc^word=@c:\temp\test.xml^word=@c:\temp\test.jpg^jpeg【注】對文本格式和HTML(XML)格式的數(shù)據(jù)入庫后可以直接進行檢索。其他格式象word、pdf類型的數(shù)據(jù),需要使用后臺的OEM插件。(OEM配置見手冊),,,數(shù)據(jù)庫對象的修改,對某個數(shù)據(jù)庫做修改或刪除操作時必須具備相應(yīng)的權(quán)限才可以執(zhí)行。數(shù)據(jù)庫建立后,一般不應(yīng)對數(shù)據(jù)庫的結(jié)構(gòu)或者屬性進行修改。當(dāng)數(shù)據(jù)庫記錄不為空而確有必要修改時,可先把數(shù)據(jù)庫中數(shù)據(jù)存儲成裝庫格式文件,然后按要求建立新的數(shù)據(jù)庫后再把原始數(shù)據(jù)裝入,最后刪除原數(shù)據(jù)庫。,數(shù)據(jù)庫檢索,一般檢索實現(xiàn):在工具欄的輸入框里輸入檢索表達式。最常見的邏輯運算符(+-*^)和通配符(%,?):*:與;^:異或;-:非;+:或(具體見幫助)“?”表示一個英文字符或漢字,用“%”表示0到多個英文字符或漢字。建立和使用導(dǎo)航樹檢索通過建立導(dǎo)航分類樹進行分類檢索。高級檢索通過對話框生成復(fù)雜的檢索表達式檢索。,,,一般檢索例,輸入“中國*北京”表示在默認(rèn)字段(正文)查詢中國和北京同時出現(xiàn)的記錄。輸入“中華%”表示在默認(rèn)字段查詢出現(xiàn)“中華……”的記錄,這里%為通配符。輸入“日期>1997.01.01*作者=王%”表示查詢?nèi)掌跒?997年1月1日以后(不含)并且作者是姓王的記錄。輸入“作者=%國慶”將檢索出所有作者為“張國慶”、“歐陽國慶”、“國慶”等的記錄。輸入“作者=張%”將檢索出所有作者為“張國慶”、“張三”、“張”等的記錄。輸入“中國^北京”將檢索出默認(rèn)字段或者出現(xiàn)北京或者出現(xiàn)中國的紀(jì)錄,即兩個值只出現(xiàn)其一的紀(jì)錄。輸入“作者=張?慶”將檢索出所有作者為“張國慶”、“張大慶”等的記錄,而作者為“張慶”的記錄不會被檢索出來。,,,數(shù)據(jù)庫維護,索引維護由于非正常操作等原因,導(dǎo)致索引文件被破壞,不能進行檢索,需要重新對數(shù)據(jù)庫建索引。數(shù)據(jù)優(yōu)化對數(shù)據(jù)庫的數(shù)據(jù)文件和索引文件進行優(yōu)化重組。數(shù)據(jù)復(fù)制/恢復(fù)指兩個庫之間數(shù)據(jù)的復(fù)制。數(shù)據(jù)庫備份注意!在備份設(shè)備的提示框里可修改默認(rèn)備份的文件名,如:d:\trs\trshome\temp\Backup1.bak數(shù)據(jù)庫結(jié)構(gòu)備份/恢復(fù)選擇“文件”菜單“導(dǎo)入/導(dǎo)出”項。數(shù)據(jù)庫記錄的導(dǎo)入/導(dǎo)出打開數(shù)據(jù)庫記錄瀏覽窗口,選擇“文件”菜單->“另存為”。,,,視圖,視圖是TRS系統(tǒng)中的一種輔助數(shù)據(jù)對象。TRS系統(tǒng)支持對數(shù)據(jù)庫記錄和字段進行直接的授權(quán)機制來實現(xiàn)數(shù)據(jù)的安全保密性控制,但有時顯得有些煩瑣。通過視圖來限制某些用戶對數(shù)據(jù)庫字段和記錄的查詢,就可以用一種簡便的方式間接地完成對數(shù)據(jù)庫記錄和字段查詢權(quán)的控制。視圖實際上是一個邏輯數(shù)據(jù)表,它是邏輯地從一個或多個數(shù)據(jù)庫中抽取一個或多個字段并滿足指定條件的記錄。視圖并不物理地存儲數(shù)據(jù),只是描述了組成該視圖的數(shù)據(jù)所遵循的邏輯。每個TRS系統(tǒng)可管理多達數(shù)十億個視圖,每個視圖中可包含1到128個數(shù)據(jù)庫。,,,視圖字段及視圖權(quán)限,視圖字段類型(六種)DATE,NUMBER,CHAR,PHRASE,DOCUMENT,BIT,對視圖字段只有檢索權(quán)限。視圖權(quán)限(三種)◎記錄檢索權(quán)(SELECT):擁有這種權(quán)限的用戶,能夠?qū)σ晥D進行檢索操作?!蛞晥D結(jié)構(gòu)修改權(quán)(ALTER):擁有這種權(quán)限的用戶,能夠?qū)σ晥D的屬性及結(jié)構(gòu)進行修改操作,包括增加和刪除字段,以及修改字段的屬性。◎視圖刪除權(quán)(DROP):擁有這種權(quán)限的用戶,能夠刪除視圖練習(xí):在DEMO2數(shù)據(jù)庫上創(chuàng)建一個視圖,要求該視圖中只包括日期=1997.1的數(shù)據(jù)?,,,數(shù)據(jù)格式,數(shù)據(jù)格式用來說明多媒體數(shù)據(jù)的格式類型。在數(shù)據(jù)庫加載時,TRS系統(tǒng)將根據(jù)數(shù)據(jù)格式確定相應(yīng)的數(shù)據(jù)存儲方式,使用相應(yīng)的分詞方法;在數(shù)據(jù)輸出時,TRS系統(tǒng)將根據(jù)數(shù)據(jù)格式對數(shù)據(jù)進行相應(yīng)的處理,便于瀏覽。每個TRS系統(tǒng)可管理多達1023個數(shù)據(jù)格式對象。TRS系統(tǒng)在安裝時,將自動創(chuàng)建常用的數(shù)據(jù)格式對象。(見手冊)TRS系統(tǒng)允許用戶自己定義新的數(shù)據(jù)格式,或者修改已有的數(shù)據(jù)格式。數(shù)據(jù)格式一旦定義,就不允許刪除,所以必須謹(jǐn)慎,只有超級用戶(即SYSTEM用戶)有權(quán)創(chuàng)建新的數(shù)據(jù)格式。,,系統(tǒng)配置(1),系統(tǒng)路徑:在建庫時,庫及詞典相關(guān)的存放路徑。最大排序:支持的檢索結(jié)果最大排序數(shù)。物理內(nèi)存:服務(wù)器的物理內(nèi)存總量,以兆字節(jié)計算。最長空閑:允許一個用戶實例(TRS系統(tǒng)為每一次登錄都分配一個獨立的許可證)最長的空閑時間。以分計,超時將自動Logout。最小有效:一個用戶應(yīng)該保持的最小有效時間(除非退出登錄)以秒計。在此期間內(nèi)不允許自動退出登錄。檢索歷史:系統(tǒng)缺省的最大檢索歷史步數(shù)。最長檢索:一次檢索操作的最長執(zhí)行時間,以秒計算。最大下載:系統(tǒng)允許的一次最大下載記錄數(shù)。這個配置項只有在前端應(yīng)用程序使用時,才發(fā)生作用。,系統(tǒng)配置(2),維護起始/維護終止起始時間和終止時間之間的小時數(shù)為TRS系統(tǒng)進入空閑狀態(tài)的檢測窗口,如果不限定終止時間,則檢測窗口為一小時。如果機器的當(dāng)前系統(tǒng)時間在檢測窗口內(nèi),并且已有一段時間(比如至少10分鐘)沒有任何用戶訪問TRS系統(tǒng),則TRS系統(tǒng)進入空閑狀態(tài)。在空閑狀態(tài)下,系統(tǒng)可以進行一系列的自動維護任務(wù),如優(yōu)化數(shù)據(jù)庫,整理用戶實例等。當(dāng)系統(tǒng)完成一個自動維護任務(wù)時,如果機器的當(dāng)前系統(tǒng)時間仍處在“空閑狀態(tài)起始時間”和“空閑狀態(tài)終止時間”之間,則系統(tǒng)會啟動一個新的自動維護任務(wù)。這個兩個配置項改變后,需要重新啟動TRS系統(tǒng)才有效。最大排序?qū)z索結(jié)果進行排序的最大記錄數(shù),為零表示不限制。建議使用系統(tǒng)默認(rèn)值。,,,TRS對象:TRS系統(tǒng)中的對象包括:用戶組(GROUP);用戶(USER);數(shù)據(jù)庫(DATABASE);數(shù)據(jù)庫字段(BASECOL);視圖(VIEW);視圖字段(VIEWCOL);詞典(DICTIONARY)文件格式(FORMAT)所有這些對象都具有一致的命名規(guī)則:對象名可以是中文,英文或中英文的組合,最長為31個字符。對象名內(nèi)英文字母的大小寫無關(guān)。只能包括A-Z,a-z,0-9,_,或漢字。除數(shù)據(jù)格式外,對象名不能用TRS保留字(關(guān)鍵詞)。屬于同一個域內(nèi)的對象不能重名。,小結(jié)(1),字段與索引:TRS數(shù)據(jù)庫有以下6種不同類型的字段:日期型字段(DATE)數(shù)值型字段(NUMBER)字符串型字段(CHAR)短語型字段(PHRASE)全文型字段(DOCUMENT)二進制型字段(BIT)索引是為實現(xiàn)快速檢索的基礎(chǔ),在TRS系統(tǒng)中,作為檢索入口的數(shù)據(jù)庫字段必須建立一定的索引,否則該字段上的值不能被檢索。我們可以對CHAR,DATE,NUMBER進行字段級檢索,對PHRASE和DOCUMENT進行全文檢索,但不能對BIT字段進行檢索,BIT字段始終不建索引。,小結(jié)(2),權(quán)限機制:TRS系統(tǒng)的安全控制是通過權(quán)限管理來實現(xiàn)的。TRS系統(tǒng)的權(quán)限有四個級別,即:用戶級權(quán)限(超級用戶(SYSTEM);數(shù)據(jù)庫管理員(DBA);用戶組管理員(GDA);資源用戶(RESOURCE);登錄用戶(CONNECT);數(shù)據(jù)庫級權(quán)限記錄檢索權(quán)(SELECT);數(shù)據(jù)更新權(quán)(UPDATE);數(shù)據(jù)索引權(quán)(INDEX);數(shù)據(jù)庫結(jié)構(gòu)修改權(quán)(ALTER);數(shù)據(jù)庫刪除權(quán)(DROP)。字段級權(quán)限和記錄級權(quán)限(都只有檢索權(quán)限)對TRS系統(tǒng)中的用戶組操作、用戶操作、數(shù)據(jù)庫操作、數(shù)據(jù)庫字段操作、視圖操作、視圖字段操作、詞典操作和文件格式操作都必須有相應(yīng)的權(quán)限才能進行。,小結(jié)(3),數(shù)據(jù)加載和檢索:加載文件有兩類:一類是數(shù)據(jù)文件;另一類是控制文件。數(shù)據(jù)文件是用來存放待加載的數(shù)據(jù)的文件。數(shù)據(jù)文件有兩種形式,即數(shù)據(jù)記錄文件和批處理文件。其中,加載DOCUMENT字段和加載BIT字段有特殊的格式??刂莆募脕砜刂茢?shù)據(jù)的加載過程的配置文件。TRS的表達式分為統(tǒng)計表達式和檢索表達式兩種,TRS既支持在DATE、NUMBER和CHAR字段上通過鍵值進行數(shù)據(jù)庫查詢,同時也支持在PHRASE和DOCUMENT字段上用任意自由詞、詞串以及數(shù)值進行檢索,此外還支持特殊鍵值的檢索。,小結(jié)(4),用戶手冊使用說明,全文檢索服務(wù)器用戶手冊-第一部分附錄一:TRS字符集-第一部分附錄二:TRS保留字-第五部分:TRS錯誤信息管理員工具用戶手冊-附錄A:檢索表達式構(gòu)造-附錄B:數(shù)據(jù)庫加載格式規(guī)范-附錄C:常見問題回答,更新的內(nèi)容,更新的內(nèi)容:1、增加一種本地文件裝庫方式,以減少兩次裝庫文件讀、兩次裝庫文件寫和一次裝庫文件的傳輸,理論上對提高裝庫速度有幫助。2、改造“唯一值”的排重方法,使裝庫速度提高20%左右。3、更新QuickSort算法,減小在“極端”數(shù)據(jù)集下排序性能變差的幾率。(對原來性能極差的測試數(shù)據(jù),新的算法性能提高)4、在無命中點檢索模式下,PHRASE、DOCUMENT字段上的模糊匹配也采用“位圖”運算進行合并,提高性能。5、取檢索結(jié)果時,對于不存在的字段可根據(jù)選項設(shè)置決定是“忽略”還是“報錯”。,謝謝!,本教材適合TRSDatabaseServerV6.1版本,- 1.請仔細(xì)閱讀文檔,確保文檔完整性,對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請點此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
14.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該PPT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計者僅對作品中獨創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- TRS 全文數(shù)據(jù)庫 DataBaseServer
鏈接地址:http://www.szxfmmzy.com/p-13190223.html