目前資訊的發達,網絡興起,造成各大公司紛紛推出各式網站軟件,例如:Firefox、IE、Navigator…等,因為便造成因版本問題而導致網站開啟有問題或排版出現問題的情況。為了修正這種情形,因此便出現了XML語言。
那何謂XML語言呢???
XML是一種[ 中介標簽語言 ](meta-markup language),可提供描述結構化資料的格式,這將有助于文件內容的宣告,并符合跨平臺的搜尋作業,此外,XML也將是新一代網路資料呈現與運作的關鍵技術,在進一步介紹XML之前,我們還是先來看看,什么是「標簽語言」吧!?
?
所謂 [ 標簽語言 ],是由一些特殊字碼(code)或控制標簽(tag)所組成,它們單獨存在時并無任何的意義,而需要特殊的軟件經由一定的規則解讀后,再將文件輸出到螢幕或印表機...等輸出設備上,所以標簽語言可以使文件更具結構化,這樣的結構化使得應用程式能夠便于管理、解讀與運用文件中的資料,而標簽語言又可分為 [ 特定標簽語言 ] 與 [ 一般化標簽語言 ]。
特定標簽語言:
特定標簽語言是針對某種特定軟件或特定用途所制定的,像我們所熟悉的HTML標簽語言,就是為了應用在Web上而制定的標簽語言,其它像微軟的文書處理軟件Word也是借由標簽語言來顯示文字的字型、大小、粗細或是換行、換頁等文件格式。
通用標簽語言:
通用標簽語言通常只是用來描述文件的內容與結構,而不會去定義如何顯示或運用這些文件的內容,所以并不是為了特定的軟件而制定的,它可以讓許多不同的軟件解讀文件,至于解讀后的資料要如何運用,就視各種應用程式的需求而定了。也因為通用標簽語言是一種不受限于特定應用或是設備的文件描述方法,所以具有較佳的可攜帶性,像是已經通過ISO國際標準認可的SGML「標準通用標簽語言」,與其前身GML(Generalized Markup Language),都是我們所說的通用標簽語言。
HTML標簽語言
如果您曾經制作過網站,一定對HTML標簽語言非常熟悉,HTML文件必須遵循一定的規則,而這個規則明確的規范文件應該如何被顯示或運用,讓執行處理工作的應用程式知道在HTML文件中去讀取哪些標簽內容、識別標簽的結構并將結果呈現在瀏覽器中;除了顯示文件格式,HTML也可以在文件中放置外部檔案,像是音效檔、圖形檔或其它的崁入式的程式;此外,從一個HTML文件連結到另一個HTML文件或檔案的「超連結」的動作,也是借由標簽來定義的。
在HTML文件中有許多不同的標簽,這些標簽都有它特定的位置與目的,像是標簽定義了文字的字型與大小,標簽則將文字的格式定義為粗體字。
但是HTML并不完美,它只是一種表達的技術,并不一定能夠描述HTML標簽中所包含資料的意義,舉一個最簡單的例子好了,
Apple
這段程式碼在瀏覽器中有其特定的呈現方式,但是HTML并沒有告訴我們它倒底是什么,雖然Apple只是一個英文單字,但它在不同的領域中可能就會有不同的含義,到底是一家電腦公司、一種水果,還是一個姓氏呢?HTML文件無法告訴我們資料本身所代表的含義。
其實大部分的瀏覽器為了提供一些特殊的功能,所以并不會完全依照DTD中的定義來檢視HTML文件,而有其專屬的標簽解析規則,甚至完全不去讀取DTD,也因此造成目前的HTML文件在各家瀏覽器上的相容性不佳,但這樣的情形在我們改用XML后,將能有效的避免。
?
NOTE:DTD「文件類型定義」(Document Type Definition),提供了所有元素、屬性與實體間的相互關系,能夠詳細地描述文件的結構規則。
SGML標準通用標簽語言
談到XML就一定要從SGML(Standard Generalized Markup Language)講起,SGML允許你指定文件的結構,并使用DTD「文件類型定義」來指定文件的結構,SGML可以將文件轉換成多種的輸出格式,包括了純文字、HTML、LaTeX、PostScript...等格式,最重要的是它為所有的文件提供了一致的外觀,以便于管理與維護。
SGML文件本身包含了三個部份:SGML宣告( SGML Declaration)、DTD文件類型定義和文件標示(Document Instance),其中SGML宣告是用來告訴SGML處理器(SGML Parser)在解讀該份文件時,所要使用的字元集和文件特性,DTD則是用來宣告該份文件的結構與文法參數,而文件標示就是加上標示處理后的文件。
SGML在現今的社會中已經廣泛被應用,其中最大的理由就是SGML的跨平臺特性,以SGML格式所儲存的文件,任何人都可以輕易的解讀,而且不會因為軟件的不同而出現亂碼。(最常見的情形就是,若將OFFICE 2000的文件拿到OFFICE 97中開啟.....你將會看到一推的亂碼!)
SGML與HTML最大的不同在于SGML中并沒有定義資料顯示格式的資訊,例如文字的字型、大小與格式,但標簽可以定義出文件的架構,而某些資料內容,像是書名、作者...等,其實已經是文件結構的一部份了,然后再借由DTD描述標簽的類型與文件的格式,最后以適當的方式呈現這些資料。
?
XML可延伸標簽語言
XML是從SGML推演出來的,SGML其實是一套非常復雜的系統,因為它具有許多的機制,以便提供各種的語法,來解讀、編輯及保存內容龐大復雜且互相連結的技術文件,而XML則擷取了SGML中文件結構的核心部份,是SGML的一個子集合,其目的是為了擴充在網際網路上的應用,并靡補HTML的不足,讓SGML也能輕易地在網路上應用,所以XML肩負著使全球資訊網能夠傳輸或處理更豐富資訊的責任,雖然在一般情況之中,HTML或是JAVA的功能就已經相當足夠了,但隨著資訊的爆炸、資料量的激增與資料結構的復雜化,只用HTML就顯得捉襟見肘了,而JAVA又顯得太大才小用,也不易學習,現在有了XML與HTML的相輔相成,這些問題就都解決了,所以XML并不是用來取代HTML與SGML,或是廢除原有的標準,XML是用來制定新的標準、用來定義一種新的標簽語言,其自訂的范圍包括標簽及屬性的名稱,XML文件可以選擇性的包含文法描述的資料,以便應用程式可以檢查其完整性,而使用者可以借由XML定義專屬的文件型態,程式設計師也能撰寫出便于管理文件的應用程式。
雖然XML是為了能有效的在Web環境下運作而設計的,但XML也能在Web以外的環境中運作,包括了商業應用、出版業及企業資料交換應用,為了能在不同的環境中應用,因此XML被設計成使用簡單、具有彈性與開放的語言,以便讓不同的使用者制作各種XML文件。
?