【教學】如何擷取Word文件DOCX檔裡的原始素材資料

docx_00
一般我們拿到Word檔的稿子時,要取出裡面的圖檔都是將Word檔另存成HTML後,再從產生出來的資料夾裡找出圖檔。這樣的方式雖然簡單,但是有個麻煩的地方就是挖出來的圖檔會有JPG與PNG圖檔,有時候不確定到底哪一個才是真正的原始檔(通常以大小來快速判斷),如果是用舊版的DOC格式,則PNG圖檔還會被轉換成RGB模式的圖檔,不過一般作者通常也不會轉成CMYK再儲存,那樣子檔案會太大,編輯也不能接受。這時候可以推薦作者用DOCX檔交稿。

docx_01
↑一般最簡單的方式就是用另存網頁檔的方式將圖檔分離出來

docx_02
↑分離後的資料夾裡有重複的圖檔,每次篩選也很麻煩

DOCX檔其實也是一種壓縮格式,就像ePub檔案一樣,當我們將DOCX檔的副檔名改成ZIP並且解壓縮,就會發現他有很多的xml檔與資料夾,其中嵌在Word上的所有原始圖檔都會存放在「media」資料夾裡,這時候你就可以把這裡的圖檔全部拿出來,配合編排做處理了。

docx_03
↑跟ePub一樣的原理,把DOCX檔改成ZIP壓縮檔

docx_04
↑解開壓縮後,「media」資料夾裡就是很單純的圖檔,沒有其他多餘的檔案

本文作者:火星頑童的故事


大家對網站文章上的一個讚、+1及轉分享,都是對我們的最好的鼓勵及繼續下去的原動力,請大家不要吝嗇。