咳咳。。PDF文檔解析 。。網(wǎng)上找了好久沒找到。。。自己翻譯了。水平不行。。大家將就點隨便看看了。這可是哥辛苦一下午翻譯的
咳咳。。PDF文檔解析 。。網(wǎng)上找了好久沒找到。。。自己翻譯了。水平不行。。大家將就點隨便看看了。這可是哥辛苦一下午翻譯的啊。累死我了。
PDF文檔解析
Quartz提供了讓你檢查PDF文檔結(jié)構(gòu)和內(nèi)容流(contentstream)的函數(shù).檢查文檔結(jié)構(gòu)可以讓你讀取文檔目錄的條目和與每個條目相關(guān)的內(nèi)容。通過遞歸地遍歷目錄,您可以檢查整個文檔。
一個PDF的內(nèi)容流(contentstream)正如其名字所暗示的—一個連續(xù)的數(shù)據(jù)流 例如'BT 12 /F71 Tf (draw thistext) Tj . . . '此處PDF操作符以及他們的描述符都混有實際的PDF內(nèi)容。檢查內(nèi)容流,你需要按順序訪問它。
本章揭示了如何查看PDF文檔的結(jié)構(gòu)和解析一個PDF文件的內(nèi)容。
檢查PDF文檔結(jié)構(gòu)
PDF文件可能包含多個頁面的圖像和文本。您可以使用Quartz訪問文檔和頁面級別的元數(shù)據(jù)以及PDF頁上的對象。本節(jié)提供了一個非常簡短的介紹,關(guān)于您可以訪問的元數(shù)據(jù)。
一個PDF文檔對象 (CGPDFDocument)包含了所有的信息,涉及到一個PDF文檔,包括它的目錄和內(nèi)容。目錄中的條目的遞歸地描述了PDF文檔的內(nèi)容。你可以訪問一個PDF文檔的內(nèi)容通過調(diào)用函數(shù)CGPDFDocumentGetCatalog。
一個PDF頁面對象(CGPDFPage)代表PDF文檔中的一頁且包含此特定的頁面所有信息,包括頁面字典和頁面內(nèi)容。您可以獲得一個頁面字典通過調(diào)用該函數(shù)CGPDFPageGetDictionary。
圖 14-1 展示了描述了兩張圖片的元數(shù)據(jù)—組成了圖13-2的PDF文件。
你可以通過訪問PDF的元數(shù)據(jù)獲得更多有用的信息。圖14-1只是一個示例。例如,您可以通過使用圖14-1中的代碼檢查一個PDF是否有縮略圖(見圖14-2)。
清單 14-1 得到PDF的縮略視圖
CGPDFDictionaryRef d; |
CGPDFStreamRef stream; // represents a sequence of bytes |
d = CGPDFPageGetDictionary(page); |
// check for thumbnail data |
if (CGPDFDictionaryGetStream (d, “Thumb”, &stream)){ |
// get the data if it exists |
data = CGPDFStreamCopyData (stream, &format); |
Quartz為你執(zhí)行了所有數(shù)據(jù)流的解密和解密工作。
圖 14-2 縮略圖片
Quartz提供了很多的功能,您可以使用它來獲得PDF的元數(shù)據(jù)中對應項的指定值。例如,您使用函數(shù)CGPDFObjectGetValue,傳入一個CGPDFObjectRef,和一個PDF對象類型(kCGPDFObjectTypeBoolean, kCGPDFObjectTypeInteger, 等等),以及一個存儲值的存儲空間。返回時,此存儲空間就被得到的值填充了。
還有很多其他的函數(shù)可以用來遍歷PDF文件的層次結(jié)構(gòu)來訪問各個節(jié)點和他們的子節(jié)點。例如,CGPDFArray函數(shù)(CGPDFArrayGetBoolean, CGPDFArrayGet Dictionary, CGPDFArrayGetInteger,等等) 允許您訪問數(shù)組的值,以檢索特定類型的值。你可以通過閱讀閱讀PDF規(guī)范來找到更多關(guān)于如何使用這些函數(shù)。
解析PDF內(nèi)容
你使用CGPDFScanner對象(CGPDFScannerRef數(shù)據(jù)類型)來解析一個PDF內(nèi)容流。CGPDFScanner對象調(diào)用在流中注冊了回調(diào)方法的任何操作符的回調(diào)方法。
你可以執(zhí)行以下部分所描述的任務來解析內(nèi)容流:
1.“為操作符寫回調(diào)方法”你需要為你要操作的操作符編寫回調(diào)方法。
2.“創(chuàng)建和設置操作表”。
3.“打開PDF文檔”。
4.“掃描每頁的內(nèi)容流”。
當這么做的時候,你應該確保釋放了 the scanner, content stream,and operator table。
下面的部分展示如何解析內(nèi)容流找到標記-內(nèi)容操作符(marked-content operators)(見表14-1)。標記的內(nèi)容操作符只代表部分用于PDF內(nèi)容的PDF操作符。當您編寫自己的代碼時,你最好尋找適合您的應用程序的PDF操作符。
表 14-1 標注的內(nèi)容操作符代表一些你可以解析的PDF操作符
Operator |
Description |
MP |
|
DP |
|
BMC |
標志著一個標記內(nèi)容序列的開始(開始標記內(nèi)容)和標志一個內(nèi)容序列結(jié)尾的EMC |
BDC |
標志著一個標記內(nèi)容序列的開始和標志一個內(nèi)容序列結(jié)尾的EMC |
EMC |
標志著一個以BMC或BDC |
為操作符編寫回調(diào)方法
當Quartz調(diào)用你的PDF操作符的回調(diào)方法時,它通過你的回調(diào)方法傳遞了一個CGPDFScanner對象和一個指向任何必要信息的指針。通常,你的回調(diào)方法檢索任何與操作符相關(guān)聯(lián)的項。例如,在14-2所展示的清單中對應于MP操作符的回調(diào)方法調(diào)用了CGPDFScannerPopName函數(shù)從堆棧中檢索與操作符相關(guān)聯(lián)的字符串。如果清單中的代碼成功的從scanner棧中檢索出name,就打印出來。
Quartz有各式各樣的CGPDFScannerPop函數(shù)用于檢索objects,Boolean values, names, numbers, strings, arrays, dictionaries, and streams.每個函數(shù)都返回一個布爾值表明是否成功檢索了該項。
清單14-2 MP操作符的回調(diào)方法
static void |
op_MP (CGPDFScannerRef s, void *info) |
{ |
const char *name; |
|
if (!CGPDFScannerPopName(s, &name)) |
return; |
|
printf("MP /%s\n", name); |
} |
創(chuàng)建并設置操作表
一個CGPDFOperatorTable對象存儲了你編寫的PDF操作符回調(diào)函數(shù)。函數(shù)CGPDFOperatorTableCreate創(chuàng)建了一個操作符表,如清單14-3所示。當你創(chuàng)建了一個操作符表之后,你要為每個你要加入到表中的回調(diào)方法調(diào)用函數(shù) CGPDFOperatorTableSetCallback。你傳入了操作表,指定PDF操作符的字符串,以及一個你編寫用來處理指定操作符的回調(diào)函數(shù)的指針。你可以隨意命名這些回調(diào)函數(shù)。只要確?;卣{(diào)函數(shù)的名字和你傳入CGPDFOperatorTableSetCallback函數(shù)的名字是相同的即可。
代碼清單14-3為表14-1中列出的每個標記-文本操作符 設置了一個回調(diào)方法。你的應用應該為你感興趣的那些操作符設置回調(diào)方法。PDF操作符字符串由Adobe PDF Reference 制定。
清單 14-3 為操作表設置回調(diào)方法
CGPDFOperatorTableRef myTable; |
|
myTable = CGPDFOperatorTableCreate(); |
|
CGPDFOperatorTableSetCallback (myTable, "MP", &op_MP); |
CGPDFOperatorTableSetCallback (myTable, "DP", &op_DP); |
CGPDFOperatorTableSetCallback (myTable, "BMC", &op_BMC); |
CGPDFOperatorTableSetCallback (myTable, "BDC", &op_BDC); |
CGPDFOperatorTableSetCallback (myTable, "EMC", &op_EMC); |
打開PDF文檔
在你掃描PDF文檔之前,你必須打開它。清單14-4 展示了 從代碼中提供的URL創(chuàng)建一個CGPDFDocument對象的代碼片段。注意此清單只是一個代碼段,所以不是所有變量都定義了。此清單中用數(shù)字標注的代碼行都有詳細的解釋。
清單 14-4 從一個URL打開一個PDF文檔
CGPDFDocumentRef myDocument; |
myDocument = CGPDFDocumentCreateWithURL(url);// 1 |
if (myDocument == NULL) {// 2 |
error ("can't open `%s'.", filename); |
CFRelease (url); |
return EXIT_FAILURE; |
} |
CFRelease (url); |
if (CGPDFDocumentIsEncrypted (myDocument)) {// 3 |
if (!CGPDFDocumentUnlockWithPassword (myDocument, "")) { |
printf ("Enter password: "); |
fflush (stdout); |
password = fgets(buffer, sizeof(buffer), stdin); |
if (password != NULL) { |
buffer[strlen(buffer) - 1] = '\0'; |
if (!CGPDFDocumentUnlockWithPassword (myDocument, password)) |
error("invalid password."); |
} |
} |
} |
if (!CGPDFDocumentIsUnlocked (myDocument)) {// 4 |
error("can't unlock `%s'.", filename); |
CGPDFDocumentRelease(myDocument); |
return EXIT_FAILURE; |
} |
} |
if (CGPDFDocumentGetNumberOfPages(document) == 0) {// 5 |
CGPDFDocumentRelease(document); |
return EXIT_FAILURE; |
} |
此處代碼做了哪些:
1. 利用代碼中提供的URL創(chuàng)建一個CGPDFDocument對象。
2. 檢查以確保CGPDFDocument對象被創(chuàng)建。如果沒有,代碼退出,因為沒有document繼續(xù)執(zhí)行沒有意義。
3. 檢查document是否加密。如果document加密,則代碼試圖利用空密碼打開文檔。如果失敗,代碼要求用戶提供密碼并試圖用此密碼解鎖文檔。
4. 檢查document是否解鎖,如果沒有,代碼退出。
5. 檢查以確保document至少有一頁,否則,代碼退出。
掃描每頁的內(nèi)容流
清單14-5 代碼段掃描文檔每一頁。當此scanner遇到一個注冊了回調(diào)方法的PDF操作符,Quartz就調(diào)用此回調(diào)方法。此清單中用數(shù)字標注的代碼行都有詳細的解釋。
清單 14-5 掃描文檔的每一頁
int k; |
CGPDFPageRef myPage; |
CGPDFScannerRef myScanner; |
CGPDFContentStreamRef myContentStream; |
|
numOfPages = CGPDFDocumentGetNumberOfPages (myDocument);// 1 |
for (k = 0; k < numOfPages; k++) { |
myPage = CGPDFDocumentGetPage (myDocument, k + 1 );// 2 |
myContentStream = CGPDFContentStreamCreateWithPage (myPage);// 3 |
myScanner = CGPDFScannerCreate (myContentStream, myTable, NULL);// 4 |
CGPDFScannerScan (myScanner);// 5 |
CGPDFPageRelease (myPage);// 6 |
CGPDFScannerRelease (myScanner);// 7 |
CGPDFContentStreamRelease (myContentStream);// 8 |
} |
CGPDFOperatorTableRelease(myTable); |
此處代碼解釋:
1. 得到你先前打開的document的頁數(shù)。見“Open thePDF Document.”
2. 檢索掃描一頁。頁數(shù)以一開始。
3. 為此頁創(chuàng)建內(nèi)容流。
4. 為內(nèi)容流創(chuàng)建一個scanner。你必須傳入先前創(chuàng)建且在回調(diào)方法中設置的內(nèi)容流和操作表。見“Create andSet Up the Operator Table.” 你也可以傳入你的回調(diào)方法中需要的任何數(shù)據(jù)。
5. 解析與scanner相關(guān)聯(lián)的內(nèi)容流。當Quartz每次遇到你在回調(diào)方法中提供的操作符時就會調(diào)用相應回調(diào)方法。
6. 釋放 page
7. 釋放 scanner
8. 釋放 content stream
9. 釋放 operator table 在PDF掃描完所有頁之后。
原帖地址:http://blog.csdn.net/xiao_se7en/article/details/7620056聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。TEL:177 7030 7066 E-MAIL:11247931@qq.com