2007년 03월 15일
MS, PDF파일에서 텍스트 추출하기
<MS, PDF파일에서 텍스트 추출하기>
1. 목표 : 문서내 특정 단어, 혹은 정규 표현식을 이용한 추출을 위한 확장가능한 API 형태의 처리 클래스 제공
2. 구성도
프로그램 인터페이스 클래스
|
|-- MSDOC 처리 클래스
|
|-- MSEXCEL 처리 클래스
|
|-- PowerPoint 처리 클래스
|
|-- PDF 처리 클래스
|
|-- 기타 ...
3. 작업중인 단계..
3_1 MSWord 파일 처리
최초 자카르타 POI API를 사용하려고 하였으나 버그가 상단 수준 존재하는 것 같음
대안으로 Text Extractors( http://textmining.org)의 org.textmining.text.extraction.WordExtractor 이용하고 있음
3_2 MSEXCEL 처리
Java Excel API 이용하여 처리하고 있음
3_3 PDF 처리 클래스
PDB BOX를 이용하여 처리함
3_4 문제점
최적화를 위해 각종문서내에 존재하는 특수 문자 및 공백 처리 과정이 필요할 것 같음
ppt파일의 경우 POI를 사용하고 있으나 3.0베타에서는 문제점이 많이 발생함
릴리스 버전을 기대해야 할 것 같음
한글 파일은 현재 API가 존재하지 않으며 HDK 같은 라이브러리를 돈을 주고 구입해야 할 것 같음
1. 목표 : 문서내 특정 단어, 혹은 정규 표현식을 이용한 추출을 위한 확장가능한 API 형태의 처리 클래스 제공
2. 구성도
프로그램 인터페이스 클래스
|
|-- MSDOC 처리 클래스
|
|-- MSEXCEL 처리 클래스
|
|-- PowerPoint 처리 클래스
|
|-- PDF 처리 클래스
|
|-- 기타 ...
3. 작업중인 단계..
3_1 MSWord 파일 처리
최초 자카르타 POI API를 사용하려고 하였으나 버그가 상단 수준 존재하는 것 같음
대안으로 Text Extractors( http://textmining.org)의 org.textmining.text.extraction.WordExtractor 이용하고 있음
3_2 MSEXCEL 처리
Java Excel API 이용하여 처리하고 있음
3_3 PDF 처리 클래스
PDB BOX를 이용하여 처리함
3_4 문제점
최적화를 위해 각종문서내에 존재하는 특수 문자 및 공백 처리 과정이 필요할 것 같음
ppt파일의 경우 POI를 사용하고 있으나 3.0베타에서는 문제점이 많이 발생함
릴리스 버전을 기대해야 할 것 같음
한글 파일은 현재 API가 존재하지 않으며 HDK 같은 라이브러리를 돈을 주고 구입해야 할 것 같음
# by | 2007/03/15 19:28 | 개발 | 트랙백 | 덧글(0)





☞ 내 이글루에 이 글과 관련된 글 쓰기 (트랙백 보내기) [도움말]