ЕЯ
Ек@терин@ Я!

Как преобразовать doc в xml?

Исходные данные - 600 текстов с выделенными полужирным словосочетаниями в doc формате. Для дальнейшей работы очень хочется иметь эти же данные в виде простого xml, где тегами отмечены абзацы и выделенные фрагменты.
Есть ли какой-то софт для перевода doc в xml Возможно, сможете подсказать, как можно это задачу решить (немного умею писать на java и python)?
Если сохранять сразу в xml через ворд, получается нечитаемое огромное описание версий.

ТЮ
Татьяна Юдакова

Вопрос из серии "какой соус подать к столу". Встречный вопрос - а у вас будет рыба или котлеты? XML сам по себе это всего лишь стандарт логической разметки. ODT и DOCX - тоже XML, только архивированный вместе с параметрами стилей отображения. Собственно, XHTML это тоже XML. Так что, всё зависит только от того, чем именно Вы собрались читать эти файлы. Если браузером, то проще сохранить в HTML, но это ж потом убиться веником грузить всю ту муть, которую напихает Ворд. Если хотите, чтобы файл отображался в браузере как XML, соотносите ему XSLT или CSS соответствующий. Или сделайте из них FB2 - самый адекватный готовый для чтения формат XML. Софта для этого навалом, причём бесплатного. Как и читалок.

Похожие вопросы
Как преобразовать странцу из doc в jpg?
Помогите преобразовать файл
Как преобразовать документ *pdf в документ *doc?
через что открыть Файл "DOC" (.doc) блокнот не помог
вопрос. Кто знает, doc 2003 и Microsoft Word 2003 (.xml) это одно и то же?
Преобразование текстового файла. Как преобразовать файл *TXT или *DOC в *PDF?
как преобразовать 2003 Ворд в 2010? как преобразовать 2003 Ворд в 2010?
Конвертация PDF в .doc
Как конвертнуть .pdf в .doc?
Какой программой открыть файл xml.. .