Как html перевести в xml

1. Нажмите кнопку «FILE» или «URL», чтобы переключаться между локальными файлами или онлайн-файлами. Нажмите кнопку «Выбор файлов», чтобы выбрать локальный файл или ввести URL-адрес онлайн-файла. Формат документа может быть преобразован только в определённый целевой формат. Например, вы можете конвертировать DOC в DOCX, но вы не можете конвертировать DOC в XLSX.

2. Выберите целевой формат. Целевым форматом может быть PDF, DOC, DOCX, XLS, XLSX, PPT, PPTX, HTML, TXT, CSV, RTF, ODT, ODS, ODP, XPS или OXPS и т.Д.

3. Нажмите кнопку «Начало конверсии», чтобы начать конверсии. Выходной файл будет произведен ниже «Результаты конверсий». Нажмите иконку « », чтобы отобразить QR-код файла или сохранить файл на Google Drive или Dropbox.

Думаю, для многих не секрет, что xml является достаточно удобным способом хранения и передачи информации. Вот уже который раз натыкаюсь в литературе на утверждение, что в будущем xml должен заменить html, а появление xhtml является тому подтверждением. Но тут есть нюанс. все браузеры знают как отображать html-документы, но ни один из них не знает, как должны отображаться xml-документы. Это связано прежде всего с тем, что формируя xml-документ Вы можете ввести свои теги. Я хочу коротко (это очень большая тема, на самом деле) рассказать о так называемых «Таблицах преобразований xml-документов».
Думаю, что многие наверняка знакомы с ними, но надеюсь что кому-то это может быть полезно, а, учитывая мою любовь к практике, хочу показать всё на очень простом примере

Что мы имеем

  1. Это заголовок Xml-документа
  2. Habrahabr.ru
  3. В Хабрахабр заложена модель совместного творчества людей. Это
  4. универсальное средство для всех представителей нового поколения
  5. средств массовой информации.
  6. Bash.org.ru
  7. Вы добавляете цитату. После этого цитата попадает в Бездну, где
  8. ее могут увидеть и проголосовать за нее наши посетители, читающие
  9. сей суровый раздел.

Если мы попробуем просмотреть его в браузере, то увидим нечто подобное:

Читайте также:  Запуск mac os в режиме восстановления


Существует несколько способов визуализировать содержимое этого документа.
К нему можно подключить обычную таблицу стилей (css-файл) или таблицу преобразований.
Таблица преобразований представляет из себя xml-документ, оформленный по определённым правилам и имеющий расширение .xslt.

У меня есть hunderds HTML файлов, которые нужно сориентировать в XML. Мы используем этот HTML для обслуживания содержимого для приложений, но теперь мы должны обслуживать это содержимое как XML.

HTML файлы содержат таблицы, div, изображения, p, b или сильные теги и т.д.

Я googled и нашел некоторые приложения, но пока не смог.

Не могли бы вы предложить способ преобразования этих файлов в XML?

Мне удалось использовать утилиту командной строки tidy . В linux я быстро установил его с помощью apt-get install tidy . Затем команда:

tidy -q -asxml --numeric-entities yes source.html >file.xml

предоставил файл xml, который я смог обработать с помощью процессора xslt. Однако мне нужно было правильно настроить xhtml1 dtds.

Это их главная страница: html-tidy.org (и устаревшее: HTML Tidy)

Я нашел способ конвертировать (даже плохой) html в хорошо сформированный XML. Я начал основывать это на функции DOM loadHTML. Однако во время было несколько проблем, и я оптимизировал и добавил исправления для устранения побочных эффектов.

Теперь это также позволяет добавлять больше html-фрагментов в один XML, который мне нужно использовать самостоятельно. В общем случае его можно использовать следующим образом:

' будет хорошо выводиться в хорошо сформированном XML как "

". Добавляется тег info root, который также позволяет преобразовать '

', который не является XML, поскольку он не имеет ни одного корневого элемента. Однако, если у вас html действительно есть один корневой элемент, можно добавить дополнительный тэг root .

Читайте также:  В одномерном массиве найти количество положительных элементов

С этим я получаю настоящий хороший XML из неструктурированного и даже поврежденного HTML!

Я надеюсь, что это будет немного ясно и может помочь другим людям использовать его.