Страница 1 из 1
HTML - построить DOM. XMLRead не хочет читать.
Добавлено: 19.02.2016 13:09:38
vitaly_l
Всем привет,
нужно прочитать HTML и построить DOM.
XMLRead - не может или не хочет или не предназначен.
Какой модуль подключить, чтобы построить DOM, HTML-файла ?(чтобы там можно было к элементам обращаться как в TXMLDocument, типа: FindNode, NodeValue, TextContent etc.)
Спасибо.
.
Re: HTML - построить DOM. XMLRead не хочет читать.
Добавлено: 19.02.2016 13:30:51
Sharfik
Re: HTML - построить DOM. XMLRead не хочет читать.
Добавлено: 19.02.2016 13:36:02
vitaly_l
Sharfik писал(а):http://wiki.freepascal.org/TXMLDocument не годится?
Я о нём писал, по ИДЕЕ он должен это делать, т.к. XML и HTML - практически одно и тоже (в понимании построения DOM).
Но TXMLDocument - не читает HTML, жалуется на ошибки. Поэтому решил спросить.
Добавлено спустя 2 минуты 3 секунды:TIpHtmlPanel - тоже
не все ноды показывает/ищет.
.
Re: HTML - построить DOM. XMLRead не хочет читать.
Добавлено: 19.02.2016 15:24:48
pupsik
vitaly_l То что в лазаре с хтмл работает может простые страницы парсить... Если сильно не ошибаюсь: данный момент "всплывал" на анг. форуме. Есть и другие инструменты для парсинга.
Re: HTML - построить DOM. XMLRead не хочет читать.
Добавлено: 19.02.2016 19:58:03
vitaly_l
pupsik писал(а):То что в лазаре с хтмл работает может простые страницы парсить... Если сильно не ошибаюсь: данный момент "всплывал" на анг. форуме. Есть и другие инструменты для парсинга.
Да, я знаю. На PHP - могу. Но Лазарус позволяет сделать более оптималный вариант "на все случаи жизни". Поэтому и нужен.
В общем если кто сталкивался, подскажите прлиииииз. Спасибо.
Re: HTML - построить DOM. XMLRead не хочет читать.
Добавлено: 19.02.2016 20:43:06
pupsik
инструменты - компоненты, а не ПХП или иное
"на все случаи жизни"

Уж проще: под необходимую задачу.
Re: HTML - построить DOM. XMLRead не хочет читать.
Добавлено: 19.02.2016 20:49:34
vitaly_l
pupsik писал(а):проще: под необходимую задачу.
Возможно Вы правы.
pupsik писал(а):инструменты - компоненты, а не ПХП или иное
Может это то что мне нужно? Какие инструменты - компоненты?
Re: HTML - построить DOM. XMLRead не хочет читать.
Добавлено: 19.02.2016 23:32:24
pupsik
Какие инструменты - компоненты?
уже писали на форуме о парсинге...
п.с.
HTML - свалка всего. XML - имеет структуру. Т.е. ваша задача не ясна (для меня). Поэтому кто его знает что вам посоветовать. Единственное что ясно: вы хотите привести в удобочитаемый, для вас, вариант. А вот зачем.. Может ссылки стащить, может.... вам проще браузер использовать (для жабы).
Re: HTML - построить DOM. XMLRead не хочет читать.
Добавлено: 20.02.2016 12:23:08
resident
vitaly_l писал(а):нужно прочитать HTML и построить DOM
Это невозможно, т.к. в HTML возможен (причем по стандарту) беспредел, который будет считаться невалидным/некорректным документом XML.
Re: HTML - построить DOM. XMLRead не хочет читать.
Добавлено: 20.02.2016 12:43:42
Sergei I. Gorelkin
Во-первых есть модуль sax_html
Во-вторых, html можно превратить в xml с помощью утилит типа htmltidy.
Re: HTML - построить DOM. XMLRead не хочет читать.
Добавлено: 20.02.2016 12:51:15
vitaly_l
resident писал(а):Это невозможно, т.к. в HTML возможен (причем по стандарту) беспредел, который будет считаться невалидным/некорректным документом XML.
Ага, это примерно, то, что я "искал", точнее хотел получить информацию.
Спасибо добрый resident.Sergei I. Gorelkin писал(а):Во-первых есть модуль sax_html
Во-вторых, html можно превратить в xml с помощью утилит типа htmltidy.
Это скорее всего искомое! Ура!
Спасибо БОЛЬШОЕ, наидобрейший Sergei I. Gorelkin.Всем хорошего настроения!.