Получение и парсинг html

Вопросы программирования и использования среды Lazarus.

Модератор: Модераторы

Re: Получение и парсинг html

Сообщение Ism » 17.07.2013 21:13:10

amateur писал(а)::)
вообщет уже есть около 5 оберток для парсинга (то что под лазарь и фпс заточены). Плюс, небось о торри забыли уже... А в фпс парсер у меня сдох при открытии простенького такого хтмл (ругнулся токо чуток с вылетом). Хотя parsewikipage.lpi в примере работает на ура (но тама и страницы слабее чем я пихал).

А так без регулялок вытягиваются ссылки, майлы и всякая другая кака. Включая json и т.д... Ляпота, однако. А вот регулярки не пользуются. Автомат + некоторые наработки и зачем эти регулярки. Хотя регулярка - тоже автомат :)

И зачем мне си, джава или питон? Есть наработки- класс (но их еще изучать нуно + знать что куда "пихать" а это гдет пол года в топку).


Перечислите проекты
Ism
энтузиаст
 
Сообщения: 908
Зарегистрирован: 06.04.2007 17:36:08

Re: Получение и парсинг html

Сообщение debi12345 » 17.07.2013 21:26:38

А так без регулялок вытягиваются ссылки, майлы и всякая другая кака.

DOM-парсеры выгоднее тем что автоматом отрезают многострочные коментарии и прочее сложно удалимое/игнорируемое регулярками.
Аватара пользователя
debi12345
долгожитель
 
Сообщения: 5761
Зарегистрирован: 10.05.2006 23:41:15
Откуда: Ташкент (Узбекистан)

Re: Получение и парсинг html

Сообщение amateur » 17.07.2013 23:12:34

Перечислите проекты
т.е.?

если то что писал - было для личного пользования, да и просто для теста (т.е. что более быстрее и эффективнее - регулярки или автоматы, оказались автоматы (типо калаш среди сбруи, просто и надежно :))).
Ща пробую все в единое соединить, сделать махонькую универсальную "вытягалку" текста + еще махонькие вещи связанные с переводом (привязка к гуглу и яду, возможно офлайн). Ну и махонький редактор с орфографией.

Пока дорабатываю способ вытягивания и скармливания для удобного вида. Плюс вариант для показа результата не сильно определен (остановился на FrameViewer09 а то встоенный в лазаре не устраивает).

В результате должна получиться такая себе мини читалка (с не большим анализом и включение некоторых вещей которые не учтены в подобных вещах).
Но опять же для сугубо личного пользования, если пустить его в люди то многие могут сильно обидеться.

а либы (компоненты) - торри или гугл. Есть еще на гитхабе и гуглокоде...

DOM-парсеры
- ну почти дум :) да и не все они могут вытянуть (иногда инфа ныкается сильно, но конец один :mrgreen: ).
Аватара пользователя
amateur
энтузиаст
 
Сообщения: 552
Зарегистрирован: 03.08.2007 10:15:32

Re: Получение и парсинг html

Сообщение Ism » 18.07.2013 05:28:24

amateur писал(а):а либы (компоненты) - торри или гугл. Есть еще на гитхабе и гуглокоде...

Посылать в гугл моветон, либо ссылки либо ничего не говорить , оно никому не надо
Ism
энтузиаст
 
Сообщения: 908
Зарегистрирован: 06.04.2007 17:36:08

Re: Получение и парсинг html

Сообщение amateur » 18.07.2013 10:33:11

Ism пущай это треп будет, а просто отдавать то что искалось, переделывалось, доделывалось не один день эт идиотизм.

Но и казаться голословным не сильно охота быть :)
Из того с чего начинал, для затравки:
lazarus_br, lazsolutions, powtils. Есть примеры в т.ч. парсинг и не только. Ну и парсилка из самого лазаря чехлилась.

Еще есть "кака" если верить разрабу (точнее хозяину) он около 10 к енотов на разработку потратил (только вот зачем тогда он ее в свободный доступ кинул не пойму). Либа под парсинг заточена, основана на регулярках. Но глючит мздец. Посмотрел, поковырял, выбросил.

Для фидов доработал класс. Ранее он мог только получить фид, прочитать титл и еще парочку вещей (только рсс было там). Я доделал, теперь с фидом и рсс работает, получает и выдает все что в хмл запрятано. Потом, конечно, стукнуло на тори поискать. Но все что там выложено - не на все сайты действует :), многое переделывать надо. Остановился на своем, тем более работает что в мсе что в лазаре. Единственное что напрягает - кодировки хмл :) ну не нравится мне вариант с iconv.dll. Думаю переделать и убрать зависимость от iconv.dll.

Для хтмл тоже класс (свой). Парсит почти все (доделываю, выплавают нюансы).

Визуально -FrameViewer09 (на гугло коде доработанный htmlport).

Еще десятка три примеров по вытягиванию, парсингу. Плюс гдет выковырял парсилку хтмл 50% асма (для скорости добавлено). Переделал на паскаль и чет парсить быстрее начало :).

Думаю достаточно. И че бы там не говорили о не способности лазаря к вебу - бред. И либ выше крыши.

оно никому не надо
а я и не говорю что оно надо комут. Мне надо, под себя и делаю. Кстати, по ходу, подобное уже есть :) Токо доступ не свободный и написано под себя. Ранее я бы за такое и денег не пожалел, да токо не продают, вот и приходится свое делать :twisted: .

Упс, забыл: про редактор. Редактор почти готов, есть баги. Но работает :)
Аватара пользователя
amateur
энтузиаст
 
Сообщения: 552
Зарегистрирован: 03.08.2007 10:15:32

Пред.

Вернуться в Lazarus

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 240

Рейтинг@Mail.ru