Получение и парсинг html

Ism » 17.07.2013 21:13:10

amateur писал(а)::)
вообщет уже есть около 5 оберток для парсинга (то что под лазарь и фпс заточены). Плюс, небось о торри забыли уже... А в фпс парсер у меня сдох при открытии простенького такого хтмл (ругнулся токо чуток с вылетом). Хотя parsewikipage.lpi в примере работает на ура (но тама и страницы слабее чем я пихал).

А так без регулялок вытягиваются ссылки, майлы и всякая другая кака. Включая json и т.д... Ляпота, однако. А вот регулярки не пользуются. Автомат + некоторые наработки и зачем эти регулярки. Хотя регулярка - тоже автомат

И зачем мне си, джава или питон? Есть наработки- класс (но их еще изучать нуно + знать что куда "пихать" а это гдет пол года в топку).

Перечислите проекты

debi12345 » 17.07.2013 21:26:38

А так без регулялок вытягиваются ссылки, майлы и всякая другая кака.

DOM-парсеры выгоднее тем что автоматом отрезают многострочные коментарии и прочее сложно удалимое/игнорируемое регулярками.

amateur » 17.07.2013 23:12:34

Перечислите проекты

т.е.?

если то что писал - было для личного пользования, да и просто для теста (т.е. что более быстрее и эффективнее - регулярки или автоматы, оказались автоматы (типо калаш среди сбруи, просто и надежно

)).
Ща пробую все в единое соединить, сделать махонькую универсальную "вытягалку" текста + еще махонькие вещи связанные с переводом (привязка к гуглу и яду, возможно офлайн). Ну и махонький редактор с орфографией.

Пока дорабатываю способ вытягивания и скармливания для удобного вида. Плюс вариант для показа результата не сильно определен (остановился на FrameViewer09 а то встоенный в лазаре не устраивает).

В результате должна получиться такая себе мини читалка (с не большим анализом и включение некоторых вещей которые не учтены в подобных вещах).
Но опять же для сугубо личного пользования, если пустить его в люди то многие могут сильно обидеться.

а либы (компоненты) - торри или гугл. Есть еще на гитхабе и гуглокоде...

DOM-парсеры

- ну почти дум

да и не все они могут вытянуть (иногда инфа ныкается сильно, но конец один :mrgreen:

).

Ism » 18.07.2013 05:28:24

amateur писал(а):а либы (компоненты) - торри или гугл. Есть еще на гитхабе и гуглокоде...

Посылать в гугл моветон, либо ссылки либо ничего не говорить , оно никому не надо

amateur » 18.07.2013 10:33:11

Ism пущай это треп будет, а просто отдавать то что искалось, переделывалось, доделывалось не один день эт идиотизм.

Но и казаться голословным не сильно охота быть

Из того с чего начинал, для затравки:
lazarus_br, lazsolutions, powtils. Есть примеры в т.ч. парсинг и не только. Ну и парсилка из самого лазаря чехлилась.

Еще есть "кака" если верить разрабу (точнее хозяину) он около 10 к енотов на разработку потратил (только вот зачем тогда он ее в свободный доступ кинул не пойму). Либа под парсинг заточена, основана на регулярках. Но глючит мздец. Посмотрел, поковырял, выбросил.

Для фидов доработал класс. Ранее он мог только получить фид, прочитать титл и еще парочку вещей (только рсс было там). Я доделал, теперь с фидом и рсс работает, получает и выдает все что в хмл запрятано. Потом, конечно, стукнуло на тори поискать. Но все что там выложено - не на все сайты действует

, многое переделывать надо. Остановился на своем, тем более работает что в мсе что в лазаре. Единственное что напрягает - кодировки хмл

ну не нравится мне вариант с iconv.dll. Думаю переделать и убрать зависимость от iconv.dll.

Для хтмл тоже класс (свой). Парсит почти все (доделываю, выплавают нюансы).

Визуально -FrameViewer09 (на гугло коде доработанный htmlport).

Еще десятка три примеров по вытягиванию, парсингу. Плюс гдет выковырял парсилку хтмл 50% асма (для скорости добавлено). Переделал на паскаль и чет парсить быстрее начало

.

Думаю достаточно. И че бы там не говорили о не способности лазаря к вебу - бред. И либ выше крыши.

оно никому не надо

а я и не говорю что оно надо комут. Мне надо, под себя и делаю. Кстати, по ходу, подобное уже есть

Токо доступ не свободный и написано под себя. Ранее я бы за такое и денег не пожалел, да токо не продают, вот и приходится свое делать :twisted:

.

Упс, забыл: про редактор. Редактор почти готов, есть баги. Но работает

Получение и парсинг html

Re: Получение и парсинг html

Re: Получение и парсинг html

Re: Получение и парсинг html

Re: Получение и парсинг html

Re: Получение и парсинг html

Кто сейчас на конференции