Очень ламерский вопрос про получение HTML и парсинг

Вопросы программирования на Free Pascal, использования компилятора и утилит.

Модератор: Модераторы

Очень ламерский вопрос про получение HTML и парсинг

Сообщение beria » 17.12.2016 12:30:01

Извиняюсь, но никогда ранее такое не делал

Надо организовать получение страниц, причем https и http, на ряд сайтов требуется авторизация (пароли и юзеренймы естественно есть), а итоговой страницу вырезать нужное мне во внутренние переменные, причем без потери картинок, которые сохранить в массив отдельно, а вместо их вставить что то типа маркера с порядковым номером. Причем вполне вероятно что часть сайтов будет на рабочей машине только через sock 5. Программа должна быть чисто консольная (никаких визуальных элементов и объектов доступа к браузерам), настройки будет брать из ini файла и кроссплатформенная. Оптимизация по размеру файла и простоте кода.

Какие библиотеки лучше использовать и есть ли хоть немного похожие где примеры кода?
Аватара пользователя
beria
постоялец
 
Сообщения: 130
Зарегистрирован: 29.09.2016 08:57:13

Re: Очень ламерский вопрос про получение HTML и парсинг

Сообщение CynicRus » 17.12.2016 13:50:56

Synapse + примеры в помощь. Если html парсить треба под виндой, то IHTMLDocument, если под всем - то Pos + PosEx.
CynicRus
постоялец
 
Сообщения: 106
Зарегистрирован: 28.06.2012 14:31:11

Re: Очень ламерский вопрос про получение HTML и парсинг

Сообщение beria » 17.12.2016 14:55:26

CynicRus писал(а):Synapse + примеры в помощь. Если html парсить треба под виндой, то IHTMLDocument, если под всем - то Pos + PosEx.


Спс. пошел разбираться

up: написано Win32 operating system
То есть нативный вин64 никак? А линукс64?
Аватара пользователя
beria
постоялец
 
Сообщения: 130
Зарегистрирован: 29.09.2016 08:57:13

Re: Очень ламерский вопрос про получение HTML и парсинг

Сообщение Снег Север » 17.12.2016 16:37:01

Synapse под вин64 компилируется прекрасно. Нужны только соответствующие OpenSSL дллки.
Аватара пользователя
Снег Север
долгожитель
 
Сообщения: 2993
Зарегистрирован: 27.11.2007 16:14:47

Re: Очень ламерский вопрос про получение HTML и парсинг

Сообщение olegy123 » 18.12.2016 00:03:03

Indy - более понятная и кликабельная.. и многопоточна..
Synapse - более заточена на понимание протокола и самостоятельно требует многопоточной реализации от программиста.
olegy123
долгожитель
 
Сообщения: 1643
Зарегистрирован: 25.02.2016 12:10:20

Re: Очень ламерский вопрос про получение HTML и парсинг

Сообщение beria » 20.12.2016 03:53:54

Indy10 5588 Вроде последняя версия.
Все работает но мусор в логе типа компилятора типа.....
.....
Note: Дублирующийся модуль "IdWhois" в "project1", orphaned ppu "C:\lazarus\MyToolkit\Новая папка\lib\i386-win32\IdWhois.ppu"
.....

.... как сие убить и чтобы лазарус не создавал лишние файлы?

И ещё вопрос

В HTML <meta charset="UTF-8">
В idhttp1.Response.CharSet - UTF-8
В кодировке проекта - UTF-8

IdHTTP1.Get возвращает в TMemo вместо кириллицы знаки вопроса.

Что я упускаю в настройках IdHTTP?
Аватара пользователя
beria
постоялец
 
Сообщения: 130
Зарегистрирован: 29.09.2016 08:57:13


Вернуться в Free Pascal Compiler

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 24

Рейтинг@Mail.ru