Очень ламерский вопрос про получение HTML и парсинг

Вопросы программирования на Free Pascal, использования компилятора и утилит.

Модератор: Модераторы

Ответить
Аватара пользователя
beria
постоялец
Сообщения: 130
Зарегистрирован: 29.09.2016 07:57:13

Очень ламерский вопрос про получение HTML и парсинг

Сообщение beria »

Извиняюсь, но никогда ранее такое не делал

Надо организовать получение страниц, причем https и http, на ряд сайтов требуется авторизация (пароли и юзеренймы естественно есть), а итоговой страницу вырезать нужное мне во внутренние переменные, причем без потери картинок, которые сохранить в массив отдельно, а вместо их вставить что то типа маркера с порядковым номером. Причем вполне вероятно что часть сайтов будет на рабочей машине только через sock 5. Программа должна быть чисто консольная (никаких визуальных элементов и объектов доступа к браузерам), настройки будет брать из ini файла и кроссплатформенная. Оптимизация по размеру файла и простоте кода.

Какие библиотеки лучше использовать и есть ли хоть немного похожие где примеры кода?
CynicRus
постоялец
Сообщения: 106
Зарегистрирован: 28.06.2012 14:31:11

Сообщение CynicRus »

Synapse + примеры в помощь. Если html парсить треба под виндой, то IHTMLDocument, если под всем - то Pos + PosEx.
Аватара пользователя
beria
постоялец
Сообщения: 130
Зарегистрирован: 29.09.2016 07:57:13

Сообщение beria »

CynicRus писал(а):Synapse + примеры в помощь. Если html парсить треба под виндой, то IHTMLDocument, если под всем - то Pos + PosEx.


Спс. пошел разбираться

up: написано Win32 operating system
То есть нативный вин64 никак? А линукс64?
Аватара пользователя
Снег Север
долгожитель
Сообщения: 3071
Зарегистрирован: 27.11.2007 15:14:47
Контактная информация:

Сообщение Снег Север »

Synapse под вин64 компилируется прекрасно. Нужны только соответствующие OpenSSL дллки.
olegy123
долгожитель
Сообщения: 1643
Зарегистрирован: 25.02.2016 11:10:20

Сообщение olegy123 »

Indy - более понятная и кликабельная.. и многопоточна..
Synapse - более заточена на понимание протокола и самостоятельно требует многопоточной реализации от программиста.
Аватара пользователя
beria
постоялец
Сообщения: 130
Зарегистрирован: 29.09.2016 07:57:13

Сообщение beria »

Indy10 5588 Вроде последняя версия.
Все работает но мусор в логе типа компилятора типа.....
.....
Note: Дублирующийся модуль "IdWhois" в "project1", orphaned ppu "C:\lazarus\MyToolkit\Новая папка\lib\i386-win32\IdWhois.ppu"
.....

.... как сие убить и чтобы лазарус не создавал лишние файлы?

И ещё вопрос

В HTML <meta charset="UTF-8">
В idhttp1.Response.CharSet - UTF-8
В кодировке проекта - UTF-8

IdHTTP1.Get возвращает в TMemo вместо кириллицы знаки вопроса.

Что я упускаю в настройках IdHTTP?
Ответить