Извиняюсь, но никогда ранее такое не делал
Надо организовать получение страниц, причем https и http, на ряд сайтов требуется авторизация (пароли и юзеренймы естественно есть), а итоговой страницу вырезать нужное мне во внутренние переменные, причем без потери картинок, которые сохранить в массив отдельно, а вместо их вставить что то типа маркера с порядковым номером. Причем вполне вероятно что часть сайтов будет на рабочей машине только через sock 5. Программа должна быть чисто консольная (никаких визуальных элементов и объектов доступа к браузерам), настройки будет брать из ini файла и кроссплатформенная. Оптимизация по размеру файла и простоте кода.
Какие библиотеки лучше использовать и есть ли хоть немного похожие где примеры кода?
Очень ламерский вопрос про получение HTML и парсинг
Модератор: Модераторы
Synapse + примеры в помощь. Если html парсить треба под виндой, то IHTMLDocument, если под всем - то Pos + PosEx.
CynicRus писал(а):Synapse + примеры в помощь. Если html парсить треба под виндой, то IHTMLDocument, если под всем - то Pos + PosEx.
Спс. пошел разбираться
up: написано Win32 operating system
То есть нативный вин64 никак? А линукс64?
- Снег Север
- долгожитель
- Сообщения: 3071
- Зарегистрирован: 27.11.2007 15:14:47
- Контактная информация:
Synapse под вин64 компилируется прекрасно. Нужны только соответствующие OpenSSL дллки.
Indy - более понятная и кликабельная.. и многопоточна..
Synapse - более заточена на понимание протокола и самостоятельно требует многопоточной реализации от программиста.
Synapse - более заточена на понимание протокола и самостоятельно требует многопоточной реализации от программиста.
Indy10 5588 Вроде последняя версия.
Все работает но мусор в логе типа компилятора типа.....
.....
Note: Дублирующийся модуль "IdWhois" в "project1", orphaned ppu "C:\lazarus\MyToolkit\Новая папка\lib\i386-win32\IdWhois.ppu"
.....
.... как сие убить и чтобы лазарус не создавал лишние файлы?
И ещё вопрос
В HTML <meta charset="UTF-8">
В idhttp1.Response.CharSet - UTF-8
В кодировке проекта - UTF-8
IdHTTP1.Get возвращает в TMemo вместо кириллицы знаки вопроса.
Что я упускаю в настройках IdHTTP?
Все работает но мусор в логе типа компилятора типа.....
.....
Note: Дублирующийся модуль "IdWhois" в "project1", orphaned ppu "C:\lazarus\MyToolkit\Новая папка\lib\i386-win32\IdWhois.ppu"
.....
.... как сие убить и чтобы лазарус не создавал лишние файлы?
И ещё вопрос
В HTML <meta charset="UTF-8">
В idhttp1.Response.CharSet - UTF-8
В кодировке проекта - UTF-8
IdHTTP1.Get возвращает в TMemo вместо кириллицы знаки вопроса.
Что я упускаю в настройках IdHTTP?
