Решено: Как автоматически обрабатывать комментарии?
Модератор: Модераторы
Решено: Как автоматически обрабатывать комментарии?
У меня есть несколько сайтов, на них пишут комментарии.
----------------------------------------
Я хочу перестать читать чужие комменты совсем. И при этом не уехать в Магадан (не попасть в бан комнадзора).
----------------------------------------
Что сейчас сделано.
Было уведомление по смс если хостеры пишут в письме слово "комнадзор". Можно восстановить, но я смски редко читаю.
Есть просмотр всех комментов на одной странице. Быстренько перейти что-то ответить (часто пишут нормально) или стереть нафиг. Вручную через wincsp я стираю; читаю новые комментарии я на одной странице; отвечаю прямо на странице источнике.
В чем проблема?
1. Если хостер написал "на вас накатал абузу комнадзор исправьте" - надо удалить коммент за сутки. Иначе, бан аккаунта.
2. Я против политики и религии и всех холиваров на своих сайтах. Мне сетевые войны не нужны от слова совсем.
3. Мне хочется всё автоматизировать.
Что я хочу.
Я хочу написать программу в паскале, которая после запуска на десктопе (или консоли) скачивает комменты с разных хостингов и сайтов по ftp или ssh и проводит их анализ. Физически все новые комментарии хранятся в одном месте в текстовом файле. Таким образом программа должна скачать текстовой файл, автоматически провести анализ комментариев на соответствие всему законодательству РФ, стереть неугодные комментарии (тоже в текстовом файле), залить всё обратно. Заодно орфографические и синтаксические ошибки исправить, автоматически. И так каждые 10 минут.
В чем сложность?
Совсем не понятно какие базы брать или у комнадзора своя есть. Логично, насобирать список стоп слов (матершинные слова, наркотики, политические термины и личности, суициды). Я понимаю только где маты взять. Ну наркотики списком.
Так же, для некоторых сайтов возможно поставить запрет на размещение телефонного номера в контактах. Ссылки у меня еще при первой проверки запрещены. Может что-то еще ставить на запрет автоматом?
Всё - больше ничего умного в голову не приходит.
То есть окончательный вопрос в том, как разбить на подзадачи анализ комментария, чтобы он соответствовал законодательству рф и не вызывал срача в комментах, то есть не был провокационным.
----------
ВАжно, забыл уточнить меня интересует анализ только комментариев с моих личных сайтов. Не со всего интернета.
-------------------------
Решено: забил, сделал перебором словарика. Всем спасибо.
----------------------------------------
Я хочу перестать читать чужие комменты совсем. И при этом не уехать в Магадан (не попасть в бан комнадзора).
----------------------------------------
Что сейчас сделано.
Было уведомление по смс если хостеры пишут в письме слово "комнадзор". Можно восстановить, но я смски редко читаю.
Есть просмотр всех комментов на одной странице. Быстренько перейти что-то ответить (часто пишут нормально) или стереть нафиг. Вручную через wincsp я стираю; читаю новые комментарии я на одной странице; отвечаю прямо на странице источнике.
В чем проблема?
1. Если хостер написал "на вас накатал абузу комнадзор исправьте" - надо удалить коммент за сутки. Иначе, бан аккаунта.
2. Я против политики и религии и всех холиваров на своих сайтах. Мне сетевые войны не нужны от слова совсем.
3. Мне хочется всё автоматизировать.
Что я хочу.
Я хочу написать программу в паскале, которая после запуска на десктопе (или консоли) скачивает комменты с разных хостингов и сайтов по ftp или ssh и проводит их анализ. Физически все новые комментарии хранятся в одном месте в текстовом файле. Таким образом программа должна скачать текстовой файл, автоматически провести анализ комментариев на соответствие всему законодательству РФ, стереть неугодные комментарии (тоже в текстовом файле), залить всё обратно. Заодно орфографические и синтаксические ошибки исправить, автоматически. И так каждые 10 минут.
В чем сложность?
Совсем не понятно какие базы брать или у комнадзора своя есть. Логично, насобирать список стоп слов (матершинные слова, наркотики, политические термины и личности, суициды). Я понимаю только где маты взять. Ну наркотики списком.
Так же, для некоторых сайтов возможно поставить запрет на размещение телефонного номера в контактах. Ссылки у меня еще при первой проверки запрещены. Может что-то еще ставить на запрет автоматом?
Всё - больше ничего умного в голову не приходит.
То есть окончательный вопрос в том, как разбить на подзадачи анализ комментария, чтобы он соответствовал законодательству рф и не вызывал срача в комментах, то есть не был провокационным.
----------
ВАжно, забыл уточнить меня интересует анализ только комментариев с моих личных сайтов. Не со всего интернета.
-------------------------
Решено: забил, сделал перебором словарика. Всем спасибо.
Последний раз редактировалось azsx 02.07.2016 10:55:41, всего редактировалось 3 раза.
тут наборы словарей мелькали.
п.с.
А вот то что вы хотите. Это не в потрепаться тему
п.с.
А вот то что вы хотите. Это не в потрепаться тему
Это не в потрепаться тему
а куда?
зы
я наборов словарей не видел. То есть смысл просто делать проверку по словарю и сливать любой комментарий, в котором даже намек на нарушение есть?
Как представляю словарь я. Например:
Если есть слово: Пучкин(0 или много символов) - то коммент стирается. А, например, опечатка, Пуьин, - пусть просто исправиться.
Если есть фраза: смеси (любые слова) телефон или вибер или любые циферки - то коммент стирается. А, например, по отдельности эти слова более менее ничего страшного.
Вот суицид - на него какой словарь брать? На сеппаратизм какой словарь? хз. Вот я не могу понять для себя тех задание, разбить на подзадачи анализ комментариев.
Боже мой, azsx собрался породить Скайнет. 
Добавлено спустя 1 минуту 24 секунды:
Никакой словарь не поможет. Всегда можно составить текст так, что тупые фильтры анализатора будут обойдены. А смысл и провокационность останется.
Добавлено спустя 1 минуту 24 секунды:
azsx писал(а):Вот суицид - на него какой словарь брать?
Никакой словарь не поможет. Всегда можно составить текст так, что тупые фильтры анализатора будут обойдены. А смысл и провокационность останется.
да не, они однотипно пишут.
у меня всякие смеси, соли бывает постят, я сам смысл понимаю как ловить таких негодяев, только словаря нет. А вот всё остальное - хз. Вот pupsik пишет - слишком много букв в первом посте. Сокращаю пост:
Как разработать правило, которое будет искать комментарий призывающий к суициду. Или к сеппаратизму?
Я нутром чую, что на ихних сормах какой то не сложный анализатор, саму идею бы понять как комнадзор анализирует.
у меня всякие смеси, соли бывает постят, я сам смысл понимаю как ловить таких негодяев, только словаря нет. А вот всё остальное - хз. Вот pupsik пишет - слишком много букв в первом посте. Сокращаю пост:
Как разработать правило, которое будет искать комментарий призывающий к суициду. Или к сеппаратизму?
Я нутром чую, что на ихних сормах какой то не сложный анализатор, саму идею бы понять как комнадзор анализирует.
Последний раз редактировалось azsx 24.06.2016 11:04:51, всего редактировалось 2 раза.
http://freepascal.ru/forum/viewforum.php?f=43а куда?
По поводу словарей. Как бы это сказать: они оптимизированы для быстрого поиска.
если есть то в корзину его, а потом вам отчет показать. И не проверять.в котором даже намек на нарушение есть
эх..х... по поводу этих вещей и подобных проводится анализ и это не только словари будут задействованы.Вот суицид - на него какой словарь брать? На сеппаратизм какой словарь?
вряд ли его возможности потребуются. А вот помудрить прийдетсяСкайнет
Всегда можно составить текст так, что тупые фильтры анализатора будут обойдены. А смысл и провокационность останется.
может вы не знаете, но если вы слишком заувалировано будете призывать к суициду, то и сайт по абузе никто не заблочит. Нет, абузы от комнадзора приходят на комментарии, которые явно и прямо призывают к чему то нехорошему или продают.
Добавлено спустя 2 минуты 45 секунд:
По поводу словарей. Как бы это сказать: они оптимизированы для быстрого поиска.
это сжаты регулярными выражениями или есть какие-то неведомые мне оптимизации? Поток комментариев небольшой, комп домашний справиться даже если надо будет каждый раз выборку на гигагбайтных таблицах делать (50 гб grep по выборке у меня обрабатывается за 10 минут).
azsxАбузы Роскомнадзора инициируются жалобами сознательных граждан, направленных через соответствующую форму на их сайте. А там уже кто надо прочитает и решит. Не верю в существование поискового робота РКН, всё гораздо проще...
в принципе: паук может и быть. При необходимости - ручная проверка (что менее вероятней).Не верю в существование поискового робота РКН
По поводу "сознательных граждан" - тут уж никакой анализатор не поможет. Они могут нервы потрепать.
Абузы Роскомнадзора инициируются жалобами сознательных граждан, направленных через соответствующую форму на их сайте. А там уже кто надо прочитает и решит.
я знаю другие примеры. Когда на дохлом сайте пишут незаконный коммент и весьма быстро приходит абуза хостеру. Хотя по регламенту комнадзор сперва абузы от сознательных граждан рассматривает долго у себя, потом решение принимает. Короче, не верю я вам.
---
Важно, забыл уточнить меня интересует анализ только комментариев с моих личных сайтов. Не со всего интернета.
а что мешает порядочному гражданину накатать комент, а потом накатать куда надо? Это что долго?Когда на дохлом сайте пишут незаконный коммент и весьма быстро приходит абуза хостеру.
В принципе, паук в течении часа может аналогично сделать.
pupsik у меня есть мнение, что проверяют автоматически. При любом варианте это отвлечение, вопрос как автоматически соблюдать законодательство при одобрении комментариев.
По поводу программы:
1. Анализировать тематику (вот ваш суицид, мат и т.д.)
2. Заменять мат на вменяемый текст.
3. Проверять орфографию, грамматику .
п.с.
Только эти 3 пункта легко описать. А вот включать они могут или просто pos, или целую систему.
1. Анализировать тематику (вот ваш суицид, мат и т.д.)
2. Заменять мат на вменяемый текст.
3. Проверять орфографию, грамматику .
а что там проверять то? П.1 - этого вполне достаточно. Получил страницу. Проверил вхождения по словарю. Поставил галочку. Секунда дела.что проверяют автоматически.
п.с.
Только эти 3 пункта легко описать. А вот включать они могут или просто pos, или целую систему.
- Лекс Айрин
- долгожитель
- Сообщения: 5723
- Зарегистрирован: 19.02.2013 16:54:51
- Откуда: Волгоград
- Контактная информация:
azsx писал(а):вопрос как автоматически соблюдать законодательство при одобрении комментариев.
отключить их совсем.
Лекс Айрин бытует мнение что дядя гугл и иные могут не понять отсутствие коментов 
