У меня строка: Это прекрасный сайт, админ красавчек , держи пять. Запустив java с теми параметрами, что я указал, я получаю: Это прекрасный сайт, админ красавчик, держи пять. То есть одна проверка. Мне не по словам надо, мне надо проверить всё предложение (весь текст в переменной) и исправить его автоматически, если есть возможность. То есть запятую прижал и слово поправил. Но это в идеале, база у этой программы также очень слабая.
azsx лишний пробел - легко. А вот слово в предложении. Ну не знаю как вам пояснить. Слово <>предложение и знаки препинания по правилам ставятся. Или вы собрались всё предложение в словарь запихнуть?
с удовольствием бы запихнул 2, 3, 4, 5 вариации слов (пофиг на место) для сео целей, но я понять не могу как всю базу нкря спереть http://www.ruscorpora.ru/ или аналогичную.
вы меня не понимаете. Нет не придется. Я проверяю целиком файлом. Что исправил автоматом - красавчик. Просто заменю. Главный вопрос как анализ комментариев делать viewtopic.php?t=11186&view=unread#unread Вопрос с проверкой на ошибки, для меня временно решен.
Лекс Айрин может у вас популярнее получится пояснить: слово <> предложению
azsx по той ветке там ворох сложностей и проблем. И вряд ли это касаемо темы потрепаться.
п.с. То что проверяется файл - не значит что проверка по слову не происходит и нет правил расстановки знаков препинания. Плюс, забыл как правильно, окончания, склонения и т.п..
azsx, проверка орфографии это сверка со словарем и замена на более подходящий, по мнению автора алгоритма набор символов. Условно, слово это набор букв(реже + цифр).
Конечно, можно проверять само предложение целиком, но для этого в словаре должны содержаться варианты замены для предложений -- а это миллионы, как минимум вариантов. При том, что некоторые пишут не совсем стандартно, например в стиле магистра Йоды. Плюс, есть слова о которых неизвестно автору алгоритма.
В общем, гораздо интереснее выглядит, пусть и усложненный, вариант проверки по словам. Хотя бы даже чисто по размеру словаря замен. Да и скорость будет выше. (из-за резко уменьшившегося количества проверок.)... ах да... почти забыл... весь словарь придется грузить в память. Либо одномоментно, либо по очереди.
pupsik, сколько работаю с проверкой, столько она игнорит примерно слово из 50-100. Когда чаще, а когда реже. И это на стандартных текстах.
я вас понял. Вы так пишите, будто я пишу свой алгоритм проверки. А я пишу, что уже написал на основе чужой программы. Именно в чужой программе я проверяю целиком переменную. зы если свой алгоритм - то я сперва на шинглы бы словарик разбил с учетом лево право центр и стандартные опечатки бы отверил.
посмотрел как ваша хваленая жава, что блин, как бы теоретически для встроенных систем, работает на целевых хапешных рабочих станциях с р3 и 32-64 RAM под вин 2000 ( в линуксе тоже самое, только ещё больше гемора с настройкой) .... Точнее как она кушает все ресурсы до которых может дотянутся да ещё установка 250 м (при 2г сказевом диске) занимает и все равно тормозит все что только можно при проверке грамматики.... Хотя согласен работает алгоритм хорошо. Поскольку я в жаве ни в зуб ногой, как-нибудь действительно из неё встраиваемую систему можно сделать и чтобы LanguageTool работал да ещё в фрипасовской проге?