Поиск лжекириллицы и лжелатиницы

⚠️ Bymas - Форум разработчиков

Милый пушистый сайт !!!!

Печать RSS

285

‮PLATINUM 30.07.2014 / 15:45 Автор
Землянин

Привет всем. Недавно появилась задача: в тексте выявлять латинские слова с русскими похожими буквами и русские слова с латинскими буквами и исправлять их(я имею в виду, когда вместо русского С в слове пишут латинское C и прочие похожие буквы). Пробовал по регулярке, глюки шли. На другом форуме предлагали разбивать на массив символов и по нему пробегать с заменами. Может есть ещё какие идеи?

Вантуз-мен 30.07.2014 / 16:02
Господин ПЖ

1. platinum дамаль, забей, дороже выйдет, ну или смотря для каких целей, например проверяй только лат или русские символы

karpov-ml 30.07.2014 / 17:54
Чатланин

Скорей всего анти-реклама?

‮PLATINUM 30.07.2014 / 18:01 Автор
Землянин

3. karpov-ml, нет, просто прогонять тексты статей, чтобы в них не путались алфавиты

Neformat 30.07.2014 / 20:43
Голубые штаны

Юзай MS Word ))

Кевин Митник 30.07.2014 / 21:26
Айсберг Визави

Есть способ.

Помещаем весь текст в строку (строка без переносов). Прогоняем в цикле блоки символов по 3-4 штуки. Делаем проверку по ANSII коду символа (192-255 для русских, 65-90 и 97-122 для английских). Если блок полностью состоит из латиницы, то ничего не делаем. Если есть один символ - работаем с ним.

Михаил 30.07.2014 / 21:36
Малиновые штаны

можно использовать какую нибудь утилиту вроде яндекс степлера

‮PLATINUM 30.07.2014 / 23:06 Автор
Землянин

6. Кевин Митник_HHTeam, у меня похожий вариант был, разделить строку на лексемы и смотреть, каких символов больше:латинских или кириллических, и в соответствии с этим принимать решение о замене

Добавлено через 01:07 сек.

Neformat (30 Июля 2014 / 20:43)
Юзай MS Word ))

да я на Java бот для Википедии пишу, чтобы статьи исправлять, а то случайные опечатки часто проскальзывают

Михаил 31.07.2014 / 01:21
Малиновые штаны

http://api.yandex.ru/speller/doc/dg/reference/checkText.xml

Для выполнения действия необходимо авторизоваться!

Стикеры / Теги / Правила / Топ тем / Топ постов / Поиск