Поиск лжекириллицы и лжелатиницы

Печать RSS
287

Автор
Землянин
0
Привет всем. Недавно появилась задача: в тексте выявлять латинские слова с русскими похожими буквами и русские слова с латинскими буквами и исправлять их(я имею в виду, когда вместо русского С в слове пишут латинское C и прочие похожие буквы). Пробовал по регулярке, глюки шли. На другом форуме предлагали разбивать на массив символов и по нему пробегать с заменами. Может есть ещё какие идеи?

Господин ПЖ
0
1. platinum дамаль, забей, дороже выйдет, ну или смотря для каких целей, например проверяй только лат или русские символы
K

Чатланин
0
Скорей всего анти-реклама?
Автор
Землянин
0
3. karpov-ml, нет, просто прогонять тексты статей, чтобы в них не путались алфавиты
N

Голубые штаны
0
Юзай MS Word ))
К

Айсберг Визави
0
Есть способ.

Помещаем весь текст в строку (строка без переносов). Прогоняем в цикле блоки символов по 3-4 штуки. Делаем проверку по ANSII коду символа (192-255 для русских, 65-90 и 97-122 для английских). Если блок полностью состоит из латиницы, то ничего не делаем. Если есть один символ - работаем с ним.
М

Малиновые штаны
0
можно использовать какую нибудь утилиту вроде яндекс степлера
Автор
Землянин
0
6. Кевин Митник_HHTeam, у меня похожий вариант был, разделить строку на лексемы и смотреть, каких символов больше:латинских или кириллических, и в соответствии с этим принимать решение о замене

Добавлено через 01:07 сек.
Neformat (30 Июля 2014 / 20:43)
Юзай MS Word ))
да я на Java бот для Википедии пишу, чтобы статьи исправлять, а то случайные опечатки часто проскальзывают
М

Малиновые штаны
0
Стикеры / Теги / Правила / Топ тем / Топ постов / Поиск