Привет всем. Недавно появилась задача: в тексте выявлять латинские слова с русскими похожими буквами и русские слова с латинскими буквами и исправлять их(я имею в виду, когда вместо русского С в слове пишут латинское C и прочие похожие буквы). Пробовал по регулярке, глюки шли. На другом форуме предлагали разбивать на массив символов и по нему пробегать с заменами. Может есть ещё какие идеи?
Помещаем весь текст в строку (строка без переносов). Прогоняем в цикле блоки символов по 3-4 штуки. Делаем проверку по ANSII коду символа (192-255 для русских, 65-90 и 97-122 для английских). Если блок полностью состоит из латиницы, то ничего не делаем. Если есть один символ - работаем с ним.
6. Кевин Митник_HHTeam, у меня похожий вариант был, разделить строку на лексемы и смотреть, каких символов больше:латинских или кириллических, и в соответствии с этим принимать решение о замене
Добавлено через 01:07 сек.
Neformat (30 Июля 2014 / 20:43)
Юзай MS Word ))
да я на Java бот для Википедии пишу, чтобы статьи исправлять, а то случайные опечатки часто проскальзывают