Ребята и девчата, а никто не заморачивался преобразованием в нормальный вид таблиц, содержащихся в не слишком свежих нормативных документах (законах, постановлениях, ГОСТах, СНиПах и т.д.)? Чаще всего эти таблицы создаются в текстовом редакторе с использованием какого-нибудь моноширинного шрифта (например, Courier), изображением границ в лучшем случае псевдографикой (это если достаточно продвинутая машинистка набивала) и выравниванием данных внутри таких "ячеек" пробелами и энтерами. Есть какие-нибудь идеи? Ручками пару десятков таблиц перебивать ну совсем в лом... Единственный тупой вариант, пока пришедший в голову: распечатать таблицу на PDF-принтере и подсунуть её файнридеру на распознавание. Но как-то это "не комильфо" Вот, например, в аттаче таблица. Там границы нарисованы псевдографикой, но конкретно на эти символы при попытке автоматизации я бы, например, не рассчитывал, т.к. могут быть варианты, а процедуру хотелось бы сделать более-менее универсальной чтобы каждый раз не подпиливать её под вариант фантазии "машинистки".
Ребята и девчата, а никто не заморачивался преобразованием в нормальный вид таблиц, содержащихся в не слишком свежих нормативных документах (законах, постановлениях, ГОСТах, СНиПах и т.д.)? Чаще всего эти таблицы создаются в текстовом редакторе с использованием какого-нибудь моноширинного шрифта (например, Courier), изображением границ в лучшем случае псевдографикой (это если достаточно продвинутая машинистка набивала) и выравниванием данных внутри таких "ячеек" пробелами и энтерами. Есть какие-нибудь идеи? Ручками пару десятков таблиц перебивать ну совсем в лом... Единственный тупой вариант, пока пришедший в голову: распечатать таблицу на PDF-принтере и подсунуть её файнридеру на распознавание. Но как-то это "не комильфо" Вот, например, в аттаче таблица. Там границы нарисованы псевдографикой, но конкретно на эти символы при попытке автоматизации я бы, например, не рассчитывал, т.к. могут быть варианты, а процедуру хотелось бы сделать более-менее универсальной чтобы каждый раз не подпиливать её под вариант фантазии "машинистки".Alex_ST
Я, честно говоря, и сам даже принципа обработки придумать пока не могу. Придётся, наверное, на самом деле тупо сначала делать из текста графику, а потом её распознавать Как-то гнусно это… Типа выравнивания текста в ячейке пробелами, как до сих пор многие делают.
Я, честно говоря, и сам даже принципа обработки придумать пока не могу. Придётся, наверное, на самом деле тупо сначала делать из текста графику, а потом её распознавать Как-то гнусно это… Типа выравнивания текста в ячейке пробелами, как до сих пор многие делают. Alex_ST
А сделать импорт из текстового файла - там по крайней мере можно нормально распределить по столбцам и ячейкам ЗЫ пример - сделал экспорт в текстовый файл выложенного примера и импортировал назад
А сделать импорт из текстового файла - там по крайней мере можно нормально распределить по столбцам и ячейкам ЗЫ пример - сделал экспорт в текстовый файл выложенного примера и импортировал назадparamedic
Ну, вообще-то найденные в сети документы обычно и так либо txt, либо doc, но с табличками, набитыми моноширинным шрифтом. И я не сам так таблички набиваю (обожаешь ), а пытаюсь как-то эту гнусь средствами нашего "любимого и могучего" привести в божеский вид прежде чем в уже нормально оформленный Вордовый документ вставлять. А ты, Серёга, txt-файл с "нарисованными" в нём табличками пытался в Ворд загнать? Как раз из-за того, что в Ворде шрифт не моноширинный, такая шняга из таблиц получается! Фиг чего разберёшь. Вот я выложил пример исходника (у меня txt-вложение в Лисе почему-то открывается... добавил то же в ZIP)
Ну, вообще-то найденные в сети документы обычно и так либо txt, либо doc, но с табличками, набитыми моноширинным шрифтом. И я не сам так таблички набиваю (обожаешь ), а пытаюсь как-то эту гнусь средствами нашего "любимого и могучего" привести в божеский вид прежде чем в уже нормально оформленный Вордовый документ вставлять. А ты, Серёга, txt-файл с "нарисованными" в нём табличками пытался в Ворд загнать? Как раз из-за того, что в Ворде шрифт не моноширинный, такая шняга из таблиц получается! Фиг чего разберёшь. Вот я выложил пример исходника (у меня txt-вложение в Лисе почему-то открывается... добавил то же в ZIP)Alex_ST
Я имею ввиду файнридером сразу в Ворд распознавать.
Да поуху! Главное, что сначала из текста по-тупому приходится картинку делать чтобы потом её пытаться файнридером обратно в текст перегнать. А если в распознаваемом рисунке ещё и смесь русских слов и латинских обозначений, то файнридер, естественно, лажается по-чёрному. Ведь ему-то откуда знать, например, что С - это конденсатор, а не предлог С?
Я имею ввиду файнридером сразу в Ворд распознавать.
Да поуху! Главное, что сначала из текста по-тупому приходится картинку делать чтобы потом её пытаться файнридером обратно в текст перегнать. А если в распознаваемом рисунке ещё и смесь русских слов и латинских обозначений, то файнридер, естественно, лажается по-чёрному. Ведь ему-то откуда знать, например, что С - это конденсатор, а не предлог С?Alex_ST
Ну, есть предложение загнать текст в массив посимвольно (или в массив строк), а затем, используя некую таблицу соответствий (которую можно пополнять "для универсальности"), - подменить "символы", обозначающие именно границы на псевдографику, и выгрузить. Затем уже Ворд открывает ЭТО как табличку (вроде как lexicon-конвертер в нынешних версиях уже встроен?). При анализе в массиве мы можем легко проверять не только символы справа-слева, но и сверху-снизу. Учтём ещё что массив понадобится размера на две строки больше (+ на два символа в строке больше), чем в исходном тексте - чтобы не организовывать лишние проверки выхода за диапазон...
Ну, есть предложение загнать текст в массив посимвольно (или в массив строк), а затем, используя некую таблицу соответствий (которую можно пополнять "для универсальности"), - подменить "символы", обозначающие именно границы на псевдографику, и выгрузить. Затем уже Ворд открывает ЭТО как табличку (вроде как lexicon-конвертер в нынешних версиях уже встроен?). При анализе в массиве мы можем легко проверять не только символы справа-слева, но и сверху-снизу. Учтём ещё что массив понадобится размера на две строки больше (+ на два символа в строке больше), чем в исходном тексте - чтобы не организовывать лишние проверки выхода за диапазон...AndreTM