Простая метрика сходства текстовых строк - Страница 3 - Мир MS Excel

Регистрация

Напомнить пароль

= Мир MS Excel/Простая метрика сходства текстовых строк - Страница 3 - Мир MS Excel

Старая форма входа

Страница 3 из 11 « 1 2 3 4 5 … 10 11 »
Модератор форума: _Boroda_, китин

Простая метрика сходства текстовых строк (Нечеткий поиск - варианты решения)

Простая метрика сходства текстовых строк

Дата: Пятница, 23.09.2011, 12:34 | Сообщение № 41

Группа: Редакторы

Ранг: Обитатель

Сообщений: 431

Репутация: 193 ±

Замечаний: 0% ±

Предлагаю вашему вниманию бета версию функции "Алфавитного сравнения строк". Возвращает кол-во символов отличия одной строки от другой : )
В перспективе будет доступен режим сравнения строк с учетом регистра и без (сейчас он не доработан).

В двух словах об алгоритме: собираются в словарь алфавиты (+ кол-во букв) одной и другой строки, а затем сравниваются между собой сами алфавиты и кол-во букв этих алфавитов. На данный момент функция, как мне кажется, требует улучшения в части сравнения алфавитов.

Хотелось бы услышать ваше мнение : )

К сообщению приложен файл: AlphCompBeta.zip (8.1 Kb)

Чебурашка стал символом олимпийских игр. А чего достиг ты?
Тишина - самый громкий звук

YM 41001156540584 / WM WMR R21924176233

https://github.com/nervgh/vba

Ответить

Дата: Пятница, 23.09.2011, 13:04 | Сообщение № 42

Группа: Админы

Ранг: Местный житель

Сообщений: 16475

Репутация: 2749 ±

Замечаний: ±

Excel 2016

Quote (nerv)

На данный момент функция, как мне кажется, требует улучшения в части сравнения алфавитов

Думаю да

smile

Если сравнить Serge 007 и nerv, то функция возвращает 3 отличия...

ЮMoney:41001419691823 | WMR:126292472390

Ответить

Дата: Пятница, 23.09.2011, 13:11 | Сообщение № 43

Группа: Редакторы

Ранг: Обитатель

Сообщений: 431

Репутация: 193 ±

Замечаний: 0% ±

Quote (Serge_007)

Думаю да smile
Если сравнить Serge 007 и nerv, то функция возвращает 3 отличия...

Собственно, алгоритм мне пришел в голову только сегодня за завтраком happy

happy

Насчет строк из вашего примера: по идее все правильно - S*rge 007 | n*rv

>>Возвращает кол-во символов отличия одной строки от другой : )
Видимо, здесь надо было писать так: возвращает кол-во символов отличия стоки B от строки A.

Чебурашка стал символом олимпийских игр. А чего достиг ты?
Тишина - самый громкий звук

YM 41001156540584 / WM WMR R21924176233

https://github.com/nervgh/vba

Ответить

Дата: Пятница, 23.09.2011, 13:21 | Сообщение № 44

Группа: Админы

Ранг: Местный житель

Сообщений: 16475

Репутация: 2749 ±

Замечаний: ±

Excel 2016

Quote (nerv)

по идее все правильно - S*rge 007 | n*rv

А буква r?
По-моему должно быть так: S**ge 007 | n**v .

ЮMoney:41001419691823 | WMR:126292472390

Ответить

Формуляр

Дата: Пятница, 23.09.2011, 13:34 | Сообщение № 45

Группа: Друзья

Ранг: Ветеран

Сообщений: 832

Репутация: 255 ±

Замечаний: 0% ±

Excel 2003, 2013

Quote (Формуляр)

Общий принцип таков: для 2-х строк формируем общий набор трид или диад (в общем Q-грамм, как пишут умные люди). Для каждой строки строится частотный профиль встречаемости каждой диады (как правило, 1 либо 0). Сумма этих значений и есть "площадь" профиля, т.е. просто кол-во полных диад в данной строке. А дальше, "площадь" пересекающейся части 2-х профилей делится на общую "площадь" их объединения. Это и есть наша метрика.

Quote (Формуляр)

Q-фактор (длина фрагмента сравнения) теперь настраивается через Const Q.

Quote (nerv)

В двух словах об алгоритме: собираются в словарь алфавиты (+ кол-во букв) одной и другой строки, а затем сравниваются между собой сами алфавиты и кол-во букв этих алфавитов.

Это не то же самое будет получаться, что и TextSimilarity() при Q=1 ?

Excel 2003 EN, 2013 EN

Сообщение отредактировал Формуляр - Пятница, 23.09.2011, 13:35

Ответить

Дата: Пятница, 23.09.2011, 14:47 | Сообщение № 46

Группа: Редакторы

Ранг: Обитатель

Сообщений: 431

Репутация: 193 ±

Замечаний: 0% ±

/Бета2 - возвращает процент сходства двух строк : )

>>А буква r?
>>По-моему должно быть так: S**ge 007 | n**v .
Правильно говорите. Эт я не доглядел ^__^

>>Это не то же самое будет получаться, что и TextSimilarity() при Q=1 ?
Не знаю. А какой принцип сравнения этой ф-ции при Q=1? Можно в двух словах

опять-таки с подсчетом процентов у меня беда)))

К сообщению приложен файл: AlphCompBeta2.zip (8.9 Kb)

Чебурашка стал символом олимпийских игр. А чего достиг ты?
Тишина - самый громкий звук

YM 41001156540584 / WM WMR R21924176233

https://github.com/nervgh/vba

Ответить

Формуляр

Дата: Пятница, 23.09.2011, 15:19 | Сообщение № 47

Группа: Друзья

Ранг: Ветеран

Сообщений: 832

Репутация: 255 ±

Замечаний: 0% ±

Excel 2003, 2013

Quote (nerv)

>>Это не то же самое будет получаться, что и TextSimilarity() при Q=1 ? Не знаю. А какой принцип сравнения этой ф-ции при Q=1? Можно в двух словах

Quote (Формуляр)

Цитата, Формуляр писал(а):Общий принцип таков: для 2-х строк формируем общий набор трид или диад (в общем Q-грамм, как пишут умные люди). Для каждой строки строится частотный профиль встречаемости каждой диады (как правило, 1 либо 0). Сумма этих значений и есть "площадь" профиля, т.е. просто кол-во полных диад в данной строке. А дальше, "площадь" пересекающейся части 2-х профилей делится на общую "площадь" их объединения. Это и есть наша метрика.

Excel 2003 EN, 2013 EN

Ответить

Дата: Пятница, 23.09.2011, 21:00 | Сообщение № 48

Группа: Друзья

Ранг: Участник клуба

Сообщений: 3219

Репутация: 622 ±

Замечаний: 0% ±

2003

Блин! Тут оказывается такая тусовка в интересующей меня теме, а извещения по мылу почему-то приходить перестали...

Серж, тебе не кажется, что тема очень интересная, но, к сожалению, не там автором положена: это ещё не готовое решение, а творческий процесс его выработки коллективным разумом biggrin

biggrin

Может возможно топик переместить в основную дискуссионную ветку: "Вопросы по..."?
А уж когда дотрём тему до готового решения, тогда её и можно будет нормально ЛАКОНИЧНО оформить (могу попробовать это сделать, ты же знаешь...) и выложить со всеми ссылками на авторов здесь, в "Готовых решениях"?

С уважением,
Алексей
MS Excel 2003 - the best!!!

Сообщение отредактировал Alex_ST - Пятница, 23.09.2011, 21:57

Ответить

Дата: Пятница, 23.09.2011, 21:55 | Сообщение № 49

Группа: Редакторы

Ранг: Обитатель

Сообщений: 431

Репутация: 193 ±

Замечаний: 0% ±

/Еще такой вариант наваял : )

Формуляр, спасибо. Вроде как понял...

К сообщению приложен файл: HashCompare.zip (13.1 Kb)

Чебурашка стал символом олимпийских игр. А чего достиг ты?
Тишина - самый громкий звук

YM 41001156540584 / WM WMR R21924176233

https://github.com/nervgh/vba

Ответить

Дата: Пятница, 23.09.2011, 22:18 | Сообщение № 50

Группа: Админы

Ранг: Местный житель

Сообщений: 16475

Репутация: 2749 ±

Замечаний: ±

Excel 2016

Quote (Alex_ST)

Но и готового решения - тоже

Вот я и думаю: КУДА?!

ЮMoney:41001419691823 | WMR:126292472390

Ответить

Дата: Суббота, 24.09.2011, 12:32 | Сообщение № 51

Группа: Редакторы

Ранг: Обитатель

Сообщений: 431

Репутация: 193 ±

Замечаний: 0% ±

Начну с того, что хотел бы выложить 2-ую версию HashCompare. Основная функция - HashCompare, вычисляет процент схожести двух строк. Доп. функция - Prepare. Готовит строку к сравнению: приводит к единому регистру (если таковой указан в аргументах ф-ции), "очищает" от "лишних" символов (кавычки, дефисы, точки, запятые, воскл. и вопр. знаки и т.п.), кот. в дальнейшем могут сказаться на сравнении. Доп. функция - EasyHash, преобразует заданное кол-во символов или слово целиком(что именно, зависит от выбора пользователя) в числовое представление. Т.е. сравниваются уже числа, а не строки. Уж не знаю, что быстрее, но почему бы и нет : )

Хотел бы поинтересоваться у Формуляра, почему (как) в примере ниже получается результат 33% при Q=3?
маня 33% ваня ' ???
ман+аня = ван+аня ' мне сравнение видится так. По логике 50%

К сообщению приложен файл: 7005756.zip (13.7 Kb)

Чебурашка стал символом олимпийских игр. А чего достиг ты?
Тишина - самый громкий звук

YM 41001156540584 / WM WMR R21924176233

https://github.com/nervgh/vba

Ответить

Формуляр

Дата: Суббота, 24.09.2011, 21:30 | Сообщение № 52

Группа: Друзья

Ранг: Ветеран

Сообщений: 832

Репутация: 255 ±

Замечаний: 0% ±

Excel 2003, 2013

Quote (Serge_007)

Технически возможно конечно, но ведь вопроса-то в топике нет...

Quote (Alex_ST)

Но и готового решения - тоже

Позволю, всё-таки, себе окаянство утверждать, что выложенные файлы (с 1 по 34 пост) являются готовыми решениями. Разной степени функциональности - это да, но любой из них может быть использован другим разработчиком в готовом виде. Я так понимю, что готовые решения, не подлежащие никакому дальнейшему обсуждению выкладываются не на форум, а в просто Готовые решения.

А вынести обсуждение задач нечёткого поиска вообще в отдельную тему - я только за.
Проблема, как сформулировать в виде вопроса? - Пожалуйста:
"Чего бы ещё такого придумать в области нечеткого поиска?"
И в "вопросы" вписывается и "устоявшееся словосочетание" присутствует как "дОлжно"! biggrin

biggrin

Excel 2003 EN, 2013 EN

Ответить

Формуляр

Дата: Суббота, 24.09.2011, 21:37 | Сообщение № 53

Группа: Друзья

Ранг: Ветеран

Сообщений: 832

Репутация: 255 ±

Замечаний: 0% ±

Excel 2003, 2013

Quote (nerv)

Хотел бы поинтересоваться у Формуляра, почему (как) в примере ниже получается результат 33% при Q=3? маня 33% ваня ' ??? ман+аня = ван+аня ' мне сравнение видится так. По логике 50%

Это следствие использования для сравнения общего базового алфавита (как и в вашем первоначальном варианте).
Только элементами являются не отдельные знаки, а триады: ван, аня, ман.
Сходство - 1 триада из трёх, т.е. 33%

Excel 2003 EN, 2013 EN

Ответить

Дата: Суббота, 24.09.2011, 21:38 | Сообщение № 54

Группа: Админы

Ранг: Местный житель

Сообщений: 16475

Репутация: 2749 ±

Замечаний: ±

Excel 2016

Quote (Формуляр)

Позволю, всё-таки, себе окаянство утверждать, что выложенные файлы (с 1 по 34 пост) являются готовыми решениями. Разной степени функциональности - это да, но любой из них может быть использован другим разработчиком в готовом виде. Я так понимю, что готовые решения, не подлежащие никакому дальнейшему обсуждению выкладываются не на форум, а в просто Готовые решения.

Формуляр, спасибо!
Я как раз ждал Вашего мнения, как автора топика.
Решено - ЭТА тема остаётся здесь.

ЮMoney:41001419691823 | WMR:126292472390

Ответить

Дата: Суббота, 24.09.2011, 22:43 | Сообщение № 55

Группа: Друзья

Ранг: Участник клуба

Сообщений: 3219

Репутация: 622 ±

Замечаний: 0% ±

2003

Серж,
ну тогда хоть ты как "бугор" smile

smile

добавь пояснение (ну или как оно там называется то, что разъясняет заголовок?) к заголовку топика. Ну, что-то типа "Нечеткий поиск - варианты решения"
Ведь Формуляр-то сам сделать этого не может за давностью времени создания топика.

Формуляр, ты не против?

С уважением,
Алексей
MS Excel 2003 - the best!!!

Ответить

Формуляр

Дата: Суббота, 24.09.2011, 22:53 | Сообщение № 56

Группа: Друзья

Ранг: Ветеран

Сообщений: 832

Репутация: 255 ±

Замечаний: 0% ±

Excel 2003, 2013

Я не возражаю.
Можем даже хвост (после 34 поста) в "вопросы" перекинуть.

Excel 2003 EN, 2013 EN

Ответить

Дата: Суббота, 24.09.2011, 22:59 | Сообщение № 57

Группа: Админы

Ранг: Местный житель

Сообщений: 16475

Репутация: 2749 ±

Замечаний: ±

Excel 2016

Quote (Alex_ST)

Серж,
ну тогда хоть ты добавь пояснение к заголовку топика. Ну, что-то типа "Нечеткий поиск - варианты решения"

Согласен, добавил.

Quote (Alex_ST)

ну или как оно там называется то, что разъясняет заголовок?

Это называется "Описание темы" smile

smile

Quote (Формуляр)

Можем даже хвост (после 34 поста) в "вопросы" перекинуть.

Так не получится, "перекинуть" можно только в уже существующую тему.

ЮMoney:41001419691823 | WMR:126292472390

Ответить

Дата: Воскресенье, 25.09.2011, 12:16 | Сообщение № 58

Группа: Друзья

Ранг: Участник клуба

Сообщений: 3219

Репутация: 622 ±

Замечаний: 0% ±

2003

- после ответа удали, плиз
Серёга, а ты не проверял: движок форума при "Поиске" буквы "ё" и "е" считает одинаковыми или нет?
Это для меня вообще-то достаточно частая проблема когда что-то ищу: "Ё" или "Е" писать в искомых словах если по правилам Ё, а часто пишут Е

С уважением,
Алексей
MS Excel 2003 - the best!!!

Ответить

Дата: Воскресенье, 25.09.2011, 12:19 | Сообщение № 59

Группа: Друзья

Ранг: Участник клуба

Сообщений: 3219

Репутация: 622 ±

Замечаний: 0% ±

2003

И вообще, Серёга, ты не можешь почистить малость топик от не относящихся к теме обсуждений типа "как назвать", "что удалить" и т.п.? Ну, хотя бы начиная с 57-го поста и до этого включительно.
Просто тема для многих интересная, а воды налили вокруг неё много...

С уважением,
Алексей
MS Excel 2003 - the best!!!

Сообщение отредактировал Alex_ST - Воскресенье, 25.09.2011, 12:20

Ответить

Дата: Воскресенье, 25.09.2011, 12:21 | Сообщение № 60

Группа: Админы

Ранг: Местный житель

Сообщений: 16475

Репутация: 2749 ±

Замечаний: ±

Excel 2016

Quote (Alex_ST)

а ты не проверял: движок форума при "Поиске" буквы "ё" и "е" считает одинаковыми или нет?

Не проверял.

Quote (Alex_ST)

тема для многих интересная, а воды налили вокруг неё много...

Эта "вода" даёт возможность топику быть в ТОП 10, а тема, как ты сам заметил, интересная, поэтому чистить ничего не буду, пока кол-во "продуктивных" постов не перевалит за 60.

ЮMoney:41001419691823 | WMR:126292472390

Ответить

Простая метрика сходства текстовых строк (Нечеткий поиск - варианты решения)

Страница 3 из 11
«
1
2
3
4
5
…
10
11
»

© 2010-2025 · Дизайн: MichaelCH · Хостинг от uCoz · При использовании материалов сайта, ссылка на www.excelworld.ru обязательна!