Форум программистов
 

Восстановите пароль или Зарегистрируйтесь на форуме, о проблемах и с заказом рекламы пишите сюда - alarforum@yandex.ru, проверяйте папку спам!

Вернуться   Форум программистов > IT форум > Помощь студентам
Регистрация

Восстановить пароль
Повторная активизация e-mail

Купить рекламу на форуме - 42 тыс руб за месяц

Ответ
 
Опции темы Поиск в этой теме
Старый 27.02.2015, 17:14   #1
romantik1993
Пользователь
 
Регистрация: 12.03.2012
Сообщений: 99
Восклицание Delphi - как посчитать процент плагиата

есть программа антиплагиат. В общем она берет 2 вордовских файла, разбивает каждый из них на предложения, и потом сравнивает каждое предложение из первого файла с каждым предложением из второго файла. В каждый момент сравнения двух предложений, программа выводит эти предложения и процент сходства этих предложений.

Подкиньте идейку как можно посчитать общий процент плагиата.


Прилагаю скриншот для более детального понимания результата.
Короче смысл такой на скриншоте верхнее предложение это 315 предложение, предложение 1 это из первого текста, а второе их второго, процент сходства у них 0.66, ну если домножить на 100 то будет 66 процентов. и так далее
Изображения
Тип файла: jpg SNAG-0094.jpg (60.5 Кб, 111 просмотров)

Последний раз редактировалось romantik1993; 28.02.2015 в 01:01.
romantik1993 вне форума Ответить с цитированием
Старый 27.02.2015, 18:37   #2
Smogg
Участник клуба
 
Регистрация: 14.06.2011
Сообщений: 1,138
По умолчанию

(1- Расстояние Левенштейна делить на длину предложения) умножить на 100 - получим процент сходства по предложениям.

А если суммарные расстояния Левенштейна по всем предложениям делить на длину всего текста, то получим количество плагиата по всему, соответственно, тексту.

Но такой подход в лоб пройдет, только если порядок предложений сохраняется 1к1му, т.е. без вставок/удалений абзацев из оригинального/тестируемого текста...

А, ведь так и написано:
Цитата:
потом сравнивает каждое предложение из первого файла с каждым предложением из второго файла
Ну, тогда берем высчитанный процент максимальной похожести и умножаем на длину предложения. Так получаем точное значение количества плагиата в предложении, а не относительное в процентах.
Затем суммируем точные значения по отдельным предложения и делим сумму на длину всего текста - так получаем относительное значение плагиата по всему тексту.

Последний раз редактировалось Smogg; 27.02.2015 в 18:52.
Smogg вне форума Ответить с цитированием
Старый 27.02.2015, 19:42   #3
Poma][a
Новичок
Джуниор
 
Регистрация: 11.10.2011
Сообщений: 3,882
По умолчанию

Мама мыла раму. Арбуз был куплен в магазине
Рама была помыта мамой. В магазине был куплен арбуз
Рама была тщательно мамой помыта, ибо давно нуждалась в мытье. Мы купили сочный, спелый арбуз

Ну и как тут определить?
Не зайдет тупо по предложениям
Poma][a вне форума Ответить с цитированием
Старый 27.02.2015, 19:42   #4
min@y™
Цифровой кот
Старожил
 
Аватар для min@y™
 
Регистрация: 29.08.2014
Сообщений: 7,629
По умолчанию

Цитата:
Прилагаю скриншот
где ?
Расскажу я вам, дружочки, как выращивать грибочки: нужно в поле утром рано сдвинуть два куска урана...
min@y™ вне форума Ответить с цитированием
Старый 27.02.2015, 21:35   #5
Smogg
Участник клуба
 
Регистрация: 14.06.2011
Сообщений: 1,138
По умолчанию

Цитата:
Сообщение от Poma][a Посмотреть сообщение
Рама была тщательно мамой помыта, ибо давно нуждалась в мытье. Мы купили сочный, спелый арбуз

Ну и как тут определить?
Не зайдет тупо по предложениям
Предлагается разбирать предложение на слова, которые приводить к словарной форме, выкидывать всякие связки (ибо, потому что, следует...) и сравнивать их количество?
Smogg вне форума Ответить с цитированием
Старый 28.02.2015, 00:09   #6
Poma][a
Новичок
Джуниор
 
Регистрация: 11.10.2011
Сообщений: 3,882
По умолчанию

Угу. Почти
Но только не кол-во.. А кол-во похожих
Poma][a вне форума Ответить с цитированием
Ответ


Купить рекламу на форуме - 42 тыс руб за месяц



Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Как посчитать как часто повторяются буквы в String avoro Общие вопросы по Java, Java SE, Kotlin 10 15.06.2014 00:04
Программа для поиска плагиата в текстовом файле (Ms Word) Oleguner Общие вопросы Delphi 5 19.05.2014 16:07
Как отнять процент danichca Microsoft Office Excel 2 23.08.2013 17:56
посчитать количество всех слов,слов-маркеров и процент слов-маркеров ksenya91 Помощь студентам 9 09.01.2013 07:00
Как узнать процент загрузки ЦП и памяти Iong Win Api 20 17.05.2010 05:54