Выявление плагиата
Выявление плагиата — устойчивое название методов поиска и обнаружения плагиата. В настоящее время для целей выявления плагиата, как правило, используются компьютерные методы анализа.
Плагиат — это копирование, перефразирование и подведение итогов работы в любой форме без подтверждения ссылками на источники и представление её как своей собственной работы.
Под плагиатом также понимается заимствование чужой работы, будь то преднамеренно или непреднамеренно, как своей, ради собственной выгоды.
В настоящее время существует достаточно большое количество сервисов и программ, позволяющих каким-либо образом выявить плагиат. Также существует ряд компьютерных методов обнаружения плагиата.
Плагиат с появлением Интернета превратился в серьёзную проблему. Попав в Интернет, знание становится достоянием всех, соблюдать авторское право становится всё труднее и даже невозможно. Постепенно становится сложнее идентифицировать первоначального автора.
Стремительное развитие сети Интернет наряду с увеличивающейся компьютерной грамотностью способствует проникновению плагиата в различные сферы человеческой деятельности: плагиат является острой проблемой в образовании, промышленности и научном сообществе.
Плагиат вводит в заблуждение читателей, приносит ущерб автору, и предоставляет незаслуженные блага плагиатору.
Широкий доступ к отечественной и зарубежной литературе, многократное увеличение числа профессиональных изданий, публикаций в Интернете — всё это практически сводит на нет какие бы то ни было редакторские стремления «проверить» или «установить» подлинность и оригинальность аргументов и фактов, используемых в рукописях, предлагаемых к публикации.
Методы обнаружения плагиата характеризуются по типу оценки сходства.
Глобальная оценка использует большие части текста или документа для нахождения сходства в целом, в то время как локальные методы на входе проверяют ограниченный сегмент текста.
Распространённым подходом является дактилоскопия: из ряда документов выбирается набор из нескольких подстрок, которые и являются «отпечатками». Рассматриваемый документ будет сравниваться с «отпечатками» для всех документов коллекции. Найденные соответствия с другими документами указывают на общие сегменты текста.
Проверка документа дословным перекрытием текста представляет собой классическое сравнение строк.
Проверка подозрительных документов в этой ситуации требует расчёта и хранения эффективно сопоставимые представления всех документов в справочной коллекции, которые сравниваются попарно. Как правило, используют модели, такие как суффиксное дерево или суффиксный массив, которые были адаптированы для выполнения этой задачи в контексте компьютерного обнаружения плагиата. Однако сопоставление подстроки является нежизнеспособным решением для проверки больших коллекций документов (алгоритм отрабатывает в среднем 2h сравнений, где h — длина строки, в которой ведётся поиск).
Анализ "множества слов" является упрощением представления, используемого в обработке естественного языка и поиска информации. В этой модели текст представлен как неупорядоченный набор слов. Документы представлены в виде одного или нескольких векторов, которые используются для попарного вычисления сходства.
Цитирование — компьютерный метод выявления плагиата, предназначенный для использования в научных документах, позволяющий использовать цитаты и справочный материал. Определяет общие цитаты двух научных работ.
Шаблон цитат представляет собой подпоследовательности, содержащие не только общие цитаты для двух документов, но и подобный порядок и близость цитат в тексте, являющихся основными критериями для определения шаблона цитат.
Стилометрия или изучение языковых стилей — это статистический метод для выявления авторства анонимных документов и для компьютерной проверки на плагиат. Стилометрические модели строятся для различных сегментов текста, отрывков, которые стилистически отличаются от других. И путём сравнения моделей можно обнаружить плагиат.
Например, анализ на основе последовательностей частей речи. Рассматривается способ разбиения текста на фрагменты однородности. В качестве параметров разбиения берутся различные последовательности частей речи. Далее проводится анализ фрагментов. И в результате для текста находятся последовательности, которые выделяли из текстов фрагменты, то есть алгоритм выделяет из текста фрагменты неоднородности, имеющие разные частоты встречаемости выбранной последовательности частей речи, что показывает на возможный плагиат в данном месте.