From ec7ba22b64f0963b8bdc54b056739c563fb3679e Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=D0=94=D0=B5=D0=BD=D0=B8=D1=81=20=D0=91=D1=83=D0=B4=D1=8F?= =?UTF-8?q?=D0=BA?= Date: Mon, 20 Nov 2023 23:24:55 +0300 Subject: [PATCH] =?UTF-8?q?=D0=BE=D1=82=D0=BB=D0=B0=D0=B4=D0=BE=D1=87?= =?UTF-8?q?=D0=BD=D0=B0=D1=8F=20=D1=83=D1=82=D0=B8=D0=BB=D0=B8=D1=82=D0=B0?= =?UTF-8?q?=20=D1=80=D0=B0=D1=81=D0=BF=D0=B5=D1=87=D0=B0=D1=82=D0=B0=D0=B9?= =?UTF-8?q?-=D0=BB=D0=B5=D0=BA=D1=81=D0=B5=D0=BC=D1=8B-=D0=B8=D0=B7-=D1=84?= =?UTF-8?q?=D0=B0=D0=B9=D0=BB=D0=B0.py?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- .gitignore | 1 + ...атай-лексемы-из-файла.py | 38 +++++++++++++++++++ 2 files changed, 39 insertions(+) create mode 100644 иривк/распечатай-лексемы-из-файла.py diff --git a/.gitignore b/.gitignore index 532345c..dde49e7 100644 --- a/.gitignore +++ b/.gitignore @@ -1,2 +1,3 @@ иривк/ЯзыкиКоторыеМыНеЗаказывали.txt иривк/log.txt +иривк/cloned_repos diff --git a/иривк/распечатай-лексемы-из-файла.py b/иривк/распечатай-лексемы-из-файла.py new file mode 100644 index 0000000..5305ef1 --- /dev/null +++ b/иривк/распечатай-лексемы-из-файла.py @@ -0,0 +1,38 @@ +import os +import sys +import pathlib +import re +import requests +from subprocess import call +import threading +import pygments +from pygments.lexers import get_lexer_for_filename +import pygments.token +from concurrent.futures import ThreadPoolExecutor + +## Появились ложноположительные срабатывания. Пытаемся распечатать русские лексемы, которые являются +## такими срабатываниями +## Принимает в качестве параметра имя файла. Кодировку можно поменять в исходном тексте + +кодировка = 'utf-8' + +def main(): + file_path = sys.argv[1] + file_ext = os.path.splitext(file_path)[1] + lexer = get_lexer_for_filename(file_ext) + if lexer is None: + print("Не удалось определить лексер") + exit(1) + + print("лексер = %s" % lexer.name) + + with open(file_path, 'r', encoding=кодировка, errors = 'ignore') as f: + лексемы = pygments.lex(f.read(), lexer) + for token, value in лексемы: + if pygments.token.is_token_subtype(token, pygments.token.Name): + if re.search('[а-яА-ЯёЁ]', value): + print("класс = %s, текст = %s" % (token, value)) + + +main() +