From ec7ba22b64f0963b8bdc54b056739c563fb3679e Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?=D0=94=D0=B5=D0=BD=D0=B8=D1=81=20=D0=91=D1=83=D0=B4=D1=8F?=
 =?UTF-8?q?=D0=BA?= <budden73@gmail.com>
Date: Mon, 20 Nov 2023 23:24:55 +0300
Subject: [PATCH] =?UTF-8?q?=D0=BE=D1=82=D0=BB=D0=B0=D0=B4=D0=BE=D1=87?=
 =?UTF-8?q?=D0=BD=D0=B0=D1=8F=20=D1=83=D1=82=D0=B8=D0=BB=D0=B8=D1=82=D0=B0?=
 =?UTF-8?q?=20=D1=80=D0=B0=D1=81=D0=BF=D0=B5=D1=87=D0=B0=D1=82=D0=B0=D0=B9?=
 =?UTF-8?q?-=D0=BB=D0=B5=D0=BA=D1=81=D0=B5=D0=BC=D1=8B-=D0=B8=D0=B7-=D1=84?=
 =?UTF-8?q?=D0=B0=D0=B9=D0=BB=D0=B0.py?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 .gitignore                                    |  1 +
 ...атай-лексемы-из-файла.py | 38 +++++++++++++++++++
 2 files changed, 39 insertions(+)
 create mode 100644 иривк/распечатай-лексемы-из-файла.py

diff --git a/.gitignore b/.gitignore
index 532345c..dde49e7 100644
--- a/.gitignore
+++ b/.gitignore
@@ -1,2 +1,3 @@
 иривк/ЯзыкиКоторыеМыНеЗаказывали.txt
 иривк/log.txt
+иривк/cloned_repos
diff --git a/иривк/распечатай-лексемы-из-файла.py b/иривк/распечатай-лексемы-из-файла.py
new file mode 100644
index 0000000..5305ef1
--- /dev/null
+++ b/иривк/распечатай-лексемы-из-файла.py
@@ -0,0 +1,38 @@
+import os
+import sys
+import pathlib
+import re
+import requests
+from subprocess import call
+import threading
+import pygments
+from pygments.lexers import get_lexer_for_filename
+import pygments.token 
+from concurrent.futures import ThreadPoolExecutor
+
+## Появились ложноположительные срабатывания. Пытаемся распечатать русские лексемы, которые являются 
+## такими срабатываниями
+## Принимает в качестве параметра имя файла. Кодировку можно поменять в исходном тексте
+
+кодировка = 'utf-8'
+
+def main():
+    file_path = sys.argv[1]
+    file_ext = os.path.splitext(file_path)[1]
+    lexer = get_lexer_for_filename(file_ext)
+    if lexer is None:
+        print("Не удалось определить лексер")
+        exit(1)
+
+    print("лексер = %s" % lexer.name)
+
+    with open(file_path, 'r', encoding=кодировка, errors = 'ignore') as f:
+        лексемы = pygments.lex(f.read(), lexer)
+        for token, value in лексемы:
+            if pygments.token.is_token_subtype(token, pygments.token.Name):
+                if re.search('[а-яА-ЯёЁ]', value):
+                    print("класс = %s, текст = %s" % (token, value))
+                
+
+main()
+