Conversation
| self, | ||
| omograph_model_size="turbo2", | ||
| use_dictionary=False, | ||
| use_dictionary=True, |
There was a problem hiding this comment.
У use_dictionary было какое-то странное поведение, так что я его немного переделал.
Если так нехорошо, то можно как-то по-другому сделать.
Но надо как-то определить, что этот параметр в итоге делает.
| self.workdir = workdir | ||
| else: | ||
| self.workdir = str(pathlib.Path(__file__).resolve().parent) | ||
| self.module_path = str(pathlib.Path(__file__).resolve().parent) |
There was a problem hiding this comment.
Эти две строчки переехали в init
|
|
||
| if not os.path.exists(join_path(self.workdir, "nn", "nn_rumorph")): | ||
| assert False, "Missing nn/nn_rumorph" | ||
|
|
There was a problem hiding this comment.
nn/nn_rumorph по идее должен скачиваться с hugging_face?
Надо его туда выложить и дописать здесь код, чтобы он скачивался.
| self.yo_homograph_model = YoHomographModel() | ||
| self.fs = HfFileSystem() | ||
| self.normalize = re.compile(r"[^a-zA-Z0-9\sа-яА-ЯёЁ—.,!?:;""''(){}\[\]«»„“”-]") | ||
| self.normalize = re.compile(r"[^a-zA-Z0-9\sа-яА-ЯёЁ—.,!?:;\"\"''(){}\[\]«»„“”\-\+]") |
There was a problem hiding this comment.
Здесь был небольшой косяк с кавычками (реально глючило на них).
И ещё разрешил +, чтобы можно было обрабатывать тексты, в которых уже стоят ударения в каких-то словах.
|
|
||
| self.yo_rules = json.load( | ||
| gzip.open(join_path(self.workdir, "dictionary", "yo_rules.json.gz")) | ||
| ) |
There was a problem hiding this comment.
yo_rules тоже надо на hugging_face выложить
| text = text.replace(" " + char, char) | ||
| text = re.sub(r'\s*-\s*', '-', text) | ||
| text = re.sub(r'\s+([!\"#$%&\'()*,\./:;<=>?@\[\\\]^_`{|}])', r' \1', text) | ||
| text = re.sub(r'([!\"#$%&\'()*,\./:;<=>?@\[\\\]^_`{|}])\s+', r'\1 ', text) |
There was a problem hiding this comment.
Тут тоже как-то странно работало, так что регулярки как раз для такого хорошо подходят.
| @staticmethod | ||
| def split_by_words(string): | ||
| string = string.replace(" - ",' ~ ') | ||
| string = re.sub(r'(^| )- ', r'\1~ ', string) |
There was a problem hiding this comment.
Тут был косяк, что "-" не заменялся в начале строки. Особенно часто встречалось в диалогах.
|
А какие результаты использования RuMorph? Он позволяет точнее ставить ё, или разница не очень большая? |
No description provided.