Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Ошибка в чтении файла #478

Closed
ValiullinAlbert opened this issue Aug 5, 2024 · 5 comments
Closed

Ошибка в чтении файла #478

ValiullinAlbert opened this issue Aug 5, 2024 · 5 comments
Assignees

Comments

@ValiullinAlbert
Copy link

При чтении прикрепленного файла происходит ошибка
1 — копия.docx

reader = DocxReader(config={})
filepath = "1 — копия.docx"
document1 = reader.read(filepath, parameters={"with_attachments": "false", "need_header_footer_analysis": "True"})
@NastyBoget NastyBoget self-assigned this Aug 5, 2024
@NastyBoget
Copy link
Collaborator

Баг воспроизвелся, постараемся исправить в ближайшее время

@alexander1999-hub
Copy link
Collaborator

Мы исправили ошибку при обработке этого файла. Дело в том, что он не совсем корректный и с нашей стороны код не был рассчитан на это.

Код с исправлением этого бага уже есть в ветке develop. С ближайшим релизом он станет доступен в библиотеке и в ветке master

@ValiullinAlbert
Copy link
Author

Подскажите, пожалуйста, в чем некорректность файла была, и какие файлы вообще лучше подавать для системы?

@NastyBoget
Copy link
Collaborator

Во внутреннем представлении (xml коде) таблицы указано, что ячейки в двух строках должны быть смёржены по вертикали, но в редакторе они отображаются в двух разных рядах. Согласно внутреннему представлению смёржить их невозможно: колспаны ячеек сверху - 2,2,2,1; снизу - 1,2,2,2 (колспаны означают мерж ячеек по горизонтали).
Вообщя говоря, для системы можно подавать любые файлы (если речь идет про docx), которые открываются в текстовом редакторе без ошибок. Если наша система с таким не справляется, то это баг

@ValiullinAlbert
Copy link
Author

Спасибо!

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants