Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

如果一张图片同时有中文/英文/日文,那么该如何选择模型呢? #75

Closed
Null-Bot9875 opened this issue Sep 21, 2023 · 3 comments

Comments

@Null-Bot9875
Copy link

No description provided.

@hiroi-sora
Copy link
Owner

hiroi-sora commented Sep 21, 2023

目前没有模型能同时支持中+日,只能中英或日英。

如果文字的位置相对固定(如双语字幕),可以先切割出中文 / 日文区域的图片,单独送入OCR。

如果文字位置随机,那么可以按以下步骤:

  1. 对同一张图片,分别用中文 / 日文库跑一遍,得到两份结果。
  2. 遍历两份结果,去除其中置信度(["score"])较差的条目。
  3. 遍历两份结果,去除其中重叠的条目(比如含同一句英文,或者["box"]的位置相同)。
  4. 合并为一份结果。

@Null-Bot9875
Copy link
Author

目前没有模型能同时支持中+日,只能中英或日英。

如果文字的位置相对固定(如双语字幕),可以先切割出中文 / 日文区域的图片,单独送入OCR。

如果文字位置随机,那么可以按以下步骤:

  1. 对同一张图片,分别用中文 / 日文库跑一遍,得到两份结果。
  2. 遍历两份结果,去除其中置信度(["score"])较差的条目。
  3. 遍历两份结果,去除其中重叠的条目(比如含同一句英文,或者["box"]的位置相同)。
  4. 合并为一份结果。

我的需求是需要知道这个图片上的文字类型,可能是中文,日文,英文、德文等。这种情况下也是分别用不同语言库跑一遍取置信度高的结果就可以了吧?

@hiroi-sora
Copy link
Owner

是的。据我所知,并没有一种好的办法或现成的开源项目,能快速检测图片中的语种,而不需要经过完整的OCR流程。所以,判断语种最靠谱的办法只有用多个语言库各跑一遍OCR,取其中置信度最高的语言。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants