デジタリストニュース
 デジタリストニュース

LINEが昭和前期以前の資料にも対応可能なOCRモデルを開発 国立国会図書館のデジタル化資料2億2300万枚のテキストデータ化を完了

新着ニュース30件






























LINEが昭和前期以前の資料にも対応可能なOCRモデルを開発 国立国会図書館のデジタル化資料2億2300万枚のテキストデータ化を完了

このエントリーをはてなブックマークに追加
▼ ニュースのポイント
①LINE AIカンパニーが国立国会図書館のOCRテキストデータ化プロジェクトにて、プロジェクト用のOCRモデルを開発。
②同プロジェクトでは、デジタル化資料の多くが昭和前期以前の資料。
③開発したモデルにて、国立国会図書館のデジタル化資料247万点をテキストデータ化した。

複雑な昭和前期以前の資料をデジタル化
 LINE AIカンパニーは9月7日、新たなOCRモデルの開発により、国立国会図書館のデジタル化資料247万点、2億2300万枚を超す全文のテキストデータ化を完了したと発表した。

AIカンパニー


 同社は2021年、国立国会図書館が保有するデジタル化資料のOCRテキストデータ化プロジェクトに同社の「CLOVA OCR」が採用され、同プロジェクトを受託した。

 「CLOVA OCR」は、書類や画像に記載された文字をテキストデータに変換するサービスで、文書解析と認識に関する国際会議ICDARの4分野で世界No.1を獲得している。

「CLOVA OCR」をベースに新たなOCRモデルを開発
 今回のプロジェクトでは、デジタル化資料の多くがレイアウトなどが複雑な昭和前期以前の資料であったため、既存のOCRでは精度や処理速度が課題とされていた。

 そこで同社のAI-OCRモデル研究開発チームでは、「CLOVA OCR」の技術をベースに、同プロジェクト用の新たなOCRモデルを開発した。

 この結果、昭和前期以前の資料特有の、字間・行間が不揃いな書籍、書籍内の汚れや透けて見えている文字、右読みの文章なども認識できるようになり、全文テキストデータ化を完了できたとしている。

(画像はプレスリリースより)


外部リンク

LINE AIカンパニー プレスリリース
https://prtimes.jp/main/html/rd/p/000003977.000001594.html


▼ 会社概要
LINEでは2019年からカンパニー制を導入。LINE AIカンパニーは、AIアシスタント「Clova」、音声操作だけで目的地設定などが可能な「LINEカーナビ」、企業向けの「LINE BRAIN」などを展開している。

社名:LINE株式会社 AIカンパニー
代表取締役:砂金 信一郎
所在地:東京都新宿区四谷一丁目6番1号 四谷タワー23階


Amazon.co.jp : AIカンパニー に関連する商品
  • ネルプがAI人物画像生成ソフト「Zoe」を活用した法人向けサービスを提供開始 生成したAI人物画像を広告コンテンツに活用できる(7月1日)
  • パナソニックが自動計量IH炊飯器「SR-AX1」を発売、独自の計量技術やIoT技術で全自動化(6月30日)
  • XAION DATAが「AUTOHUNT」に新機能を追加 ChatGPTを活用した3つの機能を実装(6月30日)
  • コチラエが「KOCHILAE」をリリース ショッピングセンターや商店街などでの買い回りを支援するクーポン発行プラットフォーム(6月30日)
  • エルイズビーが現場写真共有アプリ「タグショット/タグアルバム」をリリース 撮るだけでタグが付きクラウド上に自動で保存・分類・共有(6月30日)
  • Yahoo!ブックマーク  Googleブックマーク  はてなブックマーク  POOKMARKに登録  livedoorClip  del.icio.us  newsing  FC2  Technorati  ニフティクリップ  iza  Choix  Flog  Buzzurl  Twitter  GoogleBuzz
    -->
    記事検索
    アクセスランキング トップ10










    特集
    お問い合わせ