ユダヤ人の写本を集めたカイロ ジェニザでは、西暦 950 年から 1250 年までの歴史をユニークに垣間見ることができます。残念なことに、その葉は世界中の博物館や図書館に散乱しています。研究者たちは現在、コンピューターを使用して断片を元に戻そうとしています。
1800 年頃に発見され、現在は世界中に散在しています。エジプトのカイロにあるシナゴーグのゲニザ (保管室) から出土した写本の断片です。時間をかけて文書をジェニザで燃やすのが慣例であるため、写本は非常に特別です。カイロ ジェニザ (コレクションはそう呼ばれています) では、西暦 950 年から 1250 年の間の歴史をユニークに垣間見ることができます。
残念ながら、文書は別の図書館に保管されているため、科学者にとって文書を研究するのは簡単ではありません。断片の最大のコレクション(280,000 点のうち約 193,000 点)はケンブリッジ(イギリス)にありますが、ニューヨーク(米国)やマンチェスター(イギリス)にも大規模なコレクションがあります。幸いなことに、ますます多くの断片がデジタル化されています。しかし、まだ問題が残っています。どの断片が集まって原稿を構成しているのでしょうか?
コンピュータを使用する
テルアビブ大学 (イスラエル) とフリードバーグ ゲニザ プロジェクトの研究者は、結合と呼ばれるシステムを開発しました。 決定することができます。同じ文書に由来する断片のグループ。画像処理技術を使用して、スキャンされたページのコレクションを分析し、それに基づいて 2 つの断片が一緒に属しているかどうかを常に評価します。
分析を難しくしているのは、とりわけ、スキャン時に自動分析が考慮されていないことです。つまり、背景は常に同じとは限らず、断片は必ずしも真っ直ぐであるとは限らず、場合によっては写真に定規が置かれることもあります。したがって、測定を行う前に写真を編集する必要があります。上の左の画像でそれがわかります。システムは最初に写真内の断片を選択し、それをまっすぐにして白黒画像にします (コンピューターが迅速に処理できるようにするため)。
直線はどこですか?
分析のステップの 1 つは、線の方向を決定することです。テキストは真っ直ぐですか、それともわずかに歪んでいますか、またどの程度歪んでいますか?これを行うために、システムは画像ハフ変換を使用します。これは、画像内の直線を決定するために一般的に使用される手法です。
ハフ変換を作成するには、まずピクセルごとに、どの直線上にあるかが決定されます (下の図を参照)。
可能な直線は、x*cos(t) + y*sin(t) =R という式で表すことができます。 ここでR 原点と問題の線の間の法線の長さ、t 法線と X 軸の間の角度。これに基づいて、R/t のリストを作成できます。 画像の各ピクセルの組み合わせ。各組み合わせは、点が存在する可能性のある特定のラインを表します。そのリスト (t ) をプロットすると、 X 軸とR y 軸上)、ピクセルごとに、接続できる一連の点が得られます。画像の各ピクセルを線で表したこのプロットは、ハフ変換と呼ばれます。
ハフ変換は写真内の直線をマッピングします。プロット内の白い点は、特定のR/tに一致するピクセルが多数あることを示します。 -組み合わせ。言い換えれば、それらのピクセルは同じライン上にあります。ピクセル数が多いので、おそらく写真でもはっきりと見える線でしょう。
正しく読んでください
カイロ ジェニザの写真には実際の直線は含まれていませんが、直線上の文字のピクセルは常に直線上にあります。これは、ハフ変換 (以下を参照) で確認できます。よく見ると、-90° と +90° に 10 本の別々の行があることがわかります。これらは、シート上で水平になっている 10 行のテキストに対応しています。
コンピュータは、これらの明確な線がどこで見られるかを計算できます。なぜなら、それはtの位置にあるからです。 分散が最も高い場所。たとえば、システムはテキスト行が紙上でどのように配置されているかを決定します。たとえば、t で分散が最も高くなります。 =45 の場合、テキストは 45° の角度で回転します。
テキストから数字へ
システムは投影プロファイルを使用するため、テキストの方向が重要になります。 テキストを作成します。次に、列ごとのピクセルが水平方向と垂直方向に加算されます (下の図を参照)。テキストの回転に注意せずにこのプロファイルを作成すると、結果は正しくなりません。
システムは、プロファイルに基づいて、行数、行間隔、行の高さなど、テキストのさまざまな特性を測定します。これらは、この記事の冒頭の図にある「物理測定」です。手書き分析の場合、 システムはキーポイントも検出します。 画像の;フラグメント内の特に目立つポイント。これには SIFT 技術が使用されます (ボックスを参照)。
身体測定とキーポイント 本当に数字に過ぎません。したがって、原稿の断片は、特徴ベクトルと呼ばれる値の行に変換されます。コンピュータは、画像よりも簡単にこれを処理できます。
教える
ここで、元の目標、つまり 2 つのフラグメントが同じドキュメントに属しているかどうかを判断することに戻ります。これを行うには、特徴ベクトルを確認します。 2つの作品のうち。類似しているほど、テキストが 1 つの文書からのものである可能性が高くなります。フォント サイズ、行間隔、および/ またはキーポイントがほぼ同じになります。 しかし、2 つの特徴ベクトルがどれだけ似ているかをどうやって知ることができるのでしょうか。 というか、コンピュータはどのようにしてそれを認識するのでしょうか?実際、それは学習の問題です。
システムには、特徴ベクトルなどの入力オブジェクトを使用する (数学的) プログラムである分類器があります。 どのグループに属しているかを判断できます。つまり、スクリプト フラグメントがある場合は、分類子が どのドキュメントに属しているか。これを行うには、プログラムはオブジェクトを評価する方法を知っている必要があります。何かがグループ A (ドキュメント A) に属するのはいつか、またそうでないのはいつか?それは分類子からわかります。 トレーニング セットを使ってみましょう。 どれが一緒に属するかがわかっている断片のコレクション。 分類子 その情報を使って、あるグループと他のグループを区別するものを学習します。たとえば、下の図では、花びらのサイズに基づいて、どの種類の虹彩を扱っているかがわかることがわかります。
新しいペア
研究者たちは、 有名な結合を備えたカイロ・ジェニザのトレーニングセットを作成しました。;間違いなく一緒に属する断片のペア。これは分類子に教えました。 いつ結合があるかを評価します。 その後、研究者が新しいフラグメントをペアで入力すると、分類子が 彼らは参加するかどうかを言いますか?
結果はまちまちでした。ある研究所のコレクションを対象としたテストでは、80% のケースで正解でした。ただし、さまざまなコレクションの断片を使用してテストも行われたため、このシステムは特に役立ちます (研究者が行ったり来たりする必要がなくなるため)。ここで、9,000 の可能な結合を備えたシステムが登場しました。 そのうち上位 2,000 件は手動で検査されました。検出された結合のうち 24% のみ 正しいことが判明しました。
やや残念な結果にもかかわらず、この研究にはまだ約 1,000 の新しい結合があります。 届けられた。これは、これまでに専門家が発見した数千人に比べてかなり多い。ただし、システムは手動チェックなしではまだ機能できません。そのためには認識スコアが低すぎます。しかし、これは素晴らしい追加であり、正しい方向への一歩です。