私はこの種の解析について多くの作業を行ってきました。エラーがあるため、100% の精度を得ることはできませんが、ほとんどの方法でそこに到達し、視覚的な BS テストを行うためにできることがいくつかあります。ここでは、一般的な方法について説明します。これはコードではありません。これを書くのはかなりアカデミックなためです。奇妙さはなく、文字列処理がたくさんあるだけです。
(いくつかのサンプル データを投稿したので、いくつかの小さな変更を加えました)
<オール> 逆算する。末尾近くにある郵便番号から開始し、XXXXX または XXXXX-XXXX の 2 つの既知の形式のいずれかで入力します。これが表示されない場合は、以下の都市、州の部分にいると想定できます。
次に、zip の前にあるのは状態で、2 文字形式または単語のいずれかになります。これらも何になるかはご存じのとおり、わずか 50 個しかありません。また、スペル ミスを補うために単語をサウンディングすることもできます。
その前は都市で、おそらく 国と同じライン。 郵便番号データベース
を使用できます 郵便番号に基づいて都市と州を確認するか、少なくとも BS 検出器として使用します。
番地は通常、1 行または 2 行です。 2 行目は通常、部屋番号がある場合は部屋番号になりますが、私書箱の場合もあります。
1 行目または 2 行目の名前を検出することはほぼ不可能ですが、先頭に数字が付いていない場合 (または、先頭に「attn:」または「attention to:」が付いている場合) は、名前か住所かのヒント
これがいくらか役立つことを願っています。