検索エンジンOSS勉強会 meetup#1 ( 2024/03/11 ) での発表資料
最近
米Yahoo! が社内で作っていた検索エンジン、2017ごろOSSに。
今は会社が分かれて開発中
Elasticsearch / Opensearch が、検索技術がよくわからなくても手軽に使える一方、Vespa は検索技術を理解していないと、そもそも使うことすら難しい(イメージ)
ちなみに私はVespa利用歴0日…!!
情報検索(retrieve)がいい感じにできるモデルアーキテクチャ
論文を読むのが手っ取り早いです。実装もGitHubにあります。
ColBERT: Efficient and Effective Passage Search via Contextualized...
ColBERTv2: Effective and Efficient Retrieval via Lightweight Late...
論文のv2は性能向上と高速化のための、主に蒸留と情報圧縮の話。コアなアルゴリズムはv1。
何をしているかは、この二つを押さえればOK
注意: GitHub のオフィシャル実装は、なかなか頑張って書いた感があるコードなので、読み砕いたり、再利用が大変 🤔