U
    <A·fBS  ã                   @   sÆ   d dl Z d dlZd dlZd dlmZ d dlmZmZmZm	Z	m
Z
mZmZ d dlZd dlZd dlmZ d dlmZ d dlmZ d dlmZ d dlmZmZ er¨d d	lmZ e e¡ZG d
d„ deƒZdS )é    N)Únullcontext)ÚTYPE_CHECKINGÚCallableÚDictÚListÚOptionalÚSetÚUnion)ÚTensor)Útrange)ÚSentenceEvaluator)ÚSimilarityFunction)Úcos_simÚ	dot_score)ÚSentenceTransformerc                       s>  e Zd ZdZddgdgddddgddddgdgdd	d
ddejjeejje	idfe
eef e
eef e
eee f eee ee ee ee ee eeeeee e
eeeegef f eeeef  ddœ‡ fdd„Zddeeee
eef dœdd„Zd dee
eef dœdd„Zee dœdd„Zdd„ Zedd„ ƒZ‡  ZS )!ÚInformationRetrievalEvaluatoraŸ  
    This class evaluates an Information Retrieval (IR) setting.

    Given a set of queries and a large corpus set. It will retrieve for each query the top-k most similar document. It measures
    Mean Reciprocal Rank (MRR), Recall@k, and Normalized Discounted Cumulative Gain (NDCG)

    Example:
        ::

            import random
            from sentence_transformers import SentenceTransformer
            from sentence_transformers.evaluation import InformationRetrievalEvaluator
            from datasets import load_dataset

            # Load a model
            model = SentenceTransformer('all-mpnet-base-v2')

            # Load the Quora IR dataset (https://huggingface.co/datasets/BeIR/quora, https://huggingface.co/datasets/BeIR/quora-qrels)
            corpus = load_dataset("BeIR/quora", "corpus", split="corpus")
            queries = load_dataset("BeIR/quora", "queries", split="queries")
            relevant_docs_data = load_dataset("BeIR/quora-qrels", split="validation")

            # Shrink the corpus size heavily to only the relevant documents + 10,000 random documents
            required_corpus_ids = list(map(str, relevant_docs_data["corpus-id"]))
            required_corpus_ids += random.sample(corpus["_id"], k=10_000)
            corpus = corpus.filter(lambda x: x["_id"] in required_corpus_ids)

            # Convert the datasets to dictionaries
            corpus = dict(zip(corpus["_id"], corpus["text"]))  # Our corpus (cid => document)
            queries = dict(zip(queries["_id"], queries["text"]))  # Our queries (qid => question)
            relevant_docs = {}  # Query ID to relevant documents (qid => set([relevant_cids])
            for qid, corpus_ids in zip(relevant_docs_data["query-id"], relevant_docs_data["corpus-id"]):
                qid = str(qid)
                corpus_ids = str(corpus_ids)
                if qid not in relevant_docs:
                    relevant_docs[qid] = set()
                relevant_docs[qid].add(corpus_ids)

            # Given queries, a corpus and a mapping with relevant documents, the InformationRetrievalEvaluator computes different IR metrics.
            ir_evaluator = InformationRetrievalEvaluator(
                queries=queries,
                corpus=corpus,
                relevant_docs=relevant_docs,
                name="BeIR-quora-dev",
            )
            results = ir_evaluator(model)
            '''
            Information Retrieval Evaluation of the model on the BeIR-quora-dev dataset:
            Queries: 5000
            Corpus: 17476

            Score-Function: cosine
            Accuracy@1: 96.26%
            Accuracy@3: 99.38%
            Accuracy@5: 99.74%
            Accuracy@10: 99.94%
            Precision@1: 96.26%
            Precision@3: 43.01%
            Precision@5: 27.66%
            Precision@10: 14.58%
            Recall@1: 82.93%
            Recall@3: 96.28%
            Recall@5: 98.38%
            Recall@10: 99.55%
            MRR@10: 0.9782
            NDCG@10: 0.9807
            MAP@100: 0.9732
            Score-Function: dot
            Accuracy@1: 96.26%
            Accuracy@3: 99.38%
            Accuracy@5: 99.74%
            Accuracy@10: 99.94%
            Precision@1: 96.26%
            Precision@3: 43.01%
            Precision@5: 27.66%
            Precision@10: 14.58%
            Recall@1: 82.93%
            Recall@3: 96.28%
            Recall@5: 98.38%
            Recall@10: 99.55%
            MRR@10: 0.9782
            NDCG@10: 0.9807
            MAP@100: 0.9732
            '''
            print(ir_evaluator.primary_metric)
            # => "BeIR-quora-dev_cosine_map@100"
            print(results[ir_evaluator.primary_metric])
            # => 0.9732046108457585
    iPÃ  é
   é   é   é   éd   Fé    Ú TN)ÚqueriesÚcorpusÚrelevant_docsÚcorpus_chunk_sizeÚmrr_at_kÚ	ndcg_at_kÚaccuracy_at_kÚprecision_recall_at_kÚmap_at_kÚshow_progress_barÚ
batch_sizeÚnameÚ	write_csvÚtruncate_dimÚscore_functionsÚmain_score_functionÚreturnc                    sÖ  t ƒ  ¡  g | _ˆD ](}||krt|| ƒdkr| j |¡ q‡fdd„| jD ƒ| _tˆ  ¡ ƒ| _‡ fdd„| jD ƒ| _	|| _
|| _|| _|| _|| _|| _|	| _|
| _|| _|| _|| _|| _tt| j ¡ ƒƒ| _|ràt|ƒnd| _|| _|rød| }d| d | _d	d
g| _| jD ]º}|D ]}| j d ||¡¡ q|D ].}| j d ||¡¡ | j d ||¡¡ q>|D ]}| j d ||¡¡ qr|D ]}| j d ||¡¡ q’|	D ]}| j d ||¡¡ q²qdS )a¬  
        Initializes the InformationRetrievalEvaluator.

        Args:
            queries (Dict[str, str]): A dictionary mapping query IDs to queries.
            corpus (Dict[str, str]): A dictionary mapping document IDs to documents.
            relevant_docs (Dict[str, Set[str]]): A dictionary mapping query IDs to a set of relevant document IDs.
            corpus_chunk_size (int): The size of each chunk of the corpus. Defaults to 50000.
            mrr_at_k (List[int]): A list of integers representing the values of k for MRR calculation. Defaults to [10].
            ndcg_at_k (List[int]): A list of integers representing the values of k for NDCG calculation. Defaults to [10].
            accuracy_at_k (List[int]): A list of integers representing the values of k for accuracy calculation. Defaults to [1, 3, 5, 10].
            precision_recall_at_k (List[int]): A list of integers representing the values of k for precision and recall calculation. Defaults to [1, 3, 5, 10].
            map_at_k (List[int]): A list of integers representing the values of k for MAP calculation. Defaults to [100].
            show_progress_bar (bool): Whether to show a progress bar during evaluation. Defaults to False.
            batch_size (int): The batch size for evaluation. Defaults to 32.
            name (str): A name for the evaluation. Defaults to "".
            write_csv (bool): Whether to write the evaluation results to a CSV file. Defaults to True.
            truncate_dim (int, optional): The dimension to truncate the embeddings to. Defaults to None.
            score_functions (Dict[str, Callable[[Tensor, Tensor], Tensor]]): A dictionary mapping score function names to score functions. Defaults to {SimilarityFunction.COSINE.value: cos_sim, SimilarityFunction.DOT_PRODUCT.value: dot_score}.
            main_score_function (Union[str, SimilarityFunction], optional): The main score function to use for evaluation. Defaults to None.
        r   c                    s   g | ]}ˆ | ‘qS © r*   )Ú.0Úqid)r   r*   úb/tmp/pip-unpacked-wheel-i7fohqg6/sentence_transformers/evaluation/InformationRetrievalEvaluator.pyÚ
<listcomp>¢   s     z:InformationRetrievalEvaluator.__init__.<locals>.<listcomp>c                    s   g | ]}ˆ | ‘qS r*   r*   )r+   Zcid)r   r*   r-   r.   ¥   s     NÚ_z Information-Retrieval_evaluationz_results.csvÚepochÚstepsz{}-Accuracy@{}z{}-Precision@{}z{}-Recall@{}z	{}-MRR@{}z
{}-NDCG@{}z	{}-MAP@{})ÚsuperÚ__init__Úqueries_idsÚlenÚappendr   ÚlistÚkeysÚ
corpus_idsr   r   r   r   r   r   r    r!   r"   r#   r$   r%   r'   ÚsortedÚscore_function_namesr   r(   r&   Úcsv_fileÚcsv_headersÚformat)Úselfr   r   r   r   r   r   r   r    r!   r"   r#   r$   r%   r&   r'   r(   r,   Z
score_nameÚk©Ú	__class__)r   r   r-   r3   q   sN    +


z&InformationRetrievalEvaluator.__init__éÿÿÿÿr   )ÚmodelÚoutput_pathr0   r1   r)   c                    s„  |dkr0|dkrd|› }q4d|› d|› d}nd}ˆj d k	rP|dˆj › d7 }t d	ˆj› d
|› d¡ ˆj|f|ž|Ž‰ |d k	rèˆjrètj |ˆj	¡}tj 
|¡sÖt|ddd}	|	 d ˆj¡¡ |	 d¡ nt|ddd}	||g}
ˆjD ]Ì}ˆjD ]}|
 ˆ | d | ¡ qüˆjD ]2}|
 ˆ | d | ¡ |
 ˆ | d | ¡ qˆjD ]}|
 ˆ | d | ¡ qXˆjD ]}|
 ˆ | d | ¡ q|ˆjD ]}|
 ˆ | d | ¡ q qò|	 d tt|
ƒ¡¡ |	 d¡ |	 ¡  ˆjsTˆjd kr:t‡ ‡fdd„ˆjD ƒdd„ dd }|› dtˆjƒ› ˆ_nˆjj› dtˆjƒ› ˆ_dd „ ˆ  ¡ D ƒ}ˆ |ˆj¡}ˆ ||¡ |S )!NrC   z after epoch z
 in epoch z after z stepsr   z (truncated to ú)z5Information Retrieval Evaluation of the model on the z datasetú:Úwzutf-8)ÚmodeÚencodingú,Ú
Úaú
accuracy@kúprecision@kúrecall@kúmrr@kúndcg@kúmap@kc                    s&   g | ]}|ˆ | d  t ˆjƒ f‘qS )rS   )Úmaxr!   ©r+   r$   ©Úscoresr?   r*   r-   r.     s     z:InformationRetrievalEvaluator.__call__.<locals>.<listcomp>c                 S   s   | d S )Nr   r*   ©Úxr*   r*   r-   Ú<lambda>  ó    z8InformationRetrievalEvaluator.__call__.<locals>.<lambda>)Úkeyr   z_map@c                 S   sT   i | ]L\}}|  ¡ D ]:\}}|  ¡ D ](\}}|› d | ddt|ƒ ¡› |“q$qqS )r/   z@kú@)ÚitemsÚreplaceÚstr)r+   Úscore_functionZvalues_dictZmetric_nameÚvaluesr@   Úvaluer*   r*   r-   Ú
<dictcomp>  s   
 
 ý z:InformationRetrievalEvaluator.__call__.<locals>.<dictcomp>)r&   ÚloggerÚinfor$   Úcompute_metricesr%   ÚosÚpathÚjoinr<   ÚisfileÚopenÚwriter=   r;   r   r6   r    r   r   r!   Úmapr`   ÚcloseZprimary_metricr(   rT   rc   r^   Zprefix_name_to_metricsZ store_metrics_in_model_card_data)r?   rD   rE   r0   r1   ÚargsÚkwargsZout_txtZcsv_pathZfOutZoutput_datar$   r@   ra   Zmetricsr*   rV   r-   Ú__call__Ï   s`    







þýþz&InformationRetrievalEvaluator.__call__)rD   Úcorpus_embeddingsr)   c              
      s   |d kr|}t t ˆjƒt ˆjƒt ˆjƒt ˆjƒt ˆjƒƒ}ˆjd krJtƒ n
| ˆj¡ |j	ˆj
ˆjˆjdd}W 5 Q R X i ‰ ˆjD ]}dd„ tt|ƒƒD ƒˆ |< q„tdtˆjƒˆjdˆj dD ]^}t|ˆj tˆjƒƒ}|d kr0ˆjd krøtƒ n
| ˆj¡$ |j	ˆj||… dˆjdd}	W 5 Q R X n|||… }	ˆj ¡ D ]Ú\}}
|
||	ƒ}tj|t|t|d ƒƒd	ddd
\}}| ¡  ¡ }| ¡  ¡ }tt|ƒƒD ]z}t|| || ƒD ]`\}}ˆj||  }tˆ | | ƒ|k rþt ˆ | | ||f¡ nt ˆ | | ||f¡ q¸q¢qFqÂˆ D ]d}ttˆ | ƒƒD ]L}ttˆ | | ƒƒD ]0}ˆ | | | \}}||dœˆ | | |< qTq<q(t d  tˆj
ƒ¡¡ t d  tˆjƒ¡¡ ‡ ‡fdd„ˆjD ƒ}ˆj!D ]$}t d  |¡¡ ˆ "|| ¡ qÖ|S )NT)r"   r#   Zconvert_to_tensorc                 S   s   g | ]}g ‘qS r*   r*   )r+   r/   r*   r*   r-   r.   .  s     zBInformationRetrievalEvaluator.compute_metrices.<locals>.<listcomp>r   zCorpus Chunks)ÚdescÚdisableFr   )ZdimÚlargestr:   )Ú	corpus_idÚscorezQueries: {}zCorpus: {}
c                    s   i | ]}|ˆ  ˆ | ¡“qS r*   )Úcompute_metricsrU   ©Úqueries_result_listr?   r*   r-   rd   e  s      zBInformationRetrievalEvaluator.compute_metrices.<locals>.<dictcomp>zScore-Function: {})#rT   r   r   r   r    r!   r&   r   Ztruncate_sentence_embeddingsÚencoder   r"   r#   r'   Úranger5   r   r   r   Úminr^   ÚtorchZtopkÚcpuÚtolistÚzipr9   ÚheapqÚheappushÚheappushpopre   rf   r>   r;   Úoutput_scores)r?   rD   Zcorpus_modelrs   Zmax_kZquery_embeddingsr$   Zcorpus_start_idxZcorpus_end_idxZsub_corpus_embeddingsra   Zpair_scoresZpair_scores_top_k_valuesZpair_scores_top_k_idxÚ	query_itrZsub_corpus_idrx   rw   Zdoc_itrrW   r*   rz   r-   rg     s’    û	ü
    ÿ
ÿü
    ÿ
 ÿ
 ÿ&"
z.InformationRetrievalEvaluator.compute_metrices)r{   c              	      s2  dd„ | j D ƒ}dd„ | jD ƒ}dd„ | jD ƒ}dd„ | jD ƒ}dd„ | jD ƒ}dd„ | jD ƒ}tt|ƒƒD ]ô}| j| }	t|| dd	„ d
d}
| j	|	 ‰ | j D ]6}|
d|… D ]$}|d ˆ kr²||  d7  <  q¢q²q¢| jD ]V}d}|
d|… D ]}|d ˆ krô|d7 }qô||  
|| ¡ ||  
|tˆ ƒ ¡ qà| jD ]N}t|
d|… ƒD ]6\}}|d ˆ krR||  d|d  7  <  q>qRq>| jD ]T}‡ fdd„|
d|… D ƒ}dgtˆ ƒ }|  ||¡|  ||¡ }||  
|¡ q”| jD ]p}d}d}t|
d|… ƒD ]0\}}|d ˆ kr|d7 }|||d  7 }q|t|tˆ ƒƒ }||  
|¡ qðql|D ]}||  t| jƒ  < qh|D ]}t || ¡||< qŠ|D ]}t || ¡||< q¨|D ]}t || ¡||< qÆ|D ]}||  t| jƒ  < qä|D ]}t || ¡||< q||||||dœS )Nc                 S   s   i | ]
}|d “qS ©r   r*   ©r+   r@   r*   r*   r-   rd   p  s      zAInformationRetrievalEvaluator.compute_metrics.<locals>.<dictcomp>c                 S   s   i | ]
}|g “qS r*   r*   r‰   r*   r*   r-   rd   q  s      c                 S   s   i | ]
}|g “qS r*   r*   r‰   r*   r*   r-   rd   r  s      c                 S   s   i | ]
}|d “qS rˆ   r*   r‰   r*   r*   r-   rd   s  s      c                 S   s   i | ]
}|g “qS r*   r*   r‰   r*   r*   r-   rd   t  s      c                 S   s   i | ]
}|g “qS r*   r*   r‰   r*   r*   r-   rd   u  s      c                 S   s   | d S )Nrx   r*   rX   r*   r*   r-   rZ   |  r[   z?InformationRetrievalEvaluator.compute_metrics.<locals>.<lambda>T)r\   Úreverser   rw   r   g      ð?c                    s    g | ]}|d  ˆ krdnd‘qS )rw   r   r   r*   )r+   Ztop_hit©Zquery_relevant_docsr*   r-   r.   ™  s    zAInformationRetrievalEvaluator.compute_metrics.<locals>.<listcomp>)rN   rO   rP   rR   rQ   rS   )r   r    r   r   r!   r}   r5   r4   r:   r   r6   Ú	enumerateÚcompute_dcg_at_kr~   r   ÚnpZmean)r?   r{   Znum_hits_at_kZprecisions_at_kZrecall_at_kZMRRZndcgZ	AveP_at_kr‡   Zquery_idZtop_hitsZk_valÚhitZnum_correctZrankZpredicted_relevanceZtrue_relevancesZ
ndcg_valueZsum_precisionsZavg_precisionr@   r*   r‹   r-   ry   n  s‚    








ÿ ÿ
úz-InformationRetrievalEvaluator.compute_metricsc                 C   s   |d D ]"}t  d ||d | d ¡¡ q|d D ]"}t  d ||d | d ¡¡ q4|d D ]"}t  d ||d | d ¡¡ q`|d D ]}t  d	 ||d | ¡¡ qŒ|d
 D ]}t  d ||d
 | ¡¡ q´|d D ]}t  d ||d | ¡¡ qÜd S )NrN   zAccuracy@{}: {:.2f}%r   rO   zPrecision@{}: {:.2f}%rP   zRecall@{}: {:.2f}%rQ   zMRR@{}: {:.4f}rR   zNDCG@{}: {:.4f}rS   zMAP@{}: {:.4f})re   rf   r>   )r?   rW   r@   r*   r*   r-   r†   Ì  s       z+InformationRetrievalEvaluator.output_scoresc                 C   s:   d}t tt| ƒ|ƒƒD ]}|| | t |d ¡ 7 }q|S )Nr   é   )r}   r~   r5   rŽ   Úlog2)Z
relevancesr@   ZdcgÚir*   r*   r-   r   ß  s    z.InformationRetrievalEvaluator.compute_dcg_at_k)NrC   rC   )NN)Ú__name__Ú
__module__Ú__qualname__Ú__doc__r   ZCOSINErc   r   ZDOT_PRODUCTr   r   r`   r   Úintr   Úboolr   r   r
   r	   r3   Úfloatrr   rg   Úobjectry   r†   Ústaticmethodr   Ú__classcell__r*   r*   rA   r-   r      st   _

  þì

ë_     ÿ   
þG   ÿ 
þY^r   ) rƒ   Úloggingrh   Ú
contextlibr   Útypingr   r   r   r   r   r   r	   ZnumpyrŽ   r   r
   Ztqdmr   Z2sentence_transformers.evaluation.SentenceEvaluatorr   Z*sentence_transformers.similarity_functionsr   Zsentence_transformers.utilr   r   Z)sentence_transformers.SentenceTransformerr   Ú	getLoggerr“   re   r   r*   r*   r*   r-   Ú<module>   s   $