경진대회 개요이번 경진대회는 질문과 이전 대화 히스토리를 보고 참고할 문서를 검색 엔진에서 추출 후 이를 활용해서 질문에 적합한 대답을 생성하는 태스크다.경진대회 기간은 12.16 - 12.19 4일간 진행되었다. 평가기준은 MAP(Mean Average Precision)을 변형해서 질문별 적합 문서 추출 정확도를 측정하며, 과학 상식 질문이 아닌 경우 검색 결과가 없을 때 1점을 부여하는 로직을 추가로 적용되었다. 제출된 결과는 eval.jsonl을 통해 자동 평가된다. 준비된 데이터셋은 다음과 같이 과학 지문이다.최종 output jsonl 파일 형식은 다음과 같다. 구현 범위 요약다음은 이번 경진대회 때 우리 팀에서 구현한 범위를 도식화한 거다.파란 박스의 숫자는 큰 의미는 없고 각각 큰 섹션에 ..
ES
이번에는 Elasticsearch 검색 API 및 Query DSL를 사용해서 다양한 형태의 검색 명령을 수행해 보자.이번 데이터셋도 wikimedia kowiki로 wikimedia에서 제공하는 한국어 데이터셋을 사용해 볼 것이다.환경설정하고 ES 데몬 실행하고 wikimedia 데이터셋 가져와서 nori 분석기로 데이터 색인까지 저번글에 작성되어 있으니 그 부분 참고하면 좋을 것 같다. 👇 이전 글 👇구글 코랩에서 Elasticsearch 설치 및 실습 구글 코랩에서 Elasticsearch 설치 및 실습이번 실습에서는 가장 많이 활용되고 있는 검색엔진 솔루션 중 하나인 Elasticsearch를 설치하고 구동해 보자.데몬으로 구동한 후 가장 간단한 형태의 색인 및 검색 테스트를 통해 정상적으로 ..
이번에는 지난 글에 이어서 Elasticsearch에서 공식적으로 지원하는 한글 형태소 분석기인 Nori를 설치하고 사용해 보자. 기본 Analyzer 사용 시와 Nori 형태소 분석기를 사용했을 때의 차이점에 대해 비교해 보자. 이번에 사용할 데이터셋은 wikimedia kowiki로 wikimedia에서 제공하는 한국어 데이터셋을 사용할 거다.다음 명령어는 지난번에 다뤘기 때문에 빠르게 넘어간다.!pip install elasticsearch==8.8.0!wget -q https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-8.8.0-linux-x86_64.tar.gz!tar -xzf elasticsearch-8.8.0-linux-x86..
이번 실습에서는 가장 많이 활용되고 있는 검색엔진 솔루션 중 하나인 Elasticsearch를 설치하고 구동해 보자.데몬으로 구동한 후 가장 간단한 형태의 색인 및 검색 테스트를 통해 정상적으로 동작하는지 확인해 보자.일단 데이터셋은 cnn_dailymail로 약 27만 개의 cnn 뉴스 데이터로 진행해 볼 것이다. 1. Elasticsearch 설치Elasticsearch를 노트북 환경에 설치한다.# Elasticsearch Python 패키지 설치!pip install elasticsearch==8.8.0# Elasticsearch 8.8.0 다운로드 및 압축 풀기# 리눅스용 엘라스틱서치 서버 설치를 위한 패키지 다운로드!wget -q https://artifacts.elastic.co/downloa..