Releases: bab2min/Kiwi
Releases · bab2min/Kiwi
v0.18.1
0.18.0
신기능
- Pretokenized Span으로 동사를 지정했을 때 문맥에 따라 규칙성 여부(-R / -I)를 자동으로 탐지하도록 기능 개선
- 이모지를 위한 신규 태그인
W_EMOJI
추가 - 외국어 태그 개선: 유니코드 영역을 기반으로 각 문자가 어떤 언어의 문자 집합에 해당하는지를 보여주는
TokenInfo::script
멤버 변수 추가 - emscripten를 통한 JavaScript/wasm binding 추가 (@RicBent, #171 )
버그 수정
- Pretokenized Span이 잘못 지정되었을 경우 크래시가 발생하는 문제 수정
기여자
소중한 기여에 감사드립니다.
0.17.1
0.17.0
신기능
AutoJoiner
에서 결합 후 형태소들의 위치 정보를 반환하도록 개선- 공백이 포함된 형태소를 등록할 수 있도록 사전 기능 확장
- 공백 문자 정규화 기능 추가(U+00A0을 비롯한 다양한 유니코드 공백 문자가 공백 문자로 제대로 처리됨)
- 약 25만 종의 어휘가 포함된 기본 다어절 고유 명사 사전(
multi.dict
)이 추가됨. 다어절 사전 로딩 유무를 선택할 수 있도록BuildOption::loadMultiDict
열거형 추가 IOException
,FormatException
가 추가되어Kiwi
가 좀 더 명확한 예외를 선택하여 던지도록 수정
버그 수정
- 공백 없이 긴 텍스트를 입력했을때 속도가 느려지거나 크래시가 발생하는 버그 수정
- 일련번호(
W_SERIAL
) 추출 시 종종 마지막에 공백 문자가 포함되던 버그 수정
0.16.1
0.16.0
기능 추가/개선
- 부분적으로 분석된 텍스트 처리를 위한 PretokenizedSpan 기능 구현 &
Kiwi::analyze
에pretokenized
인자 추가 - 사용자 정의로 쓸 수 있는
user0~4
태그 추가 - 순서 있는 글머리를 위한
sb
태그 추가 - Java용 바인딩인 KiwiJava 제공 (실험적)
버그 수정
- 다양한 문장 분리 오류 수정
Full Changelog: v0.15.2...v0.16.0
v0.15.2
0.15.1
0.15.0
기능 추가/개선
- 둘 이상의 형태소로 더 잘게 분리될 수 있는 형태소를 추가 분리하는 옵션인
splitComplex
도입 - 부사파생접사를 위한
XSM
태그 추가 및 이에 해당하는 형태소-이
,-히
,-로
,-스레
추가 - 조사/어미에 덧붙는 받침을 위한
Z_CODA
태그 추가 및 조사/어미에서 자동으로 Z_CODA를 분절해내는 기능 추가 - 형태 분석 및 언어 모델 탐색 속도 최적화
- 옛한글 문자를 특수 기호로 분리하지 않고 일반 한글과 동일하게 처리하도록 개선
- 형태소 분석 기반의 Subword Tokenizer 구현 (현재 실험적으로 지원 중)
- 문장 분리 성능 개선
2010. 01. 01.
와 같이 공백이 포함된 serial 패턴 처리 보강Dr., Mr.
와 같이 약자 표현의.
이 마침표로 처리되지 않도록 보강- '-음'으로 문장이 끝나는 경우를 판별하기 위해
음/EF
형태소 추가 및 모델 보강
버그 수정
- 한 문장 내에서 사전에 미등재된 형태가 256개 이상 등장할 때 형태소 분석 결과가 잘못 나오는 문제 해결
- bab2min/kiwipiepy#111
- 이모지 등 U+10000 이상의 유니코드 문자를 모두 한자로 분류하던 버그 수정