1. Elasticsearch란?

Elasticsearch는 Apache Lucene( 아파치 루씬 ) 기반의 Java 오픈소스 분산 검색 엔진입니다.

Elasticsearch를 통해 루씬 라이브러리를 단독으로 사용할 수 있게 되었으며, 방대한 양의 데이터를 신속하게, 거의 실시간( NRT, Near Real Time )으로 저장, 검색, 분석할 수 있습니다.


Elasticsearch는 검색을 위해 단독으로 사용되기도 하며, ELK( Elasticsearch / Logstatsh / Kibana )스택으로 사용되기도 합니다.

ELK 스택이란 다음과 같습니다.

  • Logstash
    • 다양한 소스( DB, csv파일 등 )의 로그 또는 트랜잭션 데이터를 수집, 집계, 파싱하여 Elasticsearch로 전달
  • Elasticsearch
    • Logstash로부터 받은 데이터를 검색 및 집계를 하여 필요한 관심 있는 정보를 획득
  • Kibana
    • Elasticsearch의 빠른 검색을 통해 데이터를 시각화 및 모니터링

출처 : https://www.edureka.co/blog/elk-stack-tutorial/


이제부터 Elasticsearch와 관련된 용어와 특징들에 대해 알아보겠습니다.





2. Elasticsearch와 관계형 DB 비교

흔히 사용하고 있는 관계형 DB는 Elasticsearch에서 각각 다음과 같이 대응시킬 수 있습니다.

출처: https://www.slideshare.net/deview/2d1elasticsearch


RDBMS를 다루셨던 분들이라면 Elasticsearch에서 사용하는 용어들이 조금 낯설지만 예제를 몇 번 따라해보시면 금방 적응하실 것이라 생각됩니다.

그래도 용어가 낯설기 때문에 다음으로 용어 정리를 해보도록 하겠습니다.





3. Elasticsearch 아키텍쳐 / 용어 정리

Elasticsearch에서 사용하는 대부분의 개념은 RDBMS에도 존재하는 개념들입니다.

아래의 사진은 Elasticsearch Architecture이며, 앞으로 설명할 용어들의 구조입니다.


출처 : https://github.com/exo-archives/exo-es-search


1) 클러스터( cluseter )

클러스터란 Elasticsearch에서 가장 큰 시스템 단위를 의미하며, 최소 하나 이상의 노드로 이루어진 노드들의 집합입니다.

서로 다른 클러스터는 데이터의 접근, 교환을 할 수 없는 독립적인 시스템으로 유지되며,

여러 대의 서버가 하나의 클러스터를 구성할 수 있고, 한 서버에 여러 개의 클러스터가 존재할수도 있습니다.




2) 노드( node )

Elasticsearch를 구성하는 하나의 단위 프로세스를 의미합니다.

그 역할에 따라 Master-eligible, Data, Ingest, Tribe 노드로 구분할 수 있습니다.

아래는 각 노드들에 대한 설명인데, 제가 Elasticsearch에 대한 깊이가 없어서 공식 문서의 설명들을 정리만 해보았습니다.


master-eligible node ( 링크 )

클러스터를 제어하는 마스터로 선택할 수 있는 노드를 말합니다.

여기서 master 노드가 하는 역할은 다음과 같습니다.

  • 인덱스 생성, 삭제
  • 클러스더 노드들의 추적, 관리
  • 데이터 입력 시 어느 샤드에 할당할 것인지


Data node ( 링크 )

데이터와 관련된 CRUD 작업과 관련있는 노드입니다.

이 노드는 CPU, 메모리 등 자원을 많이 소모하므로 모니터링이 필요하며, master 노드와 분리되는 것이 좋습니다.


Ingest node ( 링크 )

데이터를 변환하는 등 사전 처리 파이프라인을 실행하는 역할을 합니다.


Coordination only node ( 링크 )

data node와 master-eligible node의 일을 대신하는 이 노드는 대규모 클러스터에서 큰 이점이 있습니다.

즉 로드밸런서와 비슷한 역할을 한다고 보시면 됩니다.




3) 인덱스( index ) / 샤드( Shard ) / 복제( Replica )

Elasticsearch에서 index는 RDBMS에서 database와 대응하는 개념입니다.

또한 shard와 replica는 Elasticsearch에만 존재하는 개념이 아니라, 분산 데이터베이스 시스템에도 존재하는 개념입니다.


샤딩( sharding )은 데이터를 분산해서 저장하는 방법을 의미합니다.

즉, Elasticsearch에서 스케일 아웃을 위해 index를 여러 shard로 쪼갠 것입니다.

기본적으로 1개가 존재하며, 검색 성능 향상을 위해 클러스터의 샤드 갯수를 조정하는 튜닝을 하기도 합니다.


replica는 또 다른 형태의 shard라고 할 수 있습니다.

노드를 손실했을 경우 데이터의 신뢰성을 위해 샤드들을 복제하는 것이죠.

따라서 replica는 서로 다른 노드에 존재할 것을 권장합니다.

아래 사진에서 보는 바와 같이 Replica1은 Node2에 존재하는 것을 확인할 수 있습니다.

출처 : https://stackoverflow.com/questions/19838825/what-are-elasticsearch-indices#answer-19839840





4. Elasticsearch 특징
Elasticsearch는 다음과 같은 특징이 있습니다.
  • Scale out
    • 샤드를 통해 규모가 수평적으로 늘어날 수 있음
  • 고가용성
    • Replica를 통해 데이터의 안정성을 보장
  • Schema Free
    • Json 문서를 통해 데이터 검색을 수행하므로 스키마 개념이 없음
  • Restful
    • 데이터 CURD 작업은 HTTP Restful API를 통해 수행하며, 각각 다음과 같이 대응합니다.
    • Data CRUD

       Elasticsearch Restful

       SELECT

       GET 

       INSERT 

      PUT

       UPDATE

      POST

       DELETE

       DELETE





5. 간단한 예제
Elasticsearch를 사용하는 간단한 예제를 다뤄보도록 하겠습니다.
이 예제는 Restful API로 document를 추가하고 조회하는 예제이며, 맛보기용에 불과합니다.
이후의 글에서 자세히 알아보도록 하겠습니다.

Elasticsearch CRUD작업은 특징에서 살펴본 바와 같이 API를 호출해서 이루어지며,
curl로 데이터를 넘겨줄 수도 있지만, json 파일을 저장해서 데이터를 넘길 수도 있고, json 포맷으로 queryDSL을 작성해서 API를 호출할 수도 있습니다.


1) documnet 생성
# curl -XPOST 'localhost:9200/victolee/blog/1?pretty' -d '{"postName" : "elasticsearch", "category" : "IT"}' -H 'Content-Type: application/json'
  • -d 옵션
    • 추가할 데이터를 json 포맷으로 전달합니다.
  • -H 옵션
    • 헤더를 명시합니다. 예제에서는 json으로 전달하기 위해서 application/json으로 작성했습니다.
  • ?pretty
    • 결과를 예쁘게 보여주도록 요청

이렇게 curl 요청을 하면, victolee 인덱스에, blog 타입으로 id 값이 1인 document가 저장됩니다.





2) documnet 조회
# curl -XGET 'localhost:9200/victolee/blog/1?pretty'
document를 조회하는 API 입니다.


Elasticsearch를 잘 다루기 위해서는 Elasticsearch에서 제공하는 API를 알아둘 필요가 있으며,
queryDSL을 통해 쿼리를 작성해 원하는 방식대로 다양하게 조회할 수 있어야 합니다.




6. 역색인
그런데 Elasticsearch는 왜 빠를까요??
그 이유는 inverted index( 역색인 )에 있습니다.

먼저 index와 inverted index의 차이에 대해 알아보겠습니다.
쉽게 말해서 책에서 맨 앞에 볼 수 있는 목차가 index이고,
책 맨 뒤에 키워드마다 찾아볼 수 있도록 찾아보기가 inverted index입니다.

            

                                              [ Index( 색인 ) - 목차 ]                                                       [ Reverted Index( 역색인 ) - 찾아보기 ]



Elasticsearch는 텍스트를 파싱해서 검색어 사전을 만든 다음에 inverted index 방식으로 텍스트를 저장합니다.

"Lorem Ipsum is simply dummy text of the printing and typesetting industry"
예를 들어, 이 문장을 모두 파싱해서 각 단어들( Lorem, Ipsum, is, simply .... )을 저장하고,
대문자는 소문자 처리하고, 유사어도 체크하고... 등의 작업을 통해 텍스트를 저장합니다.
때문에 RDBMS보다 전문검색( Full Text Search )에 빠른 성능을 보입니다.
( 참고 - 9페이지 )




이상으로 Elasticsearch에 대한 개념잡기를 마치도록 하겠습니다.

Elasticsearch를 잘 다루기 위해서는 공식문서의 예제들을 따라해보는 것이 많은 도움이 될 것 같습니다.


댓글 펼치기 👇
  1. 감사합니다 2019.07.22 14:39

    victolee님 고마워요

  2. 소년워렌 2019.09.11 07:45

    개발자분과 소통하는데 아주 큰 도움이 되었습니다~ 감사합니다~

  3. 도망자 2020.03.10 23:15

    일본에서 일하는 개발자입니다.
    다음달부터 당장 Angualr와 Elasticsearch를 이용한 웹 페이지 개발에 들어가야하는데 정말 큰 힘이 될 것 같습니다.

    정주행 하겠습니다.

    감사합니다.

    • Favicon of https://victorydntmd.tistory.com victolee 우르르응 2020.03.11 22:14 신고

      감사합니다~^^

      글 작성 시점에는 ES 버전이 6.6이였는데, 현재는 7.6버전까지 나왔네요 ㅠㅠ
      레거시가 있을수 있으니 참고하시기 바랍니다.

  4. 도망자 2020.03.19 19:02

    추가적으로 질문 드립니다.

    4번 Elasticsearch 특징에서 Restful이 GET PUT HEAD DELTE로 되어있습니다만
    다른곳에서 찾아본바로는 CRUD의 Create = POST, Read = GET, Update = PUT, Delete = DELETE로 대응되어 있다고 봐서요.

    어떤게 맞나요?

    • Favicon of https://victorydntmd.tistory.com victolee 우르르응 2020.03.24 18:59 신고

      말씀하신게 맞습니다.
      제가 엉뚱한걸로 적어놓았네요 ㅋㅋ
      말씀주셔서 감사해요~ 덕분에 수정했습니다

    • jsh 2020.07.02 09:10

      공식 문서를 확인해본결과
      Update는 post가 맞는것 같습니다

      https://www.elastic.co/guide/en/elasticsearch/reference/7.6/docs-update.html

    • Favicon of https://victorydntmd.tistory.com victolee 우르르응 2020.08.01 14:08 신고

      Create는 PUT / Update는 POST를 사용하는 것으로 보이네요.

      https://discuss.elastic.co/t/why-post-for-partial-update/96849/2
      에 따르면, document가 없는 경우 업데이트에 실패할 수 있기 때문에, 멱등하지 않을수 있어서 POST를 사용한다고 하네요.
      jsh님이 말씀하신게 맞는것 같습니다.

      다른 API를 확인해보니, Create에서 PUT 메서드를 사용하고 있었는데요.
      Create는 항상 같은 결과를 반환하는 멱등인가 봅니다.

      사실 "ES에서 Create는 PUT이다"라고 일반적으로 생각하는 것보다는 ES에서 정의한 API 스펙대로 사용하면 될듯 합니다.

      이러한 궁금증을 남겨주셔서 감사합니다.

  5. 안지훈 2020.03.27 15:45

    인덱스 / 샤드 / 복제 부분에
    Elasticsearch에서는 index는 RDBMS에서 index와 대응하는 개념입니다.

    이 부분이
    Elasticsearch에서는 index는 RDBMS에서 database와 대응하는 개념입니다.

    라고 보는게 맞는거겠죠 ?.?

  6. Favicon of https://woongsin94.tistory.com 부지런한경구리 2020.05.20 14:02 신고

    안녕하세요. elasticsearch를 업무에서 접하게 되어서 아무것도 모르는 상태에서
    자료를 읽어보며 많이 배웠습니다! 감사합니다!

    실례가 안된다면 해당 자료를 출처를 밝히고 내용을 2차 가공해서 개인 블로그에 정리할 수 있을까요?

  7. 깃투 2020.06.16 19:34

    깔끔한 정리 잘 읽고 가요~

  8. 박지현 2020.07.28 14:23

    완전 깔끔! 짱입니다!

  9. naljin 2020.09.02 00:16

    그림으로 꼼꼼히 설정해주셔서 많은 도움이 되었습니다! 감사합니다 :)

  10. 주정헌 2020.09.26 12:52

    좋은 글이네요 잘 읽었습니다.