Spaces:

nickmuchi
/

article-text-summarizer

Running

App Files Files Community

nickmuchi commited on Jul 18, 2022

Commit

7b6e772

1 Parent(s): c8a1518

Update app.py

Browse files

Files changed (1) hide show

app.py +11 -12

app.py CHANGED Viewed

@@ -60,11 +60,8 @@ def article_text_extractor(url: str):
         article_header = ''
-    article = " ".join(article_text)
-    article = article.replace(".", ".<eos>")
-    article = article.replace("!", "!<eos>")
-    article = article.replace("?", "?<eos>")
-    sentences = article.split("<eos>")
     current_chunk = 0
     chunks = []
@@ -77,7 +74,6 @@ def article_text_extractor(url: str):
                 current_chunk += 1
                 chunks.append(sentence.split(" "))
         else:
-            print(current_chunk)
             chunks.append(sentence.split(" "))
     for chunk_id in range(len(chunks)):
@@ -86,8 +82,12 @@ def article_text_extractor(url: str):
     return article_header, chunks
 def chunk_clean_text(text):
-    sentences = sent_tokenize(text)
     current_chunk = 0
     chunks = []
@@ -99,9 +99,8 @@ def chunk_clean_text(text):
                 current_chunk += 1
                 chunks.append(sentence.split(" "))
         else:
-            print(current_chunk)
             chunks.append(sentence.split(" "))
     for chunk_id in range(len(chunks)):
         chunks[chunk_id] = " ".join(chunks[chunk_id])
@@ -259,10 +258,10 @@ def highlight_entities(article_content,summary_output):
     print(summary_output)
     for entity in matched_entities:
-        summary_output = summary_output.replace(entity, markdown_start_green + entity + markdown_end)
     for entity in unmatched_entities:
-        summary_output = summary_output.replace(entity, markdown_start_red + entity + markdown_end)
     print("")
     print(summary_output)

         article_header = ''
+    article = nlp(" ".join(article_text))
+    sentences = [i.text for i in list(article.sents)]
     current_chunk = 0
     chunks = []
                 current_chunk += 1
                 chunks.append(sentence.split(" "))
         else:
             chunks.append(sentence.split(" "))
     for chunk_id in range(len(chunks)):
     return article_header, chunks
 def chunk_clean_text(text):
+    """Chunk text longer than 500 tokens"""
+    article = nlp(" ".join(text))
+    sentences = [i.text for i in list(article.sents)]
     current_chunk = 0
     chunks = []
                 current_chunk += 1
                 chunks.append(sentence.split(" "))
         else:
             chunks.append(sentence.split(" "))
     for chunk_id in range(len(chunks)):
         chunks[chunk_id] = " ".join(chunks[chunk_id])
     print(summary_output)
     for entity in matched_entities:
+        summary_output = re.sub(f'({entity})(?![^rgb\(]*\))',markdown_start_green + entity + markdown_end,summary_output)
     for entity in unmatched_entities:
+        summary_output = summary_output = re.sub(f'({entity})(?![^rgb\(]*\))',markdown_start_red + entity + markdown_end,summary_output)
     print("")
     print(summary_output)