当前位置:首页 > 文章列表 > Golang > Go问答 > 如何处理任意尺寸的文件?

如何处理任意尺寸的文件?

来源:stackoverflow 2024-03-15 16:55:26 0浏览 收藏

对于处理具有可变重复字段的文本文件,一种有效的解析方法是采用“分而治之”策略。首先,将文件建模为一组具有固定字段的记录,并确定这些字段的类型和名称。其次,设计一个解析函数的接口,考虑输入源、输出格式和处理约束。最后,逐步实现解析器,逐行读取输入并根据行的内容采取适当的操作,例如创建新记录、更新现有记录或发出已解析的记录。

问题内容

我有一个文本文件,我想用如下记录来解析它:

===================
name: John Doe
Education: High School Diploma
Education: Bachelor's Degree
Education: Sun Java Certified Programmer
Age: 29
===================
name: Bob Bear
Education: High School Diploma
Age: 18
===================
name: Jane Doe
Education: High School Diploma
Education: Bachelor's Degree
Education: Master's Degree
Education: AWS Certified Solution Architect Professional
Age: 25

如您所见,此类文本文件中的 fields 是固定的,但其中一些重复任意次数。记录由固定长度 ==== 分隔符分隔。

我该如何编写这种问题的解析逻辑?我想使用 switch 因为它读取行的开头,但处理多个重复字段的逻辑让我感到困惑。


解决方案


解决此类问题的一个好方法是“分而治之”。也就是说,将整体问题划分为更易于管理的较小的子问题,然后单独解决每个子问题。如果您计划得当,那么当您完成每个子问题时,您应该已经解决了整个问题。

首先考虑建模。该文档似乎包含一个记录列表,这些记录应该被称为什么?记录应包含哪些命名字段以及它们应具有哪些类型?你会如何在 go 中惯用地表示它们?例如,您可能决定将每个记录称为 person,其字段如下:

type person struct {
    name        string
    credentials []string
    age         int
}

接下来,考虑解析函数的接口(签名)应该是什么样子。它应该散发出一群人吗?它是否应该使用访问者模式并在解析后立即发出一个人?应该有哪些约束来驱动答案?内存或计算时间限制重要吗?解析器的用户是否想要对解析工作进行任何控制,例如取消?他们是否需要元数据,例如文档中包含的记录总数?输入是否始终来自文件或字符串,也许来自 http 请求或网络套接字?这些选择将如何推动您的设计?

func parsepeople(string) ([]person, error) // ?
func parsepeople(io.reader) ([]person, error) // ?
func parsepeople(io.reader, func visitor(person) bool) error // ?

最后,您可以实现解析器来实现您决定的接口。这里一个简单的方法是逐行读取输入文件并根据该行的内容采取行动。例如(伪代码):

foreach line = inputfile.line
  if line is a separator
    emit or store the last parsed person, if present
    create a new person to store parsed fields
  else if line is a data field
    parse the data
    update the person with the parsed data
  end
end
return the parsed records or final record, if emitting

上面的每一行伪代码都代表一个子问题,它应该比整个问题更容易解决。

编辑:添加解释为什么我只是发布一个程序作为答案。

我提出了一个非常直接的实现来解析您在问题中给出的文本。您接受了 maerics 的答案,那就可以了。不过,我想在他的回答中添加一些反驳论点。基本上,该答案中的伪代码是我答案中代码的不可编译版本,因此我们同意此问题的解决方案。

我不同意的是过度工程的说法。我每天都必须处理由过度思考者编写的代码。我强烈建议您不要考虑模式、记忆和时间限制,或者将来谁可能想要从中得到什么。

访客模式?这几乎只在解析编程语言时有用,不要尝试为它构建一个用例来解决这个问题。访问者模式用于遍历其中包含不同类型事物的树。这里我们有一个列表,而不是一棵树,其中的内容都是相同的。

内存和时间限制?你用这个解析 5 gb 的文本吗?那么这可能是一个真正令人担忧的问题。但即使你这样做,也一定要先写最简单的东西。就足够了。在我的职业生涯中,我每年最多只需要使用简单数组以外的东西或应用复杂的算法。尽管如此,我仍然看到到处都是毫无理由地使用复杂数据结构和算法的代码。这使更改变得复杂,容易出错,有时最终会让事情变得更慢!不要使用可观察列表抽象,每当其内容发生变化时通知所有观察者 - 但是等等,让我们添加一个更新锁和解锁,以便我们可以控制何时不通知每个人......不!不要走那条路。使用一片。做你的逻辑。让所有内容从上到下都易于阅读。我不想从 a 跳到 b 再到 c,追逐接口,跟随 getter 最终找到的不是一个具体的数据类型,而是另一个接口。这不是要走的路。

这些就是我的代码不导出任何内容的原因,它是一个独立的、可运行的示例,是针对您的具体问题的具体解决方案。你可以阅读它,很容易理解。它没有被大量评论,因为不需要。这三个评论没有说明发生了什么,而是说明为什么会发生。其他一切从代码本身就显而易见。我故意在那里留下了有关潜在错误的注释。您知道自己拥有什么样的数据,其中没有任何一行会触发此错误。不要编写代码来处理不可能发生的事情。如果将来有人在冒号后添加一行没有文本的行(记住,没有人会这样做,不用担心),这会引发恐慌,将您指向这一行,您添加另一个 if 或其他内容,你完成了。这段代码比一个试图处理各种不同的、不存在的输入变体的程序更能证明未来。

我想强调的要点是:只写解决手头问题所必需的内容。除此之外的一切都会使您的程序难以阅读和更改,它将未经测试且不必要。

话虽如此,这是我原来的答案:

https://play.golang.org/p/T6c51jSM5nr

package main

import (
    "fmt"
    "strconv"
    "strings"
)

func main() {
    type item struct {
        name       string
        educations []string
        age        int
    }
    var items []item

    var current item
    finishItem := func() {
        if current.name != "" { // handle the first ever separator
            items = append(items, current)
        }
        current = item{}
    }

    lines := strings.Split(code, "\n")
    for _, line := range lines {
        if line == separator {
            finishItem()
        } else {
            colon := strings.Index(line, ":")
            if colon != -1 {
                id := line[:colon]
                value := line[colon+2:] // note potential bug if text has nothing after ':'
                switch id {
                case "name":
                    current.name = value
                case "Education":
                    current.educations = append(current.educations, value)
                case "Age":
                    age, err := strconv.Atoi(value)
                    if err == nil {
                        current.age = age
                    }
                }
            }
        }
    }
    finishItem() // in case there was no separator at the end

    for _, item := range items {
        fmt.Printf("%s, %d years old, has educations:\n", item.name, item.age)
        for _, e := range item.educations {
            fmt.Printf("\t%s\n", e)
        }
    }
}

const separator = "==================="

const code = `===================
name: John Doe
Education: High School Diploma
Education: Bachelor's Degree
Education: Sun Java Certified Programmer
Age: 29
===================
name: Bob Bear
Education: High School Diploma
Age: 18
===================
name: Jane Doe
Education: High School Diploma
Education: Bachelor's Degree
Education: Master's Degree
Education: AWS Certified Solution Architect Professional
Age: 25`

今天关于《如何处理任意尺寸的文件?》的内容介绍就到此结束,如果有什么疑问或者建议,可以在golang学习网公众号下多多回复交流;文中若有不正之处,也希望回复留言以告知!

版本声明
本文转载于:stackoverflow 如有侵犯,请联系study_golang@163.com删除
C语言中的go是一个保留字吗?C语言中的go是一个保留字吗?
上一篇
C语言中的go是一个保留字吗?
在Go中如何迭代循环并打印每三个元素
下一篇
在Go中如何迭代循环并打印每三个元素
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    543次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    516次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    500次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    485次学习
查看更多
AI推荐
  • ljg-skills -
    ljg-skills
    ljg-skills 是李继刚开源的 AI 技能与提示词集合,面向大模型使用者整理了一批可复用的 prompt、角色设定和任务技能模板,适合用于学习提示词设计、搭建个人 AI 工作流和沉淀团队常用智能体能力。
    291次使用
  • MELO音乐 - AI 音乐生成平台,支持多模态创作能力
    MELO音乐
    MELO音乐是一站式AI视频与音乐制作助手,对标suno, udio的高品质体验。提供伴奏生成、原创写词、无损导出、哼唱识曲、混音变声等全套音频与短视频编辑工具。无论是流行Kpop、电音说唱、民谣古风、摇滚儿歌还是商用轻音乐,MELO为你免费谱曲,轻松做同款!
    306次使用
  • UniScribe - AI 免费在线音视频转文字平台
    UniScribe
    UniScribe 是一款 AI 音视频转文字与内容整理工具,支持上传音频、视频文件或粘贴 YouTube 链接,自动生成转写文本、摘要、思维导图和关键问题,并支持多格式导出,适合会议记录、课程学习、访谈整理和内容创作复盘。
    277次使用
  • 剧云 - 免费 AI 智能中文剧本创作平台
    剧云
    剧云是专业中文剧本创作平台,安全稳定运行十余年,集成AI编剧、剧本医生审核、人物小传、剧情关系图、大纲编写、多人协作、Word导入导出、版权管控功能,数据安全防护,轻松高效创作剧本。
    451次使用
  • 万象有声 - AI 一站式有声内容创作平台
    万象有声
    万象有声,一个专为有声创作者打造的新一代智能有声内容创作平台。平台提供专业的智能拆章、智能画本编辑、AI配音、AI生成音效、后期制作、智能对轨、智能审听等有声创作全流程工具,可以帮助创作者高效、低成本创作出引人入胜的有声作品。立即体验,让有声书制作更简单!
    437次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码